日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

python自動從arxiv下載paper的示例代碼

瀏覽:23日期:2022-07-03 10:27:01

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/02/11 21:44# @Author : dangxusheng# @Email : dangxusheng163@163.com# @File : download_by_href.py’’’自動從arxiv.org 下載文獻’’’import osimport os.path as ospimport requestsfrom lxml import etreefrom pprint import pprintimport reimport timeimport globheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36', 'Host': ’arxiv.org’}HREF_CN = ’http://cn.arxiv.org/pdf/’HREF_SRC = ’http://cn.arxiv.org/pdf/’SAVE_PATH = ’/media/dangxs/E/Paper/download_at_20200730’os.makedirs(SAVE_PATH, exist_ok=True)FAIL_URLS = []FAIL_URLS_TXT = f’{SAVE_PATH}/fail_urls.txt’def download(url, title): pattern = r’[/:*?'’<>|rn]+’ new_title = re.sub(pattern, ' ', title) print(f’new title: {new_title}’) save_filepath = ’%s/%s.pdf’ % (SAVE_PATH, new_title) if osp.exists(save_filepath) and osp.getsize(save_filepath) > 50 * 1024: print(f’this pdf is be existed.’) return True try: with open(save_filepath, ’wb’) as file: # 分字節下載 r = requests.get(url, stream=True, timeout=None) for i in r.iter_content(2048):file.write(i) if osp.getsize(save_filepath) >= 10 * 1024: print(’%s 下載成功.’ % title) return True except Exception as e: print(e) return False# 從arxiv.org 去下載def search(start_size=0, title_keywords=’Facial Expression’): # 訪問地址: https://arxiv.org/find/grp_eess,grp_stat,grp_cs,grp_econ,grp_math/1/ti:+Face/0/1/0/past,2018,2019/0/1?skip=200&query_id=1c582e6c8afc6146&client_host=cn.arxiv.org req_url = ’https://arxiv.org/search/advanced’ req_data = { ’advanced’: 1, ’terms-0-operator’: ’AND’, ’terms-0-term’: title_keywords, ’terms-0-field’: ’title’, ’classification-computer_science’: ’y’, ’classification-physics_archives’: ’all’, ’classification-include_cross_list’: ’include’, ’date-filter_by’: ’date_range’, # date_range | specific_year # ’date-year’: DOWN_YEAR, ’date-year’: ’’, ’date-from_date’: ’2015’, ’date-to_date’: ’2020’, ’date-date_type’: ’announced_date_first’, # submitted_date | submitted_date_first | announced_date_first ’abstracts’: ’show’, ’size’: 50, ’order’: ’-announced_date_first’, ’start’: start_size, } res = requests.get(req_url, params=req_data, headers=headers) html = res.content.decode() html = etree.HTML(html) total_text = html.xpath(’//h1[@class='title is-clearfix']/text()’) total_text = ’’.join(total_text).replace(’n’, ’’).lstrip(’ ’).strip(’ ’) # i.e. : Showing 1?50 of 355 results num = re.findall(’d+’, total_text) # Sorry, your query returned no results if len(num) == 0: return [], 0 total = int(num[-1]) # 查詢總條數 paper_list = html.xpath(’//ol[@class='breathe-horizontal']/li’) info_list = [] for p in paper_list: title = p.xpath(’./p[@class='title is-5 mathjax']//text()’) title = ’’.join(title).replace(’n’, ’’).lstrip(’ ’).strip(’ ’) href = p.xpath(’./div/p/a/@href’)[0] info_list.append({’title’: title, ’href’: href}) return info_list, total# 去指定頁面下載def search_special(): res = requests.get(’https://gitee.com/weberyoung/the-gan-zoo?_from=gitee_search’) html = res.content.decode() html = etree.HTML(html) paper_list = html.xpath(’//div[@class='file_content markdown-body']//li’) info_list = [] for p in paper_list: title = p.xpath(’.//text()’) title = ’’.join(title).replace(’n’, ’’).lstrip(’ ’).strip(’ ’) href = p.xpath(’./a/@href’)[0] info_list.append({’title’: title, ’href’: href}) pprint(info_list) return info_listif __name__ == ’__main__’: page_idx = 0 total = 1000 keywords = ’Facial Action Unit’ while page_idx <= total // 50: paper_list, total = search(page_idx * 50, keywords) print(f’total: {total}’) if total == 0: print(’no found .’) exit(0) for p in paper_list: title = p[’title’] href = HREF_CN + p[’href’].split(’/’)[-1] + ’.pdf’ print(href) if not download(href, title):print(’從國內鏡像下載失敗,從源地址開始下載 >>>>’)# 使用國際URL再下載一次href = HREF_SRC + p[’href’].split(’/’)[-1] + ’.pdf’if not download(href, title): FAIL_URLS.append(p) page_idx += 1 # 下載最后的部分 last_1 = total - page_idx * 50 paper_list, total = search(last_1, keywords) for p in paper_list: title = p[’title’] href = HREF_CN + p[’href’].split(’/’)[-1] + ’.pdf’ if not download(href, title): FAIL_URLS.append(p) time.sleep(1) pprint(FAIL_URLS) with open(FAIL_URLS_TXT, ’a+’) as f: for item in FAIL_URLS: href = item[’href’] title = item[’title’] f.write(href + ’n’) print(’done.’)

以上就是python自動從arxiv下載paper的示例代碼的詳細內容,更多關于python 從arxiv下載paper的資料請關注好吧啦網其它相關文章!

標簽: Python 編程
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
一区二区视频欧美| 你懂的国产精品| 久久香蕉精品香蕉| 欧美a在线观看| 欧美aa在线视频| 免费一级欧美在线观看视频| 国产精品xvideos88| 国产福利亚洲| 黄色欧美在线| 久久久成人网| yellow在线观看网址| 日韩欧美视频专区| 欧美久久精品一级c片| 亚洲一区日韩| 日韩国产高清在线| 欧美a级一区二区| 亚洲综合在线电影| 亚洲尤物在线| 国产精品最新| 人人草在线视频| 亚洲一区不卡| 精品一区二区三区免费看| 精品一级视频| 亚洲免费激情| 国产精品手机在线播放| 精品一区二区三区免费看 | 免费一区二区视频| 日韩欧美高清一区二区三区| 国产欧美日韩精品高清二区综合区| 久久gogo国模啪啪裸体| 亚洲风情在线资源| 蜜臀av国产精品久久久久| 欧美偷窥清纯综合图区| 一区二区精品伦理...| 视频一区免费在线观看| 美日韩一区二区三区| 亚洲精品一二三区区别| 午夜精品影视国产一区在线麻豆| 久久久国产精品入口麻豆| 红桃视频亚洲| 精品国产亚洲日本| 日本欧洲一区二区| 国产一区一一区高清不卡| 欧美特黄一级| 欧美a级一区二区| 宅男噜噜噜66国产日韩在线观看| 国产区精品区| 黄色成人在线网址| 久久69成人| 亚洲伊人精品酒店| sm久久捆绑调教精品一区| 蜜臀av性久久久久蜜臀aⅴ四虎| 国产免费av国片精品草莓男男| 欧美一区久久久| 日韩国产在线不卡视频| 激情婷婷亚洲| 欧美aaaaaa午夜精品| 午夜一区在线| 丝袜美腿诱惑一区二区三区| 久久精品99国产精品| 国产综合婷婷| 福利精品在线| 久久国产人妖系列| 石原莉奈在线亚洲三区| 日韩三区免费| 欧美激情日韩| 日本a级不卡| 日韩精品免费一区二区三区| 国产午夜一区| 综合激情在线| 午夜日韩在线| 99久久久久国产精品| 国产精品美女久久久久久不卡| 丝瓜av网站精品一区二区| 久久久一本精品| 精品视频一二| 国产亚洲久久| 日韩avvvv在线播放| 99视频精品免费观看| 蜜桃成人精品| 中文字幕在线视频网站| 美女久久久久久 | 亚洲精品伊人| 久久成人国产| 午夜欧美精品| 久久亚洲国产| 久久久9色精品国产一区二区三区| 免费一级欧美在线观看视频| 日韩精品中文字幕一区二区| 免费黄色成人| 国产综合亚洲精品一区二| 中文字幕在线看片| 欧美激情视频一区二区三区免费| 日韩高清不卡一区| 日韩高清在线观看一区二区| 亚洲精品乱码日韩| 中文字幕一区二区精品区| 狠狠久久婷婷| 欧洲激情综合| 91久久久久| 一本一本久久| 亚洲在线成人| 国产精品日韩久久久| 精品日韩毛片| 99久久久久| 国产真实久久| 91精品电影| 欧美成a人免费观看久久| 日韩国产一区| 欧美aa在线观看| 91精品一区二区三区综合在线爱| 精品色999| 成人亚洲一区| 欧美日韩国产观看视频| 91精品国产自产在线观看永久∴ | 国产资源在线观看入口av| 亚洲一区资源| 激情欧美亚洲| 欧美亚洲精品在线| 美女亚洲一区| 蜜桃av一区二区在线观看| 婷婷综合福利| 国产精品qvod| 中文字幕在线官网| 激情综合自拍| 亚洲一区二区三区四区电影| 日韩美女精品| 久久精品国产一区二区| 岛国av免费在线观看| 99精品电影| 国产亚洲高清视频| 亚洲精品国模| 九九99久久精品在免费线bt| 免费福利视频一区二区三区| 日本一区二区高清不卡| 激情综合激情| 日韩福利视频导航| 国产一区二区三区不卡视频网站| 久久精品中文| 亚洲日本国产| 国产精品久久久久久妇女| 久久天堂影院| 亚洲婷婷在线| 日韩不卡免费视频| 日韩在线看片| 亚洲免费观看高清完整版在线观| 国产精品丝袜在线播放| 久久久国产精品一区二区中文| 另类国产ts人妖高潮视频| 日韩精品亚洲专区| 国产va免费精品观看精品视频| 九九在线精品| 国产精品欧美大片| 国产精品88久久久久久| 国产欧美午夜| 黄色日韩精品| 美女视频黄 久久| 黄色日韩在线| 欧美激情三区| 亚洲自拍另类| 精品国产不卡一区二区| 亚洲一区久久| 色爱综合网欧美| 亚洲2区在线| 久久精品国产99国产| 午夜在线一区| 群体交乱之放荡娇妻一区二区| 日韩激情一区二区| 欧美在线观看视频一区| 鲁大师精品99久久久| 久热精品在线| 色婷婷久久久| 国产成人精品免费视| 日韩高清二区| 蜜桃视频在线观看一区| 欧美色图一区| 日韩电影免费在线观看| 欧美激情日韩| 欧美日韩亚洲一区二区三区在线| 欧美va天堂| 久久久水蜜桃av免费网站| 国产精品久久久一区二区| 亚洲婷婷丁香| 亚洲精品极品少妇16p| 国产网站在线| 欧美激情五月| 777久久精品| 日韩视频一区| 天堂√8在线中文| 麻豆精品视频在线观看| 久久精品亚洲欧美日韩精品中文字幕| 日本不卡的三区四区五区| 日韩欧美一区二区三区在线观看 | 日韩精品免费视频一区二区三区 | 香蕉久久夜色精品国产| 精品精品99| 日韩欧美中文在线观看| 精品一区二区男人吃奶| 欧美激情一区| 免费观看久久久4p|