日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術(shù)文章
文章詳情頁

python 爬取嗶哩嗶哩up主信息和投稿視頻

瀏覽:248日期:2022-06-14 16:00:23
項(xiàng)目地址:

https://github.com/cgDeepLearn/BilibiliCrawler

項(xiàng)目特點(diǎn) 采取了一定的反反爬策略。 Bilibili更改了用戶頁面的api, 用戶抓取解析程序需要重構(gòu)。快速開始 拉取項(xiàng)目, git clone https://github.com/cgDeepLearn/BilibiliCrawler.git 進(jìn)入項(xiàng)目主目錄,安裝虛擬環(huán)境crawlenv(請(qǐng)參考使用說明里的虛擬環(huán)境安裝)。 激活環(huán)境并在主目錄運(yùn)行crawl,爬取結(jié)果將保存在data目錄csv文件中。

ource activate crawlenvpython initial.py file # 初始化file模式python crawl_user.py file 1 100 # file模式,1 100是開始、結(jié)束bilibili的uid

進(jìn)入data目錄查看抓取的數(shù)據(jù),是不是很簡(jiǎn)單!

如果需要使用數(shù)據(jù)庫保存和一些其他的設(shè)置,請(qǐng)看下面的使用說明

使用說明1.拉取項(xiàng)目

git clone https://github.com/cgDeepLearn/BilibiliCrawler.git2.進(jìn)入項(xiàng)目主目錄, 安裝虛擬環(huán)境 若已安裝anaconda

conda create -n crawlenv python=3.6source activate crawlenv # 激活虛擬環(huán)境pip install -r requirements.txt 若使用virtualenv

virtualenv crawlenvsource crawlenv/bin/activate # 激活虛擬環(huán)境,windows下不用sourcepip install -r requirements.txt # 安裝項(xiàng)目依賴3. 修改配置文件

進(jìn)入config目錄,修改config.ini配置文件(默認(rèn)使用的是postgresql數(shù)據(jù)庫,如果你是使用的是postgresql,只需要將其中的參數(shù)替換成你的,下面其他的步驟可以忽略) 數(shù)據(jù)庫配置選擇其中一個(gè)你本地安裝的即可,將參數(shù)更換成你的 如果你需要更自動(dòng)化的數(shù)據(jù)庫配置,請(qǐng)移步我的DB_ORM項(xiàng)目

[db_mysql]user = testpassword = testhost = localhostport = 3306dbname = testdb[db_postgresql]user = testpassword = testhost = localhostport = 5432dbname = testdb

然后修改conf.py中獲取配置文件的函數(shù)

def get_db_args(): ''' 獲取數(shù)據(jù)庫配置信息 ''' return dict(CONFIG.items(’db_postgresql’)) # 如果安裝的是mysql,請(qǐng)將參數(shù)替換為db_mysql

進(jìn)入db目錄,修改basic.py的連接數(shù)據(jù)庫的DSN

# connect_str = 'postgresql+psycopg2://{}:{}@{}:{}/{}'.format(kwargs[’user’], kwargs[’password’], kwargs[’host’], kwargs[’port’], kwargs[’dbname’])# 若使用的是mysql,請(qǐng)將上面的connect_str替換成下面的connect_str = 'mysql+pymysql://{}:{}@{}:{}/{}?charset=utf8'.format(kwargs[’user’], kwargs[’password’], kwargs[’host’], kwargs[’port’], kwargs[’dbname’])# sqlite3,mongo等請(qǐng)移步我的DB_ORM項(xiàng)目,其他一些數(shù)據(jù)庫也將添加支持4. 運(yùn)行爬蟲 在主目錄激活虛擬環(huán)境, 初次運(yùn)行請(qǐng)執(zhí)行

python initial.py db # db模式,file模式請(qǐng)將db換成file# file模式會(huì)將抓取結(jié)果保存在data目錄# db模式會(huì)將數(shù)據(jù)保存在設(shè)置好的數(shù)據(jù)庫中# 若再次以db模式運(yùn)行將會(huì)drop所有表后再create,初次運(yùn)行后請(qǐng)慎重再次使用!!!# 如果修改添加了表,并不想清空數(shù)據(jù),請(qǐng)運(yùn)行 python create_all.py 開始抓取示例

python crawl_user.py db 1 10000 # crawl_user 抓取用戶數(shù)據(jù),db 保存在數(shù)據(jù)庫中, 1 10000為抓取起止idpython crawl_video_ajax.py db 1 100 # crawl_video_ajax 抓取視頻ajax信息保存到數(shù)據(jù)庫中,python crawl_user_video.py db 1 10000 #同時(shí)抓取user 和videoinfo# 示例為uid從1到100的user如果有投稿視頻則抓取其投稿視頻的信息,# 若想通過視頻id逐個(gè)抓取請(qǐng)運(yùn)行python crawl_video_by_aid.py db 1 1000 爬取速率控制

程序內(nèi)已進(jìn)行了一些抓取速率的設(shè)置,但各機(jī)器cpu、mem不同抓取速率也不同,請(qǐng)酌情修改太快太慢請(qǐng)修改各crawl中的sleepsec參數(shù),ip會(huì)被限制訪問頻率,overspeed會(huì)導(dǎo)致爬取數(shù)據(jù)不全,之后會(huì)添加運(yùn)行參數(shù)speed(high, low),不用再手動(dòng)配置速率

日志

爬取日志在logs目錄user, video分別為用戶和視頻的爬取日志storage為數(shù)據(jù)庫日志 如需更換log格式,請(qǐng)修改logger模塊

后臺(tái)運(yùn)行

linux下運(yùn)行python ......前面加上nohup,例如:

nohup python crawl_user db 1 10000

程序輸出保存文件,默認(rèn)會(huì)包存在主目錄額nohup.out文件中,添加 > fielname就會(huì)保存在設(shè)置的文件中:

nohup python crawl_video_ajax.py db 1 1000 > video_ajaxup_1_1000.out # 輸出將保存在video_ajaxup_1_1000.out中 更多

程序多線程使用的生產(chǎn)者消費(fèi)者模式中產(chǎn)生了程序運(yùn)行的狀況的打印信息,類似如下

produce 1_1consumed 1_1...

如想運(yùn)行更快,請(qǐng)?jiān)诔绦蚋黜?xiàng)設(shè)置好后注釋掉其中的打印程序

# utils/pcModels.pyprint(’[+] produce %s_%s’ % (index, pitem)) # 請(qǐng)注釋掉print(’[-] consumed %s_%sn’ % (index, data)) # 請(qǐng)注釋掉更多

項(xiàng)目是單機(jī)多線程,若想使用分布式爬取,請(qǐng)參考Crawler-Celery

以上就是python 爬取嗶哩嗶哩up主信息和投稿視頻的詳細(xì)內(nèi)容,更多關(guān)于python 爬取嗶哩嗶哩的資料請(qǐng)關(guān)注好吧啦網(wǎng)其它相關(guān)文章!

標(biāo)簽: python 嗶哩嗶哩
相關(guān)文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
色综合狠狠操| 欧美影院三区| 久久国产直播| 久久国产人妖系列| 91中文字幕精品永久在线| 久久久久亚洲| 亚洲一区网站| 国产精品欧美一区二区三区不卡| 日韩高清一区在线| 国产一区二区三区不卡视频网站| 里番精品3d一二三区| 亚洲一区国产一区| 国产精品丝袜在线播放| 婷婷五月色综合香五月| 欧产日产国产精品视频| 136国产福利精品导航网址| 老鸭窝毛片一区二区三区| 群体交乱之放荡娇妻一区二区| 国产日韩中文在线中文字幕 | 国产精品99一区二区| bbw在线视频| 午夜影院一区| 91看片一区| 欧美.日韩.国产.一区.二区 | 久久理论电影| 久久九九99| 国精品一区二区三区| 亚洲精品电影| 野花国产精品入口| yellow在线观看网址| 精品捆绑调教一区二区三区| 超碰超碰人人人人精品| 久久精品观看| 成人av二区| 香蕉久久99| 先锋亚洲精品| 三级久久三级久久久| 日本少妇一区二区| 亚洲a成人v| 无码日韩精品一区二区免费| 一区二区亚洲精品| 在线精品一区| 日韩精品亚洲专区| 国产日韩一区二区三区在线播放| 91综合久久爱com| 亚洲欧美不卡| 亚洲成人精品| 日韩影院二区| 91成人精品观看| 最新国产精品视频| 精品一区不卡| 日韩黄色在线观看| 999精品一区| 在线亚洲精品| 一区二区三区四区在线观看国产日韩| 亚洲人成毛片在线播放女女| 亚洲综合色婷婷在线观看| 天堂久久一区| 国产一精品一av一免费爽爽| 色黄视频在线观看| 不卡av一区二区| 久久久精品区| 里番精品3d一二三区| 亚洲精品一级| 激情欧美丁香| 久久毛片亚洲| 亚洲一级特黄| 日韩国产在线观看一区| 亚洲黄色免费看| 国产精品伦理久久久久久| 97精品视频在线看| 亚洲精品123区| 婷婷综合成人| 99综合视频| 久久国内精品自在自线400部| 97精品中文字幕| 免费久久精品视频| 久久久91麻豆精品国产一区| 日本在线啊啊| 亚洲天堂av资源在线观看| 国产精品久久国产愉拍| 久久久久免费av| 久久国产日韩| 色8久久久久| 色天使综合视频| 亚洲香蕉久久| 91青青国产在线观看精品| 欧美精选一区二区三区| 99免费精品| 日韩精品一区二区三区免费观影 | 婷婷久久免费视频| 亚洲精品国产精品粉嫩| 国产精品igao视频网网址不卡日韩| 欧美久久一区二区三区| 欧美日韩国产探花| 大香伊人久久精品一区二区| 日韩三级久久| 国产不卡精品在线| 精品国产三区在线| 亚洲精品少妇| 久久xxxx精品视频| 老司机久久99久久精品播放免费| 日韩美女精品| 久久久久久亚洲精品美女| 激情综合激情| 青草久久视频| 欧美日韩日本国产亚洲在线| 久久人人精品| 国产aⅴ精品一区二区四区| 大香伊人久久精品一区二区| 亚洲一二三区视频| 国产专区一区| 精品国产亚洲一区二区三区大结局 | 午夜视频一区二区在线观看| 国产精品分类| 日韩精品一区第一页| 国产探花在线精品一区二区| 石原莉奈一区二区三区在线观看| 九色精品91| 日韩大片在线观看| 日韩区一区二| 少妇精品久久久一区二区| 国产一区二区三区久久久久久久久| 蜜臀久久99精品久久久久宅男| 欧美13videosex性极品| 国产精品亚洲片在线播放| 999在线观看精品免费不卡网站| 青青青免费在线视频| 国产精品黄网站| 亚洲精品大片| 国内精品福利| 日韩不卡免费高清视频| 免费日韩一区二区三区| 蜜芽一区二区三区| 亚洲欧美日本日韩| 亚洲欧美日本国产专区一区| 久久成人国产| 在线精品视频在线观看高清| 日韩av福利| 美女尤物国产一区| 亚洲一二三区视频| 日韩精品一级二级| 亚洲欧洲一区| 性色av一区二区怡红| 日韩精品国产精品| 国产精品久久乐| 99精品网站| 国产高清不卡| 国产中文在线播放| 久久99影视| 成人午夜在线| 久久久亚洲一区| 国产盗摄——sm在线视频| 亚洲丝袜啪啪| 免费在线欧美黄色| 欧美日韩精品一区二区三区视频 | 国产精品**亚洲精品| 久久蜜桃精品| 日韩欧美美女在线观看| 中文久久精品| 国产精品自拍区| 91综合网人人| 欧美在线亚洲| 国产精品99精品一区二区三区∴| 久久婷婷亚洲| 亚洲手机视频| 亚洲欧洲一区| 婷婷视频一区二区三区| 福利精品一区| 91久久久久| 亚洲四虎影院| 影院欧美亚洲| 国产66精品| 日本成人一区二区| 欧美激情三区| 四虎在线精品| 99国产成+人+综合+亚洲欧美| 美女精品视频在线| 久久久精品五月天| 欧美视频精品全部免费观看| 国产无遮挡裸体免费久久| 亚洲欧美伊人| 日韩精品中文字幕第1页| 国产精品久av福利在线观看| 国产亚洲午夜| 欧美精品二区| 在线看片不卡| 国产精品成人3p一区二区三区| 日韩精品一区二区三区中文| 久久人人97超碰国产公开结果| 国产视频一区三区| 国产一区二区亚洲| 欧美久久一区二区三区| 欧美日韩网址| 日韩国产专区| 97se综合| 欧美一级久久| 欧美国产中文高清| 久久久久久久久丰满| 欧洲激情综合|