日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術(shù)文章
文章詳情頁

python爬蟲框架feapder的使用簡介

瀏覽:26日期:2022-06-22 09:02:13
1. 前言

大家好,我是安果!

眾所周知,Python 最流行的爬蟲框架是 Scrapy,它主要用于爬取網(wǎng)站結(jié)構(gòu)性數(shù)據(jù)

今天推薦一款更加簡單、輕量級(jí),且功能強(qiáng)大的爬蟲框架:feapder

項(xiàng)目地址:

https://github.com/Boris-code/feapder

2. 介紹及安裝

和 Scrapy 類似,feapder 支持輕量級(jí)爬蟲、分布式爬蟲、批次爬蟲、爬蟲報(bào)警機(jī)制等功能

內(nèi)置的 3 種爬蟲如下:

AirSpider

輕量級(jí)爬蟲,適合簡單場景、數(shù)據(jù)量少的爬蟲

Spider

分布式爬蟲,基于 Redis,適用于海量數(shù)據(jù),并且支持?jǐn)帱c(diǎn)續(xù)爬、自動(dòng)數(shù)據(jù)入庫等功能

BatchSpider

分布式批次爬蟲,主要用于需要周期性采集的爬蟲

在實(shí)戰(zhàn)之前,我們在虛擬環(huán)境下安裝對應(yīng)的依賴庫

# 安裝依賴庫pip3 install feapder3. 實(shí)戰(zhàn)一下

我們以最簡單的 AirSpider 來爬取一些簡單的數(shù)據(jù)

目標(biāo)網(wǎng)站:aHR0cHM6Ly90b3BodWIudG9kYXkvIA==

詳細(xì)實(shí)現(xiàn)步驟如下( 5 步)

3-1 創(chuàng)建爬蟲項(xiàng)目

首先,我們使用「 feapder create -p 」命令創(chuàng)建一個(gè)爬蟲項(xiàng)目

# 創(chuàng)建一個(gè)爬蟲項(xiàng)目feapder create -p tophub_demo3-2 創(chuàng)建爬蟲 AirSpider

命令行進(jìn)入到 spiders 文件夾目錄下,使用「 feapder create -s 」命令創(chuàng)建一個(gè)爬蟲

cd spiders# 創(chuàng)建一個(gè)輕量級(jí)爬蟲feapder create -s tophub_spider 1

其中

1 為默認(rèn),表示創(chuàng)建一個(gè)輕量級(jí)爬蟲 AirSpider 2 代表創(chuàng)建一個(gè)分布式爬蟲 Spider 3 代表創(chuàng)建一個(gè)分布式批次爬蟲 BatchSpider3-3 配置數(shù)據(jù)庫、創(chuàng)建數(shù)據(jù)表、創(chuàng)建映射 Item

以 Mysql 為例,首先我們在數(shù)據(jù)庫中創(chuàng)建一張數(shù)據(jù)表

# 創(chuàng)建一張數(shù)據(jù)表create table topic( id int auto_incrementprimary key, title varchar(100) null comment ’文章標(biāo)題’, auth varchar(20) null comment ’作者’, like_count int default 0 null comment ’喜歡數(shù)’, collection int default 0 null comment ’收藏?cái)?shù)’, comment int default 0 null comment ’評(píng)論數(shù)’);

然后,打開項(xiàng)目根目錄下的 settings.py 文件,配置數(shù)據(jù)庫連接信息

# settings.pyMYSQL_IP = 'localhost'MYSQL_PORT = 3306MYSQL_DB = 'xag'MYSQL_USER_NAME = 'root'MYSQL_USER_PASS = 'root'

最后,創(chuàng)建映射 Item( 可選 )

進(jìn)入到 items 文件夾,使用「 feapder create -i 」命令創(chuàng)建一個(gè)文件映射到數(shù)據(jù)庫

PS:由于 AirSpider 不支持?jǐn)?shù)據(jù)自動(dòng)入庫,所以這步不是必須

3-4 編寫爬蟲及數(shù)據(jù)解析

第一步,首先使「 MysqlDB 」初始化數(shù)據(jù)庫

from feapder.db.mysqldb import MysqlDBclass TophubSpider(feapder.AirSpider): def __init__(self, *args, **kwargs):super().__init__(*args, **kwargs)self.db = MysqlDB()

第二步,在 start_requests 方法中,指定爬取主鏈接地址,使用關(guān)鍵字「download_midware 」配置隨機(jī) UA

import feapderfrom fake_useragent import UserAgentdef start_requests(self): yield feapder.Request('https://tophub.today/', download_midware=self.download_midware)def download_midware(self, request): # 隨機(jī)UA # 依賴:pip3 install fake_useragent ua = UserAgent().random request.headers = {’User-Agent’: ua} return request

第三步,爬取首頁標(biāo)題、鏈接地址

使用 feapder 內(nèi)置方法 xpath 去解析數(shù)據(jù)即可

def parse(self, request, response): # print(response.text) card_elements = response.xpath(’//div[@class='cc-cd']’) # 過濾出對應(yīng)的卡片元素【什么值得買】 buy_good_element = [card_element for card_element in card_elements ifcard_element.xpath(’.//div[@class='cc-cd-is']//span/text()’).extract_first() == ’什么值得買’][0] # 獲取內(nèi)部文章標(biāo)題及地址 a_elements = buy_good_element.xpath(’.//div[@class='cc-cd-cb nano']//a’) for a_element in a_elements:# 標(biāo)題和鏈接title = a_element.xpath(’.//span[@class='t']/text()’).extract_first()href = a_element.xpath(’.//@href’).extract_first()# 再次下發(fā)新任務(wù),并帶上文章標(biāo)題yield feapder.Request(href, download_midware=self.download_midware, callback=self.parser_detail_page, title=title)

第四步,爬取詳情頁面數(shù)據(jù)

上一步下發(fā)新的任務(wù),通過關(guān)鍵字「 callback 」指定回調(diào)函數(shù),最后在 parser_detail_page 中對詳情頁面進(jìn)行數(shù)據(jù)解析

def parser_detail_page(self, request, response): ''' 解析文章詳情數(shù)據(jù) :param request: :param response: :return: ''' title = request.title url = request.url # 解析文章詳情頁面,獲取點(diǎn)贊、收藏、評(píng)論數(shù)目及作者名稱 author = response.xpath(’//a[@class='author-title']/text()’).extract_first().strip() print('作者:', author, ’文章標(biāo)題:’, title, '地址:', url) desc_elements = response.xpath(’//span[@class='xilie']/span’) print('desc數(shù)目:', len(desc_elements)) # 點(diǎn)贊 like_count = int(re.findall(’d+’, desc_elements[1].xpath(’./text()’).extract_first())[0]) # 收藏 collection_count = int(re.findall(’d+’, desc_elements[2].xpath(’./text()’).extract_first())[0]) # 評(píng)論 comment_count = int(re.findall(’d+’, desc_elements[3].xpath(’./text()’).extract_first())[0]) print('點(diǎn)贊:', like_count, '收藏:', collection_count, '評(píng)論:', comment_count)3-5 數(shù)據(jù)入庫

使用上面實(shí)例化的數(shù)據(jù)庫對象執(zhí)行 SQL,將數(shù)據(jù)插入到數(shù)據(jù)庫中即可

# 插入數(shù)據(jù)庫sql = 'INSERT INTO topic(title,auth,like_count,collection,comment) values(’%s’,’%s’,’%s’,’%d’,’%d’)' % (title, author, like_count, collection_count, comment_count)# 執(zhí)行self.db.execute(sql)4. 最后

本篇文章通過一個(gè)簡單的實(shí)例,聊到了 feapder 中最簡單的爬蟲 AirSpider

關(guān)于 feapder 高級(jí)功能的使用,后面我將會(huì)通過一系列實(shí)例進(jìn)行詳細(xì)說明

源碼地址:https://github.com/xingag/spider_python/tree/master/feapder

以上就是python爬蟲框架feapder的使用簡介的詳細(xì)內(nèi)容,更多關(guān)于python爬蟲框架feapde的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章!

標(biāo)簽: Python 編程
相關(guān)文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
久久精品国产亚洲夜色av网站| 91久久久久| 欧美日韩午夜电影网| 在线视频亚洲欧美中文| 亚洲三级视频| 日韩和欧美的一区| 欧美亚洲tv| 九九久久国产| 免费观看亚洲| 99久久激情| 99亚洲视频| 亚洲一区日韩| 国产精品普通话对白| 中文字幕成人| 里番精品3d一二三区| 人在线成免费视频| 国产中文一区| 中文一区一区三区免费在线观| 天堂精品久久久久| 国产毛片久久久| 麻豆国产精品视频| 亚洲成av在线| 首页欧美精品中文字幕| 国产欧美日韩综合一区在线播放| 国产a亚洲精品| 国产中文一区| 亚洲一级淫片| 久久不见久久见国语| 日韩精品看片| 亚洲专区视频| а√在线中文在线新版| 国产精品外国| 久久精品女人| 蜜桃视频在线观看一区二区| 久久超碰99| 性一交一乱一区二区洋洋av| 免费亚洲一区| 国产模特精品视频久久久久| 国产劲爆久久| 99国产精品久久久久久久| 欧美影院视频| 99精品综合| 国产精品羞羞答答在线观看| 91久久久精品国产| 久久精品国产99| 国产精品毛片在线| 国产成人黄色| 日韩高清一区在线| 久久久久久黄| 久久av电影| 亚洲伊人影院| 久久中文亚洲字幕| 国产精品多人| 久久亚洲风情| 久久蜜桃av| 高清一区二区| 欧美亚洲二区| 国产一区白浆| 久久精品观看| 国产成人精品一区二区免费看京| 亚洲精品自拍| 亚洲在线国产日韩欧美| 欧美精选视频一区二区| 精品一区二区三区中文字幕视频 | 欧美永久精品| 国产一区二区高清| 黄色网一区二区| 青草久久视频| 日韩精品一区第一页| 99久久www免费| 日韩成人免费| 麻豆视频久久| 国产精品自拍区| 奇米777国产一区国产二区| 国产精品普通话对白| 日本国产精品| 国产aⅴ精品一区二区三区久久| 国产乱人伦精品一区| 欧美午夜网站| 日韩av黄色在线| 日韩精品福利一区二区三区| 亚洲一区二区免费看| 亚洲免费高清| 91久久午夜| 性一交一乱一区二区洋洋av| 欧美精品九九| 亚洲少妇诱惑| 亚洲一区二区免费看| 欧美在线资源| 午夜精品亚洲| 美女被久久久| 亚洲乱码一区| 日韩精品一级| 亚州精品视频| 日韩欧美中文在线观看| 亚洲毛片在线免费| 香蕉久久久久久久av网站| 99国产精品99久久久久久粉嫩| 亚洲男女av一区二区| 久久亚洲色图| 综合一区二区三区| 婷婷五月色综合香五月| 日韩成人午夜精品| 欧美日本不卡| 国产精品99久久免费观看| 麻豆一区二区99久久久久| 久久只有精品| 91一区二区三区四区| 97精品国产| 国产一区日韩一区| 免费日韩av片| 亚洲图片久久| 欧美在线91| 美女视频免费精品| 日韩理论视频| 国产精品呻吟| 国产欧美日韩一级| 91视频久久| 妖精视频成人观看www| 久久国产99| 国产精品亚洲一区二区在线观看| 精品国产美女a久久9999| 黄毛片在线观看| 亚洲欧洲午夜| 国产亚洲字幕| 天堂中文在线播放| 在线亚洲自拍| 国产精品国产三级在线观看| 四虎影视精品| 日韩一区精品| 国产一区二区三区网| 欧美一区二区三区高清视频| 亚洲精品在线国产| 国产精品xvideos88| 99精品视频精品精品视频| 免费人成网站在线观看欧美高清| 国产亚洲精品精品国产亚洲综合| 伊人网在线播放| 亚洲乱码一区| 日韩精品中文字幕第1页| 蜜臀a∨国产成人精品| 国产精品久久久久久久久久妞妞 | 国产福利一区二区精品秒拍| 在线日韩电影| 国产日韩亚洲| 激情自拍一区| 久久不卡日韩美女| 亚洲欧美日本日韩| 久久午夜影院| 一区二区三区国产在线| 女生影院久久| 亚洲日产国产精品| 中文字幕成在线观看| 久久亚洲不卡| 国产精品黑丝在线播放| 日韩影院免费视频| 在线看片国产福利你懂的| 亚洲aⅴ网站| 在线视频观看日韩| 久久久国产精品网站| 伊人久久大香伊蕉在人线观看热v| 久久精品资源| 亚州国产精品| 在线看片不卡| 日韩国产一区二区| 国产精品成人自拍| 男人的天堂亚洲一区| 久久久777| 精品一区二区三区中文字幕视频| 亚洲一区二区日韩| 久久国产亚洲精品| 久久av免费看| 日韩在线成人| 欧美另类专区| 成人自拍av| 精品亚洲a∨一区二区三区18| 日韩精品三区四区| 亚洲少妇在线| 不卡在线一区| 久久久久网站| 五月激情久久| 国产拍在线视频| 精品国产成人| 国产欧美高清视频在线| 自拍自偷一区二区三区| 欧美日韩国产免费观看| 精品国模一区二区三区| 色综合狠狠操| 国产在线观看91一区二区三区| 国产精品一区二区三区www| 亚洲精选av| 亚洲一区二区三区高清不卡| 国产一区视频在线观看免费| 日韩欧美字幕| 在线亚洲人成| 亚洲精品福利电影| 四虎8848精品成人免费网站 | 国产美女亚洲精品7777| 亚洲精品激情| 日韩不卡在线观看日韩不卡视频|