日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術(shù)文章
文章詳情頁

Python爬蟲基礎(chǔ)之初次使用scrapy爬蟲實例

瀏覽:226日期:2022-06-15 17:23:44
項目需求

在專門供爬蟲初學(xué)者訓(xùn)練爬蟲技術(shù)的網(wǎng)站(http://quotes.toscrape.com)上爬取名言警句。

創(chuàng)建項目

在開始爬取之前,必須創(chuàng)建一個新的Scrapy項目。進(jìn)入您打算存儲代碼的目錄中,運行下列命令:

(base) λ scrapy startproject quotesNew scrapy project ’quotes ’, using template directory ’d: anaconda3libsite-packagesscrapytemp1atesproject ’, created in: D:XXXYou can start your first spider with : cd quotes scrapy genspider example example. com

首先切換到新建的爬蟲項目目錄下,也就是/quotes目錄下。然后執(zhí)行創(chuàng)建爬蟲文件的命令:

D:XXX(master)(base) λ cd quotes D:XXXquotes (master)(base) λ scrapy genspider quotes quotes.comcannot create a spider with the same name as your project D :XXXquotes (master)(base) λ scrapy genspider quote quotes.comcreated spider ’quote’ using template ’basic’ in module:quotes.spiders.quote

該命令將會創(chuàng)建包含下列內(nèi)容的quotes目錄:

Python爬蟲基礎(chǔ)之初次使用scrapy爬蟲實例

robots.txt

robots協(xié)議也叫robots.txt(統(tǒng)一小寫)是一種存放于網(wǎng)站根目錄下的ASCII編碼的文本文件,它通常告訴網(wǎng)絡(luò)搜索引擎的網(wǎng)絡(luò)蜘蛛,此網(wǎng)站中的哪些內(nèi)容是不應(yīng)被搜索引擎的爬蟲獲取的,哪些是可以被爬蟲獲取的。

robots協(xié)議并不是一個規(guī)范,而只是約定俗成的。

#filename : settings.py#obey robots.txt rulesROBOTSTXT__OBEY = False分析頁面

編寫爬蟲程序之前,首先需要對待爬取的頁面進(jìn)行分析,主流的瀏覽器中都帶有分析頁面的工具或插件,這里我們選用Chrome瀏覽器的開發(fā)者工具(Tools→Developer tools)分析頁面。

數(shù)據(jù)信息

在Chrome瀏覽器中打開頁面http://lquotes.toscrape.com,然后選擇'Elements',查看其HTML代碼。

可以看到每一個標(biāo)簽都包裹在

Python爬蟲基礎(chǔ)之初次使用scrapy爬蟲實例

編寫spider

分析完頁面后,接下來編寫爬蟲。在Scrapy中編寫一個爬蟲, 在scrapy.Spider中編寫代碼Spider是用戶編寫用于從單個網(wǎng)站(或者-些網(wǎng)站)爬取數(shù)據(jù)的類。

其包含了-個用于下載的初始URL,如何跟進(jìn)網(wǎng)頁中的鏈接以及如何分析頁面中的內(nèi)容,提取生成item的方法。

為了創(chuàng)建一個Spider, 您必須繼承scrapy.Spider類,且定義以下三個屬性:

name:用于區(qū)別Spider。該名字必須是唯一-的, 您不可以為不同的Spider設(shè)定相同的名字。 start _urls:包含了Spider在啟動時進(jìn)行爬取的ur列表。因此, 第一個被獲取到的頁面將是其中之一。后續(xù)的URL則從初始的URL獲取到的數(shù)據(jù)中提取。 parse():是spider的一一個方法。被調(diào)用時,每個初始URL完成下載后生成的Response對象將會作為唯一的參數(shù)傳遞給該函數(shù)。該方法負(fù)責(zé)解析返回的數(shù)據(jù)(response data),提取數(shù)據(jù)(生成item)以及生成需要進(jìn)一步處理的URL 的Request對象。

import scrapy class QuoteSpi der(scrapy . Spider): name =’quote’ allowed_ domains = [’ quotes. com ’] start_ urls = [’http://quotes . toscrape . com/’]def parse(self, response) :pass

下面對quote的實現(xiàn)做簡單說明。

scrapy.spider :爬蟲基類,每個其他的spider必須繼承自該類(包括Scrapy自帶的其他spider以及您自己編寫的spider)。 name是爬蟲的名字,是在genspider的時候指定的。 allowed_domains是爬蟲能抓取的域名,爬蟲只能在這個域名下抓取網(wǎng)頁,可以不寫。 start_ur1s是Scrapy抓取的網(wǎng)站,是可迭代類型,當(dāng)然如果有多個網(wǎng)頁,列表中寫入多個網(wǎng)址即可,常用列表推導(dǎo)式的形式。 parse稱為回調(diào)函數(shù),該方法中的response就是start_urls 網(wǎng)址發(fā)出請求后得到的響應(yīng)。當(dāng)然也可以指定其他函數(shù)來接收響應(yīng)。一個頁面解析函數(shù)通常需要完成以下兩個任務(wù):

1.提取頁面中的數(shù)據(jù)(re、XPath、CSS選擇器)2.提取頁面中的鏈接,并產(chǎn)生對鏈接頁面的下載請求。頁面解析函數(shù)通常被實現(xiàn)成一個生成器函數(shù),每一項從頁面中提取的數(shù)據(jù)以及每一個對鏈接頁面的下載請求都由yield語句提交給Scrapy引擎。

解析數(shù)據(jù)

import scrapy def parse(se1f,response) : quotes = response.css(’.quote ’) for quote in quotes:text = quote.css( ’.text: :text ’ ).extract_first()auth = quote.css( ’.author : :text ’ ).extract_first()tages = quote.css(’.tags a: :text’ ).extract()yield dict(text=text,auth=auth,tages=tages)

重點:

response.css(直接使用css語法即可提取響應(yīng)中的數(shù)據(jù)。 start_ur1s 中可以寫多個網(wǎng)址,以列表格式分割開即可。 extract()是提取css對象中的數(shù)據(jù),提取出來以后是列表,否則是個對象。并且對于 extract_first()是提取第一個運行爬蟲

在/quotes目錄下運行scrapycrawlquotes即可運行爬蟲項目。運行爬蟲之后發(fā)生了什么?

Scrapy為Spider的start_urls屬性中的每個URL創(chuàng)建了scrapy.Request對象,并將parse方法作為回調(diào)函數(shù)(callback)賦值給了Request。

Request對象經(jīng)過調(diào)度,執(zhí)行生成scrapy.http.Response對象并送回給spider parse()方法進(jìn)行處理。

完成代碼后,運行爬蟲爬取數(shù)據(jù),在shell中執(zhí)行scrapy crawl <SPIDER_NAME>命令運行爬蟲’quote’,并將爬取的數(shù)據(jù)存儲到csv文件中:

(base) λ scrapy craw1 quote -o quotes.csv2021-06-19 20:48:44 [scrapy.utils.log] INF0: Scrapy 1.8.0 started (bot: quotes)

等待爬蟲運行結(jié)束后,就會在當(dāng)前目錄下生成一個quotes.csv的文件,里面的數(shù)據(jù)已csv格式存放。

-o支持保存為多種格式。保存方式也非常簡單,只要給上文件的后綴名就可以了。(csv、json、pickle等)

到此這篇關(guān)于Python爬蟲基礎(chǔ)之初次使用scrapy爬蟲實例的文章就介紹到這了,更多相關(guān)Python scrapy框架內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: Python 編程
相關(guān)文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
欧美日韩中文一区二区| 国产精品入口久久| 免费精品视频在线| 国产精品v日韩精品v欧美精品网站 | 91精品日本| 三级在线观看一区二区| 首页国产欧美日韩丝袜| 日韩视频一区二区三区在线播放免费观看 | 麻豆成人91精品二区三区| 国产欧美88| 日韩精品五月天| 久久国产成人| 亚州av一区| 影音先锋久久精品| 亚洲精品看片| 亚洲精品第一| 亚洲精品午夜av福利久久蜜桃| 在线一区av| 中文久久精品| 亚洲激情另类| 日韩欧美2区| 国产欧美亚洲一区| 国产毛片久久久| 日韩三区在线| 狠狠久久伊人中文字幕| 国产aⅴ精品一区二区四区| 国产精选在线| 蜜臀av免费一区二区三区| 免费视频久久| 久久av网址| 日韩一区二区三区免费播放| 国产精品黄色片| 久久精品中文| 国产一区导航| 精品视频网站| 久久久国产精品一区二区中文| 国产午夜精品一区二区三区欧美 | 久久久久伊人| 在线天堂资源www在线污| 欧美福利一区| 国产精品调教视频| 日韩欧美另类一区二区| 亚洲黄色影院| 麻豆久久久久久| 久久99性xxx老妇胖精品| 最新亚洲激情| 精品一区二区三区中文字幕 | 久久久久国产精品一区三寸| 亚洲午夜黄色| 欧美精品中文字幕亚洲专区| www.com.cn成人| 9色国产精品| 精品久久久亚洲| 亚洲少妇诱惑| 国产亚洲精品久久久久婷婷瑜伽| 欧美精品国产一区| 99久久激情| 日本一区二区中文字幕| 国产精品av一区二区| 中文字幕日韩亚洲| 亚洲综合电影| 日韩av成人高清| 天堂а√在线最新版中文在线| 亚洲精品乱码久久久久久蜜桃麻豆| 精品色999| 日本三级亚洲精品| 国产精品原创| 欧美亚洲tv| 在线综合欧美| 欧美一级全黄| 日本国产精品| 国产伦理一区| 蜜臀av在线播放一区二区三区| 精品中文字幕一区二区三区| 日本视频一区二区| 婷婷亚洲五月| 麻豆精品视频在线| 欧美视频久久| 亚洲欧美日韩精品一区二区 | 另类中文字幕国产精品| 在线亚洲自拍| 色欧美自拍视频| 日本aⅴ免费视频一区二区三区| 美女精品网站| 日韩欧美中文| 精品三级av| 国产一区二区三区亚洲综合| 亚洲精品少妇| 综合激情一区| 亚洲激情欧美| 久久精品免费一区二区三区| 麻豆mv在线观看| 欧美亚洲免费| 蜜桃视频一区二区| 亚洲一区日韩在线| 欧美亚洲三区| 日本免费一区二区视频| 亚洲一区二区三区四区五区午夜| 久久久精品网| 美女久久久久| 欧美日韩国产v| 精品国产a一区二区三区v免费| 国产精品亚洲综合久久| 伊人久久大香线蕉av不卡| 日韩欧美精品一区| 激情视频网站在线播放色| 欧美精品97| 日韩免费视频| 国产va免费精品观看精品视频| 国产欧美精品久久| 亚洲无线观看| 日韩精品一级中文字幕精品视频免费观看| 成人精品天堂一区二区三区| 欧美日韩尤物久久| 成人国产精品一区二区免费麻豆| 日韩欧美不卡| 日韩在线短视频| 黄色日韩精品| 亚洲小说春色综合另类电影| 国产精品美女久久久浪潮软件| 亚洲a一区二区三区| 久久激情中文| 午夜久久黄色| 亚洲精品福利| 日韩精品成人| 欧美日韩中文一区二区| 国产精品三上| 久久xxxx| 久久国产精品免费精品3p| 国产精品分类| 精品高清久久| 久久精品国产www456c0m| 欧美不卡高清一区二区三区| 播放一区二区| 一区二区三区网站| 日本国产欧美| 精品精品国产三级a∨在线| 国产不卡一区| 1024精品一区二区三区| 亚洲有吗中文字幕| 影院欧美亚洲| 亚洲精品伊人| 四季av一区二区凹凸精品| 日韩高清成人| 四虎精品永久免费| 精品一区二区三区中文字幕 | 婷婷亚洲成人| 国产日韩欧美三级| 日韩在线观看一区| 黄色亚洲在线| 日本91福利区| 精品三级av| 精品一区欧美| 日韩精品第二页| 日韩啪啪电影网| 蜜桃视频免费观看一区| 99视频+国产日韩欧美| 青青草伊人久久| 在线视频观看日韩| 四虎在线精品| 樱桃视频成人在线观看| 亚洲3区在线| 精品伊人久久| 免费人成在线不卡| 美女在线视频一区| 制服诱惑一区二区| 青青国产精品| 日韩中文在线电影| 国产精品欧美在线观看| 亚洲成av人片一区二区密柚| 日本不卡高清| 欧美精品一二| 欧美日韩夜夜| 在线成人直播| 欧美激情网址| 一区在线免费观看| 都市激情国产精品| 亚州精品视频| 女生影院久久| 国产色噜噜噜91在线精品| 成人在线免费观看91| 成人污污视频| 日韩三级精品| 日本欧美不卡| 精品一级视频| 免费成人在线影院| 福利在线一区| 日本免费新一区视频| 欧美日韩在线观看视频小说| 欧美激情福利| 婷婷亚洲成人| 亚洲一区欧美激情| japanese国产精品| 欧美精品91| 国产精品视频3p| 久久亚洲色图| 国产精品115| 国产日本精品| 快she精品国产999| 噜噜噜久久亚洲精品国产品小说|