日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

一文讀懂python Scrapy爬蟲框架

瀏覽:166日期:2022-06-27 10:57:47
Scrapy是什么?

先看官網上的說明,http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/overview.html

Scrapy是一個為了爬取網站數據,提取結構性數據而編寫的應用框架。可以應用在包括數據挖掘,信息處理或存儲歷史數據等一系列的程序中。

其最初是為了頁面抓取 (更確切來說, 網絡抓取 )所設計的, 也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲。

Scrapy是一個非常好用的爬蟲框架,它不僅提供了一些開箱即用的基礎組件,還提供了強大的自定義功能。

# Scrapy 安裝

Scrapy 官網:https://scrapy.org/

各位同學的電腦環境應該和小編的相差不遠(如果是使用 win10 的話) 安裝過程需要10分鐘左右

安裝命令:

pip install scrapy

由于 Scrapy 依賴了大量的第三方的包,所以在執行上面的命令后并不會馬上就下載 Scrapy ,而是會先不斷的下載第三方包,包括并不限于以下幾種:

pyOpenSSL:Python 用于支持 SSL(Security Socket Layer)的包。 cryptography:Python 用于加密的庫。 CFFI:Python 用于調用 C 的接口庫。 zope.interface:為 Python 缺少接口而提供擴展的庫。 lxml:一個處理 XML、HTML 文檔的庫,比 Python 內置的 xml 模塊更好用。 cssselect:Python 用于處理 CSS 選擇器的擴展包。 Twisted:為 Python 提供的基于事件驅動的網絡引擎包。 ……

如果安裝不成功多試兩次 或者 執行pip install --upgrade pip 后再執行 pip install scrapy

等待命令執行完成后,直接輸入 scrapy 進行驗證。

C:UsersAdministrator>scrapyScrapy 2.4.0 - no active projectAvailable commands:bench Run quick benchmark test...

版本號可能會有差別,不用太在意

如果能正常出現以上內容,說明我們已經安裝成功了。

理論上 Scrapy 安裝出現各種問題才算正常情況

三、Scrapy創建項目

Scrapy 提供了一個命令來創建項目 scrapy 命令,在命令行上運行:

scrapy startproject jianshu

我們創建一個項目jianshu用來爬取簡書首頁熱門文章的所有信息。

jianshu/ scrapy.cfg jianshu/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py ...

spiders文件夾下就是你要實現爬蟲功能(具體如何爬取數據的代碼),爬蟲的核心。在spiders文件夾下自己創建一個spider,用于爬取簡書首頁熱門文章。

scrapy.cfg是項目的配置文件。

settings.py用于設置請求的參數,使用代理,爬取數據后文件保存等。

items.py 自己預計需要爬取的內容

middlewares.py自定義中間件的文件

pipelines.py 管道,保持數據

項目的目錄就用網圖來展示一下吧

一文讀懂python Scrapy爬蟲框架

image Scrapy爬取簡書首頁熱門文章

cd到Jianshu項目中,生成一個爬蟲:

scrapy genspider jianshublog www.jianshu.com

這種方式生成的是常規爬蟲

1)新建jianshuSpider

import scrapyclass JianshublogSpider(scrapy.Spider): name = ’jianshublog’ allowed_domains = [’www.jianshu.com’] start_urls = [’http://www.jianshu.com/’] def parse(self, response): pass

可以看到,這個類里面有三個屬性 name 、 allowed_domains 、 start_urls 和一個parse()方法。

name,它是每個項目唯一的名字,用來區分不同的 Spider。

allowed_domains,它是允許爬取的域名,如果初始或后續的請求鏈接不是這個域名下的,則請求鏈接會被過濾掉。start_urls,它包含了 Spider 在啟動時爬取的 url 列表,初始請求是由它來定義的。

parse,它是 Spider 的一個方法。默認情況下,被調用時 start_urls 里面的鏈接構成的請求完成下載執行后,返回的響應就會作為唯一的參數傳遞給這個函數。該方法負責解析返回的響應、提取數據或者進一步生成要處理的請求。

到這里我們就清楚了,parse() 方法中的 response 是前面的 start_urls中鏈接的爬取結果,所以在 parse() 方法中,我們可以直接對爬取的結果進行解析。

修改USER_AGENT

打開settings.py 添加 UA 頭信息

USER_AGENT = ’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3493.3 Safari/537.36’

修改`parse`方法解析網頁

我們打開簡書首頁 右鍵檢查(ctrl+shift+I)發現所有的博客頭條都放在類名.note-list .content 的div 節點里面

一文讀懂python Scrapy爬蟲框架

修改jianshublog.py代碼如下

一文讀懂python Scrapy爬蟲框架

jianshublog.py

import scrapy class JianshublogSpider(scrapy.Spider): name = ’jianshublog’ allowed_domains = [’www.jianshu.com’] start_urls = [’http://www.jianshu.com/’] def parse(self, response): blogs = response.css(’.note-list .content’) # 獲取博客列表 for blog in blogs: # 遍歷博客列表 title = blog.css(’.title::text’).extract_first() # 提取標題 link = blog.css(’.title::attr(href)’).extract_first() # 提取鏈接 nickname = blog.css(’.nickname::text’).extract_first() # 提作者 print('標題:',title) # 打印標題 # print('鏈接:', link) # print('作者:', nickname)

最后別忘了執行爬蟲命令

scrapy crawl jianshublog

整個項目就完成啦

下一講我們把文章數據爬取出來,存儲在csv文件里面

到此這篇關于一文讀懂python Scrapy爬蟲框架的文章就介紹到這了,更多相關python Scrapy爬蟲框架內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Python 編程
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
精品资源在线| 亚洲精品在线a| 97人人精品| 老司机精品视频在线播放| 婷婷综合网站| 久久久精品午夜少妇| 成人福利视频| 亚洲高清二区| 免费日韩精品中文字幕视频在线| 视频一区中文字幕国产| 蜜臀va亚洲va欧美va天堂| 中文视频一区| 国产午夜一区| 麻豆91精品91久久久的内涵| 国产一区二区三区日韩精品| 国产成人精品福利| 亚洲日本网址| 亚洲一区二区动漫| 日本va欧美va欧美va精品| 国产精品调教| 精品美女久久| 久久久精品国产**网站| 最新中文字幕在线播放 | 国产亚洲精品自拍| 日韩影院精彩在线| 日本欧美一区二区| 国产精品亚洲一区二区在线观看| 国产极品嫩模在线观看91精品| 四虎国产精品免费观看| 在线日韩视频| 日韩国产在线一| 精品三级国产| 久久麻豆精品| 综合激情网...| 国产三级一区| 亚洲91久久| 日本在线成人| аⅴ资源天堂资源库在线| 久久中文视频| 日韩精品久久理论片| 久久久久观看| 亚洲欧美综合| 日韩欧美一区二区三区免费看| 午夜a一级毛片亚洲欧洲| 成人午夜网址| 日本va欧美va精品发布| 蜜桃免费网站一区二区三区 | 久久一区二区三区喷水| 蜜臀精品一区二区三区在线观看| 黄色不卡一区| 日韩成人精品一区二区| 免费观看久久久4p| 日韩国产欧美在线视频| 亚洲综合电影一区二区三区| 日本欧美在线看| 噜噜噜躁狠狠躁狠狠精品视频 | 日韩av成人高清| 日韩一区二区三区在线看| 日韩激情视频网站| 成人污污视频| 蜜桃久久久久久久| 中文字幕免费一区二区| 国产一区二区久久久久| 麻豆亚洲精品| 国产成人a视频高清在线观看| 国产日韩欧美一区在线| 日韩毛片一区| 国产欧美日韩免费观看| 一区二区国产在线观看| 精品久久亚洲| 国产成人精品一区二区免费看京| 美女在线视频一区| 久久九九精品| 日韩电影在线视频| 亚洲欧美在线综合| 六月婷婷综合| 日韩在线观看一区二区| 国产成人精品一区二区三区免费| 亚洲综合精品| 国产一区二区亚洲| 日韩av网站免费在线| 欧美午夜精彩| 国产一卡不卡| 亚洲精品2区| 97精品中文字幕| 日本一区二区三区中文字幕| 久久精品国产大片免费观看| 国产精品探花在线观看| 国产视频一区免费看| 国产 日韩 欧美 综合 一区| 亚洲人www| 新版的欧美在线视频| 日本麻豆一区二区三区视频| 在线一区免费| 九九九精品视频| 丝袜美腿一区二区三区| av在线最新| 欧美极品中文字幕| 中文字幕日本一区| 亚洲性视频h| 成人黄色av| 国产精品欧美大片| 蜜臀va亚洲va欧美va天堂| 蜜臀av免费一区二区三区| 久久丁香四色| 婷婷精品在线观看| 久久一级电影| 日韩在线高清| 美女性感视频久久| 日韩高清一级| 亚洲一二三区视频| 在线视频亚洲| 国产一区亚洲| 国产综合色区在线观看| 国模 一区 二区 三区| 久久久精品久久久久久96| 日韩在线观看一区二区三区| 亚洲欧美网站| 粉嫩av一区二区三区四区五区 | 久久亚洲影院| 亚洲综合电影| 国产精品99一区二区| 日韩高清欧美激情| 中文日韩在线| 国产精品天堂蜜av在线播放| 亚洲精品在线国产| 欧美日韩国产传媒| 国产精品一区二区av交换| 亚洲我射av| 奶水喷射视频一区| 国产二区精品| 欧美va天堂在线| 激情久久中文字幕| 色爱综合av| 天堂av在线| 高清一区二区三区av| 老鸭窝一区二区久久精品| 精品久久不卡| 麻豆一区二区99久久久久| 欧美激情福利| 免费在线亚洲欧美| 日韩一区精品字幕| 亚洲免费成人| 卡一精品卡二卡三网站乱码| 国产麻豆一区二区三区精品视频| 久久亚洲成人| 激情欧美一区| 亚洲不卡av不卡一区二区| 成人日韩精品| 精品一区亚洲| 亚洲一区二区三区高清| 日韩视频久久| 美日韩精品视频| 首页亚洲欧美制服丝腿| 亚洲欧美日韩精品一区二区 | 欧美日韩免费观看一区=区三区| 女人av一区| 三级在线观看一区二区| 亚洲乱码一区| 国产欧美亚洲精品a| 久久99视频| 国产不卡人人| 日韩精品网站| 免费视频亚洲| 三级欧美韩日大片在线看| 日韩一二三区在线观看| 国产精品调教| 日韩精品专区| 狠狠色狠狠色综合日日tαg| 另类国产ts人妖高潮视频| 亚洲精品第一| 美女精品视频在线| 日韩av免费| 麻豆亚洲精品| 国产精品欧美三级在线观看| 麻豆精品少妇| 91精品一区二区三区综合在线爱 | 在线日韩av| 日韩欧美四区| 美女av一区| 99国产精品久久久久久久| 午夜天堂精品久久久久| 欧美亚洲免费| 久久久男人天堂| 性色一区二区| 欧美在线看片| 成人午夜国产| 国产精品美女久久久久久不卡| 91久久午夜| 国产二区精品| 蜜臀av免费一区二区三区| 欧美韩一区二区| 久久丁香四色| 国产精品国码视频| 日本91福利区| 欧美日韩中文| 日韩欧美久久| 欧美经典一区| 国产精品极品在线观看| 国产图片一区|