日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

淺析python 通⽤爬⾍和聚焦爬⾍

瀏覽:21日期:2022-07-09 16:33:32

一、爬蟲的簡單理解

1. 什么是爬蟲?

網絡爬蟲也叫網絡蜘蛛,如果把互聯網比喻成一個蜘蛛網,那么蜘蛛就是在網上爬來爬去的蜘蛛,爬蟲程序通過請求url地址,根據響應的內容進行解析采集數據, 比如:如果響應內容是html,分析dom結構,進行dom解析、或者正則匹配,如果響應內容是xml/json數據,就可以轉數據對象,然后對數據進行解析。

2. 爬蟲有什么作用?

通過有效的爬蟲手段批量采集數據,可以降低人工成本,提高有效數據量,給予運營/銷售的數據支撐,加快產品發展。

3. 爬蟲業界的情況

目前互聯網產品競爭激烈,業界大部分都會使用爬蟲技術對競品產品的數據進行挖掘、采集、大數據分析,這是必備手段,并且很多公司都設立了爬蟲工程師的崗位。

4. 合法性

爬蟲是利用程序進行批量爬取網頁上的公開信息,也就是前端顯示的數據信息。因為信息是完全公開的,所以是合法的。其實就像瀏覽器一樣,瀏覽器解析響應內容并渲染為頁面,而爬蟲解析響應內容采集想要的數據進行存儲。

5. 反爬蟲

爬蟲很難完全的制止,道高一尺魔高一丈,這是一場沒有硝煙的戰爭,碼農VS碼農

反爬蟲一些手段:

合法檢測:請求校驗(useragent,referer,接口加簽名,等) 小黑屋:IP/用戶限制請求頻率,或者直接攔截 投毒:反爬蟲高境界可以不用攔截,攔截是一時的,投毒返回虛假數據,可以誤導競品決策

二、通用爬蟲

根據使⽤場景,⽹絡爬⾍可分為 通⽤爬⾍ 和 聚焦爬⾍ 兩種.。

1、通⽤爬⾍

通⽤⽹絡爬⾍是?人饕?媯?aidu、Google、Yahoo)抓取系統的重要組成部分。主要⽬的是將互聯⽹上的⽹⻚下載到本地,形成⼀個互聯⽹內容的鏡像備份。

⽹絡爬⾍的基本⼯作流程如下:

⾸先選取⼀部分精⼼挑選的種⼦URL; 將這些 URL 放⼊待抓取 URL 隊列; 從待抓取 URL 隊列中取出待抓取在 URL,解析 DNS,并且得到主機的 ip,并將 URL 對應的⽹⻚下載下來,存儲進已下載⽹⻚庫中。此外,將 這些 URL 放進已抓取 URL 隊列。 分析已抓取 URL 隊列中的 URL,分析其中的其他 URL,并且將 URL放⼊ 待抓取 URL 隊列,從⽽進⼊下⼀個循環....

淺析python 通⽤爬⾍和聚焦爬⾍

2、通⽤搜索引擎(Search Engine)⼯作原理

隨著⽹絡的迅速發展,萬維⽹成為⼤量信息的載體,如何有效地提取并利⽤這些信息成為⼀個巨⼤的挑戰,通常⽤戶會通過搜索引擎(Yahoo,Google,百度等),來作為訪問萬維⽹的⼊⼝。

⽽ 通⽤⽹絡爬⾍ 是搜索引擎系統中⼗分重要的組成部分,它負責從互聯⽹中搜集⽹⻚,采集信息,這些⽹⻚信息⽤于為搜索引擎建⽴索引從⽽提供⽀持,它決定著整個引擎系統的內容是否豐富,信息是否即時,因此其性能的優劣直接影響著搜索引擎的效果。

淺析python 通⽤爬⾍和聚焦爬⾍

第⼀步:抓取⽹⻚

搜索引擎通過⼀種有特定規律的軟件,來跟蹤⽹⻚的鏈接,從⼀個鏈接爬到另外⼀個鏈接,像蜘蛛在蜘蛛⽹上爬⾏⼀樣,所以被稱為“蜘蛛”也被稱為“機器⼈”。

但是搜索引擎蜘蛛的爬⾏是被輸⼊了⼀定的規則的,它需要遵從⼀些命令或⽂件的內容。Robots 協議(也稱為爬⾍協議、機器⼈協議等)的全稱是“⽹絡爬⾍排除標準”(Robots Exclusion Protocol),⽹站通過 Robots 協議告訴搜索引擎哪些⻚⾯可以抓取,哪些⻚⾯不能抓取

https://www.taobao.com/robots...http://www.qq.com/robots.txt

robots.txt 只是約定,爬⾍遵守或者不遵守完全在于爬⾍作者的意愿。舉個例⼦,公交⻋上貼著「請為⽼弱病殘孕讓座」,但是⼤部分⼈并不⻅得會遵守。⼀般來講,只有⼤的搜索引擎爬⾍會遵守你⽹站的 robots.txt 協議,其它的爬⾍基本都不會看⼀眼你的 robots.txt 寫的是什么。

第⼆步:數據存儲

搜索引擎是通過蜘蛛跟蹤鏈接爬⾏到⽹⻚,并將爬⾏的數據存⼊原始⻚⾯數據庫。其中的⻚⾯數據與⽤戶瀏覽器得到的 HTML 是完全⼀樣的。搜索引擎蜘蛛在抓取⻚⾯時,也做⼀定的重復內容檢測,⼀旦遇到權重很低的⽹站上有⼤量抄襲、采集或者復制的內容,很可能就不再爬⾏。

第三步:預處理

搜索引擎將蜘蛛抓取回來的⻚⾯,進⾏各種步驟的預處理。

提取⽂字 中⽂分詞 去停⽌ 詞 消除噪⾳(搜索引擎需要識別并消除這些噪聲,⽐如版權聲明⽂字、導 航條、⼴告等……) 正向索引 倒排索 引鏈接關系計算 特殊⽂件處理 ....

除了 HTML⽂件外,搜索引擎通常還能抓取和索引以⽂字為基礎的多種⽂件類型,如 PDF、Word、WPS、XLS、PPT、TXT ⽂件等。我們在搜索結果中也經常會看到這些⽂件類型。

但搜索引擎還不能處理圖⽚、視頻、Flash 這類⾮⽂字內容,也不能執⾏腳本和程序。

第四步:排名,提供檢索服務搜索引擎是根據⼀定的策略、運⽤特定的計算機程序從互聯⽹上搜集信息,在對信息進⾏組織和處理后,為⽤戶提供檢索服務,將⽤戶檢索相關的信息展示給⽤戶的系統。

但是,這些通⽤性搜索引擎也存在著⼀定的局限性:

不同領域、不同背景的⽤戶往往具有不同的檢索⽬的和需求,通⽤搜索引擎所返回的結果包含⼤量⽤戶不關⼼的⽹⻚。 通⽤搜索引擎的⽬標是盡可能⼤的⽹絡覆蓋率,有限的搜索引擎服務器資源與⽆限的⽹絡數據資源之間的⽭盾將進⼀步加深。 萬維⽹數據形式的豐富和⽹絡技術的不斷發展,圖⽚、數據庫、⾳頻、視頻多媒體等不同數據⼤量出現,通⽤搜索引擎往往對這些信息含量密集且具有⼀定結構的數據⽆能為⼒,不能很好地發現和獲取。 通⽤搜索引擎⼤多提供基于關鍵字的檢索,難以⽀持根據語義信息提出的查詢。

三、聚焦爬⾍(Focused Crawler)

聚焦爬⾍,⼜稱主題爬⾍(或專業爬⾍),是“⾯向特定主題”的⼀種⽹絡爬⾍程序。它與我們通常所說的爬⾍(通⽤爬⾍)的區別之處就在于,聚焦爬⾍在實施⽹⻚抓取時要進⾏主題篩選。它盡量保證只抓取與主題相關的⽹⻚信息。 聚焦⽹絡爬⾍并不追求⼤的覆蓋,⽽將⽬標定為抓取與某⼀特定主題內容相關的⽹⻚,為⾯向主題的⽤戶查詢準備數據資源。 聚焦爬⾍的⼯作流程較為復雜,需要根據⼀定的⽹⻚分析算法過濾與主題⽆關的鏈接,保留有⽤的鏈接并將其放⼊等待抓取的 URL 隊列。然后,它將根據⼀定的搜索策略從隊列中選擇下⼀步要抓取的⽹⻚URL,并重復上述過程,直到達到系統的某⼀條件時停⽌。 另外,所有被爬⾍抓取的⽹⻚將會被系統存貯,進⾏⼀定的分析、過濾,并建⽴索引,以便之后的查詢和檢索;對于聚焦爬⾍來說,這⼀過程所得到的分析結果還可能對以后的抓取過程給出反饋和指導。

以上就是淺析python 通⽤爬⾍和聚焦爬⾍的詳細內容,更多關于python 爬蟲的資料請關注好吧啦網其它相關文章!

標簽: Python 編程
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
91视频久久| 亚洲精品在线国产| 日韩二区三区四区| 亚州av日韩av| 日韩毛片一区| 欧美亚洲免费| 国产精品2023| 久久精品免视看国产成人| 国产精品115| 精品国产精品国产偷麻豆 | 福利一区二区三区视频在线观看| 欧美激情 亚洲a∨综合| 国产一区日韩| 午夜影院一区| 欧美高清不卡| 免费不卡在线视频| 日韩av网站在线免费观看| 久久99偷拍| 日韩欧美另类一区二区| 一区视频在线| 久久精品 人人爱| 日本一区二区免费高清| 日韩成人高清| 久久先锋影音| 国产精品一级| 久久久久中文| 日韩精品一二三区| 国产精品一区二区av日韩在线| 国产精品久久777777毛茸茸| 精品国产麻豆| 日韩视频一区| 国产免费av国片精品草莓男男| 91免费精品| 性一交一乱一区二区洋洋av| 国产伦精品一区二区三区千人斩| 久久精品女人| 自拍日韩欧美| 国产图片一区| 日韩精品免费一区二区三区| 一区二区日韩免费看| 麻豆精品在线视频| 伊人精品一区| 欧美视频精品全部免费观看| 日韩a一区二区| 蜜桃av一区| 国产一区二区视频在线看| 影音先锋久久| 久久av日韩| 夜夜嗨网站十八久久| 国产乱码精品一区二区三区亚洲人 | 另类欧美日韩国产在线| 性欧美xxxx免费岛国不卡电影| 亚洲aa在线| 国产福利电影在线播放| 中文无码日韩欧| 国产精品v亚洲精品v日韩精品| 久久精品影视| 国产麻豆精品久久| 亚洲网站视频| 免费在线欧美黄色| 国产精品毛片在线| 成人在线免费观看网站| 中文字幕亚洲精品乱码| 欧美香蕉视频| 欧美精品国产白浆久久久久| 久久麻豆精品| 欧美激情aⅴ一区二区三区 | 麻豆精品久久| 中文字幕一区二区三区四区久久 | 在线一区av| 亚洲ww精品| 少妇久久久久| 麻豆国产一区| 日韩黄色在线观看| 999在线观看精品免费不卡网站| 久久精品人人| 欧美日韩1区| 蜜桃91丨九色丨蝌蚪91桃色| 岛国av在线网站| 欧美一区精品| 在线看片不卡| 欧美香蕉视频| 精品一区二区三区中文字幕| 中文字幕一区二区av| 欧美性感美女一区二区| 精品久久精品| 欧美久久一区二区三区| 久久av一区二区三区| 亚洲电影有码| 国产一区二区三区黄网站| 欧美日韩18| 一区二区国产精品| 国产色综合网| 欧美色图国产精品| av高清不卡| 国产乱人伦丫前精品视频| 亚洲精一区二区三区| 亚洲精品电影| 国产亚洲一区二区手机在线观看| 久久超级碰碰| 欧美私人啪啪vps| 天堂va在线高清一区| 久久亚洲影院| 亚洲一区二区三区高清| 免费精品国产| 久久狠狠婷婷| 成人久久久久| 国产 日韩 欧美一区| 日韩av免费大片| 精品中国亚洲| 国产精品中文字幕制服诱惑| 日韩高清国产一区在线| 亚洲精品一二| 亚洲人www| 亚洲婷婷丁香| 亚洲另类视频| 日韩精品高清不卡| 日韩欧美中文在线观看| 亚洲字幕久久| 亚洲乱亚洲高清| 免费人成黄页网站在线一区二区| 99热精品在线| 男人天堂欧美日韩| 国产精品视区| 免费在线视频一区| 国产一区91| 亚洲精品综合| 日韩av一二三| 国产精品国码视频| 麻豆精品在线观看| 精品一级视频| 香蕉成人av| 亚洲作爱视频| 亚洲日产av中文字幕| 综合日韩在线| 日韩高清一区在线| 久久国产精品免费一区二区三区| 国产剧情在线观看一区| 麻豆久久久久久| 手机在线电影一区| 国产a久久精品一区二区三区| 日韩av有码| 久久精品亚洲人成影院 | 在线看片日韩| 青青草91视频| 精品视频自拍| 久久九九精品| 99国产精品视频免费观看一公开| 美日韩精品视频| 日韩不卡一区二区三区 | 六月婷婷一区| 国产免费av一区二区三区| 精品国产黄a∨片高清在线| 肉色欧美久久久久久久免费看 | 香蕉久久一区| 免费一级欧美在线观看视频| 国产999精品在线观看| 久久久一二三| 亚洲精品自拍| 成人在线免费观看91| 国产综合视频| 婷婷成人av| 日本午夜免费一区二区| 成人台湾亚洲精品一区二区| 欧美va天堂在线| 日本vs亚洲vs韩国一区三区二区| 美女视频黄免费的久久| 91精品精品| 视频一区日韩精品| 国产精品资源| 免费毛片在线不卡| 日本精品一区二区三区在线观看视频| 欧美国产专区| 亚州av乱码久久精品蜜桃| 日韩免费精品| 日韩电影免费网址| 日韩精品一级中文字幕精品视频免费观看 | 女人av一区| 欧美亚洲福利| 久久精品123| 欧美日韩精品一区二区三区视频 | 99视频精品视频高清免费| 蜜臀va亚洲va欧美va天堂| 久久久久九九精品影院| jiujiure精品视频播放| 久久精品99国产精品日本| 久久青草久久| 欧美日韩va| 成人免费电影网址| 视频一区中文字幕精品| 欧美成人基地 | 香蕉精品999视频一区二区| 欧美激情亚洲| 男人的天堂久久精品| 成人高清一区| 日韩极品在线观看| 99国产精品一区二区| 国产精品日本一区二区不卡视频| 中文在线一区| 成人精品视频|