日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術(shù)文章
文章詳情頁

python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊

瀏覽:17日期:2022-06-17 16:30:31
目錄一、使用PyChram的正則二、制作一個隨機(jī)User-Agent模塊三、最終實(shí)踐3.1 爬取快代理上的ip3.2 驗(yàn)證爬取到的ip是否可用3.3 實(shí)戰(zhàn):利用爬取到的ip訪問CSDN博客網(wǎng)址1000次四、總結(jié)一、使用PyChram的正則

首先,小編講的不是爬取ip,而是講了解PyCharm的正則,這里講的正則不是Python的re模塊哈!而是PyCharm的正則功能,我們在PyChram的界面上按上Ctrl+R,可以發(fā)現(xiàn),這里出現(xiàn)兩行輸入框

python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊

現(xiàn)在如果小編想把如下數(shù)據(jù)轉(zhuǎn)換成一個字典存儲

python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊

讀者也許會一個一去改,但是小編只需在上述的那兩個輸入框內(nèi),輸入一串字符串即可。

python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊

只需在第一個輸入框中,輸入(.*) : (.*)在第二個輸入框中,輸入'$1':'$2',,看看效果如何

python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊

之后再給兩端分別一個花括號和取一個字典名稱即可。

二、制作一個隨機(jī)User-Agent模塊

反爬措施中,有這樣一條,就是服務(wù)器會檢查請求的user-agent參數(shù)值,如果檢查的結(jié)果為python,那么服務(wù)器就知道這是爬蟲,為了避免被服務(wù)器發(fā)現(xiàn)這是爬蟲,通常user-agent參數(shù)值會設(shè)置瀏覽器的值,但是爬取一個網(wǎng)址時,每次都需要查看網(wǎng)址network下面的內(nèi)容,顯得比較繁瑣,為什么不自定義一個隨機(jī)獲取user-agent的值模塊呢?這樣既可以減少查看network帶來的繁瑣,同時還可以避免服務(wù)器發(fā)現(xiàn)這是同一個user-agent發(fā)起多次請求。說了這么多,那么具體怎樣實(shí)現(xiàn)呢?

python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊

只需調(diào)用隨機(jī)模塊random的方法choice()即可,這個方法里面的參數(shù)類型時列表類型,具體參考代碼如下:

import randomclass useragent(object): def getUserAgent(self):useragents=[ ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36’, ’Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1’, ’Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0’, ’Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 2.0.50727; SLCC2; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; Tablet PC 2.0; .NET4.0E)’, ’Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)’,]return random.choice(useragents)

這樣我們就可以隨機(jī)得到一個user-agent的值了。

三、最終實(shí)踐3.1 爬取快代理上的ip

接下來,就是最終實(shí)踐了,制作屬于自己的IP代理模塊。

那么,從哪里獲取IP呢?小編用的是快代理這個網(wǎng)址,網(wǎng)址鏈接為:https://www.kuaidaili.com/free/inha/1/。

怎樣提取IP呢?小編用的是xpath語法

python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊

參考代碼如下:

import requestsfrom crawlers.userAgent import useragent # 導(dǎo)入自己自定義的類,主要作用為隨機(jī)取user-agent的值from lxml import etreeurl=’https://www.kuaidaili.com/free/inha/1/’headers={’user-agent’:useragent().getUserAgent()}rsp=requests.get(url=url,headers=headers)HTML=etree.HTML(rsp.text)infos=HTML.xpath('//table[@class=’table table-bordered table-striped’]/tbody/tr')for info in infos: print(info.xpath(’./td[1]/text()’)) # ip print(info.xpath(’./td[2]/text()’)) # ip對應(yīng)的端口 列表類型

怎樣爬取多頁呢?分析快代理那個網(wǎng)址,可以發(fā)現(xiàn)https://www.kuaidaili.com/free/inha/{頁數(shù)}/ ,花括號里面就是頁數(shù),這個網(wǎng)址總頁數(shù)為4038,這里小編只爬取5頁,并且開始頁數(shù)取(1,3000)之間的隨機(jī)數(shù),但是如果for循環(huán)這個過程,運(yùn)行結(jié)果如下:

python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊

原來是請求過快的原因,只需在爬取1頁之后,休眠幾秒鐘即可解決。

3.2 驗(yàn)證爬取到的ip是否可用

這里直接用百度這個網(wǎng)址作為測試網(wǎng)址,主要代碼為:

url=’https://www.baidu.com’headers={’user-agent’:useragent().getUserAgent()}proxies={} # ip ,這里只是講一下關(guān)鍵代碼,沒有給出具體IPrsp=requests.get(url=url,headers=headers,proxies=proxies,time=0.2) # timeout為超時時間

只需判斷rsp的狀態(tài)碼為200,如果是,把它添加到一個指定的列表中。

具體參考代碼小編已經(jīng)上傳到Gitee上,鏈接為:ip代理模塊

當(dāng)然讀者可用把這個文件保存到pythonLib文件夾下面,這樣就可用隨時隨地導(dǎo)入了。

3.3 實(shí)戰(zhàn):利用爬取到的ip訪問CSDN博客網(wǎng)址1000次

python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊

上述出現(xiàn)那個錯誤,小編上網(wǎng)搜索了一下原因,如下:

python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊

我想應(yīng)該是第1種原因,ip被封,我這里沒有設(shè)置超時時間,應(yīng)該不會出現(xiàn)程序請求速度過快。

四、總結(jié)

上述那個ip代理模塊還有很多的不足點(diǎn),比如用它去訪問一些網(wǎng)址時,不管運(yùn)行多少次,輸出的結(jié)果狀態(tài)碼不會時200,這也正常,畢竟免費(fèi)的ip并不是每個都能用的。如果要說改進(jìn)的話,就是多爬取幾個不同ip代理網(wǎng)址,去重,這樣的結(jié)果肯定會比上述的那個ip代理模塊要好

到此這篇關(guān)于python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊的文章就介紹到這了,更多相關(guān)Python IP代理模塊內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: Python 編程
相關(guān)文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
亚洲丝袜美腿一区| 久久亚洲精品伦理| 欧美色图一区| 136国产福利精品导航网址| 久久久久国产| 国产一区导航| 蜜桃精品在线| 欧美aa在线视频| 久久99青青| 久久精品国产网站| 国产精品13p| 91精品国产乱码久久久久久久 | 久久婷婷亚洲| 日韩精品欧美| 午夜久久tv| 免费日韩一区二区| 鲁大师影院一区二区三区| 在线精品一区| 欧美亚洲专区| 国产精品三级| 免费一区二区三区在线视频| 婷婷成人综合| 亚洲精品四区| 一区久久精品| 国产亚洲精品美女久久久久久久久久| 精品五月天堂| 亚洲91网站| 久久精品国产www456c0m| 久久精品xxxxx| 久久丁香四色| 国产96在线亚洲| 久久久久久美女精品| 国产精品日本欧美一区二区三区| 桃色av一区二区| 99久久久久久中文字幕一区| 亚洲91在线| 精品日韩视频| 国产精品yjizz视频网| 综合激情在线| 一区二区三区视频免费观看| 日韩理论片av| 成人午夜网址| 成人在线网站| 国产一区二区三区四区五区 | 欧美国产中文高清| 免费黄色成人| 福利精品一区| 精品视频一二| 国产偷自视频区视频一区二区| 另类综合日韩欧美亚洲| 婷婷中文字幕一区| 亚洲精品日韩久久| 国产一区二区三区免费在线| 欧美午夜精彩| 日韩和欧美一区二区| 福利一区视频| 亚洲天堂免费| 日韩欧美在线精品| 一区二区三区四区精品视频| 国产一区白浆| 欧美亚洲专区| 蜜桃国内精品久久久久软件9| 在线日韩欧美| 亚洲一区二区日韩| av资源新版天堂在线| 97se综合| 亚洲精品四区| 日韩专区精品| 日韩一区二区三区精品视频第3页| 在线天堂中文资源最新版| 亚洲日韩视频| 在线精品亚洲欧美日韩国产| 少妇精品久久久一区二区三区| 视频二区不卡| 久久精品72免费观看| 亚洲少妇自拍| 国产精品观看| 综合激情视频| 亚洲不卡av不卡一区二区| 久久a爱视频| 亚洲一区欧美| 欧美日韩国产免费观看视频| 麻豆精品久久| 日韩一区二区三区精品视频第3页| 蜜臀av一区二区在线免费观看| 国产一区调教| 国产精品成久久久久| 欧洲精品一区二区三区| 日本午夜精品久久久| 精品免费av在线| 麻豆久久久久久| 欧美日韩一区二区三区视频播放| 国产精品成人**免费视频| 欧美日韩国产传媒| 电影91久久久| 国产精品日本一区二区不卡视频 | 香蕉精品视频在线观看| 国产精品超碰| 日韩影院精彩在线| 久久久久免费av| а√天堂8资源在线| 国产精品网址| 欧美在线观看天堂一区二区三区| 中文亚洲欧美| 日韩欧美综合| 国产劲爆久久| 国产精品乱战久久久| 蜜臀av性久久久久蜜臀aⅴ四虎| 新版的欧美在线视频| 在线视频日韩| 激情婷婷综合| 日韩中文字幕亚洲一区二区va在线| 免费精品视频最新在线| 精品久久影院| 丝袜脚交一区二区| 婷婷久久一区| 午夜久久av | 日韩精品午夜视频| 亚洲欧美日韩专区| 免费视频亚洲| av亚洲在线观看| 影视先锋久久| 久久九九99| 国产精久久久| 欧美国产亚洲精品| 久久久亚洲欧洲日产| 久久精品三级| 欧美日韩一区二区三区四区在线观看 | 国产精品99一区二区| 国产日韩亚洲| 精品亚洲a∨一区二区三区18| 成人精品动漫一区二区三区| 欧美国产另类| 精品视频高潮| 91视频久久| 日韩伦理一区| 香蕉人人精品| 国产精品嫩草99av在线| 夜久久久久久| 在线一区欧美| 蜜桃一区二区三区在线观看| 亚洲精品极品| 亚洲欧美视频| 亚洲久久视频| 国产精品一区免费在线| 久久中文字幕一区二区三区| 色欧美自拍视频| 午夜欧美巨大性欧美巨大| 国产综合精品| 一区三区视频| 色偷偷色偷偷色偷偷在线视频| 久久这里只有精品一区二区| 国产极品嫩模在线观看91精品| 久久精品国产一区二区| 欧美日韩视频免费观看| 亚洲二区视频| 热久久免费视频| 亚洲在线电影| 日本成人在线不卡视频| 夜夜嗨一区二区| 视频一区日韩精品| 国产精品蜜芽在线观看| 亚洲作爱视频| 国产精品极品国产中出| 亚洲激情不卡| 99久久www免费| 激情视频网站在线播放色| 国产精品久久| 老司机免费视频一区二区三区| 亚洲欧美一级| 亚洲精品日本| 日韩国产一二三区| 亚州av乱码久久精品蜜桃| 91日韩欧美| 久久久夜夜夜| 国产99精品一区| 黄色国产精品| 久久亚洲视频| 欧美精品国产| 国产网站在线| 欧美日韩国产综合网| 99成人在线| 蜜桃av一区二区三区电影| 日韩欧美在线精品| 日本少妇一区二区| 精品淫伦v久久水蜜桃| 婷婷成人在线| 亚洲不卡av不卡一区二区| 日韩毛片视频| 午夜国产精品视频免费体验区| 亚洲精品影院在线观看| 亚洲一区成人| 黄色欧美日韩| 日韩一二三区在线观看| 精品久久久中文字幕| 国产亚洲一级| 精品精品99| 亚洲精品精选| 丝袜美腿诱惑一区二区三区| 久久国内精品视频|