日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

python 開心網和豆瓣日記爬取的小爬蟲

瀏覽:283日期:2022-06-14 16:53:22
目錄項目地址:開心網日記爬取使用代碼豆瓣日記爬取使用代碼Roadmap項目地址:

https://github.com/aturret/python-crawler-exercise

用到了BeautifulSoup4,請先安裝。

pip install beautifulsoup4開心網日記爬取

kaixin001.py

使用

登錄開心網,瀏覽器F12看http請求的header,獲取自己的cookie。

填寫cookie,要爬的日記的url,要爬的總次數。走你。

之后會生成HTML文件,格式是<:title>-<YYYYMMDDHHMMSS>

代碼

# -*- coding: utf-8 -*-from urllib.request import urlopenimport urllib.requestimport urllib.parse #為了獲取HTTP responsefrom bs4 import BeautifulSoup #BS4import string # 為了去掉空白字符import time # 防止被殺cookieimport unicodedata # 字符修正# 在這里放第一個鏈接urlx = ’鏈接’ #寫你想爬的文def request(url): global urlx #引用外面的鏈接作為全局變量,后面還會取下一個進行循環的# 使用urllib庫提交cookie獲取http響應 headers = { ’GET https’:url, ’Host’:’ www.kaixin001.com’, ’Connection’:’ keep-alive’, ’Upgrade-Insecure-Requests’:’ 1’, ’User-Agent’:’ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36’, ’Accept’:’ application/json, text/javascript, */*; q=0.01’, ’Accept-Language’:’ zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7’, ’Cookie’:’ ’, #改成自己的cookie,自己瀏覽器打開網站F12調試,自己找http請求的header } request = urllib.request.Request(url=url,headers=headers) response = urllib.request.urlopen(request) contents = response.read()# 使用BS4獲得所有HTMLtag bsObj = BeautifulSoup(contents,'html.parser')# 使用BS4的find函數得到想要的東西:標題、發表時間和博客正文 title = bsObj.find('b', attrs={'class':'f14'}) titleT = bsObj.find('b', attrs={'class':'f14'}).get_text() #開心網日記的標題是一個b標簽,class屬性值是f14 date = bsObj.find('span', attrs={'class':'c6'}) dateT = bsObj.find('span', attrs={'class':'c6'}).get_text() #開心網日記的發表時間是一個span標簽,class屬性值是c6 text = bsObj.find('div', attrs={'class':'textCont'}) textT = bsObj.find('div', attrs={'class':'textCont'}).get_text() #開心網日記的正文是一個div標簽,class屬性值是textCont # 測試輸出 print(title) print(dateT) # print(text) # 生成HTML文件。這里直接用file.open()和file.write()了,也可以用jinja2之類的框架生成。 remove = string.whitespace+string.punctuation table = str.maketrans(’:’,’:’,remove) fileTitle=str(titleT).replace(’:’,’:’).replace(’’’'’’’,’’’“’’’)+’-’+str(dateT).translate(table).replace(’發表’,’’)+’.html’ print(fileTitle) #測試輸出 f = open(fileTitle,’w’,encoding='utf-8') #注意用utf-8編碼寫入,不然會因為一些舊博文采用的gbk編碼不兼容而出問題。# 寫入message message = ''' <html> <head></head> <body> <h1>%s</h1> <b>%s</b> <br></br> %s </body> </html>'''%(title.get_text(),date.get_text(),unicodedata.normalize(’NFD’,text.prettify())) f.write(message) f.close() # webbrowser.open(fileTitle,new = 1) # 定位下一篇博文的URL nextUrl=bsObj.find('a',text='下一篇 >').attrs['href'] #下一篇是一個a標簽,使用tag對象的attrs屬性取href屬性的值。開心網的日記系統里,如果到了最后一篇日記,下一篇的鏈接內容是第一篇日記,所以不用擔心從哪篇日記開始爬。 # print(nextUrl) urlx='http://www.kaixin001.com'+nextUrl print(urlx)# 主循環,給爺爬num=328 #設定要爬多少次。其實也可以寫個數組檢測重復然后中止的啦,但我懶得弄了。for a in range(num): request(urlx)print(’We get ’+str(a+1)+’ in ’+str(num)) time.sleep(1) # 慢點,慢點。測試過程中出現了沒有設置限制爬一半cookie失效了的情況,可能是太快了被搞了。豆瓣日記爬取

douban.py

使用

登錄豆瓣,瀏覽器F12看http請求的header,獲取自己的cookie。

填寫變量COOKIE,要爬的日記頁的url。走你。

之后會生成HTML文件,格式是<:title>-<YYYYMMDDHHMMSS>

代碼

# -*- coding: utf-8 -*-from urllib.request import urlopenimport urllib.requestimport urllib.parse #為了獲取HTTP responsefrom bs4 import BeautifulSoup #BS4import string # 為了去掉空白字符import unicodedata # 字符修正import re# 在這里放鏈接url = ’’ #寫你想爬的人 https://www.douban.com/people/xxx/notes 這樣COOKIE = ’’def request(urlx): global url #引用外面的鏈接作為全局變量,后面還會取下一個進行循環的 global boolean global COOKIE# 使用urllib庫提交cookie獲取http響應 headers = { ’GET https’:urlx, ’Host’:’ www.douban.com’, ’Connection’:’ keep-alive’, ’Upgrade-Insecure-Requests’:’ 1’, ’User-Agent’:’ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36’, ’Accept’:’ application/json, text/javascript, */*; q=0.01’, ’Accept-Language’:’ zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7’, ’Cookie’:COOKIE, #改成自己的cookie,自己瀏覽器打開網站F12調試,自己找http請求的header } request = urllib.request.Request(url=urlx,headers=headers) response = urllib.request.urlopen(request) contents = response.read()# 使用BS4獲得所有HTMLtag bsObj = BeautifulSoup(contents,'html.parser')# 使用BS4的find函數獲取當前頁面的所有日記鏈接 article = bsObj.find('div', attrs={'class':'article'}) titleSet = article.findAll('h3') # print(titleSet) for title in titleSet:titleText = title.findAll('a',attrs={'class':'j a_unfolder_n'})for link in titleText: noteUrl = str(link.attrs['href']) print(noteUrl) requestSinglePage(noteUrl) next = bsObj.find('a',text='后頁>') if next==None:print('結束了')boolean=1 else:url = str(next.attrs['href']).replace('&type=note','')print(url)def requestSinglePage(urly): global COOKIE headers = {’GET https’:urly,’Host’:’ www.douban.com’,’Connection’:’ keep-alive’,’Upgrade-Insecure-Requests’:’ 1’,’User-Agent’:’ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36’,’Accept’:’ application/json, text/javascript, */*; q=0.01’,’Accept-Language’:’ zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7’,’Cookie’:COOKIE, #改成自己的cookie,自己瀏覽器打開網站F12調試,自己找http請求的header } request = urllib.request.Request(url=urly,headers=headers) response = urllib.request.urlopen(request) contents = response.read() # 使用BS4獲得所有HTMLtag bsObj = BeautifulSoup(contents,'html.parser')# 使用BS4的find函數得到想要的東西:標題、發表時間和博客正文 title = bsObj.find('h1').get_text() date = bsObj.find('span', attrs={'class':'pub-date'}) dateT = bsObj.find('span', attrs={'class':'pub-date'}).get_text() text = bsObj.find('div', attrs={'id':'link-report'}) # textT = bsObj.find('div', attrs={'class':'textCont'}).get_text()# 測試輸出 print(title) print(dateT) # 生成HTML文件。這里直接用file.open()和file.write()了,也可以用jinja2之類的框架生成。 remove = string.whitespace+string.punctuation # 去掉日期的標點符號 table = str.maketrans(’:’,’:’,remove) fileTitle=str(title)+’-’+str(dateT).translate(table)+’.html’ print(fileTitle) #測試輸出 f = open(fileTitle,’w’,encoding='utf-8') #注意用utf-8編碼寫入,不然會因為一些舊博文采用的gbk編碼不兼容而出問題。 # 寫入message message = ''' <html> <head></head> <body> <h1>%s</h1> <b>%s</b> <br></br> %s </body> </html>'''%(title,dateT,unicodedata.normalize(’NFD’,text.prettify())) f.write(message) f.close()# 主循環,給爺爬boolean=0while(boolean==0): a=1 request(url) print(’We finished page ’+str(a)+’ .’) a+=1Roadmap

豆瓣四月份時候還有bug,手機端可以看到全部日記,半年隱藏無效。最近修好了。

不過現在的隱藏依然沒有針對到具體的日記,或許可以想辦法通過其他手段爬下來。

以上就是python 開心網日記爬取的示例步驟的詳細內容,更多關于python 開心網日記爬取的資料請關注好吧啦網其它相關文章!

相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
国产亚洲精aa在线看| 精品三级久久久| 日韩在线第七页| 91精品国产自产在线丝袜啪| 蜜桃av一区二区在线观看| 国产91久久精品一区二区| 国产在线看片免费视频在线观看| 精品网站999| 精品国产第一福利网站| 国产一区二区三区久久| 欧美激情另类| 亚洲一级二级| 国产一区二区三区天码| 日韩一区自拍| 99热免费精品| 亚洲+小说+欧美+激情+另类| 国产欧美日韩在线观看视频| 日韩国产欧美三级| 亚洲18在线| 欧美一区91| 久久精品九色| 999国产精品视频| 一本色道精品久久一区二区三区| 狠狠色综合网| 免费在线看一区| 国产精品国码视频| 激情视频网站在线播放色| 久久麻豆视频| 亚洲先锋成人| 亚洲3区在线| 欧美成人一二区| 日本黄色精品| 一本一道久久a久久精品蜜桃| 免费久久99精品国产| 国产欧美精品久久| 亚洲精品成人图区| 蜜臀av国产精品久久久久| 久久精品国产999大香线蕉| 激情丁香综合| 国产日韩欧美一区在线| 成人福利av| 亚洲精品人人| 亚洲精品极品| 精品国产不卡| 香蕉成人av| 亚洲精品系列| 亚洲欧洲国产精品一区| 精品视频久久| 一区二区三区网站| 国内自拍视频一区二区三区| 亚洲视频www| 国产一区二区三区四区| 久久亚洲色图| 波多野结衣久久精品| 亚洲一二三区视频| 夜鲁夜鲁夜鲁视频在线播放| 日产欧产美韩系列久久99| 国产欧美日韩在线观看视频| 激情视频一区二区三区| 国产欧美综合一区二区三区| 欧美精品一二| 精品国产欧美| 日本成人在线网站| 免费视频一区三区| 老牛国内精品亚洲成av人片| 久久夜色精品| 日韩免费av| 国产精品hd| 香蕉久久国产| 92国产精品| 国产精品毛片aⅴ一区二区三区| 黄页网站一区| 国产亚洲久久| 久久亚洲精品伦理| 五月天久久777| 久久久久久色 | 精品一区三区| 国产精品分类| 日韩高清电影免费| 好看的av在线不卡观看| 欧美日韩99| 蜜臀91精品一区二区三区| 久久婷婷激情| 欧美伊人影院| 亚洲一区有码| 丝袜亚洲另类欧美| 偷拍欧美精品| 精品一区免费| 婷婷综合网站| 亚洲大全视频| 午夜欧美在线| 九一精品国产| 精品欧美激情在线观看| 久久激情一区| 国产一区亚洲| 黄色成人91| 久色成人在线| 天堂精品久久久久| 国产高清久久| 爽好久久久欧美精品| 综合色一区二区| 日本va欧美va瓶| 久久国内精品自在自线400部| 欧美日韩中出| 国产欧美激情| 国产成人精选| 亚洲播播91| 免费精品国产的网站免费观看| 宅男在线一区| 亚洲精品伊人| 国产精品一区二区免费福利视频| 欧美1区二区| 久久精品国产99国产精品| 欧美三区不卡| 国产在线日韩精品| 四虎4545www国产精品 | 欧美日韩亚洲一区| 国产精品午夜av| 久久香蕉网站| 99久久精品费精品国产| 亚洲免费高清| 国产亚洲在线观看| 亚洲九九精品| 九九九精品视频| 亚洲成av人片一区二区密柚| 在线日韩av| 亚洲丝袜啪啪| 欧美另类中文字幕 | 久久亚洲人体| 亚洲精品永久免费视频| 亚洲成人一区| 日本成人中文字幕| 日韩精品国产欧美| 久久精品一区二区国产| 一本大道色婷婷在线| 亚洲免费激情| 日韩亚洲精品在线观看| 欧美激情99| 91精品一区二区三区综合在线爱| 国产亚洲精品久久久久婷婷瑜伽| 亚洲tv在线| 国产一区二区三区国产精品| 久久精品在线| 蜜桃视频在线观看一区二区| 国产精品久久久久9999高清| 欧美成人基地| 亚洲一区网站| 亚洲欧美日韩综合国产aⅴ| 亚洲精品成a人ⅴ香蕉片| 国产区精品区| 欧美+亚洲+精品+三区| 日日摸夜夜添夜夜添国产精品| 久久精品国产亚洲aⅴ| 欧洲激情综合| 日本一区福利在线| 日韩免费在线| 日本成人中文字幕在线视频| 四虎国产精品免费观看| 亚洲作爱视频| 国产精品亲子伦av一区二区三区 | 久久精品xxxxx| 亚洲黄色网址| 青青国产91久久久久久| 五月激情久久| 91欧美精品| 久久久久国产| 欧美日韩一区二区三区四区在线观看 | 日本欧美国产| 蜜臀av免费一区二区三区| 日本aⅴ免费视频一区二区三区| 日韩午夜视频在线| 裤袜国产欧美精品一区| 在线亚洲国产精品网站| 你懂的国产精品永久在线| 国产精品嫩草99av在线| 精品久久91| 亚洲综合色婷婷在线观看| 亚洲精品**中文毛片| 日韩高清电影免费| 亚洲免费成人| 韩国精品主播一区二区在线观看 | 欧美日韩激情| 精品三级在线观看视频| 亚洲精品日韩久久| 亚洲激情五月| 高潮一区二区| 欧美国产不卡| 中文字幕亚洲精品乱码| 宅男在线一区| 日韩另类视频| 日韩.com| 国产福利亚洲| 日本麻豆一区二区三区视频| 丁香婷婷久久| 免费观看亚洲天堂| 欧美日韩午夜| 中文不卡在线| 91精品99| 欧美亚洲精品在线| 欧美一级鲁丝片|