文章詳情頁

Python爬蟲實現(xiàn)模擬點擊動態(tài)頁面

瀏覽：101日期：2022-08-03 18:17:33

動態(tài)頁面的模擬點擊：

以斗魚直播為例：http://www.douyu.com/directory/all

爬取每頁的房間名、直播類型、主播名稱、在線人數(shù)等數(shù)據(jù)，然后模擬點擊下一頁，繼續(xù)爬取

代碼如下

#!/usr/bin/python3# -*- coding:utf-8 -*-__author__ = ’mayi’ '''動態(tài)頁面的模擬點擊：模擬點擊斗魚直播：http://www.douyu.com/directory/all 爬取每頁房間名、直播類型、主播名稱、在線人數(shù)等數(shù)據(jù)，然后模擬點擊下一頁，繼續(xù)爬取''' from selenium import webdriverimport json # 調(diào)用環(huán)境變量指定的PhantomJS瀏覽器創(chuàng)建瀏覽器對象，executable_path：指定PhantomJS位置driver = webdriver.PhantomJS(executable_path = r'D:Program Filesphantomjsbinphantomjs')from bs4 import BeautifulSoup class DouyuSpider(object): ''' 爬蟲類 ''' def __init__(self): self.url = 'http://www.douyu.com/directory/all/' self.driver = webdriver.PhantomJS() self.file_name = open('douyu.json', 'w', encoding = 'utf-8') def run(self): ''' 爬蟲開始工作 ''' self.driver.get(self.url) # 循環(huán)處理每一頁，直至最后一頁 page = 1 start_flag = True while True: # 等待3秒，防止訪問過于頻繁 self.driver.implicitly_wait(3) print('正在處理第' + page + '頁......') page += 1 # 解析 soup = BeautifulSoup(self.driver.page_source, 'lxml') # 在線直播部分 online_live = soup.find_all(’ul’, {’id’: ’live-list-contentbox’})[0] # 房間列表 live_list = online_live.find_all(’li’) # 處理每一個房間 for live in live_list:# 房間名、直播類型、主播名稱、在線人數(shù)# 房間名home_name = live.find_all(’h3’, {’class’: ’ellipsis’})[0].get_text().strip()# 直播類型live_type = live.find_all(’span’, {’class’: ’tag ellipsis’})[0].get_text().strip()# 主播名稱anchor_name = live.find_all(’span’, {’class’: ’dy-name ellipsis fl’})[0].get_text().strip()# 在線人數(shù)online_num = live.find_all(’span’, {’class’ :’dy-num fr’})[0].get_text().strip()# print(home_name, live_type, anchor_name, online_num)item = {}item['房間名'] = home_nameitem['直播類型'] = live_typeitem['主播名稱'] = anchor_nameitem['在線人數(shù)'] = online_numif start_flag: start_flag = False content = '[n' + json.dumps(item)else: content = ',n' + json.dumps(item)self.file_name.write(content) # page_source.find()未找到內(nèi)容則返回-1 if self.driver.page_source.find(’shark-pager-disable-next’) != -1:# 已到最后一頁break # 模擬點擊下一頁 self.driver.find_element_by_class_name(’shark-pager-next’).click() # 爬蟲結(jié)束前關(guān)閉文件 self.file_name.write('n]') self.file_name.close()if __name__ == ’__main__’: douyu = DouyuSpider() douyu.run()

以上就是本文的全部內(nèi)容，希望對大家的學習有所幫助，也希望大家多多支持好吧啦網(wǎng)。

Python 編程

上一條：Python通過Tesseract庫實現(xiàn)文字識別下一條：基于Python生成個性二維碼過程詳解

相關(guān)文章：

1. 教你在 IntelliJ IDEA 中使用 VIM插件的詳細教程2. Intellij IDEA 2020.3 配置教程詳解3. Python查找不限層級Json數(shù)據(jù)中某個key或者value的路徑方式4. Java獲取文件的路徑及常見問題解決方案5. java向上轉(zhuǎn)型發(fā)生的時機知識點詳解6. Vue看了就會的8個小技巧7. Vue的全局過濾器和私有過濾器的實現(xiàn)8. 分享我的第一次java Selenium自動化測試框架開發(fā)過程9. Python監(jiān)聽剪切板實現(xiàn)方法代碼實例10. ASP.NET MVC增加一條記錄同時添加N條集合屬性所對應的個體

排行榜

					
					Intellij IDEA 2020.3 配置教程詳解
教你在 IntelliJ IDEA 中使用 VIM插件的詳細教程
java向上轉(zhuǎn)型發(fā)生的時機知識點詳解
Java獲取文件的路徑及常見問題解決方案
分享我的第一次java Selenium自動化測試框架開發(fā)過程
Vue看了就會的8個小技巧
Python查找不限層級Json數(shù)據(jù)中某個key或者value的路徑方式
Vue的全局過濾器和私有過濾器的實現(xiàn)
python實現(xiàn)數(shù)據(jù)結(jié)構(gòu)中雙向循環(huán)鏈表操作的示例
Python爬取12306車次信息代碼詳解
ASP.NET MVC增加一條記錄同時添加N條集合屬性所對應的個體