日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

python - 阿里巴巴爬蟲源碼的應用疑惑

瀏覽:169日期:2022-06-28 11:17:27

問題描述

1.目前問題:運行該py文件,沒有任何反應,請問是什么問題?2.純新手,沒接觸過py,只學完初淺的html+css。但由于公司一個項目需要搜集區域的供應商信息,想到了py爬蟲,便在一個科學怪咖的網站找到了一個爬取阿里巴巴的案例源碼3.根據案例所述,安裝好了py2.7.13、pip、selenium和火狐瀏覽器...python - 阿里巴巴爬蟲源碼的應用疑惑4.聯系了作者僅需要修改淘寶賬號密碼及搜索頁面的url即可,但是沒反應,用的是作者在git上的源碼python - 阿里巴巴爬蟲源碼的應用疑惑5.難道是要等好久好久,還是哪里出了問題?網上關于此類的問題比較少,所以特請教下6.源碼如下:

#! /usr/bin/env python# coding:utf-8from selenium import webdriverfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.common.action_chains import ActionChainsimport timeimport urllibimport urllib2import sysimport osimport reimport csvimport numpy as np# 解決中文報錯的問題reload(sys)sys.setdefaultencoding(’utf-8’)# 打開一個火狐瀏覽器driver = webdriver.Firefox()# 睡眠3秒,防止瀏覽器還沒打開就進行了其他操作time.sleep(3)# 化工商戶頁面的urlurl = ’https://s.1688.com/company/company_search.htm?’ ’keywords=%BC%E0%BF%D8&city=%C9%EE%DB%DA&province=%B9%E3%B6%AB&n=y&filt=y’# 登錄的urllogin_url = ’https://login.1688.com/member/signin.htm?’# 跳轉到登錄頁面driver.get(login_url)# 睡眠5秒,防止網速較差打不開網頁就進行了其他操作time.sleep(5)# 找到賬號登錄框的DOM節點,并且在該節點內輸入賬號driver.find_element_by_name('TPL_username').send_keys(’’)# 找到賬號密碼框的DOM節點,并且在該節點內輸入密碼driver.find_element_by_name('TPL_password').send_keys(’’)# 找到賬號登錄框的提交按鈕,并且點擊提交driver.find_element_by_name('TPL_password').send_keys(Keys.ENTER)# 睡眠5秒,防止未登錄就進行了其他操作time.sleep(5)# 跳轉到化工商戶頁面的urldriver.get(url)# 新建一個data.csv文件,并且將數據保存到csv中csvfile = file(’data.csv’, ’web’)writer = csv.writer(csvfile)# 寫入標題,我們采集企業名稱,主頁,產品,聯系人,電話和地址信息writer.writerow(( u’企業名稱’.encode(’gbk’), u’主頁’.encode(’gbk’), u’產品’.encode(’gbk’), u’聯系人’.encode(’gbk’), u’電話’.encode(’gbk’), u’地址’.encode(’gbk’)))# 構建agents防止反爬蟲user_agents = [ ’Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11’, ’Opera/9.25 (Windows NT 5.1; U; en)’, ’Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1;.NET CLR 1.1.4322; .NET CLR2.0.50727)’, ’Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5(like Gecko) (Kubuntu)’, ’Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12’, ’Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9’, 'Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chromium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7', 'Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0 ',]# 總共有100頁,使用for循環采集for page in xrange(1, 100): # 捕捉異常 try:# 獲取企業名稱列表title = driver.find_elements_by_css_selector('a[class=list-item-title-text]')# 獲取產品product = driver.find_elements_by_xpath('//p[@class='list-item-detail']/p[1]/p[1]/a[1]')# 打印長度,調試print len(title)# 定義正則匹配每條商戶pattern = re.compile(’<p class='contcat-desc'.*?>(.*?)</p>’, re.S)# 定義電話正則tel_pattern = re.compile(’<dd>(.*?)</dd>’, re.S)# 定義移動電話正則member_name_pattern = re.compile(’<a.*?class='membername'.*?>(.*?)</a>’, re.S)# 定義地址正則address_pattern = re.compile(’'address'>(.*?)</dd>’, re.S)for i in xrange(len(title)): # 獲取標題的值 title_value = title[i].get_attribute(’title’) # 獲取跳轉的url href_value = title[i].get_attribute(’href’) + ’page/contactinfo.htm’ # 獲取經營范圍 product_value = product[i].text # 隨機選擇agent進行訪問 agent = np.random.choice(user_agents) # 組建header頭部 headers = {’User-Agent’: agent, ’Accept’: ’*/*’, ’Referer’: ’http://www.google.com’} # 使用urllib2進行Request request = urllib2.Request(href_value, headers=headers) # 訪問鏈接 response = urllib2.urlopen(request) # 獲得網頁源碼 html = response.read() # 進行信息匹配 info = re.findall(pattern, html) try:info = info[0] except Exception, e:continue tel = re.findall(tel_pattern, info) try:tel = tel[0]tel = tel.strip()tel = tel.replace(’ ’, ’-’) except Exception, e:continue member_name = re.findall(member_name_pattern, html) try:member_name = member_name[0]member_name = member_name.strip() except Exception, e:continue address = re.findall(address_pattern, html) try:address = address[0]address = address.strip() except Exception, e:address = ’’ # 打印出信息,方便查看進度 print ’tel:’ + tel print ’member_name:’ + member_name data = (title_value.encode(’gbk’, ’ignore’),title[i].get_attribute(’href’),product_value.encode(’gbk’, ’ignore’),member_name,tel,address ) writer.writerow(data)js = ’var q=document.documentElement.scrollTop=30000’driver.execute_script(js)time.sleep(1)page = driver.find_elements_by_css_selector('a[class=page-next]')page = page[0]page.click()time.sleep(2) except Exception, e:print ’error’continue# 關閉csvcsvfile.close()# 關閉模擬瀏覽器driver.close()

問題解答

回答1:

前提你你裝好python之后配置好python的環境變量,也就說你在cmd命令行可以運行python命然后進到py文件所在目錄,執行

python -u alibaba.py

標簽: Python 編程
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
国产一区视频在线观看免费| 麻豆中文一区二区| 国产精品嫩草影院在线看| 色8久久久久| 欧美在线精品一区| 国产精品极品| 国产黄大片在线观看| 日产精品一区| 伊人久久婷婷| 久久国产精品亚洲77777| 日韩精品一卡二卡三卡四卡无卡| 中文字幕日韩高清在线| 久久狠狠久久| 精品入口麻豆88视频| 久久99蜜桃| 日韩一区免费| 亚洲另类黄色| 日韩一二三区在线观看| 天堂久久一区| 日韩欧美三区| 蜜臀av国产精品久久久久| 六月婷婷一区| 免费看精品久久片| 亚洲色图网站| 欧美在线看片| 国产精品99久久免费| 国产精品大片免费观看| 欧美精品不卡| 成人在线黄色| 日韩欧美国产精品综合嫩v| 久久电影tv| 精品成人免费一区二区在线播放| 亚洲1234区| 欧美精品激情| 免费成人av在线播放| 日本电影久久久| 国产欧美日韩一级| 国语对白精品一区二区| 欧美日韩视频网站| 狠狠干成人综合网| 日韩一二三区在线观看| 国产精品一区二区中文字幕| 美女精品久久| 四虎4545www国产精品 | 欧美日韩视频免费看| 高清av不卡| 少妇高潮一区二区三区99| 中文一区一区三区高中清不卡免费| 亚洲一区免费| 福利片在线一区二区| 日本欧洲一区二区| 精品视频在线一区二区在线| 99pao成人国产永久免费视频| 国产精品2023| 久久不射网站| 日韩激情av在线| 中文字幕免费精品| 国产精选在线| 日韩在线一二三区| 国产videos久久| 亚洲作爱视频| 麻豆免费精品视频| 在线视频免费在线观看一区二区| 久久国产精品色av免费看| 91精品一区二区三区综合| 蜜桃视频在线观看一区| 成人午夜在线| 亚洲精品综合| 精品亚洲美女网站| 久久精品超碰| 日本黄色精品| 先锋影音久久久| 国产日产高清欧美一区二区三区| 91精品尤物| 福利视频一区| 欧美特黄视频| 奇米亚洲欧美| 免费亚洲一区| 蘑菇福利视频一区播放| 日韩久久一区| 国产中文字幕一区二区三区| 99久久久久久中文字幕一区| 国产精品日本| 老鸭窝一区二区久久精品| 日本美女一区| 在线一区免费| 青草久久视频| 亚洲一区日韩在线| 最新国产精品| 色爱av综合网| 国产精品一区二区99| 亚洲香蕉久久| 欧美日韩水蜜桃| 国产成人免费| 久久国产乱子精品免费女| 国产精品免费看| 日韩电影免费网址| 久久精品99国产精品| 亚洲激情偷拍| 福利在线一区| 日本精品一区二区三区在线观看视频| 亚洲www啪成人一区二区| 国产精品成人自拍| 亚洲精品一二三**| 国产一区91| 午夜在线视频观看日韩17c| 蜜桃视频一区二区三区在线观看| 欧美激情国产在线| 日本aⅴ精品一区二区三区| 99精品国产一区二区三区| 国产精品久久久久毛片大屁完整版| 亚洲电影有码| 国产精品一区2区3区| 在线看片不卡| 国产激情久久| 免费视频国产一区| 成人台湾亚洲精品一区二区| 日韩精品一二三四| 欧美三区四区| 美女视频网站久久| 日本成人在线不卡视频| 亚洲天堂久久| 奇米亚洲欧美| 五月亚洲婷婷 | 国产精品嫩模av在线| 国产视频一区在线观看一区免费| 国产aa精品| 国产精品一区亚洲| 水野朝阳av一区二区三区| 亚洲国产一区二区三区在线播放| 国产高清精品二区| 亚洲日本久久| 免费久久精品视频| 亚洲专区视频| 日韩一区二区三区免费视频 | 日韩在线高清| 波多野结衣久久精品| 久久免费影院| 日韩综合一区| 久久精品官网| 久久久五月天| 欧美91精品| 在线一区免费观看| 亚洲在线成人| 亚洲少妇一区| 视频一区二区欧美| 久久亚洲二区| 精品国产亚洲一区二区三区大结局| 欧美偷窥清纯综合图区| 97久久亚洲| 亚洲欧美日韩在线观看a三区| 日韩精品一区二区三区免费观影| 福利视频一区| 动漫av一区| 麻豆精品少妇| 麻豆精品在线视频| 久久99影视| 国产精品久久久久久av公交车| 在线免费观看亚洲| 免费成人在线视频观看| 天海翼亚洲一区二区三区| 天堂av在线一区| 国产精品日韩| 老牛国产精品一区的观看方式| 日韩午夜黄色| 亚洲高清二区| 少妇精品导航| 激情国产在线| 久久精品免视看国产成人| 国产不卡人人| 亚洲黄色中文字幕| 日韩免费视频| 99精品综合| 午夜一区在线| 亚洲无线观看| 日韩欧美中文字幕电影| 久久免费影院| 日韩精品91| 99久久精品国产亚洲精品| 亚洲二区在线| 午夜日韩av| 亚洲影视一区| 日本精品久久| **爰片久久毛片| 色欧美自拍视频| 桃色av一区二区| 欧美~级网站不卡| 亚洲一区免费| 日韩精选在线| 国产欧美激情| 精品久久久网| 亚洲最新无码中文字幕久久| 亚洲一区二区三区高清| 综合国产在线| 欧美片网站免费| 国产精品第一| 五月激情久久| 日韩一区精品| 88xx成人免费观看视频库| 亚洲精品乱码久久久久久蜜桃麻豆|