日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

python - scrapy中使用CrawlSpider,匹配不到urls

瀏覽:180日期:2022-07-18 10:45:15

問題描述

我的爬蟲代碼如下,其中rules無獲取,不知道是什么問題?

#encoding: utf-8import reimport requestsimport timefrom bs4 import BeautifulSoupimport scrapyfrom scrapy.http import Requestfrom craler.items import CralerItemimport urllib2from scrapy.spiders import CrawlSpider, Rulefrom scrapy.linkextractors import LinkExtractorfrom scrapy.contrib.linkextractors.sgml import SgmlLinkExtractorclass MoyanSpider(CrawlSpider): try:name = ’maoyan’allowed_domains = ['http://maoyan.com']start_urls = [’http://maoyan.com/films’]rules = ( Rule(LinkExtractor(allow=(r'films/d+.*')), callback=’parse_item’, follow=True),) except Exception, e:print e.message # # def start_requests(self): # for i in range(22863): # url = self.start_urls + str(i*30) # # yield Request(url,self.parse, headers=self.headers) def parse_item(self, response):item = CralerItem()# time.sleep(2)# moveis = BeautifulSoup(response.text, ’lxml’).find('p',class_='movies-list').find_all('dd') try: time.sleep(2) item[’name’] = response.find('p',class_='movie-brief-container').find('h3',class_='name').get_text() item[’score’] = response.find('p',class_='movie-index-content score normal-score').find('span',class_='stonefont').get_text() url = 'http://maoyan.com'+response.find('p',class_='channel-detail movie-item-title').find('a')['href'] #item[’url’] = url item[’id’] = response.url.split('/')[-1] # html = requests.get(url).content # soup = BeautifulSoup(html,’lxml’) temp= response.find('p','movie-brief-container').find('ul').get_text() temp = temp.split(’n’) #item[’cover’] = soup.find('p','avater-shadow').find('img')['src'] item[’tags’] = temp[1] item[’countries’] = temp[3].strip() item[’duration’] = temp[4].split(’/’)[-1] item[’time’] = temp[6] #print item[’name’] return itemexcept Exception, e: print e.message

運行報錯的提醒:

C:Python27python.exe 'C:Program Files (x86)JetBrainsPyCharm Community Edition 2016.2.2helperspydevpydevd.py' --multiproc --qt-support --client 127.0.0.1 --port 12779 --file D:/scrapy/craler/entrypoint.pypydev debugger: process 30468 is connectingConnected to pydev debugger (build 162.1967.10)D:/scrapy/cralercralerspidersmaoyan.py:12: ScrapyDeprecationWarning: Module `scrapy.contrib.linkextractors` is deprecated, use `scrapy.linkextractors` instead from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractorD:/scrapy/cralercralerspidersmaoyan.py:12: ScrapyDeprecationWarning: Module `scrapy.contrib.linkextractors.sgml` is deprecated, use `scrapy.linkextractors.sgml` instead from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor2017-05-08 21:58:14 [scrapy.utils.log] INFO: Scrapy 1.3.3 started (bot: craler)2017-05-08 21:58:14 [scrapy.utils.log] INFO: Overridden settings: {’NEWSPIDER_MODULE’: ’craler.spiders’, ’ROBOTSTXT_OBEY’: True, ’SPIDER_MODULES’: [’craler.spiders’], ’HTTPCACHE_ENABLED’: True, ’BOT_NAME’: ’craler’, ’COOKIES_ENABLED’: False, ’DOWNLOAD_DELAY’: 3}2017-05-08 21:58:14 [scrapy.middleware] INFO: Enabled extensions:[’scrapy.extensions.logstats.LogStats’, ’scrapy.extensions.telnet.TelnetConsole’, ’scrapy.extensions.corestats.CoreStats’]2017-05-08 21:58:14 [py.warnings] WARNING: D:/scrapy/cralercralermiddlewares.py:11: ScrapyDeprecationWarning: Module `scrapy.contrib.downloadermiddleware.useragent` is deprecated, use `scrapy.downloadermiddlewares.useragent` instead from scrapy.contrib.downloadermiddleware.useragent import UserAgentMiddleware2017-05-08 21:58:14 [scrapy.middleware] INFO: Enabled downloader middlewares:[’scrapy.downloadermiddlewares.retry.RetryMiddleware’, ’scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware’, ’craler.middlewares.RotateUserAgentMiddleware’, ’scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware’, ’scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware’, ’scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware’, ’scrapy.downloadermiddlewares.useragent.UserAgentMiddleware’, ’scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware’, ’scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware’, ’scrapy.downloadermiddlewares.redirect.RedirectMiddleware’, ’scrapy.downloadermiddlewares.stats.DownloaderStats’, ’scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware’]2017-05-08 21:58:15 [scrapy.middleware] INFO: Enabled spider middlewares:[’scrapy.spidermiddlewares.httperror.HttpErrorMiddleware’, ’scrapy.spidermiddlewares.offsite.OffsiteMiddleware’, ’scrapy.spidermiddlewares.referer.RefererMiddleware’, ’scrapy.spidermiddlewares.urllength.UrlLengthMiddleware’, ’scrapy.spidermiddlewares.depth.DepthMiddleware’]2017-05-08 21:58:15 [scrapy.middleware] INFO: Enabled item pipelines:[’craler.pipelines.CralerPipeline’]2017-05-08 21:58:15 [scrapy.core.engine] INFO: Spider opened2017-05-08 21:58:15 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)2017-05-08 21:58:15 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:60232017-05-08 21:58:15 [root] INFO: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)2017-05-08 21:58:15 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://maoyan.com/robots.txt> (referer: None) [’cached’]2017-05-08 21:58:15 [root] INFO: Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.502017-05-08 21:58:15 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://maoyan.com/films> (referer: None) [’cached’]2017-05-08 21:58:15 [scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to ’maoyan.com’: <GET http://maoyan.com/films/248683>2017-05-08 21:58:15 [scrapy.core.engine] INFO: Closing spider (finished)2017-05-08 21:58:15 [scrapy.statscollectors] INFO: Dumping Scrapy stats:{’downloader/request_bytes’: 534, ’downloader/request_count’: 2, ’downloader/request_method_count/GET’: 2, ’downloader/response_bytes’: 6913, ’downloader/response_count’: 2, ’downloader/response_status_count/200’: 2, ’finish_reason’: ’finished’, ’finish_time’: datetime.datetime(2017, 5, 8, 13, 58, 15, 357000), ’httpcache/hit’: 2, ’log_count/DEBUG’: 4, ’log_count/INFO’: 9, ’log_count/WARNING’: 1, ’offsite/domains’: 1, ’offsite/filtered’: 30, ’request_depth_max’: 1, ’response_received_count’: 2, ’scheduler/dequeued’: 1, ’scheduler/dequeued/memory’: 1, ’scheduler/enqueued’: 1, ’scheduler/enqueued/memory’: 1, ’start_time’: datetime.datetime(2017, 5, 8, 13, 58, 15, 140000)}2017-05-08 21:58:15 [scrapy.core.engine] INFO: Spider closed (finished)Process finished with exit code 0

問題解答

回答1:

主要是 allow_domains的問題,你的提取規則是沒問題的,代碼這樣寫就能抓鏈接了

# encoding: utf-8import timefrom tutorial.items import CrawlerItemfrom scrapy.spiders import CrawlSpider, Rulefrom scrapy.linkextractors import LinkExtractorclass MoyanSpider(CrawlSpider): name = ’maoyan’ allowed_domains = ['maoyan.com'] start_urls = [’http://maoyan.com/films’] rules = (Rule(LinkExtractor(allow=(r'films/d+.*')), callback=’parse_item’, follow=True), ) def parse_item(self, response):print(response.url)item = CrawlerItem()try: time.sleep(2) item[’name’] = response.text.find('p', class_='movie-brief-container').find('h3', class_='name').get_text() item[’score’] = response.text.find('p', class_='movie-index-content score normal-score').find('span', class_='stonefont').get_text() url = 'http://maoyan.com' + response.text.find('p', class_='channel-detail movie-item-title').find('a')['href'] item[’id’] = response.url.split('/')[-1] temp = response.text.find('p', 'movie-brief-container').find('ul').get_text() temp = temp.split(’n’) item[’tags’] = temp[1] item[’countries’] = temp[3].strip() item[’duration’] = temp[4].split(’/’)[-1] item[’time’] = temp[6] return itemexcept Exception as e: print(e)

主要就是allow_domain別帶上http://字符串。

另外,你的解析模塊有點問題,我沒給你修改,有數據了自己應該也能改。

另外,吐槽一下前面的同學,根本就沒調試人家的代碼,也這樣強答,明顯在誤導人嘛

回答2:

有幾個模塊組件已經棄用了,讓你換個別的相似模塊使用

回答3:

只是警告,沒有錯誤。可能你爬取的網站做了防爬蟲措施,導致你無法正常獲取。

標簽: Python 編程
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
久久影视一区| 成人高清一区| 99精品视频在线| 91亚洲成人| 91视频一区| 日韩精品一卡| 亚洲福利一区| 偷拍欧美精品| 久久久久国产精品一区二区| 色婷婷狠狠五月综合天色拍| 精品国模一区二区三区| 婷婷激情一区| 91精品一区二区三区综合| 欧美一区二区三区高清视频| 99精品视频在线| 国产韩日影视精品| 国产偷自视频区视频一区二区| 天堂成人国产精品一区| 麻豆高清免费国产一区| 热三久草你在线| 91亚洲国产高清| 成年男女免费视频网站不卡| 国产精品99一区二区三区| 国产精品99精品一区二区三区∴| 欧美黄色精品| 激情黄产视频在线免费观看| 成年男女免费视频网站不卡| 久久中文视频| 亚洲麻豆一区| 久久精品理论片| 99久久99久久精品国产片果冰| 性色一区二区| 欧美日韩一区二区三区四区在线观看| 国产伦精品一区二区三区视频| 国产一区二区三区黄网站 | 日韩视频网站在线观看| 国产白浆在线免费观看| 婷婷综合电影| 亚洲在线电影| 亚洲精品第一| 麻豆一区二区99久久久久| 97精品国产| 国产精品视区| 国产精品欧美日韩一区| 日韩综合精品| 一区二区电影在线观看| 麻豆极品一区二区三区| 婷婷亚洲五月| 国产一精品一av一免费爽爽| 免费一二一二在线视频| 一区二区不卡| 福利视频一区| 久久亚洲国产| 欧美综合社区国产| 日韩一区二区三区免费| 亚洲三级视频| 国产在线看片免费视频在线观看| 视频一区二区不卡| 国产成人在线中文字幕| 久久男人天堂| 涩涩涩久久久成人精品| 久久久精品区| 夜夜精品视频| 麻豆久久久久久| 国产二区精品| 国产精品第一国产精品| 亚洲精品1区2区| 久久国内精品视频| 婷婷激情久久| 国产亚洲一卡2卡3卡4卡新区| 99免费精品| 麻豆国产精品一区二区三区| 激情久久久久久| 麻豆精品蜜桃视频网站| 亚洲一级大片| 久久精品国内一区二区三区水蜜桃| 日韩午夜视频在线| 亚洲天堂成人| 国产一区二区色噜噜| 亚洲欧美日韩在线观看a三区| 日韩av有码| 国产精品一区二区三区av| 亚洲午夜电影| 日韩.com| 国产精品久久乐| 久久国产精品久久w女人spa| 日韩亚洲一区在线| 国产美女久久| 国产日韩欧美| 99久久久久国产精品| 国产suv精品一区| 国产探花一区| 亚洲一二av| 好吊日精品视频| av在线日韩| 蜜臀国产一区| 国产一区国产二区国产三区| 91精品丝袜国产高跟在线| 在线综合亚洲| 欧美日韩国产在线观看网站| 国产精选在线| 天堂8中文在线最新版在线| www.com.cn成人| 久久中文在线| 国产亚洲高清在线观看| 亚洲精品伊人| 亚洲综合精品四区| 久久网站免费观看| 韩国精品主播一区二区在线观看| 精品国产中文字幕第一页| 久久精品xxxxx| 欧美片第1页综合| 亚洲日本免费电影| 免费看日韩精品| 水蜜桃久久夜色精品一区的特点| 午夜免费一区| 国内精品福利| 国产韩日影视精品| 9久re热视频在线精品| 樱桃成人精品视频在线播放| 国产综合精品一区| 精品三级av| 综合一区av| 蜜臀a∨国产成人精品| 亚洲激情婷婷| 国产美女一区| 性色一区二区| 亚洲激精日韩激精欧美精品| 国产精品91一区二区三区| 久久精品亚洲人成影院| 久久天堂av| 99视频精品全国免费| 婷婷综合五月| 美女国产一区| 少妇高潮一区二区三区99| 欧美另类中文字幕| 欧美激情网址| 国产一区二区三区黄网站| 日韩综合精品| 日韩视频一区二区三区在线播放免费观看| 一区二区亚洲精品| 自拍自偷一区二区三区| 欧美影院精品| 国产精品一国产精品| 欧美激情 亚洲a∨综合| 超碰在线99| 亚洲精品一区二区妖精| 亚洲欧美久久| 日韩综合一区二区| 国产日韩精品视频一区二区三区| 欧美国产专区| 国产亚洲一区二区手机在线观看 | 99久久久久| 欧美日韩激情| 中文一区一区三区免费在线观| 日韩一区二区三区免费视频| 久久gogo国模啪啪裸体| 蜜臀国产一区| 老色鬼久久亚洲一区二区| 欧美日本久久| 欧美日韩精品免费观看视欧美高清免费大片| 欧美1区免费| 日韩1区2区3区| 福利精品在线| 国产精品人人爽人人做我的可爱| 69堂免费精品视频在线播放| 国产一区精品福利| 自由日本语亚洲人高潮| 日韩精品三级| 欧美国产极品| 国内亚洲精品| 日本免费新一区视频| 精品一区二区三区在线观看视频| 日韩成人a**站| 国产亚洲高清视频| 美腿丝袜在线亚洲一区| 欧洲激情综合| 国产一区三区在线播放| 国产视频一区在线观看一区免费| 国产精品s色| 欧美午夜不卡| 久久精品色播| 中文视频一区| 精品欧美视频| 99热精品在线| 欧美韩一区二区| 97se综合| 国产一区调教| 亚洲视频www| 久久99精品久久久久久园产越南| 蜜桃av在线播放| 亚洲一级大片| 国产精品蜜芽在线观看| 蜜臀av一区二区在线免费观看 | 国内精品亚洲| 首页国产欧美久久| 国产精品三p一区二区| 欧美日韩第一| 国产一区福利| 日韩在线电影|