日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

python - 為什么我直接用requests爬網頁可以,但用scrapy不行?

瀏覽:187日期:2022-08-01 18:26:46

問題描述

class job51(): def __init__(self):self.headers={ ’Accept’: ’text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8’, ’Accept-Encoding’:’gzip, deflate, sdch’, ’Accept-Language’: ’zh-CN,zh;q=0.8’, ’Cache-Control’: ’max-age=0’, ’User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36’, ’Cookie’:’’} def start(self):html=session.get('http://my.51job.com/cv/CResume/CV_CResumeManage.php',headers=self.headers)self.parse(html) def parse(self,response):tree=lxml.etree.HTML(response.text)resume_url=tree.xpath(’//tbody/tr[@class='resumeName']/td[1]/a/@href’)print (resume_url[0]

能爬到我想要的結果,就是簡歷的url,但是用scrapy,同樣的headers,頁面好像停留在登錄頁面?

class job51(Spider): name = 'job51' #allowed_domains = ['my.51job.com'] start_urls = ['http://my.51job.com/cv/CResume/CV_CResumeManage.php'] headers={ ’Accept’: ’text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8’, ’Accept-Encoding’:’gzip, deflate, sdch’, ’Accept-Language’: ’zh-CN,zh;q=0.8’, ’Cache-Control’: ’max-age=0’, ’User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36’, ’Cookie’:’’} def start_requests(self):yield Request(url=self.start_urls[0],headers=self.headers,callback=self.parse) def parse(self,response):#tree=lxml.etree.HTML(text)selector=Selector(response)print ('<<<<<<<<<<<<<<<<<<<<<',response.text)resume_url=selector.xpath(’//tr[@class='resumeName']/td[1]/a/@href’)print ('>>>>>>>>>>>>',resume_url)

輸出的結果:

scrapy.utils.log] INFO: Overridden settings: {’BOT_NAME’: ’job51’, ’SPIDER_MODULES’: [’job51.spiders’], ’ROBOTSTXT_OBEY’: True, ’NEWSPIDER_MODULE’: ’job51.spiders’}2017-04-11 10:58:31 [scrapy.middleware] INFO: Enabled extensions:[’scrapy.extensions.logstats.LogStats’, ’scrapy.extensions.corestats.CoreStats’, ’scrapy.extensions.telnet.TelnetConsole’]2017-04-11 10:58:32 [scrapy.middleware] INFO: Enabled downloader middlewares:[’scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware’, ’scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware’, ’scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware’, ’scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware’, ’scrapy.downloadermiddlewares.useragent.UserAgentMiddleware’, ’scrapy.downloadermiddlewares.retry.RetryMiddleware’, ’scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware’, ’scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware’, ’scrapy.downloadermiddlewares.redirect.RedirectMiddleware’, ’scrapy.downloadermiddlewares.cookies.CookiesMiddleware’, ’scrapy.downloadermiddlewares.stats.DownloaderStats’]2017-04-11 10:58:32 [scrapy.middleware] INFO: Enabled spider middlewares:[’scrapy.spidermiddlewares.httperror.HttpErrorMiddleware’, ’scrapy.spidermiddlewares.offsite.OffsiteMiddleware’, ’scrapy.spidermiddlewares.referer.RefererMiddleware’, ’scrapy.spidermiddlewares.urllength.UrlLengthMiddleware’, ’scrapy.spidermiddlewares.depth.DepthMiddleware’]2017-04-11 10:58:32 [scrapy.middleware] INFO: Enabled item pipelines:[]2017-04-11 10:58:32 [scrapy.core.engine] INFO: Spider opened2017-04-11 10:58:32 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)2017-04-11 10:58:32 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:60232017-04-11 10:58:33 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://my.51job.com/robots.txt> (referer: None)2017-04-11 10:58:33 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://my.51job.com/cv/CResume/CV_CResumeManage.php> (referer: None)<<<<<<<<<<<<<<<<<<<<< <script>window.location=’https://login.51job.com/login.php?url=http://my.51job.com%2Fcv%2FCResume%2FCV_CResumeManage.php%3F7087’;</script>>>>>>>>>>>>> []2017-04-11 10:58:33 [scrapy.core.scraper] ERROR: Spider error processing <GET http://my.51job.com/cv/CResume/CV_CResumeManage.php> (referer: None)Traceback (most recent call last): File 'd:python35libsite-packagesscrapyutilsdefer.py', line 102, in iter_errback yield next(it) File 'd:python35libsite-packagesscrapyspidermiddlewaresoffsite.py', line 29, in process_spider_output for x in result: File 'd:python35libsite-packagesscrapyspidermiddlewaresreferer.py', line 22, in <genexpr> return (_set_referer(r) for r in result or ()) File 'd:python35libsite-packagesscrapyspidermiddlewaresurllength.py', line 37, in <genexpr> return (r for r in result or () if _filter(r)) File 'd:python35libsite-packagesscrapyspidermiddlewaresdepth.py', line 58, in <genexpr> return (r for r in result or () if _filter(r)) File 'E:WorkGitRespspiderjob51job51spiders51job_resume.py', line 43, in parse yield Request(resume_url[0],headers=self.headers,callback=self.getResume) File 'd:python35libsite-packagesparselselector.py', line 58, in __getitem__ o = super(SelectorList, self).__getitem__(pos)IndexError: list index out of range2017-04-11 10:58:33 [scrapy.core.engine] INFO: Closing spider (finished)2017-04-11 10:58:33 [scrapy.statscollectors] INFO: Dumping Scrapy stats:{’downloader/request_bytes’: 628, ’downloader/request_count’: 2, ’downloader/request_method_count/GET’: 2, ’downloader/response_bytes’: 5743, ’downloader/response_count’: 2, ’downloader/response_status_count/200’: 1, ’downloader/response_status_count/404’: 1, ’finish_reason’: ’finished’, ’finish_time’: datetime.datetime(2017, 4, 11, 2, 58, 33, 275634), ’log_count/DEBUG’: 3, ’log_count/ERROR’: 1, ’log_count/INFO’: 7, ’response_received_count’: 2, ’scheduler/dequeued’: 1, ’scheduler/dequeued/memory’: 1, ’scheduler/enqueued’: 1, ’scheduler/enqueued/memory’: 1, ’spider_exceptions/IndexError’: 1, ’start_time’: datetime.datetime(2017, 4, 11, 2, 58, 32, 731603)}2017-04-11 10:58:33 [scrapy.core.engine] INFO: Spider closed (finished)

問題解答

回答1:

看log是404了,你看看scrapy設定那里有沒把重定向禁止了。

回答2:

<script>window.location=’https://login.51job.com/login.php?url=http://my.51job.com%2Fcv%2FCResume%2FCV_CResumeManage.php%3F7087’;</script>

從這里可以看到你用scrapy寫的爬蟲被重定向到登陸頁面了。所以會報錯。建議你在用requests和用scrapy請求的時候抓一下包,看看它的響應內容,并且看看它們的request headers是不是完全相同。我懷疑可能是cookie過期了,要么scrapy可能不是這樣傳cookie.我對scrapy不是特別熟悉,不過看問題應該是出在cookie這塊了

回答3:

你用的session請求的,實際的request header估計已經戴上了cookie了,所以還是像樓上說的對比請求header吧

標簽: Python 編程
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
亚洲一级淫片| 久久亚洲黄色| 亚洲成人不卡| 激情综合自拍| 免费日韩av片| 欧美日韩一区二区三区在线电影| 国产探花一区二区| 亚洲国产成人二区| 婷婷色综合网| 日本三级亚洲精品| 91视频久久| 久久久蜜桃一区二区人| 亚洲欧美日韩国产| 国产精品第一国产精品| 伊伊综合在线| 好吊日精品视频| 日韩av不卡一区二区| 福利视频一区| 视频一区免费在线观看| 国产日韩欧美三级| 韩国女主播一区二区三区| 亚洲国产日韩欧美在线| 国产欧美日韩精品一区二区三区| 国产一区二区三区探花| 91精品1区| 欧美日本二区| 精品国产精品国产偷麻豆| 不卡中文一二三区| 国产精品毛片视频| jiujiure精品视频播放| 国产美女久久| 欧美精品一区二区久久| 91精品一区| 欧美 日韩 国产精品免费观看| 涩涩涩久久久成人精品| a日韩av网址| 婷婷综合一区| 国产美女高潮在线| 少妇精品在线| 亚洲天堂黄色| 精品视频亚洲| 国产精品毛片在线| 国产一区丝袜| 亚洲精品动态| 999久久久亚洲| 国产精品蜜月aⅴ在线| 99国产精品| 亚洲美女久久精品| 国产精品视频一区视频二区| 日韩视频在线一区二区三区 | 国产日韩一区二区三免费高清| xxxxx性欧美特大| 欧美亚洲tv| 亚洲激情另类| 日本韩国欧美超级黄在线观看| 日本aⅴ亚洲精品中文乱码| 日韩午夜免费| 欧美日韩水蜜桃| 国产精品久久久久久久久久10秀| 日韩精品成人| 亚洲欧美日韩视频二区| 日韩精品看片| 精品少妇av| 视频一区日韩精品| 在线亚洲观看| 欧美中文一区二区| av日韩中文| 免费在线播放第一区高清av| 天堂va欧美ⅴa亚洲va一国产| 亚洲午夜av| 日韩一区二区三区免费播放| 欧美国产先锋| 国产精品久久久网站| 日韩精品高清不卡| 亚洲视频国产| 男女性色大片免费观看一区二区 | 国产欧美日韩精品高清二区综合区 | 久久天堂影院| 欧美日韩午夜| 亚洲经典在线| 欧美jjzz| 成人免费电影网址| 国产精品高颜值在线观看| 国产精品成人3p一区二区三区| 中文字幕一区二区三区日韩精品| 一区三区视频| 国产精品日韩| 欧美资源在线| 在线看片日韩| 日本在线成人| 欧美一区自拍| 国产精品一区三区在线观看| 国产精品一区免费在线| 国产精品v亚洲精品v日韩精品| 日韩精品亚洲专区| 日本91福利区| 国产精品美女午夜爽爽| 欧美激情麻豆| 久久的色偷偷| 福利片在线一区二区| 97在线精品| 亚洲天堂久久| 亚洲欧美久久久| 日本久久一区| 九九九精品视频| 人在线成免费视频| 久久久久99| 午夜宅男久久久| 日韩成人精品一区二区三区| 日本免费一区二区视频| 国产欧美69| 久久国产免费| 亚洲午夜国产成人| 国产情侣久久| 麻豆国产在线| 亚洲综合精品| 国产调教精品| 电影天堂国产精品| 亚洲激情社区| 日本精品另类| 国产激情在线播放| 欧美在线资源| 国产精品igao视频网网址不卡日韩| 国产综合视频| 婷婷综合在线| 色在线中文字幕| 中文字幕高清在线播放| 一区免费在线| 国产成人免费| 欧美1级日本1级| 日欧美一区二区| 丰满少妇一区| 性色一区二区| 精品国产三区在线| 欧美va天堂在线| 欧美日韩中出| 久久九九国产| 成人午夜网址| 日韩中文字幕一区二区三区| 综合欧美亚洲| 成人高清一区| 最新亚洲国产| 天堂а√在线最新版中文在线| 亚洲少妇自拍| 久久精品国产99国产精品| 国产自产自拍视频在线观看| 精品亚洲精品| 亚洲www啪成人一区二区| 日韩精品一二区| 国产66精品| 免费在线看一区| av免费不卡国产观看| 日韩欧美激情| 国产99久久| 欧美一区影院| 美女少妇全过程你懂的久久| 18国产精品| 欧美特黄视频| 精品高清久久| 日韩av成人高清| 一本色道精品久久一区二区三区| 老司机精品视频在线播放| 亚洲一区二区成人| 日韩久久精品网| 欧美视频一区| 免费人成在线不卡| 久久精品国产www456c0m| 久久97久久97精品免视看秋霞| 蜜臀精品久久久久久蜜臀| 国产suv精品一区二区四区视频| 天堂精品久久久久| 亚洲精品在线观看91| 成人一二三区| 欧美精品1区| 国产婷婷精品| 久久久久久久久久久妇女 | 日韩在线观看中文字幕| 91在线成人| 国产欧美日韩免费观看| 国产精品精品国产一区二区| 欧美亚洲一区二区三区| 午夜亚洲一区| 国产精品yjizz视频网| 久久国产麻豆精品| 午夜亚洲福利| 视频一区二区三区在线| 999久久久精品国产| 国产成人精品三级高清久久91| 国产视频一区二| 日韩精品国产精品| 免费观看在线综合色| 亚洲激情不卡| 国产免费成人| 蜜臀久久久99精品久久久久久| 午夜精品免费| 亚洲激情精品| 99视频在线精品国自产拍免费观看| 日韩在线高清| 三上悠亚国产精品一区二区三区| 成人在线视频区|