日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

Python爬蟲實戰之使用Scrapy爬取豆瓣圖片

瀏覽:240日期:2022-06-14 16:32:24
使用Scrapy爬取豆瓣某影星的所有個人圖片

以莫妮卡·貝魯奇為例

Python爬蟲實戰之使用Scrapy爬取豆瓣圖片

1.首先我們在命令行進入到我們要創建的目錄,輸入 scrapy startproject banciyuan 創建scrapy項目

創建的項目結構如下

Python爬蟲實戰之使用Scrapy爬取豆瓣圖片

2.為了方便使用pycharm執行scrapy項目,新建main.py

from scrapy import cmdlinecmdline.execute('scrapy crawl banciyuan'.split())

再edit configuration

Python爬蟲實戰之使用Scrapy爬取豆瓣圖片

然后進行如下設置,設置后之后就能通過運行main.py運行scrapy項目了

Python爬蟲實戰之使用Scrapy爬取豆瓣圖片

3.分析該HTML頁面,創建對應spider

Python爬蟲實戰之使用Scrapy爬取豆瓣圖片

from scrapy import Spiderimport scrapyfrom banciyuan.items import BanciyuanItemclass BanciyuanSpider(Spider): name = ’banciyuan’ allowed_domains = [’movie.douban.com’] start_urls = ['https://movie.douban.com/celebrity/1025156/photos/'] url = 'https://movie.douban.com/celebrity/1025156/photos/' def parse(self, response):num = response.xpath(’//div[@class='paginator']/a[last()]/text()’).extract_first(’’)print(num)for i in range(int(num)): suffix = ’?type=C&start=’ + str(i * 30) + ’&sortby=like&size=a&subtype=a’ yield scrapy.Request(url=self.url + suffix, callback=self.get_page) def get_page(self, response):href_list = response.xpath(’//div[@class='article']//div[@class='cover']/a/@href’).extract()# print(href_list)for href in href_list: yield scrapy.Request(url=href, callback=self.get_info) def get_info(self, response):src = response.xpath( ’//div[@class='article']//div[@class='photo-show']//div[@class='photo-wp']/a[1]/img/@src’).extract_first(’’)title = response.xpath(’//div[@id='content']/h1/text()’).extract_first(’’)# print(response.body)item = BanciyuanItem()item[’title’] = titleitem[’src’] = [src]yield item

4.items.py

# Define here the models for your scraped items## See documentation in:# https://docs.scrapy.org/en/latest/topics/items.htmlimport scrapyclass BanciyuanItem(scrapy.Item): # define the fields for your item here like: src = scrapy.Field() title = scrapy.Field()

pipelines.py

# Define your item pipelines here## Don’t forget to add your pipeline to the ITEM_PIPELINES setting# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html# useful for handling different item types with a single interfacefrom itemadapter import ItemAdapterfrom scrapy.pipelines.images import ImagesPipelineimport scrapyclass BanciyuanPipeline(ImagesPipeline): def get_media_requests(self, item, info):yield scrapy.Request(url=item[’src’][0], meta={’item’: item}) def file_path(self, request, response=None, info=None, *, item=None):item = request.meta[’item’]image_name = item[’src’][0].split(’/’)[-1]# image_name.replace(’.webp’, ’.jpg’)path = ’%s/%s’ % (item[’title’].split(’ ’)[0], image_name)return path

settings.py

# Scrapy settings for banciyuan project## For simplicity, this file contains only settings considered important or# commonly used. You can find more settings consulting the documentation:## https://docs.scrapy.org/en/latest/topics/settings.html# https://docs.scrapy.org/en/latest/topics/downloader-middleware.html# https://docs.scrapy.org/en/latest/topics/spider-middleware.htmlBOT_NAME = ’banciyuan’SPIDER_MODULES = [’banciyuan.spiders’]NEWSPIDER_MODULE = ’banciyuan.spiders’# Crawl responsibly by identifying yourself (and your website) on the user-agentUSER_AGENT = {’User-Agent’:’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36’}# Obey robots.txt rulesROBOTSTXT_OBEY = False# Configure maximum concurrent requests performed by Scrapy (default: 16)#CONCURRENT_REQUESTS = 32# Configure a delay for requests for the same website (default: 0)# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay# See also autothrottle settings and docs#DOWNLOAD_DELAY = 3# The download delay setting will honor only one of:#CONCURRENT_REQUESTS_PER_DOMAIN = 16#CONCURRENT_REQUESTS_PER_IP = 16# Disable cookies (enabled by default)#COOKIES_ENABLED = False# Disable Telnet Console (enabled by default)#TELNETCONSOLE_ENABLED = False# Override the default request headers:#DEFAULT_REQUEST_HEADERS = {# ’Accept’: ’text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8’,# ’Accept-Language’: ’en’,#}# Enable or disable spider middlewares# See https://docs.scrapy.org/en/latest/topics/spider-middleware.html#SPIDER_MIDDLEWARES = {# ’banciyuan.middlewares.BanciyuanSpiderMiddleware’: 543,#}# Enable or disable downloader middlewares# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#DOWNLOADER_MIDDLEWARES = {# ’banciyuan.middlewares.BanciyuanDownloaderMiddleware’: 543,#}# Enable or disable extensions# See https://docs.scrapy.org/en/latest/topics/extensions.html#EXTENSIONS = {# ’scrapy.extensions.telnet.TelnetConsole’: None,#}# Configure item pipelines# See https://docs.scrapy.org/en/latest/topics/item-pipeline.htmlITEM_PIPELINES = { ’banciyuan.pipelines.BanciyuanPipeline’: 1,}IMAGES_STORE = ’./images’# Enable and configure the AutoThrottle extension (disabled by default)# See https://docs.scrapy.org/en/latest/topics/autothrottle.html#AUTOTHROTTLE_ENABLED = True# The initial download delay#AUTOTHROTTLE_START_DELAY = 5# The maximum download delay to be set in case of high latencies#AUTOTHROTTLE_MAX_DELAY = 60# The average number of requests Scrapy should be sending in parallel to# each remote server#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0# Enable showing throttling stats for every response received:#AUTOTHROTTLE_DEBUG = False# Enable and configure HTTP caching (disabled by default)# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings#HTTPCACHE_ENABLED = True#HTTPCACHE_EXPIRATION_SECS = 0#HTTPCACHE_DIR = ’httpcache’#HTTPCACHE_IGNORE_HTTP_CODES = []#HTTPCACHE_STORAGE = ’scrapy.extensions.httpcache.FilesystemCacheStorage’

5.爬取結果

Python爬蟲實戰之使用Scrapy爬取豆瓣圖片

reference

源碼

到此這篇關于Python爬蟲實戰之使用Scrapy爬取豆瓣圖片的文章就介紹到這了,更多相關Scrapy爬取豆瓣圖片內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
日韩精品午夜视频| 亚洲字幕久久| 亚洲免费资源| 99综合视频| 国产99亚洲| 亚洲视频综合| 99亚洲视频| 日韩在线一二三区| 久久大逼视频| 综合日韩在线| 亚洲美女91| 九九久久国产| 国产一区二区三区四区五区| 精品伊人久久| 日韩成人精品一区| 欧美二三四区| 激情五月综合网| 久久激情中文| 91超碰国产精品| 亚洲在线免费| 日韩极品在线观看| 国产精品mm| 久久毛片亚洲| 激情综合网站| 亚洲精品看片| 国产精品久久久久久久久久齐齐 | 免费在线亚洲欧美| 嫩呦国产一区二区三区av| 久久精品免视看国产成人| 精品国产亚洲一区二区三区在线 | 亚洲精品一级| 国产欧美自拍一区| 美女av在线免费看| 亚洲女同中文字幕| 婷婷久久免费视频| 精品资源在线| 欧美va天堂| 最新亚洲国产| 国产精品日韩精品在线播放| 国产传媒在线| 中文精品视频| 国产探花在线精品| 国内精品麻豆美女在线播放视频| 欧美一区二区三区高清视频| 亚洲综合精品| 久久wwww| 在线日韩一区| 日韩高清在线不卡| sm久久捆绑调教精品一区| 国产高清久久| 国产精品亚洲综合久久| 日韩不卡视频在线观看| 午夜一级久久| 麻豆精品蜜桃视频网站| 久久精品亚洲人成影院| 久久最新视频| 精品国产乱码久久久| 国内亚洲精品| 国产麻豆一区二区三区| 亚洲婷婷在线| 国产精品久久久久久模特| 激情久久五月| 久久爱www成人| 国产亚洲激情| 国产不卡av一区二区| 亚洲女人av| 精品日产乱码久久久久久仙踪林| 91久久午夜| 精品亚洲成人| 丝袜亚洲另类欧美| 国产伊人久久| 亚洲精品麻豆| 婷婷激情一区| 国产欧美大片| 国产精品日本| 亚洲一区资源| 国产视频一区二| 99视频在线精品国自产拍免费观看| 国产精品免费不| 中文亚洲欧美| 日韩一区欧美| 国产精品二区影院| 免费视频久久| 欧美gv在线| 国产精品一区二区三区av麻| 亚洲一区黄色| 久久久国产精品一区二区中文| 亚洲区第一页| 国产高清久久| 三上悠亚国产精品一区二区三区| 国产免费久久| 日韩va欧美va亚洲va久久| 亚洲免费激情| 99精品小视频| 视频在线不卡免费观看| 欧美日韩亚洲一区三区| 视频在线观看91| 美女久久久久| 欧美日韩精品在线一区| 欧美男人天堂| 精品在线网站观看| 国产精品手机在线播放| 丝袜亚洲另类欧美| 欧美成人精品| 久久精品影视| 一本大道色婷婷在线| 精品国内亚洲2022精品成人| 青青在线精品| 婷婷精品在线观看| 亚洲精品一级二级三级| 久久福利影视| 亚洲欧美日韩一区在线观看| se01亚洲视频| 黄色aa久久| 国产精品黑丝在线播放| 精品日韩一区| 色综合五月天| 精品久久久亚洲| 美女精品久久| 国产一区二区三区探花| 精品久久影院| 国产999精品在线观看| 精品国产91| 久久的色偷偷| 久久亚洲人体| 欧美国产视频| 欧美久久精品| 青青草国产精品亚洲专区无| 日本成人精品| 欧美久久精品| 欧美精品导航| 国产福利片在线观看| 国产一区二区三区久久久久久久久| 免费一级欧美片在线观看网站| 911亚洲精品| 国产精品探花在线观看| 国产精品成人3p一区二区三区| 国产日韩1区| 麻豆91在线播放| 久久中文字幕一区二区三区| 久久99久久人婷婷精品综合| 国产激情一区| 国产91欧美| 久久精品99久久无色码中文字幕| 香蕉久久精品| 国产一级久久| 综合一区在线| 亚洲精品极品| 国产精品久久久久av蜜臀| 国产精品porn| 国产va免费精品观看精品视频| 都市激情国产精品| 国产在线|日韩| 91精品观看| 亚洲精品激情| 久久福利在线| 日韩精品欧美| 午夜在线精品| 国产一区 二区| 韩国久久久久久| 日韩视频精品在线观看| 亚洲欧美久久精品| 国产精区一区二区| 精品视频99| 久久人人97超碰国产公开结果| aa国产精品| 911亚洲精品| av中文资源在线资源免费观看| 999国产精品视频| 免费中文字幕日韩欧美| 青草国产精品久久久久久| 毛片不卡一区二区| 播放一区二区| 手机精品视频在线观看| 欧美亚洲福利| 成人午夜精品| 免费观看在线综合| 国产精品永久| 三级小说欧洲区亚洲区| 亚洲欧美日韩视频二区| 欧美日韩亚洲三区| 日韩三区免费| 日韩精品一区第一页| 欧美黑人巨大videos精品| 久久婷婷丁香| 97se亚洲| 国产综合激情| 欧美一区影院| 久久精品国产68国产精品亚洲| 亚洲色图国产| 91麻豆国产自产在线观看亚洲| aa国产精品| 国产精品99久久免费| 99久久亚洲精品蜜臀| 欧美日韩99| 久久精品主播| 久久国产婷婷国产香蕉| 在线日韩欧美| 欧美精品不卡| 亚洲另类av|