日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

Python scrapy爬取蘇州二手房交易數據

瀏覽:83日期:2022-06-16 15:47:17
一、項目需求

使用Scrapy爬取鏈家網中蘇州市二手房交易數據并保存于CSV文件中要求:房屋面積、總價和單價只需要具體的數字,不需要單位名稱。刪除字段不全的房屋數據,如有的房屋朝向會顯示“暫無數據”,應該剔除。保存到CSV文件中的數據,字段要按照如下順序排列:房屋名稱,房屋戶型,建筑面積,房屋朝向,裝修情況,有無電梯,房屋總價,房屋單價,房屋產權。

二、項目分析

流程圖

Python scrapy爬取蘇州二手房交易數據Python scrapy爬取蘇州二手房交易數據

Python scrapy爬取蘇州二手房交易數據

通過控制臺發現所有房屋信息都在一個ul中其中每一個li里存儲一個房屋的信息。

Python scrapy爬取蘇州二手房交易數據

找了到需要的字段,這里以房屋名稱為例,博主用linux截圖,沒法對圖片進行標注,這一段就是最中間的“景山玫瑰園” 。其他字段類似不再一一列舉。獲取了需要的數據后發現沒有電梯的配備情況,所以需要到詳細頁也就是點擊標題后進入的頁面,點擊標題

Python scrapy爬取蘇州二手房交易數據

可以看到里面有下需要的信息。

Python scrapy爬取蘇州二手房交易數據

抓取詳細頁url

Python scrapy爬取蘇州二手房交易數據

進行詳細頁數據分析

Python scrapy爬取蘇州二手房交易數據

找到相應的位置,進行抓取數據。

三、編寫程序

創建項目,不說了。

1.編寫item(數據存儲)

import scrapyclass LianjiaHomeItem(scrapy.Item): name = scrapy.Field() # 名稱 type = scrapy.Field() # 戶型 area = scrapy.Field() # 面積 direction = scrapy.Field() #朝向 fitment = scrapy.Field() # 裝修情況 elevator = scrapy.Field() # 有無電梯 total_price = scrapy.Field() # 總價 unit_price = scrapy.Field() # 單價

2.編寫spider(數據抓?。?/b>

from scrapy import Requestfrom scrapy.spiders import Spiderfrom lianjia_home.items import LianjiaHomeItemclass HomeSpider(Spider): name = 'home' current_page=1 #起始頁 def start_requests(self): #初始請求url='https://su.lianjia.com/ershoufang/'yield Request(url=url) def parse(self, response): #解析函數list_selctor=response.xpath('//li/div[@class=’info clear’]')for one_selector in list_selctor: try:#房屋名稱name=one_selector.xpath('//div[@class=’flood’]/div[@class=’positionInfo’]/a/text()').extract_first()#其他信息other=one_selector.xpath('//div[@class=’address’]/div[@class=’houseInfo’]/text()').extract_first()other_list=other.split('|')type=other_list[0].strip(' ')#戶型area = other_list[1].strip(' ') #面積direction=other_list[2].strip(' ') #朝向fitment=other_list[3].strip(' ') #裝修price_list=one_selector.xpath('div[@class=’priceInfo’]//span/text()')# 總價total_price=price_list[0].extract()# 單價unit_price=price_list[1].extract()item=LianjiaHomeItem()item['name']=name.strip(' ')item['type']=typeitem['area'] = areaitem['direction'] = directionitem['fitment'] = fitmentitem['total_price'] = total_priceitem['unit_price'] = unit_price #生成詳細頁url = one_selector.xpath('div[@class=’title’]/a/@href').extract_first()yield Request(url=url, meta={'item':item}, #把item作為數據v傳遞 callback=self.property_parse) #爬取詳細頁 except:print('error')#獲取下一頁 self.current_page+=1 if self.current_page<=100:next_url='https://su.lianjia.com/ershoufang/pg%d'%self.current_pageyield Request(url=next_url) def property_parse(self,response):#詳細頁#配備電梯elevator=response.xpath('//div[@class=’base’]/div[@class=’content’]/ul/li[last()]/text()').extract_first()item=response.meta['item']item['elevator']=elevatoryield item

3.編寫pipelines(數據處理)

import refrom scrapy.exceptions import DropItemclass LianjiaHomePipeline:#數據的清洗 def process_item(self, item, spider):#面積item['area']=re.findall('d+.?d*',item['area'])[0] #提取數字并存儲#單價item['unit_price'] = re.findall('d+.?d*', item['unit_price'])[0] #提取數字并存儲#如果有不完全的數據,則拋棄if item['direction'] =='暫無數據': raise DropItem('無數據,拋棄:%s'%item)return itemclass CSVPipeline(object): file=None index=0 #csv文件行數判斷 def open_spider(self,spider): #爬蟲開始前,打開csv文件self.file=open('home.csv','a',encoding='utf=8') def process_item(self, item, spider):#按要求存儲文件。if self.index ==0: column_name='name,type,area,direction,fitment,elevator,total_price,unit_pricen' self.file.write(column_name)#插入第一行的索引信息 self.index=1home_str=item['name']+','+item['type']+','+item['area']+','+item['direction']+','+item['fitment']+','+item['elevator']+','+item['total_price']+','+item['unit_price']+'n'self.file.write(home_str) #插入獲取的信息return item def close_soider(self,spider):#爬蟲結束后關閉csvself.file.close()

4.編寫settings(爬蟲設置)

這里只寫下需要修改的地方

USER_AGENT = ’Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36’#為裝成瀏覽器ROBOTSTXT_OBEY = False #不遵循robots協議ITEM_PIPELINES = { ’lianjia_home.pipelines.LianjiaHomePipeline’: 300, #先進行數字提取 ’lianjia_home.pipelines.CSVPipeline’: 400 #在進行數據的儲存 #執行順序由后邊的數字決定}

這些內容在settings有些是默認關閉的,把用來注釋的 # 去掉即可開啟。

5.編寫start(代替命令行)

from scrapy import cmdlinecmdline.execute('scrapy crawl home' .split())

附上兩張結果圖。

Python scrapy爬取蘇州二手房交易數據

Python scrapy爬取蘇州二手房交易數據

總結

此次項目新增了簡單的數據清洗,在整體的數據抓取上沒有增加新的難度。

到此這篇關于Python scrapy爬取蘇州二手房交易數據的文章就介紹到這了,更多相關scrapy爬取二手房交易數據內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Python 編程
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
欧美亚洲免费| 国产精品国产三级在线观看| 久久久久97| 国产精品久久久久久久久久白浆| 欧美片第1页综合| 久久a爱视频| 欧美日韩国产观看视频| 久久久久亚洲| 麻豆精品蜜桃| 在线成人直播| 一区二区91| 欧美国产另类| 夜鲁夜鲁夜鲁视频在线播放| 九九在线精品| 另类av一区二区| 久久黄色影视| 亚洲天堂av影院| 中文欧美日韩| 国产伦一区二区三区| 国产美女高潮在线| 国产视频一区三区| 日本电影久久久| jizzjizz中国精品麻豆| 久久精品亚洲人成影院| 国产亚洲激情| 国产精品毛片久久久| 一本大道色婷婷在线| 视频一区视频二区中文字幕| 久久av超碰| 午夜欧美精品| 蜜桃精品视频| 国产视频一区免费看| 国产精品一区二区三区av麻| 丝袜美腿诱惑一区二区三区| 亚洲尤物av| 国产精品成久久久久| 国产精品婷婷| 你懂的国产精品| 啪啪国产精品| 日韩高清欧美激情| 桃色一区二区| 国产精品v一区二区三区| 久久精品免费一区二区三区| 中文字幕免费精品| 日韩久久电影| 欧美一级二区| 美女久久久久| 久久99免费视频| 三级一区在线视频先锋| 精品国产三区在线| 免费在线观看一区二区三区| 中文字幕人成乱码在线观看| 在线精品视频一区| 97精品国产| 日本不卡在线视频| 国产尤物精品| 欧美男人天堂| 国产精品第十页| 三级亚洲高清视频| 亚洲福利精品| 亚洲黄色中文字幕| 欧美精品aa| 亚洲精品日韩久久| 欧美日韩国产综合网| 国产成人精品免费视| 久久国产人妖系列| 亚洲三级视频| 亚洲激情久久| 鲁鲁在线中文| 久久99偷拍| 日韩av一区二区在线影视| 婷婷综合网站| 欧洲一级精品| 日韩在线精品| 国产一区二区精品福利地址| 国产精品麻豆成人av电影艾秋 | 日韩久久一区二区三区| 国产精品片aa在线观看| 色婷婷成人网| 免费一级片91| 亚洲黄页一区| 国产一区二区中文| 精品欧美一区二区三区在线观看| 精品视频91| 国产精品va视频| 国产精品一区二区av日韩在线| 日本在线视频一区二区| 蜜桃一区二区三区在线观看| 亚洲国产一区二区在线观看| 久久视频国产| 欧美日韩三区| 国产精品日韩| 美女精品一区| 亚洲欧美专区| 中文字幕av一区二区三区四区| 欧美日韩国产亚洲一区| 亚洲二区三区不卡| 9久re热视频在线精品| 午夜日本精品| 99riav1国产精品视频| 国产亚洲在线| 综合亚洲视频| 国产毛片精品| 你懂的国产精品| 精品国产一区二区三区av片| 久久这里只有| 婷婷综合六月| 亚洲激情中文在线| 日韩精品一卡二卡三卡四卡无卡| 在线看片日韩| 偷拍亚洲精品| 欧美国产中文高清| 国产网站在线| 亚洲二区免费| 日韩中文字幕91| 日韩三区四区| 免费在线观看一区| 精精国产xxxx视频在线野外| 五月天综合网站| 爽爽淫人综合网网站| 欧美日韩亚洲一区三区| 久久精品国产成人一区二区三区| zzzwww在线看片免费| 欧美在线网站| 欧美日韩精品一区二区三区视频| 国产欧美一区二区三区国产幕精品| 麻豆国产精品| 免费观看久久av| 日韩欧美中文在线观看| 精品视频网站| 亚洲激情二区| 欧美日韩亚洲一区三区| 国产成人精品免费视| 久久久人人人| 日韩欧美美女在线观看| 久久毛片亚洲| 蜜臀久久久99精品久久久久久| 国产精品地址| 亚洲国产日韩欧美在线| 日本午夜精品视频在线观看| 国产精品丝袜在线播放| 日韩大片在线播放| 首页国产欧美久久| 麻豆中文一区二区| 久久精品亚洲欧美日韩精品中文字幕| 丝袜a∨在线一区二区三区不卡| 国产精品亚洲产品| 香蕉人人精品| 国产日韩一区二区三区在线播放| 日韩国产欧美| 日韩精品一区二区三区中文| 成人影视亚洲图片在线| 久久av在线| 精品久久久久久久| 香蕉成人久久| 粉嫩av一区二区三区四区五区| 丝袜亚洲精品中文字幕一区| 福利片在线一区二区 | aa亚洲婷婷| 激情综合五月| 亚洲精品美女91| 久久精品免费一区二区三区| 91国内精品| 91久久久精品国产| 老司机免费视频一区二区三区| 黑丝一区二区| 美女av在线免费看| 日韩中文一区二区| 亚洲特色特黄| 国产精品亚洲欧美| 丝袜亚洲另类欧美| av高清不卡| 国产麻豆一区二区三区精品视频| 99久久九九| 麻豆精品一区二区综合av| 美国三级日本三级久久99| 日本欧美不卡| 美女久久久久久 | 青青国产91久久久久久| 欧美大黑bbbbbbbbb在线| 国产精品一国产精品k频道56| 亚洲欧美成人综合| 欧美日韩色图| 日韩国产激情| 精品国产三区在线| 日韩av黄色在线| 免费精品视频在线| 九色精品91| 欧美日韩色图| 欧洲av不卡| 国产成人精品一区二区三区在线| 日本欧美在线| 天堂精品久久久久| 三级一区在线视频先锋| 亚洲黑丝一区二区| 日本一区二区高清不卡| 美女毛片一区二区三区四区最新中文字幕亚洲| 亚洲小说春色综合另类电影| 亚洲精品电影| 欧美精品九九|