文章詳情頁(yè)

如何用python清洗文件中的數(shù)據(jù)

瀏覽：18日期：2022-06-16 13:40:37

目錄簡(jiǎn)單版使用filter讀取utf-8帶bom的文件多文件清洗清洗數(shù)據(jù)同時(shí)記錄訂單號(hào)并排序清洗sql文件，將數(shù)據(jù)表名放入excel中總結(jié)簡(jiǎn)單版

直接打開(kāi)日志文件，往另外一個(gè)文件中按照要過(guò)濾的要求進(jìn)行過(guò)濾

import io;with open(’a.txt’, ’w’) as f:for line in open(’c:/201509.txt’): if line.find(’更改項(xiàng)目’)>0 and line.find(’500’)>0: f.write(line+'n');print('輸出完成');

注意.find返回的是字符串在目標(biāo)的第幾位，要和0作比較另外使用and而不是&&作為'和'，使用or而不是||作為'或' w是寫，r是讀，a是追加

使用filter

import io;def isData(s): return s.find(’更改項(xiàng)目’)>0 and s.find(’500’)>0;with open(’a.txt’, ’w’) as f: list1=list(filter(isData,open(’c:/201509.txt’))); for (offset,item) in enumerate(list1): f.write(str(offset)+':'+item);讀取utf-8帶bom的文件

微軟會(huì)在在 UTF-8 文件中放置 BOM頭（順便提一下：把帶有 BOM 的小端序 UTF-16 稱作「Unicode」而又不詳細(xì)說(shuō)明，這也是微軟的習(xí)慣。不含BOM的UTF-8才是標(biāo)準(zhǔn)形式，UTF-8不需要BOM，帶BOM的UTF-8文件的開(kāi)頭會(huì)有U+FEFF，所以Windows新建的空文件會(huì)有3字節(jié)的大小。

import codecswith codecs.open(’c:/20160907205.log’, encoding=’utf_8_sig’) as f: for line in f:print(line)

注意編碼格式是utf_8_sig

多文件清洗

對(duì)多個(gè)文件進(jìn)行過(guò)濾，可以借助其名稱的規(guī)律，遍歷文件之后

import codecswith codecs.open(’a.txt’,’a’, encoding=’utf_8_sig’) as f: for i in range(205,210):f.write(str(i)+'rn'); print(str(i)); for line in open(’c:/20160907’+str(i)+’.log’, encoding=’utf_8_sig’): if line.find(’url為’)>=0 : print(line);f.write(line+'rn');print('輸出完成');清洗數(shù)據(jù)同時(shí)記錄訂單號(hào)并排序

import codecsa=0;List=[];with codecs.open(’a.txt’,’a’, encoding=’utf_8_sig’) as f:for i in range(205,210): for line in open(’c:/20160907’+str(i)+’.log’, encoding=’utf_8_sig’): if line.find(’url為’)>=0 : ind=line.find('XFLucky');if ind>=0: nums=line[ind:ind+22];print(nums); List.append(nums); a=a+1;print(line);f.write(str(i)+line+'rn'); List.sort(); for item in List: print(item); print('輸出完成'+str(a));清洗sql文件，將數(shù)據(jù)表名放入excel中

安裝openpyxl

pip install openpyxl

安裝之后就可以進(jìn)行sql建表語(yǔ)句的過(guò)濾了，將所有的表名和注釋寫入我們的excel文件中。

import reimport openpyxldata = []temp = []wb = openpyxl.load_workbook(’data.xlsx’)ws2 = wb.create_sheet(index=2, title=’addSheet_test’)for line in open(’wlzcool.sql’, encoding=’utf-8’): if line.find(’CREATE TABLE’) >= 0:matchObj1 = re.search(’`(.*?)`’, line, re.M | re.I)if matchObj1: # print('matchObj.group(1) : ', matchObj1.group(1)) print(matchObj1.group(1)) temp.append(matchObj1.group(1)) if line.find(’ROW_FORMAT = Dynamic’) >= 0:matchObj2 = re.search(’’(.*?)’’, line, re.M | re.I)if matchObj2: # print('matchObj.group(1) : ', matchObj2.group(1)) print(matchObj2.group(1)) temp.append(matchObj2.group(1))else: print('no comment') temp.append('no comment')data.append(temp)temp = []for row in data: ws2.append(row)wb.save(’data.xlsx’)print('輸出完成')總結(jié)

人生苦短，我用 Python，在強(qiáng)大的第三方庫(kù)幫助下，我們只需很少的代碼就可以實(shí)現(xiàn)很大數(shù)據(jù)量的文件的清洗。

以上就是如何用python清洗文件中的數(shù)據(jù)的詳細(xì)內(nèi)容，更多關(guān)于python清洗文件中的數(shù)據(jù)的資料請(qǐng)關(guān)注好吧啦網(wǎng)其它相關(guān)文章！

Python 編程

上一條：python中%格式表達(dá)式實(shí)例用法下一條：Python中g(shù)lob庫(kù)實(shí)現(xiàn)文件名的匹配

相關(guān)文章：

1. Docker 部署 Prometheus的安裝詳細(xì)教程2. IntelliJ IDEA安裝插件的方法步驟3. idea給項(xiàng)目打war包的方法步驟4. IntelliJ IDEA設(shè)置背景圖片的方法步驟5. idea 打包的jar運(yùn)行報(bào) "XXX中沒(méi)有主清單屬性"6. idea重置默認(rèn)配置的方法步驟7. IntelliJ IDEA設(shè)置自動(dòng)提示功能快捷鍵的方法8. idea設(shè)置代碼格式化的方法步驟9. idea打開(kāi)多個(gè)窗口的操作方法10. IntelliJ IDEA調(diào)整字體大小的方法

排行榜

					
					idea 打包的jar運(yùn)行報(bào) "XXX中沒(méi)有主清單屬性"
IntelliJ IDEA設(shè)置背景圖片的方法步驟
IntelliJ IDEA安裝插件的方法步驟
Docker 部署 Prometheus的安裝詳細(xì)教程
idea給項(xiàng)目打war包的方法步驟
IntelliJ IDEA設(shè)置自動(dòng)提示功能快捷鍵的方法
idea重置默認(rèn)配置的方法步驟
php過(guò)濾器使用詳解
intellij idea寫Python教程
IntelliJ IDEA調(diào)整字體大小的方法
idea打開(kāi)多個(gè)窗口的操作方法