日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

Python讀取pdf表格寫入excel的方法

瀏覽:31日期:2022-06-29 13:18:40
背景

今天突然想到之前被要求做同性質銀行的數據分析。媽耶!十幾個銀行,每個銀行近5年的財務數據,而且財務報表一般都是 pdf 的,我們將 pdf 中表的數據一個個的拷貝到 excel 中,再借助 excel 去進行求和求平均等聚合函數操作,完事了還得把求出來的結果再統一 CV 到另一張表中,進行可視化分析…

當然,那時風流倜儻的 老Amy 還熟練的玩轉著 excel ,也是個秀兒~ 今天就思索著,如果當年我會 Python 是不是可以讓我成為班級最靚的崽!用技術占領高地,HHH,所以今天我來了,希望可以幫助大家解決同性質的問題。

開始學習叭避免CV大法

pdf 文件的表格的數據可以復制,但是這是一項非常繁瑣的事情。所以我首先考慮的是,Python 可否幫助我們高效且規范地讀取 pdf 中的表格數據。所以一頓的檢索,發現了一個比較優質處理 pdf 的庫:pdfplumber,當然這個庫需要大家 pip install pdfplumber 去進行安裝。以及詳細使用可參考全球最大基友社區:https://github.com/jsvine/pdfplumber

步驟: 導入 pdfplumber 庫 通過 pdfplumber.open() 函數 獲取 mt2018.pdf 文件對象 通過該 對象.pages 獲取 pdf 每頁的對象,截取我們需要的頁對象即可 通過 頁對象.extract_tables() 獲取表格數據(若需要獲取文本:頁對象.extract_text())

代碼實現:

import pdfplumber# 獲取 pdf 文件對象pdf_mt = pdfplumber.open('mt2018.pdf')# 因為我需要獲取的資產負債表在 51-53頁 但是索引從0開始 所以切片取 50-52即可for pdf_pg in pdf_mt.pages[50:53]: # 只提取當前頁表格數據 print(pdf_pg.extract_tables()) --------------------------------------------------------------------------結果比較多,截取一部分:[[[’項目’, ’附注’, ’期末余額’, ’期初余額’], [’流動資產:’, ’’, ’’, ’’], [’貨幣資金’, ’1’, ’112,074,791,420.06’, ’87,868,869,913.34’], [’結算備付金’, ’’, ’’, ’’], [’拆出資金’, ’’, ’’, ’’], [’以公允價值計量且其變動計入當n期損益的金融資產’, ’’, ’’, ’’], [’衍生金融資產’, ’’, ’’, ’’], [’應收票據及應收賬款’, ’2’, ’563,739,710.00’, ’1,221,706,039.00’]]]將完整表保存到 csv 文件中

我們發現,返回的數據集是一個三維的列表。那么在我們平時處理的 excel 表格數據(行與列)都是二維的數據。那么,這多出的一維是什么呢?其實就是我們的夜[頁]~ 再來一個循環取出二維數據進行保存即可

for pdf_pg in pdf_mt.pages[50:53]: for pdf_tb in pdf_pg.extract_tables(): print(pdf_tb) ------------------------------------------------------------------------------結果比較多,截取一部分:[[’項目’, ’附注’, ’期末余額’, ’期初余額’], [’流動資產:’, ’’, ’’, ’’], [’貨幣資金’, ’1’, ’112,074,791,420.06’, ’87,868,869,913.34’], [’結算備付金’, ’’, ’’, ’’], [’拆出資金’, ’’, ’’, ’’], [’以公允價值計量且其變動計入當n期損益的金融資產’, ’’, ’’, ’’], [’衍生金融資產’, ’’, ’’, ’’], [’應收票據及應收賬款’, ’2’, ’563,739,710.00’, ’1,221,706,039.00’]]

但是,真的那么簡單嗎?這時,我們就需要細品我們的 pdf 了,如下圖

Python讀取pdf表格寫入excel的方法

我們發現,一張完整的資產負債表分布在多頁上。也就是說,每一頁的里面的表格數據都是一個三維的列表,所以我們保存數據的時候,需要讓其有共同的表頭(列索引),并且進行拼接。

那必須就要強推我們的 pandas 了,pandas.DataFrame() 非常完美的創建表格式的二維數組,以及指定列索引(表頭)。包括可以直接 使用 df.append() 進行共同表頭數據的堆疊拼接。

import pdfplumberimport pandas as pdimport numpy as np# 創建僅有表頭的 dataframe 數組pdf_df = pd.DataFrame(columns=[’項目’, ’附注’, ’期末余額’, ’期初余額’])# 獲取 pdf 文件對象pdf_mt = pdfplumber.open('mt2018.pdf')# 因為我需要獲取的資產負債表在 51-53頁 但是索引從0開始 所以切片取 50-52即可for pdf_pg in pdf_mt.pages[50:53]: # 獲取二維列表 for pdf_tb in pdf_pg.extract_tables():# 將其拼接 pdf_df = pdf_df.append(pd.DataFrame(np.array(pdf_tb),columns=[’項目’, ’附注’, ’期末余額’, ’期初余額’]))# 顯示后五條pdf_df.tail()

dataframe數據輸出如下:

Python讀取pdf表格寫入excel的方法

pdf 53頁如下:

Python讀取pdf表格寫入excel的方法

實際上,大家也發現,我們獲取的最后一頁的數據還有一部分是另一個表的,所以我們需要將其去除,并且有序的設置行索引,再保存到 csv 文件中。

# 去除后三行pdf_df = pdf_df.iloc[:-3,:]# 重置索引pdf_df = pdf_df.reset_index(drop=True)# 保存到 csv 文件中pdf_df.to_csv('mt_2018.csv')

Python讀取pdf表格寫入excel的方法

當然,今天就到這里,其它的需求我們下次給大家完善。大家也可以自己將代碼封裝成函數,這樣就可以實現傳入 pdf文件名稱、頁數以及保存的文件名來復用代碼。如果大家再掌握了 pandas 就可以根據自己的需求,對各個表格數據進行處理。再結合 seaborn 繪圖可視化,完爆 excel ~ 快學習起來叭,GOGOGO

以上就是Python讀取pdf表格寫入excel的方法的詳細內容,更多關于Python讀取pdf表格寫入excel的資料請關注好吧啦網其它相關文章!

標簽: python
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
国产欧美日韩一级| 亚洲一区欧美| 国产欧美日韩精品高清二区综合区| 最近国产精品视频| 欧美日韩xxxx| 麻豆精品国产91久久久久久| 成人在线视频免费| 精品国产99| 日韩欧美一区二区三区免费看| 亚洲高清av| 丝袜美腿亚洲一区| 国产伦精品一区二区三区在线播放 | 国产精品美女久久久| 中文在线一区| 日韩激情网站| 精品中国亚洲| 国产一区日韩欧美| 欧美一级网站| 日本欧美在线| 亚洲黄色免费av| 亚洲主播在线| 欧美一区二区三区久久精品| 91免费精品| 亚洲精品乱码| 日韩欧美三级| 日韩高清一区在线| 黄色欧美在线| 亚洲欧美日韩专区| 精品国产欧美日韩| 日韩中文字幕1| 成人在线免费观看网站| 麻豆91精品| av资源中文在线| 亚洲乱码一区| 激情综合婷婷| 天堂久久av| 亚洲福利免费| 久久免费福利| 亚洲精品国模| 91精品国产成人观看| 亚洲理论在线| 日韩国产专区| 国产日韩在线观看视频| 99国产精品视频免费观看一公开| 国产极品久久久久久久久波多结野 | 国产精品不卡| 午夜久久av| 色爱av综合网| 麻豆久久久久久久| 日欧美一区二区| 伊人久久亚洲影院| 久久久久久夜| 国产精品夜夜夜| 五月激激激综合网色播| 欧美日韩在线播放视频| 久久麻豆视频| 日韩不卡在线观看日韩不卡视频| 欧美日韩激情| 高清一区二区三区| 欧美日韩亚洲一区在线观看| 免费国产亚洲视频| 久久人人精品| 欧美韩日一区| 欧美精品导航| 国产午夜一区| 97久久亚洲| 另类亚洲自拍| 在线亚洲观看| 欧美女激情福利| 99久久婷婷| 色婷婷精品视频| 98精品久久久久久久| 久久av电影| 国产精品黄网站| 欧美日韩xxxx| 日本电影久久久| 无码日韩精品一区二区免费| 日韩中文字幕不卡| 石原莉奈在线亚洲三区| 国产精品毛片在线看| 欧美不卡视频| 午夜av一区| 国产二区精品| 亚洲精品在线观看91| 99精品美女| 久久夜夜操妹子| 日韩av免费| 久久久久久久久久久9不雅视频| 91视频精品| 日韩欧美三级| 97精品国产| 亚洲啊v在线| 久久精选视频| 欧美女激情福利| 亚洲深夜影院| 蜜桃av一区二区三区电影| 亚洲三级网址| 日韩精品久久理论片| 日韩和欧美一区二区三区| 国产一卡不卡| 精品不卡一区| 性欧美videohd高精| 久久久9色精品国产一区二区三区| 日韩精品dvd| 欧美特黄一区| 免费一级片91| 亚洲永久字幕| 日产欧产美韩系列久久99| 日韩精品欧美大片| 国产图片一区| 久久精品系列| 久久久蜜桃一区二区人| 偷拍欧美精品| 视频一区免费在线观看| 日本三级亚洲精品| 精品国产亚洲一区二区在线观看| 久久久久久网| 欧美午夜不卡| 欧美午夜三级| se01亚洲视频 | 久久久噜噜噜| 在线综合欧美| 亚洲人成毛片在线播放女女| 日韩一区二区三区四区五区| 国产精品4hu.www| 亚洲最新无码中文字幕久久| 亚洲天堂久久| 亚洲人成毛片在线播放女女| 欧美一区二区三区久久| 97国产精品| 亚洲一区区二区| 欧美亚洲tv| 国产精品专区免费| 亚洲一区观看| 国产精品免费精品自在线观看| 欧美精品日日操| 日韩av在线播放网址| 亚洲在线成人| 精品日本视频| 免费看精品久久片| 大香伊人久久精品一区二区| 日韩在线卡一卡二| 福利视频一区| 亚洲一区观看| 国产一区二区三区久久 | 国产欧美二区| 欧美成a人免费观看久久| 亚洲伊人精品酒店| 久久精品免费看| 视频一区二区中文字幕| 福利视频一区| 日韩精选在线| 在线日韩中文| 国产剧情一区二区在线观看| 日韩电影在线视频| 欧美一区在线观看视频| 亚洲激情欧美| 福利精品一区| 亚洲97av| 婷婷亚洲五月色综合| 国产精品亲子伦av一区二区三区| 伊人久久大香线蕉av超碰演员| 精品国内亚洲2022精品成人| 亚洲精品九九| 欧美日韩国产综合网| 福利一区在线| 欧美亚洲tv| 麻豆9191精品国产| 欧美日韩免费观看视频| 欧美日韩国产一区二区在线观看| 亚洲精品91| 日韩电影在线视频| 国产调教精品| 蜜桃av一区二区| 欧美日韩激情| 日韩精品免费一区二区在线观看| 卡一卡二国产精品| 亚洲综合福利| aa亚洲婷婷| 欧美日韩亚洲在线观看| 精品一二三区| 国产乱码精品一区二区三区四区 | 日韩亚洲精品在线观看| 在线亚洲激情| 欧洲激情综合| 国产99精品| 日韩精品首页| 五月激情久久| 成人va天堂| 深夜视频一区二区| 欧美国产小视频| 蜜桃精品视频| 国产精品99精品一区二区三区∴| 日本亚洲最大的色成网站www | 国产精品一区二区精品视频观看 | 激情久久一区二区| 国产精品mv在线观看| 91成人精品观看| 91亚洲精品视频在线观看 | 亚洲成人日韩|