日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

python解析PDF程序代碼

瀏覽:28日期:2022-06-16 11:18:41
說在前面

和word的文本相比PDF更類似于一張張圖片,圖上放著一個個文字。對其的解析是將圖片上的文字提取到text文件中,方便之后的分析。

添加依賴

在python的環境中安裝PDFminer3k,不要裝錯了,一開始我裝的是PDFminer,結果有幾個包不能用pip install pdfminer3k

源程序代碼

#!/usr/bin/env python3# -*- coding:utf-8 -*-# pip3 install pdfminer3kimport osfrom pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LAParams, LTTextBoxHorizontalfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, PDFTextExtractionNotAllowedfrom pdfminer.pdfdevice import PDFDevicedef read_pdf(pdf_name, result_name): # 以二進制讀模式打開 fp = open(pdf_name, ’rb’) # 用文件對象來創建一個pdf文檔分析器 parser = PDFParser(fp) # 創建一個pdf文檔 doc = PDFDocument() # 連接分析器 與文檔對象 parser.set_document(doc) doc.set_parser(parser) # 提供初始密碼,如果沒有密碼 就創建一個空的字符串 doc.initialize(’’) # 檢測文檔是否提供txt轉換,不提供就拋出異常 if not doc.is_extractable:raise PDFTextExtractionNotAllowed # 創建PDf 資源管理器 來管理共享資源 rsrcmgr = PDFResourceManager() # 創建一個PDF設備對象 laparams = LAParams() device = PDFPageAggregator(rsrcmgr, laparams=laparams) # 創建一個PDF解釋器對象 interpreter = PDFPageInterpreter(rsrcmgr, device) with open(result_name, 'w', encoding='u8') as fd_out:# 循環遍歷列表,每次處理一個page的內容for i, page in enumerate(doc.get_pages(), 1): index = '===========《第{}頁》==========='.format(i) print(index) fd_out.write(index + 'n') interpreter.process_page(page) # 接受該頁面的LTPage對象 layout = device.get_result() for x in layout:# 這里layout是一個LTPage對象 里面存放著 這個page解析出的各種對象 一般包括LTTextBox,# LTFigure, LTImage, LTTextBoxHorizontal 等等 想要獲取文本就獲得對象的text屬性if not isinstance(x, LTTextBoxHorizontal): continueresults = x.get_text()print(results)fd_out.write(results)if __name__ == ’__main__’: # 獲取讀取文件夾 filePath = ’../PDFfile’ #遍歷文件夾 for i,j,k in os.walk(filePath):for m in k: # 格式化輸出的名稱和地址 result = ’../TextFile/’ + m[:-4] + ’.txt’ # 格式化源文件路徑 fileName = i + ’/’ + m # 調用函數解析 read_pdf(fileName, result)

參考以下代碼內容:python 讀取pdf文本內容

#!/usr/bin/env python3#-*- coding:utf-8 -*-# pip3 install pdfminer3k from pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LAParams, LTTextBoxHorizontalfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, PDFTextExtractionNotAllowedfrom pdfminer.pdfdevice import PDFDevice def read_pdf(pdf_name, result_name): # 以二進制讀模式打開 fp = open(pdf_name, ’rb’) # 用文件對象來創建一個pdf文檔分析器 parser = PDFParser(fp) # 創建一個pdf文檔 doc = PDFDocument() # 連接分析器 與文檔對象 parser.set_document(doc) doc.set_parser(parser) # 提供初始密碼,如果沒有密碼 就創建一個空的字符串 doc.initialize(’’) # 檢測文檔是否提供txt轉換,不提供就拋出異常 if not doc.is_extractable:raise PDFTextExtractionNotAllowed # 創建PDf 資源管理器 來管理共享資源 rsrcmgr = PDFResourceManager() # 創建一個PDF設備對象 laparams = LAParams() device = PDFPageAggregator(rsrcmgr, laparams=laparams) # 創建一個PDF解釋器對象 interpreter = PDFPageInterpreter(rsrcmgr, device) with open(result_name,'w',encoding='u8') as fd_out:# 循環遍歷列表,每次處理一個page的內容for i,page in enumerate(doc.get_pages(),1): index = '===========《第{}頁》==========='.format(i) print(index) fd_out.write(index + 'n') interpreter.process_page(page) # 接受該頁面的LTPage對象 layout = device.get_result() for x in layout:# 這里layout是一個LTPage對象 里面存放著 這個page解析出的各種對象 一般包括LTTextBox,# LTFigure, LTImage, LTTextBoxHorizontal 等等 想要獲取文本就獲得對象的text屬性if not isinstance(x, LTTextBoxHorizontal): continueresults = x.get_text()print(results)fd_out.write(results) if __name__ == ’__main__’: pdf_name = ’test.pdf’ result = ’test.txt’ read_pdf(pdf_name, result)

以上就是python解析PDF的詳細內容,更多關于python解析PDF的資料請關注好吧啦網其它相關文章!

標簽: Python 編程
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
99久久精品费精品国产| 91国内精品| 亚洲精品一二| 欧美日韩国产综合网| 日韩免费久久| 国产一区二区色噜噜| 亚洲综合国产| 亚洲激情国产| 狠狠干成人综合网| 欧美jjzz| 国产精品免费看| 久久人人97超碰国产公开结果| 国产一区二区亚洲| 日韩国产网站| 亚洲欧美综合| 伊人国产精品| 国产亚洲电影| 精品国产99| 久久激情婷婷| 一区三区视频| 你懂的国产精品| 国产亚洲人成a在线v网站| 国产精品一区二区精品| 成人国产精品一区二区免费麻豆| 日韩黄色大片网站| 美女91精品| 精品久久不卡| 国产视频一区三区| 国产精品亲子伦av一区二区三区| 日韩亚洲一区在线| 免费观看日韩电影| 加勒比视频一区| 狠狠久久婷婷| 国产精品久久久久9999高清| 老牛影视精品| 亚洲午夜免费| 欧美国产日本| 在线亚洲成人| 国产欧美一区二区三区米奇| 久久国产欧美| 国产日韩视频在线| 激情婷婷久久| 麻豆精品新av中文字幕| 电影天堂国产精品| 国产精品jk白丝蜜臀av小说| 免费av一区| 精品久久福利| 久久国产人妖系列| 综合日韩在线| 五月天综合网站| 日韩欧美一区二区三区在线视频| 日韩中文字幕区一区有砖一区| 色欧美自拍视频| 国产精品一区二区免费福利视频 | 视频一区欧美日韩| 免费日韩av片| 欧美精品一二| 在线日韩电影| 亚洲综合电影| 成人精品动漫一区二区三区| 日韩动漫一区| 中文不卡在线| 精品一区二区三区中文字幕视频| 亚洲精品欧美| 99久久亚洲精品蜜臀| 精品久久精品| 精品一区二区三区免费看| 国产精品theporn| 久久精品一区| 亚洲电影有码| 久久人人精品| 亚洲国产成人精品女人| 久久视频精品| 亚洲天堂一区二区| 欧美13videosex性极品| 狠狠久久伊人中文字幕| 精品五月天堂| 黑人精品一区| 视频福利一区| 精品国产精品久久一区免费式| 国产免费播放一区二区| 久久精品国产精品亚洲毛片| 精品久久一区| 99久久精品费精品国产| 午夜欧美精品| 日韩一区二区三区在线看| 日本伊人午夜精品| 精品国产91| 99成人在线| 国产日韩一区| 激情欧美一区| 欧美日韩视频免费看| 亚洲欧洲一区| 国产精品欧美日韩一区| 国模精品一区| 99综合视频| 国产精品多人| 欧美日韩精品一本二本三本| 亚洲精品成人一区| 麻豆mv在线观看| 野花国产精品入口| 欧美国产先锋| 国产午夜久久| 欧美激情麻豆| 国产精品日本| 日韩伦理福利| 亚洲美女91| 欧美日韩 国产精品| 色综合五月天| 日本不卡不码高清免费观看 | 国产精品久久久久久久久久10秀| 视频一区在线播放| 天堂久久av| 国产精品黄色片| 丰满少妇一区| 99国产精品免费视频观看| 久久久久久黄| 精品入口麻豆88视频| 欧美视频久久| 日韩av一区二区三区| 日韩在线观看| 日韩精品91| 亚洲午夜精品久久久久久app| 91综合网人人| 黄色在线观看www| 国产v日韩v欧美v| 福利在线一区| 99久久亚洲精品蜜臀| 欧美手机在线| 亚洲国产一区二区三区在线播放 | 日韩中文字幕无砖| 老鸭窝毛片一区二区三区| 尤物在线精品| 久久久影院免费| 91久久中文| 91精品日本| 国产一区二区三区日韩精品 | 欧美国产精品| 日韩国产专区| 日韩在线一区二区| 日韩久久一区| 久久久久久夜| 亚洲自拍另类| 久久国产精品色av免费看| 国产91在线播放精品| 亚洲91久久| 日韩国产在线观看| zzzwww在线看片免费| 亚洲精品日韩久久| caoporn视频在线| 国产精品一区三区在线观看| 久久精品亚洲人成影院 | 黄色亚洲在线| 国产欧美激情| 亚洲激情中文在线| 精品三级在线| 日韩av不卡一区二区| 日韩国产综合| 无码日韩精品一区二区免费| 久久久久国产精品一区二区| 国产探花一区| 深夜福利一区| 香蕉精品999视频一区二区| 日韩精品第一区| 欧美激情视频一区二区三区免费| 只有精品亚洲| 欧美日韩国产亚洲一区| 免费污视频在线一区| 另类欧美日韩国产在线| 日韩国产欧美一区二区三区| 亚洲国产一区二区在线观看| 高清一区二区三区av| 欧美日韩99| 免费人成网站在线观看欧美高清| 久久久久免费av| 亚洲www啪成人一区二区| 欧美黑人做爰爽爽爽| 国产日韩欧美一区二区三区在线观看| 久久av在线| 日韩一区精品字幕| 亚洲免费网址| 亚洲欧美日韩在线观看a三区| 亚洲一级高清| 日韩中文字幕一区二区三区| 亚洲精品一级二级三级| 国产精品一区二区三区四区在线观看| 久久亚洲精品伦理| 色婷婷久久久| 蜜臀国产一区| 欧美va天堂在线| 亚洲一级淫片| 国产+成+人+亚洲欧洲在线| 99热免费精品| 国产精品17p| 日韩美女精品| 黄色不卡一区| 国产精品久久久久毛片大屁完整版| 国产精品99视频| 首页欧美精品中文字幕| 日韩av字幕|