日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術(shù)文章
文章詳情頁

詳解用Python把PDF轉(zhuǎn)為Word方法總結(jié)

瀏覽:200日期:2022-06-21 09:15:48

先講一下為啥要寫這個文章,網(wǎng)上其實很多這種PDF轉(zhuǎn)化的代碼和軟件。我一直想用Python做,但是網(wǎng)上搜到的代碼很多都不能用,很多是2.7版本的代碼,再就是PDF需要用到的庫在導(dǎo)入的時候,很多的報錯,解決起來特別費勁,而且自從2021年初以來,似乎網(wǎng)上很少有關(guān)PDF轉(zhuǎn)化的代碼出現(xiàn)了。我在研究了很多代碼和pdfminer的用法后,總結(jié)了幾個方法,目前這幾種方法可以解決大多數(shù)格式的轉(zhuǎn)化,后面我也專門放了提取PDF表格的代碼,文末有高效的免費在線工具推薦。

下面這個是我最最推薦的方法 ,簡單高效 ,只要是標(biāo)準(zhǔn)PDF文檔,里面的圖片和表格都可以保留格式

詳解用Python把PDF轉(zhuǎn)為Word方法總結(jié)

# pip install pdf2docx #安裝依賴庫from pdf2docx import Converterpdf_file = r’C:UsersAdministratorDesktop新建文件夾mednine.pdf’docx_file = r’C:UsersAdministratorDesktopPython教程02.docx’# convert pdf to docxcv = Converter(pdf_file)cv.convert(docx_file, start=0, end=None)cv.close()下面是另外三種常用方法

1 把標(biāo)準(zhǔn)格式的PDF轉(zhuǎn)為Word,測試環(huán)境Python3.6.5和3.6.6(注意PDF內(nèi)容僅僅是文字為主的里面沒有圖片圖表的適用,不適合掃描版PDF,因為那只能用圖片識別的方式進(jìn)行)

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.converter import TextConverterfrom pdfminer.layout import LAParamsfrom pdfminer.pdfpage import PDFPagefrom io import StringIOimport sysimport stringfrom docx import Documentdef convert_pdf_2_text(path): rsrcmgr = PDFResourceManager() retstr = StringIO()device = TextConverter(rsrcmgr, retstr, codec=’utf-8’, laparams=LAParams()) interpreter = PDFPageInterpreter(rsrcmgr, device)with open(path, ’rb’) as fp:for page in PDFPage.get_pages(fp, set()): interpreter.process_page(page) #print(retstr.getvalue()) text = retstr.getvalue() device.close() retstr.close() return textdef pdf2txt(): text=convert_pdf_2_text(path) with open(’real.txt’,’a’,encoding=’utf-8’) as f:for line in text.split(’n’): f.write(line+’n’)def remove_control_characters(content): mpa = dict.fromkeys(range(32)) return content.translate(mpa) def save_text_to_word(content, file_path): doc = Document() for line in content.split(’’):print(line) paragraph = doc.add_paragraph()paragraph.add_run(remove_control_characters(line)) doc.save(file_path)if __name__ == ’__main__’: path = r’C:UsersmaynDesktop程序臨時培訓(xùn)教材.pdf’ # 你自己的pdf文件路徑及文件名 不適合掃描版 只適合標(biāo)準(zhǔn)PDF文件 text = convert_pdf_2_text(path) save_text_to_word(text, ’output.doc’) #PDF轉(zhuǎn)為word方法 #pdf2txt() #PDF轉(zhuǎn)為txt方法

2專門提取PDF里面的表格,使用pdfplumber適合標(biāo)準(zhǔn)格式的PDF

import pdfplumberimport pandas as pdimport timefrom time import ctimeimport psutil as ps #import threadingimport gcpdf = pdfplumber.open(r'C:UsersAdministratorDesktop新建文件夾mednine.pdf')N=len(pdf.pages)print(’總共有’,N,’頁’)def pdf2exl(i): # 讀取了第i頁,第i頁是有表格的, print(’********************************************************************************************************************************************************’) print(’正在輸出第’,str(i+1),’頁表格’) print(’********************************************************************************************************************************************************’) p0 = pdf.pages[i] try:table = p0.extract_table()print(table) df = pd.DataFrame(table[1:], columns=table[0]) #print(df)df.to_excel(r'C:UsersAdministratorDesktop新建文件夾Model'+str(i+1)+'.xlsx') #df.info(memory_usage=’deep’) except Exception as e:print(’第’+str(i+1)+’頁無表格,或者檢查是否存在表格’) pass #print(’目前內(nèi)存占用率是百分之’,str(ps.virtual_memory().percent),’ 第’,str(i+1),’頁輸出完畢’) print(’**********************************************************************************************************************************************************’) print(’nnn’) time.sleep(5)def dojob1(): #此函數(shù) 直接循環(huán)提取PDF里面各個頁面的表格 print(’*********************’) for i in range(0,N):pdf2exl(i)

3也可以提取PDF里面的表格,使用camelot(camelot的安裝可能需要點耐心,反正用的人不多)

import camelotimport wand# 從PDF文件中提取表格def output(i): #print(tables) #for i in range(5): tables = camelot.read_pdf(r’C:UsersAdministratorDesktop新建文件夾mednine.pdf’, pages=str(i), flavor=’stream’) print(tables[i]) # 表格數(shù)據(jù) print(tables[i].data)tables[i].to_csv(r’C:UsersAdministratorDesktop新建文件夾002’+str(i)+r’.csv’)def plotpdf():# 這個是畫pdf 結(jié)構(gòu)的函數(shù) 現(xiàn)在不能用 不要打開#print(tables[0]) tables = camelot.read_pdf(r’C:UsersmaynDesktopvcode工作區(qū)11路基.pdf’, pages=’200’, flavor=’stream’) camelot.plot(tables[0], kind=’text’) print(tables[0]) plt.show() # 繪制PDF文檔的坐標(biāo),定位表格所在的位置 #plt = camelot.plot(tables[0],kind=’text’) #plt.show() #table_df = tables[0].df#plotpdf() #i=3#output(i)for i in range(0,2): try: output(i) except Exception as e:print(’第’+str(i)+’頁沒找到表格啊啊啊’)pass continue

以下是pdfplumber測試效果

源文件如下

詳解用Python把PDF轉(zhuǎn)為Word方法總結(jié)

提取結(jié)果

詳解用Python把PDF轉(zhuǎn)為Word方法總結(jié)

最后補充2個免費轉(zhuǎn)換的網(wǎng)站感覺還比較好用,關(guān)鍵是免費

http://pdfdo.com/pdf-to-word.aspx

http://app.xunjiepdf.com/pdf2word/

到此這篇關(guān)于詳解用Python把PDF轉(zhuǎn)為Word方法總結(jié)的文章就介紹到這了,更多相關(guān)Python把PDF轉(zhuǎn)為Word內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: python
相關(guān)文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
国产香蕉精品| 久久国产欧美| 欧美freesex黑人又粗又大| 国产精品mv在线观看| 日韩精品国产欧美| 久久国产高清| 日韩影院精彩在线| 四虎在线精品| 青青国产91久久久久久| 91av一区| 国产精品草草| 色婷婷色综合| 青青久久av| 图片区亚洲欧美小说区| 999久久久精品国产| 日韩国产欧美| 久久精品亚洲人成影院| 中文一区一区三区免费在线观 | 亚洲国产专区校园欧美| 国内自拍视频一区二区三区| 在线看片国产福利你懂的| 精品一区二区三区亚洲| 国产精品22p| 亚洲免费福利| 99精品在线免费在线观看| 99国产精品| 视频一区二区中文字幕| 日韩av午夜在线观看| 日本一区二区三区视频在线看| 伊人精品一区| 欧美日韩国产探花| 91久久国产| 三级欧美韩日大片在线看| 亚洲欧美日本国产专区一区| 日韩国产欧美三级| **爰片久久毛片| 国产精品va| 欧美日韩免费看片| 久久亚洲国产| 亚洲欧洲国产精品一区| 欧美日韩xxxx| 久久人人97超碰国产公开结果| 亚洲高清毛片| 日韩欧美在线精品| 精品一区二区三区中文字幕| 成人在线视频中文字幕| 女人天堂亚洲aⅴ在线观看| 蜜臀精品一区二区三区在线观看 | 老牛国内精品亚洲成av人片| 美女视频免费精品| 欧美日韩中文字幕一区二区三区| 黄色精品网站| 国产精品久久久免费| 亚洲伊人影院| 国产精品一区二区三区美女 | 久久久国产精品入口麻豆| 成人啊v在线| 久久成人国产| 成人在线视频免费看| 好吊视频一区二区三区四区| 91欧美精品| 91精品二区| 亚洲永久精品唐人导航网址| 精品国产三区在线| 欧美大黑bbbbbbbbb在线| 国产精品地址| 午夜国产一区二区| 丰满少妇一区| 日韩午夜av| 蜜桃视频一区二区三区| 国产另类在线| 亚洲高清毛片| 精品国产一级| 一区二区三区四区日韩| 日韩免费小视频| 综合色一区二区| 免费视频一区三区| 亚洲欧美日韩精品一区二区| 超级白嫩亚洲国产第一| 亚洲精品伊人| 亚洲精品福利电影| 国产欧美三级| 五月天激情综合网| 麻豆mv在线观看| 亚洲精品自拍| 日韩一区二区三区免费播放| 欧美不卡高清| 国产伦精品一区二区三区视频 | 国产日韩欧美在线播放不卡| 日韩欧美在线中字| 麻豆精品久久| 国产偷自视频区视频一区二区| 国产自产自拍视频在线观看| 亚洲3区在线| 亚洲1234区| 韩国女主播一区二区三区| 欧美综合国产| 亚洲欧洲一区二区天堂久久| 精品美女视频 | 国产精品成人a在线观看| 蜜桃视频一区二区| 国产午夜精品一区二区三区欧美| 国产在线不卡一区二区三区 | 日本在线一区二区三区| 久久精品免费一区二区三区 | 亚洲欧美综合| 日韩高清成人在线| 蜜桃免费网站一区二区三区| 成人在线黄色| 免费在线观看视频一区| 欧美三级精品| 国产精品nxnn| 国产日韩在线观看视频| 日韩国产在线一| 电影91久久久| 久久久国产精品入口麻豆| 欧美~级网站不卡| 日本少妇一区| 久久的色偷偷| 麻豆精品新av中文字幕| 亚洲一卡久久| 日本精品影院| 日韩高清中文字幕一区二区| 日韩欧美看国产| 色一区二区三区四区| 久久精品导航| 欧美影院三区| 免费在线观看视频一区| 国产视频一区三区| 国产精品极品| 荡女精品导航| 97久久精品| 久久xxxx精品视频| 亚洲三级毛片| av不卡在线| 伊人久久亚洲热| 五月激情久久| 亚洲性图久久| 精品欧美视频| 国产高潮在线| 国产精品久久观看| 三级小说欧洲区亚洲区| 日韩伦理在线一区| 国产视频一区免费看| 免费一区二区视频| 91精品91| 日韩视频精品在线观看| 亚洲欧洲美洲av| 国产激情在线播放| 国产一区亚洲| 视频在线不卡免费观看| 日韩精品亚洲专区| 国产伦精品一区二区三区在线播放 | 国产成人久久精品麻豆二区| 久久精品色播| 久久精品国产大片免费观看| 亚洲午夜视频| 一区二区不卡| 日韩av中文在线观看| 亚洲永久精品唐人导航网址| 三级久久三级久久久| 欧美片网站免费| 久久爱www成人| 国内在线观看一区二区三区 | 中文字幕成在线观看| 福利一区二区三区视频在线观看| 日韩电影免费网址| 欧美精品一二| 视频一区中文字幕| 亚洲精品少妇| 久久精品av麻豆的观看方式| 国产福利一区二区精品秒拍| 97精品国产一区二区三区| 久久精品亚洲人成影院 | 日韩精品永久网址| 91精品国产自产在线观看永久∴| 日韩专区在线视频| 国产欧美日韩一区二区三区在线| 91综合网人人| 一区在线观看| 日韩福利视频网| 免费在线亚洲欧美| 岛国av免费在线观看| 爽好多水快深点欧美视频| 一区二区三区四区日韩| 久久婷婷av| 视频一区二区中文字幕| 欧美一区不卡| 久久在线免费| 免费国产亚洲视频| 国产精品亚洲四区在线观看 | 国产精久久一区二区| 国产综合婷婷| 午夜视频一区二区在线观看| 久久中文在线| 亚洲天堂久久| 欧美日韩黄网站| 国产精品久久久久久久久妇女| 激情综合自拍| 毛片不卡一区二区|