日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術(shù)文章
文章詳情頁

python 實現(xiàn)存儲數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決

瀏覽:135日期:2022-06-26 08:24:48
第一、幾種常用方法

讀取TXT文檔:urlopen()

讀取PDF文檔:pdfminer3k

第二、亂碼問題

(1)、

from urllib.request import urlopen#訪問wiki內(nèi)容html = urlopen('https://en.wikipedia.org/robots.txt')print(html.read())輸出的結(jié)果中出現(xiàn)亂碼原因:

計算機只能處理0和1兩個數(shù)字,所以想要處理文本,必須把文本變成0和1這樣的數(shù)字,最早的計算機使用八個0和1表示一個字節(jié),所以最大能夠表示整數(shù)是255=11111111.如果想要表示更大的數(shù),必須使用更多的字節(jié)。

由于計算機是美國人發(fā)明的,所以最早只有127個字符被編寫進計算機,即常見的阿拉伯數(shù)字,字母大小寫,以及鍵盤上的符號。此編碼被稱為ASCII編碼,比如大寫字母A的ASCII編碼是65,65再被轉(zhuǎn)換二進制01000001,即是計算機處理的東西。

顯然,ASCII不能表示中文,故中國制定了自己的GB2312編碼,并且兼容ASCII編碼。問題是:使用GB2312編碼的慕課網(wǎng)三個字,假設(shè)編碼為61,62,63.但在ASCII碼表可能是其他字符。如下圖示,日文中的616263編碼成其他字符,打開后意思出錯。

python 實現(xiàn)存儲數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決

解決方法:

國際上的unicode編碼,整合全世界所有編碼。故unicode編碼的內(nèi)容在任一臺計算機用unicode仍正常打開

python 實現(xiàn)存儲數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決

又對于A,ASCII編碼為01000001,Unicode編碼:0000000001000001此時浪費空間

故出現(xiàn)UTF-8編碼:01000001此時用兩個八位存儲中文。

(2)、記事本使用unicode編碼,將記事本存到計算機時,將轉(zhuǎn)化為utf-8儲存。

在計算機中打開文本時,將轉(zhuǎn)化為unicode編碼

存儲原因:使用utf-8儲存節(jié)省空間,使用unicode打開保證最大的兼容

(3)、服務(wù)器讀取uncode編碼的文檔,轉(zhuǎn)化為utf-8格式傳給瀏覽器。因為網(wǎng)絡(luò)帶寬昂貴,轉(zhuǎn)化為了減少負擔。

(4)、python3字符串默認使用Unicode編碼,所以python3支持多種語言

以Unicode表示的str通過encode()方法可以編碼為指定的bytes

如果bytes使用ASCII編碼,遇到ASCII碼表沒有的字符會以x##表示,此時只用‘x##’.decode(’utf-8’)即可

(5)、解決方法

from urllib.request import urlopen#訪問wiki內(nèi)容html = urlopen('https://en.wikipedia.org/robots.txt')print(html.read().decode('utf-8'))第三、pdfminer3k安裝法一:

(1)、進入網(wǎng)址直接下載并解壓:https://pypi.python.org/pypi/pdfminer3k/

(2)、以管理員身份運行命令行窗口,進入軟件解壓縮位置,運行python setup.py install

python 實現(xiàn)存儲數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決

法二:

(3)、直接在pycharm中安裝

python 實現(xiàn)存儲數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決

(4)、讀取pdf過程:首先創(chuàng)建一個分析器pdfparser和文檔對象pdfdocument,并通過兩個方法相互關(guān)聯(lián),然后調(diào)用文檔對象的初始化方法(可以傳參數(shù)),此時資源內(nèi)容被加載到文檔對象中。

python 實現(xiàn)存儲數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決

創(chuàng)建資源管理器和參數(shù)分析器,然后創(chuàng)建聚合器(整合資源管理器和參數(shù)分析器),通過聚合器創(chuàng)建解釋器(對pdf文檔進行編碼,解釋成python能識別的格式)

python 實現(xiàn)存儲數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決

(5)、讀取pdf文檔:通過文檔對象的get_pages()方法得到pdf每一頁的內(nèi)容,通過解釋器的process_page()方法讀取一頁一頁。

python 實現(xiàn)存儲數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決

(6)、實例演示

python 實現(xiàn)存儲數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決

from pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LAParamsfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.pdfdevice import PDFDevice#獲得文檔對象,以二進制讀方式打開fp = open('naacl06-shinyama.pdf', 'rb')#創(chuàng)建一個與文檔關(guān)聯(lián)的分析器parser = PDFParser(fp)#創(chuàng)建一個pdf文檔的對象doc = PDFDocument()#連接解釋器與文檔對象parser.set_document(doc)doc.set_parser(parser)#初始化文檔,如果文檔有密碼,寫與此。doc.initialize('')#創(chuàng)建pdf資源管理器resource = PDFResourceManager()#參數(shù)分析器laparam = LAParams()#創(chuàng)建聚合器device = PDFPageAggregator(resource, laparams=laparam)#創(chuàng)建pdf頁面解釋器interpreter = PDFPageInterpreter(resource, device)#使用文檔對象得到頁面的集合for page in doc.get_pages(): #使用頁面解釋器讀取 interpreter.process_page(page) #使用聚合器來獲得內(nèi)容 layout = device.get_result() for out in layout: if hasattr(out, 'get_text'): print(out.get_text())

一下用于讀取網(wǎng)站上pdf內(nèi)容

fp = urlopen(http://www.tencent.com/zh-cn/articles/8003251479983154.pdf)

補充內(nèi)容:

python 實現(xiàn)存儲數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決

以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持好吧啦網(wǎng)。如有錯誤或未考慮完全的地方,望不吝賜教。

標簽: Python 編程
相關(guān)文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
欧美一级精品| 日韩午夜在线| 美国三级日本三级久久99| 亚洲高清激情| 日韩视频网站在线观看| 激情欧美丁香| 亚洲小说欧美另类婷婷| 精品91福利视频| 欧美国产日韩电影| 国产精品亚洲二区| 欧美日韩一区二区三区在线电影| 日韩精品一区二区三区中文在线 | 不卡在线一区二区| 欧美性感美女一区二区| 99国产精品免费视频观看| 99精品国产一区二区三区| 99精品视频在线观看免费播放| 欧美日一区二区| 国产亚洲毛片| 久久婷婷一区| 日韩精品视频在线看| 亚洲精品综合| 黑丝美女一区二区| 国产精品日韩久久久| 国产视频一区二| 国产欧美一区二区三区精品酒店| 欧美日韩高清| 精品国产三区在线| 午夜在线视频观看日韩17c| 国产激情综合| 国产日韩专区| 欧美日韩一区二区综合 | 美女精品一区| 久久伊人久久| 天堂av在线| 91成人在线网站| 国产亚洲毛片| 99久久精品国产亚洲精品| 蜜臀av在线播放一区二区三区| 国产精品宾馆| 国产精品毛片在线| 日本欧美一区二区| 国产欧美激情| 91精品国产成人观看| 国产精品99一区二区| 深夜视频一区二区| 国产在线不卡| 亚洲婷婷在线| 黄色在线网站噜噜噜| 麻豆理论在线观看| 国产精品成人自拍| 久久高清免费| 日韩网站在线| 日韩在线电影| 欧美综合国产| 国产午夜久久av| 国产人成精品一区二区三| 麻豆视频一区| 国内精品福利| 国产乱人伦丫前精品视频 | 狠狠操综合网| 久久亚洲欧美| 国产精品美女久久久久久不卡| 精品久久久网| 成人羞羞在线观看网站| 国产毛片精品| 久久精品国产999大香线蕉| 久久久91麻豆精品国产一区| 国产欧美丝祙| 精品理论电影在线| 久久亚洲国产精品尤物| 欧美精品91| 国产日韩电影| 欧美另类专区| 日本麻豆一区二区三区视频| 日韩av网站免费在线| 国产精品一区三区在线观看| 麻豆传媒一区二区三区| 精品91福利视频| 欧美性感美女一区二区| 欧美日韩国产免费观看视频| 亚洲精品午夜av福利久久蜜桃| 免费在线成人网| 欧美精品观看| 日韩理论片av| 视频一区中文字幕| 久久国产精品美女| 欧美 日韩 国产一区二区在线视频 | 日韩成人一级| 欧美成人精品午夜一区二区| 国产伦精品一区二区三区千人斩 | 欧美国产专区| 国产精品专区免费| 亚洲综合小说| 国产一区二区三区四区五区传媒| 深夜福利视频一区二区| 三级在线观看一区二区| 免费观看亚洲天堂| 午夜久久99| 美女视频黄免费的久久| 一区二区亚洲精品| 国产一区二区三区亚洲| 亚洲深深色噜噜狠狠爱网站| 成人午夜网址| 日本不卡视频一二三区| 欧美aa在线观看| 91欧美极品| 日韩av不卡在线观看| 亚洲视频www| 国产精品多人| 久久久久亚洲精品中文字幕| 国产精品夜夜夜| 日本免费一区二区视频| 亚洲视频国产| 视频一区欧美日韩| 欧美国产偷国产精品三区| 国产精品三级| 国产伦乱精品| 麻豆国产91在线播放| 捆绑调教美女网站视频一区| 精品视频99| 成人台湾亚洲精品一区二区 | 亚洲深深色噜噜狠狠爱网站| 99久久亚洲精品| 婷婷中文字幕一区| 午夜久久影院| 色综合视频一区二区三区日韩 | 欧美一区成人| 欧美另类中文字幕 | 欧美日韩国产高清| 亚洲作爱视频| 91成人福利| 国产一区二区色噜噜| 亲子伦视频一区二区三区| 午夜久久中文| 亚洲一区欧美二区| 日韩av黄色在线| 91亚洲自偷观看高清| 女同性一区二区三区人了人一| 丝袜美腿亚洲色图| 国产精品xxxav免费视频| 蜜桃精品在线| 少妇精品久久久一区二区| 给我免费播放日韩视频| 久久视频国产| 日产欧产美韩系列久久99| 卡一卡二国产精品| 91精品1区| 日韩国产在线观看| 天堂俺去俺来也www久久婷婷| 精品国产亚洲一区二区三区大结局| 中日韩男男gay无套| 欧美日一区二区在线观看| 日韩不卡免费高清视频| 99国产精品久久久久久久| 欧美a一区二区| 久久亚洲欧洲| 久久精品国产福利| 综合激情网...| 激情久久99| 视频在线观看一区| 黄色在线网站噜噜噜| 亚洲综合婷婷| 日韩欧美三级| 亚洲理论在线| 在线观看免费一区二区| 另类综合日韩欧美亚洲| 日韩啪啪电影网| 久久男人av| 国产精品欧美日韩一区| 综合一区在线| 黄色亚洲在线| 久久高清免费| 精品福利久久久| 日韩中文字幕一区二区高清99| 国产精品社区| 亚洲三级国产| 日韩成人av影视| 亚洲婷婷丁香| 性欧美69xoxoxoxo| 国产精品一区二区av日韩在线| 久久影院一区| 日韩精品导航| 久久中文字幕一区二区| 日本不卡视频在线| 欧美在线看片| 久久国产麻豆精品| 久久国产日韩欧美精品| 天堂va在线高清一区| 国产欧美在线| 狠狠久久伊人| 久久三级毛片| 婷婷激情久久| 欧美视频久久| 欧美激情福利| 麻豆成人综合网| 99精品一区| 中文字幕成人| 国产一区二区三区久久| 欧美久久天堂|