日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

python jieba庫的基本使用

瀏覽:56日期:2022-06-26 10:53:55
一、jieba庫概述

jieba是優秀的中文分詞第三方庫

中文文本需要通過分詞獲得單個的詞語 jieba是優秀的中文分詞第三方庫,需要額外安裝 jieba庫提供三種分詞模式,最簡單只需要掌握一個函數 二、jieba庫安裝

pip install jieba三、jieba分詞的原理

jieba分詞依靠中文詞庫

利用一個中文詞庫,確定漢字之間的關聯概率 漢字間概率大的組成詞組,形成分詞結果 四、jieba分詞的3種模式 精確模式:把文本精確地切分開,不存在冗余單詞(最常用) 全模式:把文本中所有可能的詞語都掃描出來,有冗余 搜索引擎模式:在精確模式的基礎上,對長詞再次切分 五、jieba庫常用函數

函數 描述 jieba.lcut(s) 精確模式,返回一個列表類型的分詞結果 jieba.lcut(s,cut_all=True) 全模式,返回一個列表類型的分詞結果,存在冗余 jieba.lcut_for_search(s) 搜索引擎模式,返回一個列表類型的分詞結果,存在冗余 jieba.lcut(s) 精確模式,返回一個列表類型的分詞結果 jieba.add_word(s) 向分詞詞典增加新詞w

例子:

>>> jieba.lcut('中國是一個偉大的國家')[’中國’, ’是’, ’一個’, ’偉大’, ’的’, ’國家’]>>> jieba.lcut('中國是一個偉大的國家', cut_all=True)[’中國’, ’國是’, ’一個’, ’偉大’, ’的’, ’國家’]>>> jieba.lcut_for_search('中華人民共和國是偉大的')[’中華’, ’華人’, ’人民’, ’共和’, ’共和國’, ’中華人民共和國’, ’是’, ’偉大’, ’的’]六、文本詞頻示例

問題分析

英文文本: Hamlet 分析詞頻

https://python123.io/resources/pye/hamlet.txt

中文文本: 《三國演義》 分析人物

https://python123.io/resources/pye/threekingdoms.txt

代碼如下:

def getText(): # 打開 hamlet.txt 這個文件 txt = open('hamlet.txt', 'r').read() # 避免大小寫對詞頻統計的干擾,將所有單詞轉換為小寫 txt = txt.lower() # 將文中出現的所有特殊字符替換為空格 for ch in ’|'#$%^&*()_+-=`~{}[];:<>?/’: txt = txt.replace(ch, ' ') # 返回一個所以后單詞都是小寫的,單詞間以空格間隔的文本 return txthamletTxt = getText()# split() 默認使用空格作為分隔符words = hamletTxt.split()counts = {}for word in words: counts[word] = counts.get(word,0) + 1items = list(counts.items())items.sort(key=lambda x:x[1], reverse=True)for i in range(10): word, count = items[i] print('{0:<10}{1:>5}'.format(word,count))

上面代碼中的

items.sort(key=lambda x:x[1], reverse=True)

是根據單詞出現的次數進行排序,其中使用了 lambda 函數。更多解釋請看:https://www.runoob.com/python/att-list-sort.html

下面使用 jieba 庫來統計《三國演義》中任務出場的次數:

import jiebatxt = open('threekingdoms.txt','r',encoding='utf-8').read()words = jieba.lcut(txt)counts = {}for word in words: if len(word) == 1: continue else: counts[word] = counts.get(word, 0) + 1items = list(counts.items())items.sort(key=lambda x:x[1], reverse=True)for i in range(15): word, count = items[i] print('{0:<10}{1:>5}'.format(word,count))

運行結果:

曹操 953孔明 836將軍 772卻說 656玄德 585關公 510丞相 491二人 469不可 440荊州 425玄德曰 390孔明曰 390不能 384如此 378張飛 358

我們可以看到得出的結果與我們想象的有些差異,比如

“卻說”、“二人”等與人名無關 “諸葛亮”、“孔明”都是同一個人 “孔明”和“孔明曰”分詞不符合我們的需求

所以我們需要對上面代碼進行優化,在詞頻統計的基礎上,面向問題改造我們的程序。

下面是《三國演義》人物數量統計代碼的升級版,升級版中對于某些確定不是人名的詞,即使做了詞頻統計,也要將它刪除掉。使用寄一個集合excludes來接收一些確定不是人名但是又排序比較靠前的單詞列進去。

import jiebatxt = open('threekingdoms.txt','r',encoding='utf-8').read()excludes = {'將軍','卻說','荊州','二人','不可','不能','如此'}words = jieba.lcut(txt)counts = {}for word in words: if len(word) == 1: continue elif word == '諸葛亮' or word == '孔明曰': rword == '孔明' elif word == '關公' or word == '云長': rword == '關羽' elif word == '玄德' or word == '玄德曰': rword == '劉備' elif word == '孟德' or word == '丞相': rword == '曹操' else: rword = word counts[rword] = counts.get(rword, 0) + 1items = list(counts.items())items.sort(key=lambda x:x[1], reverse=True)for i in range(15): word, count = items[i] print('{0:<10}{1:>5}'.format(word,count))

運行結果:

曹操 963孔明 847張飛 366商議 359如何 352主公 340軍士 320呂布 303左右 298軍馬 297趙云 283劉備 282引兵 279次日 278大喜 274

可以看出還是有像“商議”、“如何”等不是人物的詞出現在統計結果,我們將這些詞加入到 excludes 中,多次運行程序后最后得到《三國演義》任務出場順序前20:

七、文本詞頻統計問題舉一反三

應用問題擴展

《紅樓夢》、《西游記》、《水滸傳》...等名著都可以統計它的任務出場次數 政府工作報告、科研論文、新聞報道...中出現的大量的詞頻進行分析,進而找到每篇文章的重點內容 進一步,對文本的詞語或詞匯繪制成詞云,使其展示的效果更加直觀

以上內容資料均來源于中國大學MOOC網-北京理工大學Python語言程序設計課程課程地址:https://www.icourse163.org/course/BIT-268001

以上就是python jieba庫的基本使用的詳細內容,更多關于python jieba庫的資料請關注好吧啦網其它相關文章!

標簽: Python 編程
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
国产美女亚洲精品7777| 欧美 日韩 国产一区二区在线视频 | 日韩av成人高清| 亚洲精品黄色| 日韩**一区毛片| 久久av一区二区三区| 免播放器亚洲一区| 亚洲欧洲国产精品一区| 日本一区福利在线| 国产日韩1区| 精品久久美女| 亚洲精品.com| 久久99伊人| 欧美一级一区| 精品日本视频| 亚洲精品一区三区三区在线观看| 欧美a级片一区| 欧美专区一区二区三区| 日韩精品1区2区3区| 国产精品最新自拍| 99视频精品全国免费| 黄色成人在线网址| 亚洲资源网站| 欧美极品中文字幕| 日韩在线观看不卡| 免费人成在线不卡| 国产精品一区二区免费福利视频| 成人国产精品一区二区网站| 久久亚洲精品中文字幕蜜潮电影| 水蜜桃久久夜色精品一区的特点| 日韩高清成人在线| 国产精品福利在线观看播放| 极品裸体白嫩激情啪啪国产精品| 亚洲网址在线观看| 精品国产亚洲一区二区在线观看| se01亚洲视频| 视频一区二区三区中文字幕| 欧美私人啪啪vps| 人在线成免费视频| 蜜臀av亚洲一区中文字幕| 国产精品片aa在线观看| 久久婷婷激情| 五月激激激综合网色播| 国产一区二区三区久久| 好吊日精品视频| 国产精品99精品一区二区三区∴| 成人羞羞在线观看网站| 亚洲+小说+欧美+激情+另类| 国产成人精选| 蜜臀a∨国产成人精品| 精品国产乱码久久久久久樱花| 国产99久久| 国产日韩免费| 久久中文字幕av| 欧美日韩伊人| 国产一区亚洲| 欧美极品一区二区三区| 好吊视频一区二区三区四区| 国产精品白浆| 日韩午夜av| 国产成人精品一区二区三区免费| 三级一区在线视频先锋| 日韩.com| 日本天堂一区| 精品日韩毛片| 国产伦一区二区三区| 国产在线日韩| 麻豆久久久久久| 亚洲一区二区成人| av免费不卡国产观看| 日韩av在线免费观看不卡| 欧美精品羞羞答答| 精品国产麻豆| 91p九色成人| 午夜久久一区| 天堂中文在线播放| 国产精品自在| 在线观看一区| 久久精品播放| 精品久久福利| 日韩欧美激情电影| 欧美1级日本1级| 成人一二三区| 国产精品久久久久av蜜臀| 日韩专区欧美专区| 视频一区中文| 五月激情久久| 精品视频网站| 国产精品最新自拍| 亚洲资源在线| 一本色道久久精品| 久久久久网站| 四季av一区二区凹凸精品| 欧美日韩在线精品一区二区三区激情综合| 日韩一级不卡| 99热精品久久| 91一区二区| 精品久久不卡| 久久只有精品| 久久爱www.| 久久精品凹凸全集| 婷婷精品在线| 亚洲免费一区三区| 久久99伊人| 模特精品在线| 六月丁香综合| 玖玖精品视频| 一本一本久久| 日韩视频免费| 国产精品三上| 在线国产一区二区| 亚洲二区视频| 免费国产自久久久久三四区久久| 久久精品中文| 99精品视频精品精品视频| 日韩久久精品网| 日韩在线免费| 国产精品av久久久久久麻豆网| 亚洲性图久久| 91久久黄色| 免费看黄色91| 中文字幕成人| 日韩高清不卡在线| 91成人在线| 国产精品欧美三级在线观看 | 日韩精品久久理论片| 五月国产精品| 青草国产精品| 国产精品综合色区在线观看| 欧美综合精品| 国产精品久久久久久模特| 美女精品久久| 岛国av在线网站| 色88888久久久久久影院| 国产在线不卡| 亚洲综合不卡| 日韩精选在线| 国产精品www.| 一区二区三区四区日本视频| 色综合五月天| 欧美一级精品| 亚洲制服欧美另类| 国产精品中文字幕制服诱惑| 精品免费视频| 91精品在线观看国产| 国产一区成人| 日韩和欧美的一区| 久久精品国产999大香线蕉 | 精品一区在线| 亚洲精品伊人| 国产精品任我爽爆在线播放| 国产粉嫩在线观看| 91精品一区二区三区综合在线爱| 91精品二区| 亚洲精品日韩久久| 免费在线亚洲| 99精品视频在线| 亚洲精选91| 久久精品国产免费| 婷婷中文字幕一区| 日本aⅴ亚洲精品中文乱码| 精品国产美女a久久9999| 久久久久久黄| 中文字幕乱码亚洲无线精品一区| 国产欧美高清| 欧美一区二区三区激情视频 | 亚洲精品网址| 日本aⅴ精品一区二区三区| 国产 日韩 欧美 综合 一区 | 一区三区视频| 国产精品一页| 91精品1区| 国产精品男女| 激情欧美国产欧美| 国产欧美一区二区三区米奇| 快播电影网址老女人久久| 免播放器亚洲一区| 久久久久免费| 亚洲精品一级二级三级| 精品欠久久久中文字幕加勒比| 一区二区亚洲精品| 国产极品模特精品一二| 午夜国产欧美理论在线播放| 国产精品美女午夜爽爽| 欧洲毛片在线视频免费观看| 国产麻豆精品| 在线亚洲一区| 韩国女主播一区二区三区| 免费精品视频| 欧美激情国产在线| 日韩国产欧美在线播放| 999国产精品视频| 国产精品中文| 亚洲欧美日韩在线观看a三区 | 99国产精品视频免费观看一公开 | 成人影视亚洲图片在线| 无码日韩精品一区二区免费| 久久九九99| 欧美精品不卡| 最新国产精品视频|