日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

在python下實現word2vec詞向量訓練與加載實例

瀏覽:34日期:2022-07-22 08:14:49

項目中要對短文本進行相似度估計,word2vec是一個很火的工具。本文就word2vec的訓練以及加載進行了總結。

word2vec的原理就不描述了,word2vec詞向量工具是由google開發的,輸入為文本文檔,輸出為基于這個文本文檔的語料庫訓練得到的詞向量模型。

通過該模型可以對單詞的相似度進行量化分析。

word2vec的訓練方法有2種,一種是通過word2vec的官方手段,在linux環境下編譯并執行。

在github上下載word2vec的安裝包,然后make編譯。查看demo-word.sh腳本,得到word2vec的執行命令:

./word2vec -train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15

參數解釋:

1)-train:需要訓練的語料庫,text8為語料庫文件名

2)-output:輸出的詞向量文件,vectors.bin為輸出詞向量文件名,.bin后綴為二進制文件。若要以文檔的形式查看詞向量文件,需要將-binary參數的值由1改為0

3)-cbow:是否使用cbow模型進行訓練。參數為1表示使用cbow,為0表示不使用cbow

4)-size:詞向量的維數,默認為200維。

5)-window:訓練過程中截取上下文的窗口大小,默認為8,即考慮一個詞前8個和后8個詞

6)-negative:若參數非0,表明采樣隨機負采樣的方法,負樣本子集的規模默認為25。若參數值為0,表示不使用隨機負采樣模型。使用隨機負采樣比Hierarchical Softmax模型效率更高。

7)-hs:是否采用基于Hierarchical Softmax的模型。參數為1表示使用,0表示不使用

8)-sample:語料庫中的詞頻閾值參數,詞頻大于該閾值的詞,越容易被采樣。默認為e^-4.

9)-threads:開啟的線程數目,默認為20.

10)-binary:詞向量文件的輸出形式。1表示輸出二進制文件,0表示輸出文本文件

11)-iter:訓練的迭代次數。一定范圍內,次數越高,訓練得到的參數會更準確。默認值為15次.

./word2vec -train mytext.txt -output vectors.txt -cbow 1 -size 200 -window 5 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 0 -iter 30

示例為訓練一個名mytext.txt的文檔。設置輸出詞向量的格式為.txt文本文檔,所以還需要將-binary參數設置為0.

訓練模型采用基于隨機負采樣的cbow模型。由于短文本字數極為有限,所以-window參數設置為5,設置詞向量的維數

為200,為了使得到的參數更準確,將迭代次數增加至30.其他參數使用默認值。

訓練以后得到一個txt文本,該文本的內容為:每行一個單詞,單詞后面是對應的詞向量。

gensim加載詞向量:

保存詞向量模型到pkl中(注意:這里是對詞向量模型進行構建)

from gensim.models import KeyedVectorsif not os.path.exists(pkl_path): # 如果pickle模型不存在,則構建一個 print ’詞向量模型不存在,開始構建詞向量模型...’ Word2Vec = KeyedVectors.load_word2vec_format(vecs_path, binary=False) # 加載詞向量模型 f = file(pkl_path, ’wb’) pickle.dump(Word2Vec, f, True) f.close() print ’詞向量模型構建完畢...’f= file(pkl_path, ’rb’)# 打開pkl文件word2vec=pickle.load(f)# 載入pkl

第二種方法是使用gensim模塊訓練詞向量:

from gensim.models import Word2Vecfrom gensim.models.word2vec import LineSentencetry: import cPickle as pickleexcept ImportError: import picklesentences = LineSentence(path)# path為要訓練的txt的路徑# 對sentences表示的語料庫進行訓練,訓練200維的詞向量,窗口大小設置為5,最小詞頻設置為5model = Word2Vec(sentences, size=200, window=5, min_count=5)model.save(model_path)#model_path為模型路徑。保存模型,通常采用pkl形式保存,以便下次直接加載即可# 加載模型model = Word2Vec.load(model_path)

完整的訓練,加載通常采用如下方式:

if not os.path.exists(model_path): sentences = LineSentence(path) model = Word2Vec(sentences, size=200, window=5, min_count=5) model.save(model_path)model = Word2Vec.load(model_path)

這樣一來,就可以通過pkl化的詞向量模型進行讀取了。pkl的目的是為了保存程序中變量的狀態,以便下次直接訪問,

不必重新訓練模型。

詳細內容間gensim官方庫

https://radimrehurek.com/gensim/models/word2vec.html

以上這篇在python下實現word2vec詞向量訓練與加載實例就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持好吧啦網。

標簽: python
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
国产亚洲一区在线| 日本中文字幕一区二区视频| 播放一区二区| 精品视频黄色| 国产激情综合| 国产精品亲子伦av一区二区三区| 婷婷亚洲成人| 国产美女视频一区二区| 91亚洲国产成人久久精品| 无码日韩精品一区二区免费| 老鸭窝亚洲一区二区三区| 亚洲欧美日本视频在线观看| 91精品电影| av中文资源在线资源免费观看| 欧美激情另类| 日韩国产一区二区| 日韩欧美二区| 美女精品在线| 国产精品v日韩精品v欧美精品网站| 欧美日韩va| 精品无人区麻豆乱码久久久| 久久精品国产久精国产爱| 国产在线看片免费视频在线观看| 国模精品一区| 欧美1区免费| 91麻豆精品激情在线观看最新| 国产精品tv| 久久精品国产99久久| 性色一区二区| 久久久精品国产**网站| 国产专区一区| 亚洲免费一区三区| 美女久久精品| 久久国产精品亚洲77777| 亚洲精品综合| caoporn视频在线| 国产成人免费精品| 蜜桃久久久久久久| 精品一区二区三区的国产在线观看 | 欧美日韩激情| 欧美啪啪一区| 在线亚洲精品| 亚洲精品福利电影| 国产调教精品| 亚洲三级网站| 激情五月综合| 精品国产三区在线| 日韩精品第二页| 欧美一区=区| 四虎4545www国产精品| 亚洲精品无播放器在线播放| 高清av不卡| 日本一二区不卡| 成人午夜网址| 国产午夜精品一区二区三区欧美 | 久久99久久久精品欧美| 午夜日韩av| 日韩免费福利视频| 精品一区电影| 国产精品一区高清| 日韩av影院| 亚洲深夜影院| 亚洲无线观看| 亚洲免费婷婷| 在线观看视频免费一区二区三区| 久久久久久久久丰满| 久久久久久美女精品| 夜鲁夜鲁夜鲁视频在线播放| 成人日韩av| 久久久久久一区二区| 中文字幕在线免费观看视频| 福利视频一区| 中文字幕在线官网| 久久裸体视频| 欧美网站在线| 中文字幕亚洲在线观看| 在线成人动漫av| 伊人影院久久| 日本伊人午夜精品| 国产免费av一区二区三区| 国产精品久久777777毛茸茸| 国产精品视频一区视频二区| 国产精品伦一区二区| 国内一区二区三区| 久久久精品午夜少妇| 欧美日韩国产亚洲一区| 中文无码久久精品| 国产欧美日韩视频在线| 国产一区二区三区四区二区| 麻豆精品蜜桃| 日本色综合中文字幕| 久久影视三级福利片| 日本久久成人网| 亚洲综合婷婷| 欧美男人天堂| 亚洲最大av| 欧美日韩视频免费观看| 亚洲日本国产| 欧美久久天堂| 日本成人在线网站| 水蜜桃久久夜色精品一区| 亚洲电影在线| 国产精品久久久久久久久免费高清| 日韩久久精品网| 奇米亚洲欧美| 99久久久久| 欧美极品一区二区三区| 久久中文字幕av| 国产精品麻豆成人av电影艾秋| 国产精品97| 日本蜜桃在线观看视频| 亚洲免费成人av在线| 香蕉视频亚洲一级| 欧美aa在线视频| 日韩精品a在线观看91| 亚洲一级特黄| 免费一二一二在线视频| 国产精品一区二区三区美女 | 黄色国产精品| 日韩电影免费在线观看| 国产精品久久亚洲不卡| 亚洲三级在线| 蜜臀久久久99精品久久久久久| 日韩精品一区二区三区免费观看| 国产精品入口久久| 日本v片在线高清不卡在线观看| 欧美天堂亚洲电影院在线观看| 久久免费黄色| 欧美亚洲精品在线| 国产99久久| 欧美日韩国产探花| 99久久激情| 欧美日韩中文字幕一区二区三区| 日韩电影免费网址| 亚洲成人不卡| 99视频精品全部免费在线视频| 欧美aa在线观看| 精品日韩毛片| 免费日韩精品中文字幕视频在线| 999在线观看精品免费不卡网站| 欧美特黄a级高清免费大片a级| 亚洲综合二区| 日韩高清国产一区在线| 国产精品xxx| 亚洲精品成人图区| 亚洲福利精品| 中文字幕亚洲影视| 免费人成在线不卡| 天堂精品久久久久| 国产精品亚洲人成在99www| 精品国产一区二区三区2021| 成人精品视频| 午夜在线播放视频欧美| 欧美亚洲综合视频| 国产粉嫩在线观看| 日韩中文欧美在线| 国产精品视频一区二区三区| 黑森林国产精品av| 丝瓜av网站精品一区二区| 88久久精品| 亲子伦视频一区二区三区| 三级亚洲高清视频| 欧美一区91| 欧美日韩国产免费观看视频| 日本h片久久| 亚洲福利免费| 久久中文字幕一区二区| 伊人成人在线视频| 久久亚洲国产精品尤物| 99国产精品99久久久久久粉嫩| 久久国产生活片100| 999精品色在线播放| 欧美在线黄色| 欧美日韩国产高清电影| 国产福利一区二区精品秒拍| 狠狠干综合网| 日韩欧美一区二区三区免费观看| japanese国产精品| 国内揄拍国内精品久久| 日韩欧美三区| 亚洲欧洲一区| 日韩免费小视频| 欧美日韩伊人| 免费成人在线观看| 99成人超碰| 精品国产不卡| 国产日本久久| 日韩精品免费视频一区二区三区| 九一国产精品| 99精品在线观看| 欧美日韩视频网站| 久久精品日韩欧美| 日韩电影免费网站| 高清一区二区| 国产一区国产二区国产三区| 欧美日本二区| 日本精品久久| 日本免费在线视频不卡一不卡二| 三级一区在线视频先锋| 欧美aa在线观看|