日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

python實現過濾敏感詞

瀏覽:207日期:2022-06-20 11:47:26
簡述:

關于敏感詞過濾可以看成是一種文本反垃圾算法,例如 題目:敏感詞文本文件 filtered_words.txt,當用戶輸入敏感詞語,則用 星號 * 替換,例如當用戶輸入「北京是個好城市」,則變成「**是個好城市」 代碼:

#coding=utf-8def filterwords(x): with open(x,’r’) as f:text=f.read() print text.split(’n’) userinput=raw_input(’myinput:’) for i in text.split(’n’):if i in userinput: replace_str=’*’*len(i.decode(’utf-8’)) word=userinput.replace(i,replace_str) return wordprint filterwords(’filtered_words.txt’)

再例如反黃系列:

開發敏感詞語過濾程序,提示用戶輸入評論內容,如果用戶輸入的內容中包含特殊的字符:敏感詞列表 li = ['蒼老師','東京熱',”武藤蘭”,”波多野結衣”]則將用戶輸入的內容中的敏感詞匯替換成***,并添加到一個列表中;如果用戶輸入的內容沒有敏感詞匯,則直接添加到上述的列表中。content = input(’請輸入你的內容:’)li = ['蒼老師','東京熱','武藤蘭','波多野結衣']i = 0while i < 4: for li[i] in content:li1 = content.replace(’蒼老師’,’***’)li2 = li1.replace(’東京熱’,’***’)li3 = li2.replace(’武藤蘭’,’***’)li4 = li3.replace(’波多野結衣’,’***’) else:pass i += 1

python實現過濾敏感詞

實戰案例:

一道bat面試題:快速替換10億條標題中的5萬個敏感詞,有哪些解決思路? 有十億個標題,存在一個文件中,一行一個標題。有5萬個敏感詞,存在另一個文件。寫一個程序過濾掉所有標題中的所有敏感詞,保存到另一個文件中。

1、DFA過濾敏感詞算法

在實現文字過濾的算法中,DFA是比較好的實現算法。DFA即Deterministic Finite Automaton,也就是確定有窮自動機。 算法核心是建立了以敏感詞為基礎的許多敏感詞樹。 python 實現DFA算法:

# -*- coding:utf-8 -*-import timetime1=time.time()# DFA算法class DFAFilter(): def __init__(self):self.keyword_chains = {}self.delimit = ’x00’ def add(self, keyword):keyword = keyword.lower()chars = keyword.strip()if not chars: returnlevel = self.keyword_chainsfor i in range(len(chars)): if chars[i] in level:level = level[chars[i]] else:if not isinstance(level, dict): breakfor j in range(i, len(chars)): level[chars[j]] = {} last_level, last_char = level, chars[j] level = level[chars[j]]last_level[last_char] = {self.delimit: 0}breakif i == len(chars) - 1: level[self.delimit] = 0 def parse(self, path):with open(path,encoding=’utf-8’) as f: for keyword in f:self.add(str(keyword).strip()) def filter(self, message, repl='*'):message = message.lower()ret = []start = 0while start < len(message): level = self.keyword_chains step_ins = 0 for char in message[start:]:if char in level: step_ins += 1 if self.delimit not in level[char]:level = level[char] else:ret.append(repl * step_ins)start += step_ins - 1breakelse: ret.append(message[start]) break else:ret.append(message[start]) start += 1return ’’.join(ret)if __name__ == '__main__': gfw = DFAFilter() path='F:/文本反垃圾算法/sensitive_words.txt' gfw.parse(path) text='新疆騷亂蘋果新品發布會?八' result = gfw.filter(text) print(text) print(result) time2 = time.time() print(’總共耗時:’ + str(time2 - time1) + ’s’)

運行效果:

新疆騷亂蘋果新品發布會?八****蘋果新品發布會**總共耗時:0.0010344982147216797s

2、AC自動機過濾敏感詞算法

AC自動機:一個常見的例子就是給出n個單詞,再給出一段包含m個字符的文章,讓你找出有多少個單詞在文章里出現過。 簡單地講,AC自動機就是字典樹+kmp算法+失配指針

# -*- coding:utf-8 -*-import timetime1=time.time()# AC自動機算法class node(object): def __init__(self):self.next = {}self.fail = Noneself.isWord = Falseself.word = ''class ac_automation(object): def __init__(self):self.root = node() # 添加敏感詞函數 def addword(self, word):temp_root = self.rootfor char in word: if char not in temp_root.next:temp_root.next[char] = node() temp_root = temp_root.next[char]temp_root.isWord = Truetemp_root.word = word # 失敗指針函數 def make_fail(self):temp_que = []temp_que.append(self.root)while len(temp_que) != 0: temp = temp_que.pop(0) p = None for key,value in temp.next.item():if temp == self.root: temp.next[key].fail = self.rootelse: p = temp.fail while p is not None:if key in p.next: temp.next[key].fail = p.fail breakp = p.fail if p is None:temp.next[key].fail = self.roottemp_que.append(temp.next[key]) # 查找敏感詞函數 def search(self, content):p = self.rootresult = []currentposition = 0while currentposition < len(content): word = content[currentposition] while word in p.next == False and p != self.root:p = p.fail if word in p.next:p = p.next[word] else:p = self.root if p.isWord:result.append(p.word)p = self.root currentposition += 1return result # 加載敏感詞庫函數 def parse(self, path):with open(path,encoding=’utf-8’) as f: for keyword in f:self.addword(str(keyword).strip()) # 敏感詞替換函數 def words_replace(self, text):''':param ah: AC自動機:param text: 文本:return: 過濾敏感詞之后的文本'''result = list(set(self.search(text)))for x in result: m = text.replace(x, ’*’ * len(x)) text = mreturn textif __name__ == ’__main__’: ah = ac_automation() path=’F:/文本反垃圾算法/sensitive_words.txt’ ah.parse(path) text1='新疆騷亂蘋果新品發布會?八' text2=ah.words_replace(text1) print(text1) print(text2) time2 = time.time() print(’總共耗時:’ + str(time2 - time1) + ’s’)

運行結果:

新疆騷亂蘋果新品發布會?八****蘋果新品發布會**總共耗時:0.0010304450988769531s

以上就是python實現過濾敏感詞的詳細內容,更多關于python 過濾敏感詞的資料請關注好吧啦網其它相關文章!

標簽: Python 編程
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
天堂а√在线最新版中文在线| 欧美国产亚洲精品| 欧美国产一级| 免播放器亚洲| 精品淫伦v久久水蜜桃| 国产精品99一区二区| 亚洲开心激情| 亚洲性色av| 欧美亚洲综合视频| 韩国精品主播一区二区在线观看| 五月激激激综合网色播| 日韩电影免费网址| 日韩区一区二| 久久精品中文| 国产精品成人3p一区二区三区| 1024精品一区二区三区| 国产精品亚洲欧美一级在线| 中文在线不卡| 日韩av有码| 国产日韩欧美三级| 久久高清国产| 国产99久久| 成人午夜网址| 亚洲在线久久| 在线精品视频在线观看高清| 九九99久久精品在免费线bt| 水野朝阳av一区二区三区| 婷婷综合六月| 精品日产乱码久久久久久仙踪林| 中文字幕一区二区三区日韩精品| 久久三级视频| 精品国产第一福利网站| 7777精品| 日本欧美久久久久免费播放网| 亚洲黑丝一区二区| 97se综合| 国产拍在线视频| 一区二区亚洲视频| 性欧美精品高清| 亚洲天堂一区二区| 国产主播一区| 一区二区小说| 久久激情网站| 国产欧美日韩精品一区二区三区| 国产不卡一区| 久久成人国产| 黄色在线网站噜噜噜| 综合亚洲视频| 久久理论电影| 欧美日韩一区二区三区不卡视频 | 精品99在线| av在线最新| 亚洲3区在线| 日本久久成人网| 久久精品99国产精品| 亚洲精品国产偷自在线观看| 国产麻豆精品| 国产精品88久久久久久| 国产一区二区三区成人欧美日韩在线观看| 丝袜美腿亚洲一区二区图片| 成人羞羞在线观看网站| 美女毛片一区二区三区四区最新中文字幕亚洲| 亚洲激情国产| 日韩理论视频| 国产精品99精品一区二区三区∴ | 久久免费国产| 麻豆视频久久| 日韩av一区二区三区四区| 亚洲激情中文| 亚洲精品在线影院| 精品视频在线一区二区在线| 日本三级亚洲精品| 亚洲欧美日韩国产| 久久一区二区三区喷水| 首页国产精品| 欧美亚洲网站| 亚洲毛片在线免费| 日韩视频在线一区二区三区| 中文字幕在线高清| 麻豆久久久久久久| 日本成人在线网站| 鲁大师影院一区二区三区| 激情久久中文字幕| 久久精品免费一区二区三区 | 麻豆中文一区二区| 国产区精品区| 日本v片在线高清不卡在线观看| 亚洲成人日韩| 91tv亚洲精品香蕉国产一区| 国产一区二区三区91| 国产高清亚洲| 国产欧美日韩精品一区二区免费| 亚洲五月综合| 国产精品婷婷| 香蕉精品视频在线观看| 欧美日韩国产精品一区二区亚洲| www成人在线视频| 日韩一区自拍| 激情黄产视频在线免费观看| 日韩av有码| 国产高清不卡| 日韩欧美自拍| 日韩啪啪电影网| 成人羞羞视频播放网站| 涩涩av在线| 国产在线成人| 9色国产精品| 免费在线看一区| 亚洲欧美一级| 日韩在线观看一区二区三区| 日韩精品一页| 91p九色成人| 蜜桃久久久久| 久久男人av资源站| 久久天堂成人| 亚洲少妇在线| 日韩精品免费视频一区二区三区| 国产日韩欧美一区在线| 国产激情欧美| 日韩在线免费| 99久久婷婷这里只有精品| 不卡在线一区二区| 快she精品国产999| 免费国产自线拍一欧美视频| 日韩精品电影一区亚洲| 美日韩一区二区三区| 国产精品久久观看| 婷婷综合五月| 婷婷综合一区| 欧美aⅴ一区二区三区视频| 神马午夜久久| 中文字幕免费一区二区| 亚洲精品进入| 国产aⅴ精品一区二区三区久久| 国产综合婷婷| 911亚洲精品| 国产高潮在线| 伊人久久成人| 97久久亚洲| 97精品中文字幕| 蜜桃一区二区三区在线观看| 国产精品一区二区精品视频观看 | 国产精选久久| 国产亚洲一区二区手机在线观看| 午夜久久99| 国产精品99久久免费| 日韩精品第一区| 亚洲一区黄色| 国产精品一区高清| 日本久久成人网| 亚洲无线观看| 欧美激情在线精品一区二区三区| 亚洲最新无码中文字幕久久| 免费久久99精品国产| 国产福利资源一区| 欧美日韩三区| 欧美激情aⅴ一区二区三区| 久久国产日本精品| 91嫩草精品| 五月天久久久| 国产精品一区二区三区美女| 在线精品小视频| 免费在线亚洲欧美| 三级欧美在线一区| 日本综合字幕| 国产精品一卡| 在线视频免费在线观看一区二区| 欧美国产专区| 蜜桃一区二区三区在线| 日韩久久精品网| 久久国产日韩欧美精品| 亚洲免费网址| 亚洲精品一级二级| 国产精品密蕾丝视频下载| 国产亚洲毛片| 免费观看亚洲| 国产精品2区| 免费一区二区视频| 香蕉久久精品| 日本一区二区高清不卡| 国产视频一区二| 三级在线观看一区二区| 久久亚洲国产| 狠狠久久伊人| 国产日产精品_国产精品毛片| 亚洲专区欧美专区| 日韩欧美二区| 久久精品国产福利| 国产亚洲字幕| 石原莉奈在线亚洲二区| 激情六月综合| 日韩.com| 精品精品久久| 久久av中文| 青草国产精品| 免费的成人av| 99国产精品私拍| 欧美.日韩.国产.一区.二区| 成年男女免费视频网站不卡| 国产精品极品国产中出|