日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

python 如何做一個識別率百分百的OCR

瀏覽:122日期:2022-06-18 09:20:08
目錄寫在前面技術棧實現思路具體實現讀取圖片二值化圖像膨脹找輪廓外接矩形過濾字符字符分割構造數據集向量搜索(分類)生成結果寫在前面

當然這里說的百分百可能有點夸張,但其實想象一下,游戲里面的某個窗口的字符就是那種樣子,不會變化的。而且識別的字符可能也不需要太多。中文有大幾千個常用字,還有各種符號,其實都不需要。

這里針對的場景很簡單,主要是有以下幾點:

識別的字符不多:只要識別幾十個常用字符即可,比如說26個字母,數字,還有一些中文。 背景統一,字體一致:我們不是做驗證碼識別,我們要識別的字符都是清晰可見的。 字符和背景易分割:一般來說就是對圖片灰度化之后,黑底白字或者白底黑字這種。技術棧

這里用到的主要就是python+opencv了。

python3 opencv-python

環境主要是以下的庫:

pip install opencv-pythonpip install imutilspip install matplotlib實現思路

首先看下圖片的灰度圖。

python 如何做一個識別率百分百的OCR

第一步:二值化,將灰度轉換為只有黑白兩種顏色。

python 如何做一個識別率百分百的OCR

第二步:圖像膨脹,因為我們要通過找輪廓算法找到每個字符的輪廓然后分割,如果是字符還好,中文有很多左右偏旁,三點水這種無法將一個整體進行分割,這里通過膨脹將中文都黏在一起。

python 如何做一個識別率百分百的OCR

第三步:找輪廓。

python 如何做一個識別率百分百的OCR

第四步:外接矩形。我們需要的字符是一個矩形框,而不是無規則的。

python 如何做一個識別率百分百的OCR

第五步:過濾字符,這里比如說標點符號對我來說沒用,我通過矩形框大小把它過濾掉。

python 如何做一個識別率百分百的OCR

第六步:字符分割,根據矩形框分割字符。

python 如何做一個識別率百分百的OCR

第七步:構造數據集,每一類基本上放一兩張圖片就可以。

python 如何做一個識別率百分百的OCR

第八步:向量搜索+生成結果,根據數據集的圖片,進行向量搜索得到識別的標簽。然后根據圖片分割的位置,對識別結果進行排序。

具體實現讀取圖片

首先先讀取待識別的圖片。

import cv2import numpy as npfrom matplotlib import pyplot as pltfrom matplotlib.colors import NoNormimport imutilsfrom PIL import Imageimg_file = 'test.png'im = cv2.imread(img_file, 0)

使用matplotlib畫圖結果如下:

python 如何做一個識別率百分百的OCR

二值化

在進行二值化之前,首先進行灰度分析。

python 如何做一個識別率百分百的OCR

灰度值是在0到255之間,0代表黑色,255代表白色。可以看到這里背景色偏黑的,基本集中在灰度值30,40附近。而字符偏白,大概在180灰度這里。

這里選擇100作為分割的閾值。

thresh = cv2.threshold(im, 100, 255, cv2.THRESH_BINARY)[1]

2值化后效果如下:

python 如何做一個識別率百分百的OCR

圖像膨脹

接下來進行一個圖像的縱向膨脹,選擇一個膨脹的維度,這里選擇的是7。

kernel = np.ones((7,1),np.uint8) dilation = cv2.dilate(thresh, kernel, iterations=1)

python 如何做一個識別率百分百的OCR

找輪廓

接下來調用opencv找一下輪廓,

# 找輪廓cnts = cv2.findContours(dilation.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)cnts = imutils.grab_contours(cnts)

接下來我們再讀取一下原圖,繪制輪廓看下輪廓的樣子。

python 如何做一個識別率百分百的OCR

外接矩形

對于輪廓我們可以做外接矩形,這里可以看下外接矩形的效果。

python 如何做一個識別率百分百的OCR

過濾字符

這里過濾字符的原理其實就是將輪廓內的顏色填充成黑色。下面的代碼是將高度小于15的輪廓填充成黑色。

for i, c in enumerate(cnts): x, y, w, h = cv2.boundingRect(c) if (h < 15):cv2.fillPoly(thresh, pts=[c], color=(0))

填充后可以看到標點符號就沒了。

python 如何做一個識別率百分百的OCR

字符分割

因為圖像是個矩陣,最后字符分割就是使用切片進行分割。

for c in cnts: x, y, w, h = cv2.boundingRect(c) if (h < 15):continue cropImg = thresh[y:y+h, x:x+w] plt.imshow(cropImg) plt.show()構造數據集

最后我們創建數據集進行標注,就是把上面的都串起來,然后將分割后的圖片保存到文件夾里,并且完成標注。

import cv2import numpy as npimport imutilsfrom matplotlib import pyplot as pltimport uuiddef split_letters(im): # 2值化 thresh = cv2.threshold(im, 100, 255, cv2.THRESH_BINARY)[1] # 縱向膨脹 kernel = np.ones((7, 1), np.uint8) dilation = cv2.dilate(thresh, kernel, iterations=1) # 找輪廓 cnts = cv2.findContours(dilation.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE) cnts = imutils.grab_contours(cnts) # 過濾太小的 for i, c in enumerate(cnts):x, y, w, h = cv2.boundingRect(c)if h < 15: cv2.fillPoly(thresh, pts=[c], color=(0)) # 分割 char_list = [] for c in cnts:x, y, w, h = cv2.boundingRect(c)if h < 15: continuecropImg = thresh[y:y + h, x:x + w]char_list.append((x, cropImg)) return char_listfor i in range(1, 10): im = cv2.imread(f'test{i}.png', 0) for ch in split_letters(im):print(ch[0])filename = f'ocr_datas/{str(uuid.uuid4())}.png'cv2.imwrite(filename, ch[1])向量搜索(分類)

向量搜索其實就是個最近鄰搜索的問題,我們可以使用sklearn中的KNeighborsClassifier。

訓練模型代碼如下:

import osimport numpy as npfrom sklearn.neighbors import KNeighborsClassifierimport cv2import pickleimport jsonmax_height = 30max_width = 30def make_im_template(im): template = np.zeros((max_height, max_width)) offset_height = int((max_height - im.shape[0]) / 2) offset_width = int((max_width - im.shape[1]) / 2) template[offset_height:offset_height + im.shape[0], offset_width:offset_width + im.shape[1]] = im return templatelabel2index = {}index2label = {}X = []y = []index = 0for _dir in os.listdir('ocr_datas'): new_dir = 'ocr_datas/' + _dir if os.path.isdir(new_dir):label2index[_dir] = indexindex2label[index] = _dirfor filename in os.listdir(new_dir): if filename.endswith('png'):im = cv2.imread(new_dir + '/' + filename, 0)tpl = make_im_template(im) # 生成固定模板tpl = tpl / 255 # 歸一化X.append(tpl.reshape(max_height*max_width))y.append(index)index += 1print(label2index)print(index2label)model = KNeighborsClassifier(n_neighbors=1)model.fit(X, y)with open('simple_ocr.pickle', 'wb') as f: pickle.dump(model, f)with open('simple_index2label.json', 'w') as f: json.dump(index2label, f)

這里有一點值得說的是如何構建圖片的向量,我們分隔的圖片的長和寬是不固定的,這里首先需要使用一個模型,將分隔后的圖片放置到模板的中央。然后將模型轉換為一維向量,當然還可以做一個歸一化。

生成結果

最后生成結果就是還是先分割一遍,然后轉換為向量,調用KNeighborsClassifier模型,找到最匹配的一個作為結果。當然這是識別一個字符的結果,我們還需要根據分割的位置進行一個排序,才能得到最后的結果。

import cv2import numpy as npimport imutilsfrom sklearn.neighbors import KNeighborsClassifierimport pickleimport jsonwith open('simple_ocr.pickle', 'rb') as f: model = pickle.load(f)with open('simple_ocr_index2label.json', 'r') as f: index2label = json.load(f)max_height = 30max_width = 30def make_im_template(im): template = np.zeros((max_height, max_width)) offset_height = int((max_height - im.shape[0]) / 2) offset_width = int((max_width - im.shape[1]) / 2) template[offset_height:offset_height + im.shape[0], offset_width:offset_width + im.shape[1]] = im return template.reshape(max_height*max_width)def split_letters(im): # 2值化 thresh = cv2.threshold(im, 100, 255, cv2.THRESH_BINARY)[1] # 縱向膨脹 kernel = np.ones((7, 1), np.uint8) dilation = cv2.dilate(thresh, kernel, iterations=1) # 找輪廓 cnts = cv2.findContours(dilation.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE) cnts = imutils.grab_contours(cnts) # 過濾太小的 for i, c in enumerate(cnts):x, y, w, h = cv2.boundingRect(c)if h < 15: cv2.fillPoly(thresh, pts=[c], color=(0)) # 分割 char_list = [] for c in cnts:x, y, w, h = cv2.boundingRect(c)if h < 15: continuecropImg = thresh[y:y + h, x:x + w]char_list.append((x, cropImg)) return char_listdef ocr_recognize(fname): im = cv2.imread(fname, 0) char_list = split_letters(im) result = [] for ch in char_list:res = model.predict([make_im_template(ch[1])])[0] # 識別單個結果result.append({ 'x': ch[0], 'label': index2label[str(res)]}) result.sort(key=lambda k: (k.get(’x’, 0)), reverse=False) # 因為是單行的,所以只需要通過x坐標進行排序。 return ''.join([it['label'] for it in result])print(ocr_recognize('test1.png'))

以上就是python 如何做一個識別率百分百的OCR的詳細內容,更多關于python 做一個OCR的資料請關注好吧啦網其它相關文章!

標簽: Python 編程
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
卡一精品卡二卡三网站乱码| 精品久久免费| 国产精品久久久久久久久久10秀 | 亚洲日本欧美| 中文字幕免费精品| 在线日韩成人| 欧美三级精品| 国产精品一国产精品| 影视先锋久久| 中文字幕av亚洲精品一部二部| 国产精品久久久久久久久久齐齐 | 日韩有吗在线观看| 欧美成人aaa| 久久av免费看| 亚洲毛片在线免费| 999精品色在线播放| 国产精品久久久久久妇女| 狠狠干综合网| 亚洲视频电影在线| 亚洲午夜电影| 国产66精品| 91午夜精品| 日韩午夜电影| 麻豆视频观看网址久久| 国产精品一区二区精品| 自拍日韩欧美| 夜夜嗨一区二区三区| 国产精品国产三级国产在线观看| 免费看的黄色欧美网站| 日韩av自拍| 日韩1区2区日韩1区2区| 99tv成人| 成人高清一区| 国产亚洲精品久久久久婷婷瑜伽| 欧美aa国产视频| 99久久婷婷| 欧美一区久久久| 欧美精选一区二区三区| 久久国产精品成人免费观看的软件| 国产成人免费av一区二区午夜| 国产欧美日韩一区二区三区四区 | 久久久久国产精品一区二区| 亚洲精品国产偷自在线观看| 黄色成人91| 亚洲激情国产| 日本va欧美va瓶| 日韩欧美少妇| 国产综合婷婷| 亚洲成人精品| 日韩欧美少妇| 日韩一区二区三区免费视频 | 精品99在线| 精品一区在线| 亚洲资源网站| 美女网站久久| 欧美在线日韩| 精品久久久久中文字幕小说| 国产精品多人| 99久久视频| 精品欧美视频| 成人午夜国产| 激情婷婷久久| 在线国产一区二区| 国产精品久久久久77777丨| 国产成人精品一区二区三区视频 | 综合国产在线| 午夜国产精品视频免费体验区| 在线一区二区三区视频| 老牛国内精品亚洲成av人片 | 青草国产精品久久久久久| 欧美精品一二| 日韩午夜av| 亚洲精品福利| 国产免费播放一区二区| 欧美激情麻豆| 日本久久成人网| 亚洲深夜av| 在线日韩成人| 国产亚洲电影| 岛国av在线播放| 一区免费视频| 国产亚洲高清一区| 成人片免费看| 精品中文一区| 日韩高清不卡在线| 岛国av在线网站| 亚洲深夜福利| 国产精品久久久久久久久久齐齐 | 91亚洲国产成人久久精品| 91精品一区国产高清在线gif| 国产精品久久观看| 国产精品白丝av嫩草影院| 国产精品视区| 欧美精品成人| 久久国产高清| 久久亚洲精品中文字幕蜜潮电影| 国产精品一区二区三区www| 蜜臀av一区二区三区| jizzjizz中国精品麻豆| 99视频精品| 精品伊人久久久| 亚洲九九精品| 在线亚洲自拍| 久久久久久网| 中文精品电影| 精品国产第一福利网站| 亚洲色图网站| 欧美大黑bbbbbbbbb在线| 精品三级在线| 日韩高清一区二区| 久久亚洲视频| 国产精品普通话对白| 久久三级福利| 亚洲精品福利电影| 国产一区二区三区久久久久久久久| 最新亚洲国产| 丝袜亚洲精品中文字幕一区| 亚洲一级特黄| 国产在线看片免费视频在线观看| 日韩亚洲精品在线观看| 国产美女视频一区二区| 国产91在线精品| 国产欧美三级| 久久精品成人| 夜久久久久久| 精品视频在线你懂得| 久久三级中文| 久久国产99| 夜夜嗨一区二区三区| 日韩影院精彩在线| 首页国产欧美久久| 群体交乱之放荡娇妻一区二区| 亚州欧美在线| 久久久久久久久久久9不雅视频| 国产精品22p| 久久精品国产一区二区| 国产日产精品_国产精品毛片| 欧美日韩一区自拍| 国产精品亚洲二区| 成人国产综合| 亚洲一级二级| 欧美资源在线| 国产日韩欧美在线播放不卡| 国产精品porn| 日本精品影院| 日欧美一区二区| 国产精品v一区二区三区| 国产精品毛片久久| 国产精品88久久久久久| 免费一区二区视频| 日本不卡在线视频| 麻豆网站免费在线观看| 尤物在线精品| 国产精品亚洲二区| 精品一区毛片| 国产乱人伦精品一区| 天堂中文av在线资源库| 久久亚洲国产精品一区二区| 国产精品亚洲成在人线| 亚洲一级二级| 久久精品理论片| 日韩视频不卡| 久久精品国产亚洲aⅴ| 国产精品外国| 中文字幕高清在线播放| 蜜桃视频欧美| 免费亚洲一区| 国产一级一区二区| 国产91欧美| 国产乱人伦精品一区| 亚洲一区二区网站| av资源中文在线| 欧美日韩一区二区三区不卡视频 | 成人日韩av| 欧美一区在线观看视频| 91精品二区| 日韩av中文字幕一区| 国产精品v亚洲精品v日韩精品| 夜鲁夜鲁夜鲁视频在线播放| 国产精品久久| 日韩高清不卡在线| 一区二区三区网站| 一区免费在线| 蜜桃国内精品久久久久软件9| 91亚洲一区| www.九色在线| 91视频精品| 国产成人精品亚洲线观看| 欧美日韩18| 欧美片第1页综合| 日韩不卡一区二区三区| 日韩一区二区三区精品视频第3页| 视频一区中文字幕| 欧美日韩国产高清电影| 国产一区日韩一区| 亚洲欧美日本日韩| 婷婷精品在线| 国产欧美丝祙| 国产中文欧美日韩在线 | 极品日韩av|