日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

Java使用Tesseract-Ocr識別數字

瀏覽:227日期:2022-08-14 10:41:27
前言

Tesseract-Ocr是我在編寫爬蟲項目中,用來識別圖片(不是驗證碼)的本地解決方案(因為客戶不想使用API識別,太貴),識別率目前達到了100%,可以說是相當了得,當然了,這取決于使用的traineddata。

簡介

Tesseract最初是在1985年至1994年間在Hewlett-Packard Laboratories Bristol和Greeley Colorado的Hewlett-Packard Co開發的,1996年進行了一些更改,移植到Windows,并且隨著C++在1998年興起。2005年Tesseract由惠普開源,然后從2006年至今,由谷歌繼續開發。

Tesseract-Ocr并不是一個軟件,它是一個軟件包,包含了一個OCR引擎【libtesseract】和一個命令行程序 【tesseract】。Tesseract 4增加了一個基于OCR引擎的新神經網絡(LSTM),該引擎專注于行級識別,但仍然支持Tesseract 3的傳統Tesseract OCR引擎,該引擎通過識別字符模式來工作。

要啟用與Tesseract 3的兼容性,你需要使用Legacy OCR Engine模式(--oem 0)。它還需要支持傳統引擎的traineddata(訓練好的數據文件),這些文件可以從tessdata存儲庫的文件獲取。

Tesseract支持識別unicode(UTF-8),可以“開箱即用”識別100多種語言。

Tesseract支持多種輸出格式:純文本,hOCR(HTML),PDF,TSV。主分支還具有ALTO(XML)輸出的實驗支持。

⭐️⭐️⭐️ 具體介紹可以上tesseract-wiki查看。

在Java上使用創建項目,并引入Jar包

Maven

<!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j --><dependency> <groupId>net.sourceforge.tess4j</groupId> <artifactId>tess4j</artifactId> <version>4.3.1</version></dependency>

Gradle

compile ’net.sourceforge.tess4j:tess4j:4.3.1’導入traineddata

traineddata是使用Tesseract-Ocr訓練好的數據文件,可以直接使用。這些文件你可以去tessdata存儲庫查找,也可以去谷歌搜索,當然了,你也可以自己訓練😂。

traineddata通常以*.traineddata命名,其中*指的是支持的語言類型。在這里你可以看到4.0.0版本支持的語言以及traineddata列表。

這次,我們選擇eng.traineddata進行測試。下載eng.traineddata放入/resources/traineddata目錄。

編寫測試代碼

初始化Tesseract引擎

public class TesseractTest { private ITesseract tesseract; @Before public void init() {tesseract = new Tesseract();System.out.println('tesseract init done...'); }}

實際上,上面的代碼是無法正常運行的,因為找不到指定語言版本的traineddata文件。

net.sourceforge.tess4j:tess4j:4.1.1提供的API并不好,在Tesseract構造函數中,沒有提供可選參數的構造器。

public class Tesseract implements ITesseract { // Tesseract使用的語言版本,用以選擇traineddata private String language = 'eng'; // traineddata目錄,里面放*.traineddata數據文件 private String datapath; // 省略其他代碼 ... public Tesseract() {try { // 默認從系統環境變量獲取traineddata目錄 datapath = System.getenv('TESSDATA_PREFIX');} catch (Exception e) { // ignore} finally { if (datapath == null) {datapath = './'; }} }/** * Sets language for OCR. * * @param language the language code, which follows ISO 639-3 standard. */ @Override public void setLanguage(String language) {this.language = language; }/** * Sets path to <code>tessdata</code>. * * @param datapath the tessdata path to set */ @Override public void setDatapath(String datapath) {this.datapath = datapath; }// 省略其他代碼 ...}

所以,我們可以選擇設置環境變量TESSDATA_PREFIX為數據目錄,或者通過Java編碼的方式來設置。

tesseract.setLanguage('eng'); // 默認就是eng,你可以選擇其他langtesseract.setDatapath(TesseractTest.class.getResource('/traineddata').getPath().substring(1));

OCR識別測試tesseract提供了一系列doOcr方法的重載,我們可以方便的進行OCR識別。

String doOCR(File imageFile) throws TesseractException;String doOCR(File imageFile, Rectangle rect) throws TesseractException;String doOCR(BufferedImage bi) throws TesseractException;String doOCR(BufferedImage bi, Rectangle rect) throws TesseractException;String doOCR(List<IIOImage> imageList, Rectangle rect) throws TesseractException;String doOCR(List<IIOImage> imageList, String filename, Rectangle rect) throws TesseractException;String doOCR(int xsize, int ysize, ByteBuffer buf, Rectangle rect, int bpp) throws TesseractException;String doOCR(int xsize, int ysize, ByteBuffer buf, String filename, Rectangle rect, int bpp) throws TesseractException;

可以看出,doOcr方法支持多種圖片識別方式,如圖片文件、多個圖片文件、圖片文件局部處理等等方式。

為了方便測試,我們選取最簡單的圖片文件方式測試。

圖片是個URL鏈接,如下所示

Java使用Tesseract-Ocr識別數字

@Testpublic void testOcr() throws IOException, TesseractException { BufferedImage image = ImageIO.read(new URL('http://static8.ziroom.com/phoenix/pc/images/price/aacd14fbc53a106c7f0f0d667535683as.png')); String ocr = tesseract.doOCR(image); System.out.println('ocr result : ' + ocr);}

控制臺輸出:

tesseract init done...ocr result : 2710386495

識別準確率,主要在于你選擇的訓練數據文件,我使用的是數據文件是這個,對于數字的準確率基本上是100%。

異常如果你遭遇Invalid memory access異常,這是由于找不到對應lang的*.traineddata文件,請修改language和datapath。

Invalid memory accessjava.lang.Error: Invalid memory accessat com.sun.jna.Native.invokePointer(Native Method)at com.sun.jna.Function.invokePointer(Function.java:470)at com.sun.jna.Function.invoke(Function.java:404)at com.sun.jna.Function.invoke(Function.java:315)at com.sun.jna.Library$Handler.invoke(Library.java:212)at com.sun.proxy.$Proxy9.TessBaseAPIGetUTF8Text(Unknown Source)at net.sourceforge.tess4j.Tesseract.getOCRText(Tesseract.java:495)at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:321)at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:293)at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:274)at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:258) ...訓練工具

https://github.com/tesseract-ocr/tesseract/wiki/AddOns

訓練數據倉庫 tessdata_best:基于LSTM引擎的訓練數據,最佳最準確的 tessdata_fast:基于LSTM引擎的訓練數據,快速(精簡)版本 tessdata:支持雙引擎(LSTM和傳統引擎),但LSTM訓練數據不是最新的版本

推薦使用tessdata_best,雖然識別速度相對于tessdata_fast稍慢,但是準確率可以保證。

參考

tesseract-ocr-wiki

以上就是Java使用Tesseract-Ocr識別數字的詳細內容,更多關于Java 識別數字的資料請關注好吧啦網其它相關文章!

標簽: Java
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
蜜桃视频一区二区三区| 国产美女一区| 欧美日韩国产在线一区| 欧美日韩精品在线一区| 欧美激情91| 日韩中文字幕一区二区三区| 国户精品久久久久久久久久久不卡| 国产精品欧美大片| 精品一区二区三区中文字幕在线| 国产精品美女午夜爽爽| 国产欧美日韩精品一区二区三区 | 狠狠爱成人网| 视频在线在亚洲| 亚洲开心激情| 国产精品99久久免费| 激情综合婷婷| 蜜桃tv一区二区三区| 亚洲一区二区三区中文字幕在线观看| 免费视频一区三区| 亚洲精品欧洲| 久久精品国产999大香线蕉 | 精品久久一区| 国产高清一区| 欧美一区激情| 日韩中文首页| 免费观看在线综合| 精品一二三区| 亚洲综合日韩| 久久精品国产免费| 伊人久久大香线蕉av超碰演员| 日韩在线网址| 国产亚洲欧美日韩在线观看一区二区 | 美女被久久久| 国产精品久久久久久久久久白浆 | 国产精品色网| 国产乱码精品一区二区三区亚洲人 | 国精品一区二区| 日本一区二区三区视频在线看| 精品国产午夜肉伦伦影院 | 日韩成人免费| 免费美女久久99| 精品久久美女| 婷婷综合激情| 欧美精品aa| 欧美日韩四区| 麻豆精品在线视频| 中文一区一区三区免费在线观 | 中文日韩欧美| 欧美激情一区| 99视频精品免费观看| 麻豆中文一区二区| 激情综合网站| 精品国产美女a久久9999| 视频一区国产视频| 久久久一本精品| 国产伦理久久久久久妇女| 婷婷综合激情| 丁香婷婷久久| 国产欧美三级| 亚洲精品黄色| 欧美a级一区| 国产成人精品一区二区免费看京| 亚洲精品国产日韩| 女同性一区二区三区人了人一| 久久精品国产免费| 日韩av不卡一区二区| 欧美.日韩.国产.一区.二区 | 日韩中文字幕亚洲一区二区va在线 | 久久中文视频| 美日韩一区二区三区| 亚洲一二三区视频| 999国产精品999久久久久久| 国产黄色精品| 日本成人精品| 日韩专区在线视频| 欧美精选一区二区三区| 黄色aa久久| 欧美激情五月| 欧美中文高清| 亚洲免费专区| 蜜桃免费网站一区二区三区| 国产综合精品| 欧洲亚洲一区二区三区| 国产成人精品999在线观看| 国产毛片一区二区三区| 日韩一区精品| 久久成人亚洲| 午夜国产精品视频| 久久精品国产99久久| 特黄毛片在线观看| 国产美女高潮在线观看| 三上亚洲一区二区| 日韩av在线中文字幕| 国内精品亚洲| 岛国精品一区| 国产精品福利在线观看播放| 国产一区国产二区国产三区| 欧美精品二区| 精品伊人久久久| 久久久久亚洲精品中文字幕| 久久av免费看| 欧美极品一区二区三区| 国产精品videossex久久发布| 国产欧美日韩精品一区二区三区| 欧美一级一区| 国产精品网站在线看| 欧美a在线观看| 久久精品日韩欧美| 国产激情一区| 中文字幕色婷婷在线视频| 日韩电影免费在线观看| 久久人人97超碰国产公开结果| 国产一区日韩一区| 亚洲欧美日韩专区| 日韩在线观看中文字幕| 国产午夜一区| 久久爱www.| 中文一区一区三区高中清不卡免费| 超碰在线99| 国产精品7m凸凹视频分类| 欧美一级专区| 国产日韩一区二区三区在线播放 | 激情五月色综合国产精品| 国产亚洲毛片在线| 日韩av中文字幕一区二区| 欧美激情视频一区二区三区在线播放| 成人在线超碰| 香蕉国产精品| 日本vs亚洲vs韩国一区三区二区| 日本一区二区三区视频在线看| 国产精品**亚洲精品| 激情国产在线| 久久香蕉精品| 国产精品亚洲欧美日韩一区在线 | 国产精品亚洲片在线播放| 国产一区二区三区网| 久久久影院免费| 亚洲欧美网站在线观看| 国产精品www994| 欧美日一区二区| 日韩欧美美女在线观看| 国产精品成人一区二区不卡| 欧美一区二区三区激情视频| 日韩在线观看一区二区三区| 麻豆精品国产91久久久久久| 999精品在线| 日本欧美在线| 日韩精品网站| 欧美在线观看天堂一区二区三区| 国产成人精品三级高清久久91| 91久久视频| 国产精品片aa在线观看| 激情综合激情| 国产高清亚洲| 99亚洲视频| 欧美激情91| 久久亚洲欧洲| 麻豆精品蜜桃视频网站| 亚洲国产不卡| 精品视频在线你懂得| 视频在线观看一区| 国产欧洲在线| 日韩1区2区日韩1区2区| 欧美日韩在线网站| 精品伊人久久| 午夜久久av | 日日摸夜夜添夜夜添国产精品| 国产精品国产三级国产在线观看| 丝袜诱惑制服诱惑色一区在线观看 | 激情91久久| 国产91在线播放精品| 色婷婷成人网| 欧美日韩国产综合网| 色婷婷色综合| 欧美日韩一区自拍| 99视频+国产日韩欧美| 黄色在线观看www| 国产美女视频一区二区| 午夜在线精品| 999精品在线| 久久久久久色| 国产亚洲高清视频| 国产精品一区二区精品视频观看| 欧美日韩日本国产亚洲在线 | 日韩高清一区| 视频一区中文字幕国产| 日本精品不卡| 麻豆一区二区三区| 91精品国产自产观看在线| 国产亚洲在线观看| 久久国产小视频| 欧美日韩视频免费观看| 成人在线观看免费视频| 国产精品视频一区视频二区| 亚洲精品成a人ⅴ香蕉片| 久久久777| 综合日韩av| 9999国产精品| 最近高清中文在线字幕在线观看1| 国产激情久久|