Tesseract安装使用
ubuntu: 16.04
Tesseract: 4.0.0-beta-1 版本
安装Tesseract
安装Tesseract 4.0.0-beta-1 版本,方法来自官方wiki: https://github.com/tesseract-ocr/tesseract/wiki
Tesseract 4.0.0-beta-1包含LSTM引擎和相关的训练数据。
安装过程:
1 | sudo add-apt-repository ppa:alex-p/tesseract-ocr |
安装过程中我的会卡在某个地方,多等一会就可以了。
检查是否安装成功:tesseract --version
, 返回信息如下:
1 | tesseract 4.0.0-beta.1 |
安装成功,不过因为默认的没有带中文语言包,对于中文识别不了,只能识别数字和英文,所以下一步安装中文语言包。
所有语言包地址: https://github.com/tesseract-ocr/tessdata_best
中文语言包地址:https://github.com/tesseract-ocr/tessdata_best/blob/master/chi_sim.traineddata
将中文语言包下载下来,放到/usr/share/tesseract-ocr/4.00/tessdata/
这个目录下,然后用tesseract --list-langs
检查安装过的语言包:
1 | tesseract --list-langs |
小测试
将Tesseract和Python结合起来,还需要安装两个包,一个是pillow
,另一个是pytesseract
,用pip install即可
要测试的图片:
分别是4张测试图片,最后一张是中文的。
测试代码:
1 | from PIL import Image |
测试结果:
可以看到测试的有些是错误的,不过大部分还是正确的。