tesseract-ocr
tesseract-ocr是惠普公司开源的一个文字识别项目,通过它可以快速搭建图文识别系统,帮助我们开发出能识别图片的ocr系统。
安装
通过官方github的wiki:
https://github.com/tesseract-ocr/tesseract/wiki
选择对应版本进行安装。
这里介绍的是windows环境下的安装步骤:
下载windows安装包:
https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe
2.选择中文训练数据
3.配置环境变量
PATH:C:\Program Files (x86)\Tesseract-OCR
TESSDATA_PREFIX:C:\Program Files (x86)\Tesseract-OCR
PIP安装依赖包
pip install pillow
pip install pytesseract
Python代码
lang='chi_sim'表明使用简体中文训练包。
测试图片
选取试下最热的新闻素材