百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

Tesseract使用初步(tesseract报错)

toyiye 2024-09-07 20:32 3 浏览 0 评论

Tesseract 是一个 OCR 库,目前由 Google 赞助。Tesseract是目前公认最优秀,最精确的开源 OCR 系统。除了极高的精确度,Tesseract也具有很高的灵活性。它可以通过训练识别出任何字体,也可以识别出任何 Unicode 字符。

Tesseract 是C++语言开发的二进制软件,使用 CLI 进行交互,也提供 API 接口(C++语言)以便其他语言调用(如Python)。

Tesseract 系统包含:bin(二进制文件),includes(C/C++接口),share(训练数据和配置文件),lib(库文件)。

对于环境的依赖:giflib,jpeg,libpng,libtiff,little-cms2,openjpeg,webp,leptonica

一、安装

由于个人使用Mac Pro,所以这里记录的MacOS下安装(其实就是二进制文件)

MacOS

brew install tesseract
brew info tesseract #查看安装信息

遇到权限问题(/usr/local/lib/pkgconfig),可以设置当前用户为目录属主

sudo chown -R $(whoami) /usr/local/lib/pkgconfig

其他的操作系统安装可以参考链接:

https://tesseract-ocr.github.io/tessdoc/Installation.html

Docker

docker pull tesseractshadow/tesseract4re

docker有re(运行时)和comp(编译时)两种镜像。


下载语言包(训练好的数据),下载文件放在目录 /usr/local/Cellar/tesseract/4.1.1/share/tessdata 中(其中4.1.1是 tesseract 版本)

简体中文
https://raw.githubusercontent.com/tesseract-ocr/tessdata/master/chi_sim.traineddata
简体中文-竖排
https://raw.githubusercontent.com/tesseract-ocr/tessdata/master/chi_sim_vert.traineddata
繁体中文
https://raw.githubusercontent.com/tesseract-ocr/tessdata/master/chi_tra.traineddata
繁体中文-竖排
https://raw.githubusercontent.com/tesseract-ocr/tessdata/master/chi_tra_vert.traineddata

二、使用方法

先上 CLI 支持的所有使用参数

tesseract --help | --help-extra | --help-psm | --help-oem | --version
tesseract --list-langs [--tessdata-dir PATH]
tesseract --print-parameters [options...] [configfile...]
tesseract imagename|imagelist|stdin outputbase|stdout [options...] [configfile...]

1、一般使用(最简模式)

默认使用eng文字库,imgName是图片的地址,result识别结果(自动保存为result.txt,默认eng语言)

tesseract imgName result

2、指定语言

可以指定图片解析语言,比如指定使用简体中文

tesseract -l chi_sim imgName result

3、查看本地存在的语言库

tesseract --list-langs

4、指定多语言

如果图片中可能包含多种语言,需要都指定,多个语言间用+号相连,如下面的例子,图片中包含中英文,需要指定这两个语言训练数据来解析。

tesseract -l chi_sim+eng imgName result

5、其他参数

--oem 选择引擎模式(OCR Engine mode)

0    Legacy engine only.
1    Neural nets LSTM engine only.
2    Legacy + LSTM engines.
3    Default, based on what is available.

默认的引擎是0,也是数据仓库提供训练数据默认的支持格式

--psm 分割模式(page segmentation mode)

0    Orientation and script detection (OSD) only.
1    Automatic page segmentation with OSD.
2    Automatic page segmentation, but no OSD, or OCR. (not implemented)
3    Fully automatic page segmentation, but no OSD. (Default)
4    Assume a single column of text of variable sizes.
5    Assume a single uniform block of vertically aligned text.
6    Assume a single uniform block of text.
7    Treat the image as a single text line.
8    Treat the image as a single word.
9    Treat the image as a single word in a circle.
10    Treat the image as a single character.
11    Sparse text. Find as much text as possible in no particular order.
12    Sparse text with OSD.
13    Raw line. Treat the image as a single text line, bypassing hacks that are Tesseract-specific.

三、输入输出

默认输出为 "文件名.txt" 方式,如上面的例子,会将解析结果保存在当面目录的"result.txt"文档里面,如果需要直接输出到控制台标准输出,可以用关键词 stdout 来表示。

tesseract -l chi_sim+eng imgName stdout

Tesseract 也支持输出为pdf格式文档。

tesseract -l eng+chi_sim test.png test pdf

会生成"test.pdf"文档(文本模式)。

输入除了文件名方式,还支持用管道符结合 stdin 关键词来直接使用标准输入来输入图片数据流。

四、Python使用Tesseract

通过 pip 安装支持Python 版本的 Tesseract库,其实也是对Tesseract的简单封装,在使用的pytesseract前还是要安装Tesseract的。

pip install pytesseract

内部其实还是调用Tesseract进程并捕获输出来获取结果(这点显得有点Low哈)。

通过Python代码可以以更简单直观的方式获取OCR结果:

import pytesseract
from PIL import Image


image = Image.open('/Users/admin/Desktop/test.jpg')
text = pytesseract.image_to_string(image)
print text

五、C++接口

Tesseract默认提供C++接口,可以方便嵌入到系统中使用。

#include <tesseract/baseapi.h>
#include <leptonica/allheaders.h>


int main()
{
    char *outText;


    tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI();
    // Initialize tesseract-ocr with English, without specifying tessdata path
    if (api->Init(NULL, "eng")) {
        fprintf(stderr, "Could not initialize tesseract.\n");
        exit(1);
    }


    // Open input image with leptonica library
    Pix *image = pixRead("/usr/src/tesseract/testing/phototest.tif");
    api->SetImage(image);
    // Get OCR result
    outText = api->GetUTF8Text();
    printf("OCR output:\n%s", outText);


    // Destroy used object and release memory
    api->End();
    delete api;
    delete [] outText;
    pixDestroy(&image);


    return 0;
}

更多例子可以参考链接:

https://tesseract-ocr.github.io/tessdoc/Examples_C++.html

六、测试结果

实际测试结果,对于印刷体(包括中文情况)准确率确实不错。



相关推荐

# Python 3 # Python 3字典Dictionary(1)

Python3字典字典是另一种可变容器模型,且可存储任意类型对象。字典的每个键值(key=>value)对用冒号(:)分割,每个对之间用逗号(,)分割,整个字典包括在花括号({})中,格式如...

Python第八课:数据类型中的字典及其函数与方法

Python3字典字典是另一种可变容器模型,且可存储任意类型对象。字典的每个键值...

Python中字典详解(python 中字典)

字典是Python中使用键进行索引的重要数据结构。它们是无序的项序列(键值对),这意味着顺序不被保留。键是不可变的。与列表一样,字典的值可以保存异构数据,即整数、浮点、字符串、NaN、布尔值、列表、数...

Python3.9又更新了:dict内置新功能,正式版十月见面

机器之心报道参与:一鸣、JaminPython3.8的热乎劲还没过去,Python就又双叒叕要更新了。近日,3.9版本的第四个alpha版已经开源。从文档中,我们可以看到官方透露的对dic...

Python3 基本数据类型详解(python三种基本数据类型)

文章来源:加米谷大数据Python中的变量不需要声明。每个变量在使用前都必须赋值,变量赋值以后该变量才会被创建。在Python中,变量就是变量,它没有类型,我们所说的"类型"是变...

一文掌握Python的字典(python字典用法大全)

字典是Python中最强大、最灵活的内置数据结构之一。它们允许存储键值对,从而实现高效的数据检索、操作和组织。本文深入探讨了字典,涵盖了它们的创建、操作和高级用法,以帮助中级Python开发...

超级完整|Python字典详解(python字典的方法或操作)

一、字典概述01字典的格式Python字典是一种可变容器模型,且可存储任意类型对象,如字符串、数字、元组等其他容器模型。字典的每个键值key=>value对用冒号:分割,每个对之间用逗号,...

Python3.9版本新特性:字典合并操作的详细解读

处于测试阶段的Python3.9版本中有一个新特性:我们在使用Python字典时,将能够编写出更可读、更紧凑的代码啦!Python版本你现在使用哪种版本的Python?3.7分?3.5分?还是2.7...

python 自学,字典3(一些例子)(python字典有哪些基本操作)

例子11;如何批量复制字典里的内容2;如何批量修改字典的内容3;如何批量修改字典里某些指定的内容...

Python3.9中的字典合并和更新,几乎影响了所有Python程序员

全文共2837字,预计学习时长9分钟Python3.9正在积极开发,并计划于今年10月发布。2月26日,开发团队发布了alpha4版本。该版本引入了新的合并(|)和更新(|=)运算符,这个新特性几乎...

Python3大字典:《Python3自学速查手册.pdf》限时下载中

最近有人会想了,2022了,想学Python晚不晚,学习python有前途吗?IT行业行业薪资高,发展前景好,是很多求职群里严重的香饽饽,而要进入这个高薪行业,也不是那么轻而易举的,拿信工专业的大学生...

python学习——字典(python字典基本操作)

字典Python的字典数据类型是基于hash散列算法实现的,采用键值对(key:value)的形式,根据key的值计算value的地址,具有非常快的查取和插入速度。但它是无序的,包含的元素个数不限,值...

324页清华教授撰写【Python 3 菜鸟查询手册】火了,小白入门字典

如何入门学习python...

Python3.9中的字典合并和更新,了解一下

全文共2837字,预计学习时长9分钟Python3.9正在积极开发,并计划于今年10月发布。2月26日,开发团队发布了alpha4版本。该版本引入了新的合并(|)和更新(|=)运算符,这个新特性几乎...

python3基础之字典(python中字典的基本操作)

字典和列表一样,也是python内置的一种数据结构。字典的结构如下图:列表用中括号[]把元素包起来,而字典是用大括号{}把元素包起来,只不过字典的每一个元素都包含键和值两部分。键和值是一一对应的...

取消回复欢迎 发表评论:

请填写验证码