当前位置：数据分析 > vs2013tesseractocr的简单介绍

vs2013tesseractocr的简单介绍

发布：2023-09-23 07:57

本文目录一览：

1、tesseract-ocr怎么设置只匹配数字+大写字母
2、有人用过tesseract-ocr吗
3、关于Tesseract-OCR的使用，救啊该怎么处理
4、如何在windows上编译Tesseract OCR
5、tesseract-ocr错误
6、怎么安装tesseract ocr库

tesseract-ocr怎么设置只匹配数字+大写字母

C:\Program Files (x86)\Tesseract-OCR\tessdata\configs文件夹目录下，复制digits并命名为yours，用notepad++编辑

tessedit_char_whitelist 0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ

如果你是使用的3.04，按教程直接使用

tesseract C:\1.jpg C:\1 yours

你会很轻松地得到想要的结果。

但是如果你使用的是4.00，你会发现白名单毫无作用。

奇怪，难道是配置环境出错了？还是字母打错了？都不是。

tesseract提供了OCR引擎模式。

0 =仅限原始Tesseract

1 =只有神经网络LSTM

2 =Tesseract + LSTM

3 =基于可用的默认值

目前LSTM是无法支持白名单的，并且似乎tesseract的团队无意去解决这个问题。

选择原始tesseract 即 --oem 0

tesseract --oem 0 C:\1.jpg C:\1 yours

这样你就能使用白名单了。但是识别正确率会比原先低。

有人用过tesseract-ocr吗

识别率低是因为tesseract 想做到适应各种字体、各种分辨率，结果就造成了识别率低的尴尬局面。

要想识别率高的话，可以采用abbyy finereader是ocr（光学辨识）。比较常用的功能为：扫描到 Word、将PDF图像、图片转换为 Word 文档或者可编辑可搜索的PDF文档，另外也支持将PDF图像转换为 Excel 文档。

OCR 识别是肯定会存在错误的，所以识别转换完成以后记得要和原文核对。设置语言种类的话，越少识别率越高，就是说如果文件只有中文的话，那么就设置中文一种语言，不要选择其他语言，这样识别速度也会提高。

关于Tesseract-OCR的使用，救啊该怎么处理

可以通过配置Tesseract来使用Tesseract进行OCR，opencv和opencv的C#版本Emgu都集成了Tesseract这个工具。但是在使用时经常会出现误判，比如把“s”识别成“5”，把“1”识别成“l”或“i”。可以设置相应的参数来识别指定范围的字符。下面是Emgu中关于这...

如何在windows上编译Tesseract OCR

编译Tesseract下载 Windows installer of tesseract-ocr 3.02.02 安装安装过程中勾选Tesseract development files：编译在安装目录中找到vs2008到工程目录：找到所有编译相关的库：打开Visual Studio 2008（没有的可以去官网下载express版本），导入工程编译。最后生成DEBUG和RELEASE两个版本的DLL：libtesseract302d.dll ，libtesseract302.dll 在README中注意这段话：Tesseract依赖Leptonica库，所以再看下Leptonica是怎么编译的。编译Leptonica Leptonica是C语言编写的一个图像处理库，支持JPEG, PNG, TIFF，GIF。4.下载源码：leptonica-1.68.tar.gzVS工程：www.sychzs.cn 相关头文件和库：www.sychzs.cn 5.编译把三个包解压，并按照下面的结构组建编译环境：BuildFolder\leptonica-1.68 contents:打开Visual Studio 2008，导入工程编译。最后生成DEBUG和RELEASE两个版本的DLL：liblept168d.dll，liblept168.dll