当前位置:数据分析 > vs2013tesseractocr的简单介绍

vs2013tesseractocr的简单介绍

  • 发布:2023-09-23 07:57

本文目录一览:

  • 1、tesseract-ocr怎么设置只匹配数字+大写字母
  • 2、有人用过tesseract-ocr吗
  • 3、关于Tesseract-OCR的使用,救啊该怎么处理
  • 4、如何在windows上编译Tesseract OCR
  • 5、tesseract-ocr错误
  • 6、怎么安装tesseract ocr库

tesseract-ocr怎么设置只匹配数字+大写字母

C:\Program Files (x86)\Tesseract-OCR\tessdata\configs文件夹目录下,复制digits并命名为yours,用notepad++编辑

tessedit_char_whitelist 0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ

如果你是使用的3.04,按教程直接使用

tesseract C:\1.jpg C:\1 yours

你会很轻松地得到想要的结果。

但是如果你使用的是4.00,你会发现白名单毫无作用。

奇怪,难道是配置环境出错了?还是字母打错了?都不是。

tesseract提供了OCR引擎模式。

0 =仅限原始Tesseract

1 =只有神经网络LSTM

2 =Tesseract + LSTM

3 =基于可用的默认值

目前LSTM是无法支持白名单的,并且似乎tesseract的团队无意去解决这个问题。

选择原始tesseract 即 --oem 0

tesseract --oem 0 C:\1.jpg C:\1 yours

这样你就能使用白名单了。但是识别正确率会比原先低。

有人用过tesseract-ocr吗

识别率低是因为tesseract 想做到适应各种字体、各种分辨率,结果就造成了识别率低的尴尬局面。

要想识别率高的话,可以采用abbyy finereader是ocr(光学辨识)。比较常用的功能为:扫描到 Word、将PDF图像、图片转换为 Word 文档或者可编辑可搜索的PDF文档,另外也支持将PDF图像转换为 Excel 文档。

OCR 识别是肯定会存在错误的,所以识别转换完成以后记得要和原文核对。 设置语言种类的话,越少识别率越高,就是说如果文件只有中文的话,那么就设置中文一种语言,不要选择其他语言,这样识别速度也会提高。

关于Tesseract-OCR的使用,救啊该怎么处理

可以通过配置Tesseract来使用Tesseract进行OCR,opencv和opencv的C#版本Emgu都集成了Tesseract这个工具。 但是在使用时经常会出现误判,比如把“s”识别成“5”,把“1”识别成“l”或“i”。可以设置相应的参数来识别指定范围的字符。 下面是Emgu中关于这...

如何在windows上编译Tesseract OCR

编译Tesseract下载 Windows installer of tesseract-ocr 3.02.02 安装 安装过程中勾选Tesseract development files:编译 在安装目录中找到vs2008到工程目录: 找到所有编译相关的库: 打开Visual Studio 2008(没有的可以去官网下载express版本),导入工程编译。最后生成DEBUG和RELEASE两个版本的DLL:libtesseract302d.dll ,libtesseract302.dll 在README中注意这段话:Tesseract依赖Leptonica库,所以再看下Leptonica是怎么编译的。编译Leptonica Leptonica是C语言编写的一个图像处理库,支持JPEG, PNG, TIFF,GIF。4.下载 源码:leptonica-1.68.tar.gzVS工程:www.sychzs.cn 相关头文件和库:www.sychzs.cn 5.编译 把三个包解压,并按照下面的结构组建编译环境:BuildFolder\leptonica-1.68 contents:打开Visual Studio 2008,导入工程编译。最后生成DEBUG和RELEASE两个版本的DLL:liblept168d.dll,liblept168.dll

tesseract-ocr错误

识别率低是因为tesseract 想做到适应各种字体、各种分辨率。要在工程中用的话,可以先用tesseract 识别,再根据错误类型二次识别。根据我的经验,tesseract 的错误还是比较有规律的

怎么安装tesseract ocr库

之前使用 sudo apt-get install tesseract-ocr 安装的tesseract-ocr有问题,不能使用psm参数。决定手动编译安装。下面参考别人的安装过程。

安装所需的库

sudo apt-get install libpng12-dev

sudo apt-get install libjpeg62-dev

sudo apt-get install libtiff4-dev

sudo apt-get install gcc

sudo apt-get install g++

sudo apt-get install automake

pytesser 调用了 tesseract,因此需要安装 tesseract,安装 tesseract 需要安装 leptonica,否则编译tesseract 的时候出现 "configure: error: leptonica not found"。

以下都是解压编译安装的老步骤:

./configure

make -j4

sudo make install

下载安装leptonica

或者

最新的是www.sychzs.cn2

下载安装tesseract

最新的是 tesseract-ocr-3.02.02.tar.gz

相关文章