博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
CENTOS 下 编译安装 tesseract-ocr 3.0.4 识别文字
阅读量:5876 次
发布时间:2019-06-19

本文共 1696 字,大约阅读时间需要 5 分钟。

网上搜集了不少资料,发现目前Tesseract转移到了Github上,因此下载方式和以前略有差别,下文是参考了诸位达人(再此表示感谢)和自己的实际操作过程形成的。

(1)首先安装依赖的leptonica库:
wget http://www.leptonica.com/source/leptonica-1.72.tar.gz
tar -xvf leptonica-1.72.tar.gz  
cd leptonica-1.72
./configure && make && make install
(2)编译tesseract了,所用版本 3.04,编译需要automake、libtool,直接用yum安装就可以了。
wget https://github.com/tesseract-ocr/tesseract/archive/3.04.00.tar.gz
mv 3.04.00  Tesseract3.04.00.tar.gz
tar -xvf Tesseract3.04.00.tar.gz  
cd tesseract-3.04.00/
./autogen.sh
./configure
make && make install
 
(3)下载安装英文,中文繁体,中文简体 识别库。
wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/eng.traineddata
wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata
wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi_tra.traineddata
                      
cp/mv *.traineddata /usr/local/share/tessdata/

(4)测试

拍一张名片的照片,如下图,并未裁剪(当然,这里各位看到的图片中姓名电话等敏感信息做了遮盖):

转换一张tiff格式图片,后面用

[root@www wx.ent]# convert -negate card.jpg card.tif

试用JPEG文件识别:

[root@www wx.ent]# tesseract card.jpg ./b  -psm 3 -l chi_sim+eng    [root@www wx.ent]# cat b.txt李某某 丨胁工捏师`天津币英环信诚科披苜眼公司地址: 申国天津华苑产业区科薯别髦76害邮编: 300384 电话: 022-23707238-807债真: 022-83712515手机: 139********E_mail: ‖xuex|n@yinghuan′com

 接下来使用TIFF文件识别:

[root@www wx.ent]# tesseract card.tif ./b  -psm 3 -l chi_sim+eng         Tesseract Open Source OCR Engine v3.04.00 with LeptonicaPage 1Warning in pixReadMemTiff: tiff page 1 not found[root@www wx.ent]# cat b.txt李某某 丨胁工湟师丨天津币英环信诚科技苜限公司地址: 巾国夭津华苑产业区科薯别藿76害mm: 300384 电话: 022-237o7238-807传真: 022-83712515手机: 139*******E_mail: ‖XueX|n@yinghuan′com

可见结果并没有差别。至此tesseract-ocr就安装完成了。

 

转载于:https://www.cnblogs.com/dajianshi/p/4932882.html

你可能感兴趣的文章
Linux 中如何通过命令行访问 Dropbox
查看>>
开发进度——4
查看>>
JS里验证信息
查看>>
Akka actor tell, ask 函数的实现
查看>>
windows10 chrome 调试 ios safari 方法
查看>>
Netty 4.1.35.Final 发布,经典开源 Java 网络服务框架
查看>>
详解Microsoft.AspNetCore.CookiePolicy
查看>>
SCDPM2012 R2实战一:基于SQL 2008 R2集群的SCDPM2012 R2的安装
查看>>
SQL SERVER中字段类型与C#数据类型的对应关系
查看>>
Linux lsof命令详解
查看>>
SVG path
查看>>
js判断checkbox是否选中
查看>>
多系统盘挂载
查看>>
MySQL函数怎么加锁_MYSQL 函数调用导致自动生成共享锁问题
查看>>
MR1和MR2的工作原理
查看>>
Eclipse中修改代码格式
查看>>
GRUB Legacy
查看>>
关于 error: LINK1123: failure during conversion to COFF: file invalid or corrupt 错误的解决方案...
查看>>
python实现链表
查看>>
java查找string1和string2是不是含有相同的字母种类和数量(string1是否是string2的重新组合)...
查看>>