CentOS下编译安装tesseract-ocr

距之前一篇博文《使用gocr进行简单的验证码自动识别》到现在不知不觉就过去了近三个月了,最近重新折腾起验证码破解来了,不过这次,验证码要复杂些,gocr这玩意不够给力,单纯的数字识别准确率确实高,但是字母跟数字混杂的情况就完全应付不了了。所以这次,换了个高级点的,tesseract-ocr。

作为在最流行的免费linux发行版本来说,centos自带的yum真不给力啊,连tesseract-ocr都没有。

安装tesseract,首先安装一些依赖的库

1
2
3
4
wget http://www.leptonica.com/source/leptonica-1.68.tar.gz
tar xvf leptonica-1.68.tar.gz
cd leptonica-1.68
./configure; make; make install

然后就是现在tesseract的源代码进行编译安装了,在写本篇博文时,最新的tesseract版本为3.01

1
2
3
4
5
6
wget http://tesseract-ocr.googlecode.com/files/tesseract-3.01.tar.gz
tar xvf tesseract-3.01.tar.gz
cd tesseract-3.01
./autogen.sh
mkdir m4; ./configure
make; make install

tesseract的编译安装需要automake、libtool,这个可以直接通过yum来安装。非常感谢网友mk2011的提示,tesseract是需要安装ImageMagick的,这个可以通过yum来安装。除了这个之外,tesseract的源代码当中还包含有一个陷阱,需要手动进行调整才能编译通过:

1
2
vim ccutil/strngs.h
把第一行的头第一个乱码字符删掉,即在vim当中会显示成 <feff> 这几个字

编译安装结束了之后,还需要安装相对应的语言包,安装语言包时,只要把语言包解压缩之后放到对应的目录就可以了。

1
2
3
wget http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.01.eng.tar.gz
tar xvf tesseract-ocr-3.01.eng.tar.gz
mv tesseract-ocr/tessdata/* /usr/local/share/tessdata/
This entry was posted in 杂七杂八 and tagged , , , . Bookmark the permalink.

2 Responses to CentOS下编译安装tesseract-ocr

  1. mk2011 says:

    这个依赖ImageMagick ,写软件安装的时候 base requirement 应该要写上,这个很重要,否则不同的环境,别人按你的方法,根本就会装不好, 另外其实可以加一下基本的实用方法,纯粹记录大家都能知道的东西,意义不大. 博主加由…

Leave a Reply

Your email address will not be published.

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>


Verify Code   If you cannot see the CheckCode image,please refresh the page again!