CentOS下编译安装tesseract-ocr

距之前一篇博文《使用gocr进行简单的验证码自动识别》到现在不知不觉就过去了近三个月了，最近重新折腾起验证码破解来了，不过这次，验证码要复杂些，gocr这玩意不够给力，单纯的数字识别准确率确实高，但是字母跟数字混杂的情况就完全应付不了了。所以这次，换了个高级点的，tesseract-ocr。

作为在最流行的免费linux发行版本来说，centos自带的yum真不给力啊，连tesseract-ocr都没有。

安装tesseract，首先安装一些依赖的库

wget http://www.leptonica.com/source/leptonica-1.68.tar.gz
tar xvf leptonica-1.68.tar.gz
cd leptonica-1.68
./configure; make; make install

然后就是现在tesseract的源代码进行编译安装了，在写本篇博文时，最新的tesseract版本为3.01

wget http://tesseract-ocr.googlecode.com/files/tesseract-3.01.tar.gz
tar xvf tesseract-3.01.tar.gz
cd tesseract-3.01
./autogen.sh
mkdir m4; ./configure
make; make install

tesseract的编译安装需要automake、libtool，这个可以直接通过yum来安装。非常感谢网友mk2011的提示，tesseract是需要安装ImageMagick的，这个可以通过yum来安装。除了这个之外，tesseract的源代码当中还包含有一个陷阱，需要手动进行调整才能编译通过：

vim ccutil/strngs.h
把第一行的头第一个乱码字符删掉，即在vim当中会显示成 <feff> 这几个字

编译安装结束了之后，还需要安装相对应的语言包，安装语言包时，只要把语言包解压缩之后放到对应的目录就可以了。

wget http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.01.eng.tar.gz
tar xvf tesseract-ocr-3.01.eng.tar.gz
mv tesseract-ocr/tessdata/* /usr/local/share/tessdata/

CentOS下编译安装tesseract-ocr

2 Responses to CentOS下编译安装tesseract-ocr

Leave a Reply Cancel reply

Recent Posts

Recent Comments

Archives

Categories

Blogroll

Meta