距之前一篇博文《使用gocr进行简单的验证码自动识别》到现在不知不觉就过去了近三个月了,最近重新折腾起验证码破解来了,不过这次,验证码要复杂些,gocr这玩意不够给力,单纯的数字识别准确率确实高,但是字母跟数字混杂的情况就完全应付不了了。所以这次,换了个高级点的,tesseract-ocr。
作为在最流行的免费linux发行版本来说,centos自带的yum真不给力啊,连tesseract-ocr都没有。
安装tesseract,首先安装一些依赖的库
1 2 3 4 | wget http: //www.leptonica.com/source/leptonica-1.68.tar.gz tar xvf leptonica-1.68.tar.gz cd leptonica-1.68 ./configure; make; make install |
然后就是现在tesseract的源代码进行编译安装了,在写本篇博文时,最新的tesseract版本为3.01
1 2 3 4 5 6 | wget http: //tesseract-ocr.googlecode.com/files/tesseract-3.01.tar.gz tar xvf tesseract-3.01.tar.gz cd tesseract-3.01 ./autogen.sh mkdir m4; ./configure make; make install |
tesseract的编译安装需要automake、libtool,这个可以直接通过yum来安装。非常感谢网友mk2011的提示,tesseract是需要安装ImageMagick的,这个可以通过yum来安装。除了这个之外,tesseract的源代码当中还包含有一个陷阱,需要手动进行调整才能编译通过:
1 2 | vim ccutil/strngs.h 把第一行的头第一个乱码字符删掉,即在vim当中会显示成 <feff> 这几个字 |
编译安装结束了之后,还需要安装相对应的语言包,安装语言包时,只要把语言包解压缩之后放到对应的目录就可以了。
1 2 3 | wget http: //tesseract-ocr.googlecode.com/files/tesseract-ocr-3.01.eng.tar.gz tar xvf tesseract-ocr-3.01.eng.tar.gz mv tesseract-ocr/tessdata/* /usr/local/share/tessdata/ |
这个依赖ImageMagick ,写软件安装的时候 base requirement 应该要写上,这个很重要,否则不同的环境,别人按你的方法,根本就会装不好, 另外其实可以加一下基本的实用方法,纯粹记录大家都能知道的东西,意义不大. 博主加由…
谢谢支持!