Python 第三方 OCR 库 tesserocr 安装与配置指南
背景介绍
在爬虫开发中,图形验证码是常见障碍。利用 OCR 技术自动识别验证码文本,能有效提升自动化效率。tesserocr 是 Python 封装的 OCR 库,底层依赖 Tesseract 引擎。因此,安装顺序是先装 Tesseract,再装 tesserocr。
资源链接
Windows 环境安装
1. 安装 Tesseract
访问 Tesseract 官网下载页面,推荐下载稳定版(不带 dev 后缀)。例如 tesseract-ocr-setup-3.05.01.exe。
运行安装程序时,务必勾选 Additional language data(download) 选项,以便支持多国语言识别。
2. 配置环境变量
安装完成后需配置两个关键变量:
- 添加 PATH:将 Tesseract 安装目录(如
C:\Program Files\Tesseract-OCR)添加到系统环境变量 Path 中。 - 设置 TESSDATA_PREFIX:新建系统变量,名称为
TESSDATA_PREFIX,值为 Tesseract 安装目录(即tessdata文件夹的父目录)。
3. 安装 Python 包
在终端执行以下命令:
pip install tesserocr pillow
若 pip 安装受阻,可尝试 Anaconda 环境:
conda install -c simonflueckiger tesserocr pillow
验证安装
命令行测试
进入图片所在目录,运行:
tesseract image.png result -l eng
查看生成的 result.txt 文件内容。
Python 代码测试
import tesserocr
from PIL import Image
image = Image.open('image.png')
result = tesserocr.image_to_text(image)
print(result)
或者直接使用文件路径:
tesserocr
(tesserocr.file_to_text())


