Python OCR 文字识别：pytesseract 安装配置与使用

pytesseract 是 Python 的 OCR（光学字符识别）库，可以从图片中提取文字。Windows 上使用需要先安装 Tesseract OCR 引擎。

版本要求

pytesseract 依赖 Tesseract OCR 引擎：

组件	推荐版本	Python 版本	说明
pytesseract	0.3.10	3.7+	Python 封装库
Tesseract-OCR	5.x	-	OCR 识别引擎
中文语言包	chi_sim	-	简体中文识别（可选）
英文语言包	eng	-	英文识别（默认自带）

注意：pytesseract 只是封装库，必须先安装 Tesseract OCR 引擎才能使用。

安装中可能遇到的问题

问题 1：Tesseract 引擎未安装

import pytesseract
pytesseract.image_to_string('test.jpg')
# TesseractNotFoundError: tesseract is not installed or it's not in your PATH

只装了 pytesseract，没装 Tesseract OCR 引擎。

问题 2：路径未配置

import pytesseract
pytesseract.image_to_string('test.jpg')
# pytesseract.pytesseract.TesseractNotFoundError

Tesseract 安装了，但 Python 找不到，需要手动指定路径。

问题 3：中文识别乱码

text = pytesseract.image_to_string('中文图片.jpg')
print(text)
# 输出：乱码或空白

没有安装中文语言包 chi_sim.traineddata。

问题 4：识别准确率低

识别结果错误很多，可能是图片质量差、没有预处理。

方式一：手动安装

步骤 1：安装 Tesseract OCR 引擎

下载地址：Tesseract OCR 引擎下载地址

选择最新版本（如 tesseract-ocr-w64-setup-5.3.3.20231005.exe）下载并安装。

安装时注意：

勾选"Additional language data" → 选择"Chinese - Simplified"（简体中文）

方案	优点	缺点	适用场景
pytesseract	免费、离线、轻量	识别率一般、手写字差	印刷体文字
百度 OCR API	识别率高、支持手写	收费、需联网、有调用限制	商业项目
PaddleOCR	识别率高、免费	模型大、配置复杂	高精度需求
EasyOCR	多语言支持、简单易用	速度较慢	多语言场景

Python OCR 文字识别：pytesseract 安装配置与使用

Python OCR 文字识别：pytesseract 安装配置与使用

版本要求

安装中可能遇到的问题

问题 1：Tesseract 引擎未安装

问题 2：路径未配置

问题 3：中文识别乱码

问题 4：识别准确率低

方式一：手动安装

步骤 1：安装 Tesseract OCR 引擎

更多推荐文章

相关免费在线工具

步骤 2：配置环境变量（可选）

步骤 3：安装 pytesseract

步骤 4：配置 Tesseract 路径

步骤 5：下载中文语言包（如未安装）

验证安装

基础测试

检查支持的语言

实用案例

案例 1：身份证识别

案例 2：截图文字提取

案例 3：验证码识别

案例 4：批量 PDF 转文字

提高识别准确率

1. 图像预处理

2. 配置 OCR 参数

3. 选择合适的语言

常见问题

常用功能

获取文字位置

保存为 PDF

置信度检测

更多推荐文章

相关免费在线工具

Python OCR 文字识别：pytesseract 安装配置与使用

Python OCR 文字识别：pytesseract 安装配置与使用

版本要求

安装中可能遇到的问题

问题 1：Tesseract 引擎未安装

问题 2：路径未配置

问题 3：中文识别乱码

问题 4：识别准确率低

方式一：手动安装

步骤 1：安装 Tesseract OCR 引擎

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

步骤 2：配置环境变量（可选）

步骤 3：安装 pytesseract

步骤 4：配置 Tesseract 路径

步骤 5：下载中文语言包（如未安装）

验证安装

基础测试

检查支持的语言

实用案例

案例 1：身份证识别

案例 2：截图文字提取

案例 3：验证码识别

案例 4：批量 PDF 转文字

提高识别准确率

1. 图像预处理

2. 配置 OCR 参数

3. 选择合适的语言

常见问题

常用功能

获取文字位置

保存为 PDF

置信度检测

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具