深度实战----PaddleOCR：一行代码实现图片文字识别（附完整 Python 源码与部署教程）

优质文章学习记录

30 Jan 2026 — 6 min read

摘要：在 OCR（光学字符识别）领域，国产开源项目 PaddleOCR 凭借其超轻量级、高精度和多语言支持，已成为事实上的工业级标杆。本文将带你从零开始，实战 PaddleOCR 的环境搭建、Python 代码调用、结果可视化以及简单的服务部署。无论你是 AI 初学者还是寻找落地方案的工程师，这篇文章都能帮你快速上手 PP-OCRv4 模型。

1. PaddleOCR 简介：为什么选择它？

PaddleOCR 是基于百度飞桨（PaddlePaddle）开发的 OCR 工具库。它的核心优势在于：

PP-OCR 系列模型：提供超轻量模型（适合移动端/嵌入式）和通用模型（适合服务器），在速度和精度之间取得了极佳平衡。目前最新的 PP-OCRv4 效果显著。
功能丰富：支持文本检测、文本识别、关键信息提取（KIE）、表格识别等。
多语言：支持中、英、法、德、韩、日等 80 多种语言。

2. 环境搭建 (Environment Setup)

在开始之前，请确保你的环境安装了 Python 3.8+。

2.1 安装 PaddlePaddle

根据你的机器是否有 NVIDIA 显卡选择安装版本。

CPU 版本（通用，适合快速测试）：

Bash

python -m pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

GPU 版本（推荐，速度更快，需安装 CUDA）：

Bash

# 具体的 CUDA 版本号请参考官网 python -m pip install paddlepaddle-gpu -i https://mirror.baidu.com/pypi/simple

2.2 安装 PaddleOCR 及其依赖

一行命令安装核心库：

Bash

pip install "paddleocr>=2.0.1"

同时，为了后续可视化，建议安装 OpenCV 和 Matplotlib：

Bash

pip install opencv-python matplotlib

3. Python 核心实战：文字识别

接下来，我们编写一个 Python 脚本，使用 PP-OCRv4 模型识别一张包含中文的图片。

3.1 准备一张测试图片

假设你有一张名为 test_img.jpg 的图片（可以是发票、路牌或文档截图）。

3.2 编写代码

新建文件 ocr_demo.py：

Python

from paddleocr import PaddleOCR, draw_ocr import cv2 import matplotlib.pyplot as plt # 1. 初始化 OCR 模型 # use_angle_cls=True: 自动加载方向分类器，用于纠正翻转的文字 # lang="ch": 设置语言为中文 print("正在加载模型...") ocr = PaddleOCR(use_angle_cls=True, lang="ch") # 2. 图片路径 img_path = './test_img.jpg' # 3. 执行预测 # result 是一个列表，结构为 [ [ [box], (text, score) ], ... ] print("正在识别...") result = ocr.ocr(img_path, cls=True) # 4. 打印结果 print("---------------------------------------") for idx in range(len(result)): res = result[idx] for line in res: print(f"文本: {line[1][0]}, 置信度: {line[1][1]:.4f}") print("---------------------------------------") # 5. 结果可视化（可选） from PIL import Image image = Image.open(img_path).convert('RGB') boxes = [line[0] for line in result[0]] txts = [line[1][0] for line in result[0]] scores = [line[1][1] for line in result[0]] # 使用 PaddleOCR 内置的绘图工具 im_show = draw_ocr(image, boxes, txts, scores, font_path='./fonts/simfang.ttf') # 注意：需要指定一个支持中文的字体路径 im_show = Image.fromarray(im_show) im_show.save('result.jpg') print("可视化结果已保存为 result.jpg")

注意：draw_ocr 函数需要传入中文字体路径（如 simfang.ttf），否则可视化图中的中文会显示为乱码。你可以在 Windows 的 C:\Windows\Fonts 下找到字体文件并复制到项目目录。

3.3 运行效果

运行脚本后，终端会输出识别到的文字和置信度。

4. 进阶实战：参数调优与模型选择

在实际生产中，你可能需要调整参数以获得更好的效果。

4.1 切换服务器模型（高精度）

默认下载的是轻量级模型（Mobile）。如果你对精度要求极高且不在乎显存/耗时，可以指定 ocr_version：

Python

# 使用 PP-OCRv4 server 模型 ocr = PaddleOCR(use_angle_cls=True, lang="ch", ocr_version='PP-OCRv4')

4.2 调整检测阈值

如果你发现有些模糊的字漏检了，或者误检了噪点，可以调整 det_db_thresh：

Python

# 降低阈值可以检出更多模糊目标，但可能增加误检 result = ocr.ocr(img_path, cls=True, det_db_thresh=0.3)

参数	默认值	说明
`det_db_thresh`	0.3	二值化阈值，越低召回率越高
`det_db_box_thresh`	0.6	检测框阈值，低于该值的框会被过滤
`use_gpu`	True	是否使用 GPU 加速

5. 极速部署：PaddleHub Serving

写好代码只是第一步，如何将其变成一个 API 服务供前端调用？我们可以使用 PaddleHub 快速部署。

5.1 安装 PaddleHub

Bash

pip install paddlehub

5.2 启动服务

只需一行命令，即可启动一个 OCR 服务：

Bash

# 启动中文 OCR 服务模块 hub serving start -m ch_pp-ocrv3 -p 8866

5.3 发送请求

启动后，可以通过 HTTP POST 请求调用：

Python

import requests import json import cv2 import base64 def cv2_to_base64(image): data = cv2.imencode('.jpg', image)[1] return base64.b64encode(data.tostring()).decode('utf8') # 发送请求 headers = {"Content-type": "application/json"} url = "http://127.0.0.1:8866/predict/ch_pp-ocrv3" img = cv2_to_base64(cv2.imread('test_img.jpg')) data = {'images': [img], 'text': 'true'} r = requests.post(url=url, headers=headers, data=json.dumps(data)) print(r.json())

6. 常见问题 (FAQ)

Q: 报错 OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.
Q: 识别出的中文是乱码？
- A: 请检查终端编码，或者在可视化时确认 font_path 指向了正确的中文字体文件。
Q: 第一次运行很慢？
- A: 第一次运行 PaddleOCR() 时会自动下载模型权重文件（约 15MB），后续运行会直接加载本地缓存。

A: 在代码最开头加入：Python

import os os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"

7. 总结

PaddleOCR 是目前 Github 上最活跃的 OCR 项目之一。通过本文，我们完成了：

环境的快速搭建。
使用 Python API 进行图片文字提取。
结果的可视化绘制。
基于 PaddleHub 的 API 服务部署。

对于更复杂的场景（如手写体识别、自定义数据集微调训练），PaddleOCR 也提供了完善的文档支持。希望这篇实战指南能帮你打开 OCR 的大门！

如果你觉得文章有用，欢迎点赞、收藏、关注！

开源地址：

PaddleOCR Github: https://github.com/PaddlePaddle/PaddleOCR

智能家居笔记Home-Assistant+小智AI

设备框架图概述：总体而言借用各种开源项目，致力做到好用可控。输入设备小智AI作为用户前端，后端用小智AI华南理工开源服务器。智能家庭中控采用树莓派5搭载HAOS，用homeassistant，包括手机APP。各种终端设备，支持zigbee通信协议，wifi通信协议，小米设备支持milot的设备可以连接，其他类似美的海尔的设备也看home assistant的插件支持程度，没有本身开源的使用舒适。主机: thinkpad-S5-yoga 地址xxxxxxxxxxxxx 用户：xxxxxxxxxxx 服务备注服务端口frigate5000sambamnt/media/usbsharehttp/mnt/usb_share/podcast10086mediamtx.servicexxxxxxxxxxx8554napcatkoimilocomicamxxxxxxxxxxxxxxastra-color.servicezaokafei-fetch.timer/mnt/usb_share/podcast/zaokafeibambucam.serviceDesktop/bambustud

Openclaw部署飞书机器人

OpenClaw 项目资源 * GitHub 仓库: https://github.com/openclaw/openclaw * 官方文档: https://docs.openclaw.ai/ * 飞书插件：https://www.npmjs.com/package/@m1heng-clawd/feishu * GLM模型官方API：https://bigmodel.cn/glm-coding 一、安装 OpenClaw 前置要求 1. 需要 GLM-4.7 API 或支持 200K token 的 API 模型； 2. 本地部署的可行性分析： * 需 RTX4090-48G 显卡并使用 GLM-4.7-flash-Q4 版本，

飞书/钉钉/QQ 机器人一站式搞定！OpenClaw Docker 部署教程

一、概述 OpenClaw-Docker-CN-IM（OpenClaw 中国IM平台整合Docker版本）是一款容器化应用，旨在提供集成中国主流IM平台的AI机器人网关解决方案。该镜像预装并配置了飞书、钉钉、QQ机器人、企业微信等插件，支持通过环境变量灵活配置，实现快速部署与数据持久化。同时集成了OpenCode AI代码助手、Playwright浏览器自动化工具及中文TTS语音合成功能，适用于需要构建多平台IM机器人的开发者与科研用户。本指南将详细介绍其Docker部署流程，包括环境准备、镜像拉取、容器配置、功能测试及生产环境优化建议，帮助用户快速实现服务部署与应用。二、项目简介与核心特性 2.1 项目简介 OpenClaw 中国 IM 插件整合版 Docker 镜像，预装并配置了飞书、钉钉、QQ机器人、企业微信等主流中国 IM 平台插件，让您可以快速部署一个支持多个中国 IM 平台的 AI 机器人网关。官方项目地址: https://github.com/justlovemaki/

告别从零开发！AI+AR眼镜开源方案来了｜PUSHI G1赋能18个全场景，联动腾讯/阿里云落地

在人工智能（AI）与增强现实（AR）技术深度融合、加速渗透千行百业的产业浪潮中，深圳企业凭借前沿硬件研发实力与生态构建思维，率先完成从单一硬件供给到全链条系统生态布局的关键跨越，推出AI+AR眼镜应用开放平台。该平台打破行业壁垒，兼容不同厂家的AI/AR眼镜技术方案，彻底解决当前市场核心痛点——市面上多数AI/AR眼镜方案局限于自有品牌闭环，未开放音视频推拉流SDK接口，导致开发者难以基于现有硬件二次开发，创意落地面临“从零起步”的高门槛困境。作为平台核心支撑，PUSHI G1 AI眼镜开源技术方案构建“硬件+软件+API+SDK”全栈开放体系，覆盖1人创业团队、高校科研小组、学生创新创业项目等各类开发者群体，提供低门槛、高自由度、高兼容性的二次开发环境，实现“让创意无需从零搭建，让技术赋能人人创新”，推动AI+AR技术从专业领域走向个体创新，激活全场景应用潜能。方案深度联动腾讯云、阿里云、高德地图等主流平台API，形成“硬件适配-算法调用-场景落地”全链条支撑。一、PUSHI

1. PaddleOCR 简介：为什么选择它？

2. 环境搭建 (Environment Setup)

2.1 安装 PaddlePaddle

2.2 安装 PaddleOCR 及其依赖

3. Python 核心实战：文字识别

3.1 准备一张测试图片

3.2 编写代码

3.3 运行效果

4. 进阶实战：参数调优与模型选择

4.1 切换服务器模型（高精度）

4.2 调整检测阈值

5. 极速部署：PaddleHub Serving

5.1 安装 PaddleHub

5.2 启动服务

5.3 发送请求

6. 常见问题 (FAQ)

7. 总结

开源地址：

Read more

智能家居笔记Home-Assistant+小智AI

Openclaw部署飞书机器人

飞书/钉钉/QQ 机器人一站式搞定！OpenClaw Docker 部署教程

告别从零开发！AI+AR眼镜开源方案来了｜PUSHI G1赋能18个全场景，联动腾讯/阿里云落地