无代码方案：CRNN WebUI使用全指南

📖 项目简介

在数字化转型加速的今天，OCR（光学字符识别）文字识别已成为文档自动化、信息提取和智能录入的核心技术。无论是发票扫描、证件识别还是街道路牌解析，OCR 都扮演着'视觉翻译官'的角色。然而，传统 OCR 方案往往依赖复杂的部署流程或昂贵的 GPU 资源，限制了其在中小项目中的普及。

本镜像基于 ModelScope 经典的 CRNN（Convolutional Recurrent Neural Network）模型构建，专为轻量级、高精度通用 OCR 场景设计。相比普通轻量模型，CRNN 通过'卷积 + 循环 + CTC 损失'三重机制，在处理复杂背景干扰、低分辨率图像以及中文手写体等挑战性任务时表现出更强的鲁棒性和准确率，是工业界广泛采用的端到端文本识别架构。

💡 核心亮点：

模型升级：从 ConvNextTiny 升级为 CRNN，显著提升中英文混合场景下的识别准确率。
智能预处理：集成 OpenCV 图像增强算法，自动完成灰度化、对比度增强、尺寸归一化，有效应对模糊、阴影、倾斜等问题。
极速推理：针对 CPU 环境深度优化，无需 GPU 支持，平均响应时间 < 1秒，适合边缘设备与低成本部署。
双模支持：同时提供可视化 WebUI 操作界面 和标准化 REST API 接口，满足不同用户需求。

🚀 快速启动：零代码上手 OCR 服务

1. 启动服务镜像

本项目以容器化方式封装，开箱即用。只需在支持 Docker 的平台（如阿里云 PAI、ModelScope Studio 或本地环境）拉取并运行镜像：

docker run -p 5000:5000 crnn-ocr-webui:latest

服务默认监听 5000 端口。启动成功后，可通过平台提供的 HTTP 访问按钮进入 WebUI 界面。

2. WebUI 界面操作全流程

步骤一：上传待识别图片

打开浏览器访问服务地址后，您将看到简洁直观的操作界面。点击左侧区域的'上传图片'按钮，支持常见格式如 JPG、PNG、BMP，适用于以下典型场景：

发票/收据文字提取
身份证、驾驶证关键字段识别
街道标识、广告牌内容抓取
手写笔记数字化转换

步骤二：触发高精度识别

上传完成后，点击主操作区的 '开始高精度识别' 按钮。系统将自动执行以下流程：

图像预处理：使用 OpenCV 进行自动灰度化、去噪、对比度增强与尺寸缩放至标准输入大小（32x100）。
文本检测与分割（可选扩展模块）：若启用多行文本支持，会先进行水平投影法切分行。
CRNN 推理：将处理后的图像送入训练好的 CRNN 模型，输出字符序列。
CTC 解码：利用 Connectionist Temporal Classification (CTC) 算法解码隐含状态，生成最终文本结果。

步骤三：查看识别结果

识别完成后，右侧列表将逐条展示识别出的文字内容，并附带置信度评分（Confidence Score），便于人工复核。例如：

文本	置信度
北京市朝阳区建国门外大街1号

接口	方法	功能
`/api/ocr`	POST	提交图片进行 OCR 识别
`/api/health`	GET	健康检查，返回服务状态

特性	本方案（CRNN + WebUI）	Tesseract OCR	商业 API（百度/阿里云）
中文识别准确率	★★★★☆	★★☆☆☆	★★★★★
是否需要 GPU	❌（纯 CPU 可运行）	❌	✅（服务端依赖）
部署复杂度	⭐ 极简（Docker 一键启动）	⭐⭐（需配置语言包）	⭐⭐⭐（需密钥认证）
成本	免费开源	免费	按调用量计费
数据隐私	完全本地化	本地处理	上传至云端
支持 WebUI	✅ 内置可视化界面	❌	❌
提供 API	✅ 标准 REST 接口	❌（需自行封装）	✅

无代码方案：CRNN WebUI使用全指南