本地部署 OCR 文字检测系统：ResNet18 WebUI 一键启动指南

本指南介绍如何使用 Docker 镜像快速部署一个专业级 OCR 文字检测系统。该系统基于 ResNet18 轻量主干，支持本地部署、完全可控且永久免费。

1. 为什么选这个镜像：轻量、精准、开箱即用

该镜像将 OCR 检测任务打包进 Docker 容器，无需手动安装 CUDA、编译 OpenCV 或下载预训练权重。只需一台能跑 Linux 的机器（建议 4GB 内存），执行一条命令即可获得带界面的完整 OCR 系统。

核心优势：

模型小，推理快：基于 ResNet18，CPU 上单图检测约 3 秒，GTX 1060 显卡下压到 0.5 秒以内；
检测准，不漏字：专注文字区域定位（Text Detection），对模糊、倾斜、低对比度文字更鲁棒；
WebUI 友好：界面清爽直观，四个 Tab 页分工明确，支持滑块调节参数。

2. 一键启动：三步完成服务部署

2.1 确认运行环境

该镜像已在主流 Linux 发行版（Ubuntu 20.04/22.04、CentOS 7/8）上预验证。最低要求：

操作系统：Linux x86_64
内存：≥4GB（CPU 模式）｜≥6GB（GPU 模式）
磁盘：≥5GB 可用空间
网络：能访问外网

2.2 执行启动命令

登录服务器终端，依次执行以下命令：

# 1. 创建项目目录并进入
mkdir -p /root/cv_resnet18_ocr-detection && cd /root/cv_resnet18_ocr-detection
# 2. 下载启动脚本
curl -fsSL [脚本下载地址] -o start_app.sh && chmod +x start_app.sh
# 3. 启动服务
bash start_app.sh

注意：首次运行会自动下载约 1.2GB 的 Docker 镜像。

2.3 访问 WebUI 界面

当终端输出服务地址时，在浏览器输入 http://你的服务器 IP:7860 即可访问。界面简洁现代，无注册登录，所有数据本地处理。

3. 单图检测：30 秒上手，立刻见效

点击【单图检测】Tab 页；
上传含文字的图片（JPG/PNG/BMP）；
点击【开始检测】。

结果包括识别文本内容、检测结果图（彩色方框标出文字区域）、检测框坐标（JSON）。支持鼠标选中复制文本。

3.1 调整检测灵敏度

界面上有'检测阈值'滑块（默认 0.2）：

左侧（如 0.1）：更敏感，适合扫描件质量差的情况；
右侧（如 0.4）：更谨慎，适合背景复杂图。日常使用建议 0.2–0.3 之间微调。

4. 批量检测：一次处理几十张，效率翻倍

切换到【批量检测】Tab；
多选图片上传；
点击【批量检测】按钮。

系统逐张处理，支持滚动查看结果，底部提供【下载全部结果】生成 ZIP 文件（含带框图 + 对应 JSON）。

5. 训练微调：让模型认得你行业的'专属文字'

通用模型遇到行业黑话或特殊字体时效果可能打折。可通过提供几十张带标注的图进行微调。

场景	推荐阈值	预处理建议
证件/合同提取	0.25	关闭自动旋转
手机截图识别	0.18	开启自动增强对比度
商品图 OCR	0.32	过滤特定关键词行
复杂背景图	0.40	配合去噪插件

本地部署 OCR 文字检测系统：ResNet18 WebUI 一键启动指南