本地部署 OCR 文字检测系统:ResNet18 WebUI 一键启动指南
本指南介绍如何使用 Docker 镜像快速部署一个专业级 OCR 文字检测系统。该系统基于 ResNet18 轻量主干,支持本地部署、完全可控且永久免费。
1. 为什么选这个镜像:轻量、精准、开箱即用
该镜像将 OCR 检测任务打包进 Docker 容器,无需手动安装 CUDA、编译 OpenCV 或下载预训练权重。只需一台能跑 Linux 的机器(建议 4GB 内存),执行一条命令即可获得带界面的完整 OCR 系统。
核心优势:
- 模型小,推理快:基于 ResNet18,CPU 上单图检测约 3 秒,GTX 1060 显卡下压到 0.5 秒以内;
- 检测准,不漏字:专注文字区域定位(Text Detection),对模糊、倾斜、低对比度文字更鲁棒;
- WebUI 友好:界面清爽直观,四个 Tab 页分工明确,支持滑块调节参数。
2. 一键启动:三步完成服务部署
2.1 确认运行环境
该镜像已在主流 Linux 发行版(Ubuntu 20.04/22.04、CentOS 7/8)上预验证。最低要求:
- 操作系统:Linux x86_64
- 内存:≥4GB(CPU 模式)|≥6GB(GPU 模式)
- 磁盘:≥5GB 可用空间
- 网络:能访问外网
2.2 执行启动命令
登录服务器终端,依次执行以下命令:
# 1. 创建项目目录并进入
mkdir -p /root/cv_resnet18_ocr-detection && cd /root/cv_resnet18_ocr-detection
# 2. 下载启动脚本
curl -fsSL [脚本下载地址] -o start_app.sh && chmod +x start_app.sh
# 3. 启动服务
bash start_app.sh
注意:首次运行会自动下载约 1.2GB 的 Docker 镜像。
2.3 访问 WebUI 界面
当终端输出服务地址时,在浏览器输入 http://你的服务器 IP:7860 即可访问。界面简洁现代,无注册登录,所有数据本地处理。
3. 单图检测:30 秒上手,立刻见效
- 点击【单图检测】Tab 页;
- 上传含文字的图片(JPG/PNG/BMP);
- 点击【开始检测】。
结果包括识别文本内容、检测结果图(彩色方框标出文字区域)、检测框坐标(JSON)。支持鼠标选中复制文本。
3.1 调整检测灵敏度
界面上有'检测阈值'滑块(默认 0.2):
- 左侧(如 0.1):更敏感,适合扫描件质量差的情况;
- 右侧(如 0.4):更谨慎,适合背景复杂图。 日常使用建议 0.2–0.3 之间微调。
4. 批量检测:一次处理几十张,效率翻倍
- 切换到【批量检测】Tab;
- 多选图片上传;
- 点击【批量检测】按钮。
系统逐张处理,支持滚动查看结果,底部提供【下载全部结果】生成 ZIP 文件(含带框图 + 对应 JSON)。
5. 训练微调:让模型认得你行业的'专属文字'
通用模型遇到行业黑话或特殊字体时效果可能打折。可通过提供几十张带标注的图进行微调。

