DeepSeek-OCR-WEBUI 部署指南:本地搭建 OCR 识别系统
1. 为什么需要这个 OCR 系统
常见场景包括扫描件表格文字歪斜模糊、PDF 合同条款提取困难、手写作业转文本识别率低、门店小票信息自动抓取等。传统 OCR 工具在中文支持、复杂版式处理及环境配置上存在不足。
DeepSeek-OCR-WEBUI 将国产 OCR 大模型封装为网页界面,无需编写代码或操作命令行,即可上传图片或 PDF,秒级输出带格式的纯文本、Markdown 或结构化 JSON。系统专为办公场景优化,支持票据小字号金额识别、手写体区分、表格行列关系保留及模糊图内容还原。
本文介绍如何在本地或服务器环境快速部署该系统,适配主流显卡,提供开箱即用的网页界面。
2. 镜像部署:三步启动
2.1 确认硬件与基础环境
- 显卡:NVIDIA GPU(推荐 RTX 3090 / 4090 / A10 / A100),显存≥16GB
- 系统:Ubuntu 20.04 或 22.04
- CUDA:版本 11.8(使用 12.x 可能导致编译问题)
- Python:3.11
提示:Windows 用户建议使用 WSL2 + Ubuntu;Mac 用户暂不支持 CUDA 驱动。建议直接使用 pip 管理依赖。
2.2 一键拉取并运行镜像
镜像已预装 PyTorch、flash-attn、vLLM 及模型权重。执行以下命令:
docker run -d \
--gpus all \
--shm-size=8gb \
-p 7860:7860 \
-v $(pwd)/ocr_data:/app/ocr_data \
--name deepseek-ocr-webui \
your_registry/deepseek-ocr-webui:latest
参数说明:
--gpus all:容器访问全部 GPU--shm-size=8gb:增大共享内存,避免大 PDF 加载报错-p 7860:7860:映射端口至本机 7860-v:挂载本地文件夹存储上传文件及结果
启动后通过 docker logs deepseek-ocr-webui | tail -20 查看日志,出现 INFO: Uvicorn running on http://0.0.0.0:7860 表示服务就绪。
2.3 访问 Web 界面与首次使用
浏览器访问 http://localhost:7860。界面包含左侧上传区、右侧预览区及顶部标签切换。
首次使用建议:
- 上传清晰印刷体截图,选择'图片 OCR',点击'开始识别'
- 等待数秒后显示识别文本及原文位置高亮
- 点击右上角按钮下载
.txt或 Markdown 格式文件
3. 实战效果
测试三类真实场景文件,原图直传不修图:
3.1 模糊 + 倾斜的物流面单
- 状态:手机拍摄,文字倾斜约 12°,局部反光
- 结果:收件人姓名、电话、地址准确;快递单号含字母数字混合正确;签收时间字段归类准确
3.2 多栏学术 PDF
- 状态:A4 双栏扫描,含公式、参考文献
- :左右栏自动分离顺序正确;公式区域标记占位符;参考文献序号与正文引用对应

