DeepSeek-OCR-WEBUI 部署指南：本地搭建 OCR 识别系统

1. 为什么需要这个 OCR 系统

常见场景包括扫描件表格文字歪斜模糊、PDF 合同条款提取困难、手写作业转文本识别率低、门店小票信息自动抓取等。传统 OCR 工具在中文支持、复杂版式处理及环境配置上存在不足。

DeepSeek-OCR-WEBUI 将国产 OCR 大模型封装为网页界面，无需编写代码或操作命令行，即可上传图片或 PDF，秒级输出带格式的纯文本、Markdown 或结构化 JSON。系统专为办公场景优化，支持票据小字号金额识别、手写体区分、表格行列关系保留及模糊图内容还原。

本文介绍如何在本地或服务器环境快速部署该系统，适配主流显卡，提供开箱即用的网页界面。

2. 镜像部署：三步启动

2.1 确认硬件与基础环境

显卡：NVIDIA GPU（推荐 RTX 3090 / 4090 / A10 / A100），显存≥16GB
系统：Ubuntu 20.04 或 22.04
CUDA：版本 11.8（使用 12.x 可能导致编译问题）
Python：3.11

提示：Windows 用户建议使用 WSL2 + Ubuntu；Mac 用户暂不支持 CUDA 驱动。建议直接使用 pip 管理依赖。

2.2 一键拉取并运行镜像

镜像已预装 PyTorch、flash-attn、vLLM 及模型权重。执行以下命令：

docker run -d \
 --gpus all \
 --shm-size=8gb \
 -p 7860:7860 \
 -v $(pwd)/ocr_data:/app/ocr_data \
 --name deepseek-ocr-webui \
 your_registry/deepseek-ocr-webui:latest

参数说明：

--gpus all：容器访问全部 GPU
--shm-size=8gb：增大共享内存，避免大 PDF 加载报错
-p 7860:7860：映射端口至本机 7860
-v：挂载本地文件夹存储上传文件及结果

启动后通过 docker logs deepseek-ocr-webui | tail -20 查看日志，出现 INFO: Uvicorn running on http://0.0.0.0:7860 表示服务就绪。

2.3 访问 Web 界面与首次使用

浏览器访问 http://localhost:7860。界面包含左侧上传区、右侧预览区及顶部标签切换。

首次使用建议：

上传清晰印刷体截图，选择'图片 OCR'，点击'开始识别'
等待数秒后显示识别文本及原文位置高亮
点击右上角按钮下载 .txt 或 Markdown 格式文件

3. 实战效果

测试三类真实场景文件，原图直传不修图：

3.1 模糊 + 倾斜的物流面单

状态：手机拍摄，文字倾斜约 12°，局部反光
结果：收件人姓名、电话、地址准确；快递单号含字母数字混合正确；签收时间字段归类准确

3.2 多栏学术 PDF

状态：A4 双栏扫描，含公式、参考文献

现象	原因	解决方案
`docker: Error response from daemon: could not select device driver`	NVIDIA 驱动未安装或版本低	运行 `nvidia-smi`，若报错则重装驱动
容器启动后立即退出	CUDA 版本不匹配	卸载当前 CUDA 并安装 11.8 版本
访问 `localhost:7860` 显示空白页	镜像拉取不完整	重新执行 `docker pull` 命令

DeepSeek-OCR-WEBUI 部署指南：本地搭建 OCR 识别系统