DeepSeek-OCR-WEBUI 部署指南
1. 为什么你需要一个真正好用的 OCR Web 界面?
你是否遇到过这些场景:
- 手里有一堆扫描版 PDF 合同、发票、教材,想快速转成可编辑文本,但传统 OCR 工具要么识别不准,要么操作复杂,要么要装一堆依赖;
- 公司内部需要批量处理日均上千页文档,但现有方案要么卡在显存不足,要么推理太慢,部署成本高得离谱;
- 想试试最近很火的 DeepSeek-OCR 大模型,但看到官方提供的 Transformers/vLLM 脚本就头大——环境怎么配?参数怎么调?图片传哪儿?结果怎么保存?
别担心。DeepSeek-OCR-WEBUI 就是为解决这些问题而生的:它不是简单套个 Gradio 外壳,而是深度适配 DeepSeek-OCR 模型特性的轻量级 Web UI,单卡 4090D 即可启动,8GB 显存也能跑 Small 模式,支持拖拽上传、多图批量、Markdown 结构化输出、结果一键下载。
更重要的是——它把论文里那些听起来很酷的'光学上下文压缩''Gundam 动态分辨率''MoE 解码约束',变成了网页上几个下拉框和滑块。你不需要懂窗口注意力怎么算,也不用调 FlashAttention 的 kernel 参数,点几下就能看到效果。
本文将带你从零开始,不改一行代码、不碰终端命令行(可选)、不查文档翻源码,完成 DeepSeek-OCR-WEBUI 的完整部署与高效使用。全程聚焦'能用、好用、省事'。
2. 一句话看懂 DeepSeek-OCR-WEBUI 是什么
DeepSeek-OCR-WEBUI 是一个开箱即用的图形化界面,用于本地运行 DeepSeek 开源的 OCR 大模型。它不是独立模型,而是对 deepseek-ai/DeepSeek-OCR 的工程封装层,核心价值在于:
- 真·低显存友好:支持 Tiny(512×512)、Small(640×640)等轻量模式,8GB 显存 GPU(如 RTX 3070/4060)可稳定运行;
- 高吞吐设计:内置队列管理与异步处理,单次上传 10 张图自动排队,不卡死界面;
- 结构化输出直出:默认输出带格式的 Markdown(含表格、标题、列表),无需后期清洗;
- 零配置启动:镜像已预装全部依赖(torch 2.6 + transformers 4.46 + flash-attn 2.7 + pillow),连 CUDA 驱动都帮你校验好了;
- 贴近生产习惯:支持截图粘贴、文件夹拖入、结果分页预览、JSON/MD/TXT 三格式导出。
它不追求'最全功能',而是把最常被用到的那 20% 能力做到极致——识别准、上传快、结果稳、部署简。
3. 三步完成部署:从镜像拉取到网页可用
注意:以下步骤基于
DeepSeek-OCR-WEBUI镜像(版本 v1.2.0,含 CUDA 11.8 + PyTorch 2.6 + BF16 优化)
3.1 环境准备(仅需确认两件事)
- 硬件:一张 NVIDIA GPU(推荐显存 ≥ 8GB;4090D/3090/A100/A10 均可,A6000 亦支持)
- 系统:Ubuntu 20.04 / 22.04(推荐),或 Windows WSL2(需启用 GPU 支持)
无需手动安装 CUDA、cuDNN、Python——镜像内已全部集成并验证通过。
3.2 一键拉取并启动镜像
打开终端(Linux/macOS)或 PowerShell(Windows WSL2),执行以下命令:
# 拉取镜像(约 8.2GB,首次需下载)
docker pull registry.cn-hangzhou.aliyuncs.com/ZEEKLOG_ai/deepseek-ocr-webui:latest
# 启动容器(映射端口 7860,挂载当前目录为上传根目录)
docker run -d \
--gpus all \
-p 7860:7860 \
-v $(pwd)/uploads:/app/uploads \
-v $()/outputs:/app/outputs \
--name deepseek-ocr-webui \
registry.cn-hangzhou.aliyuncs.com/ZEEKLOG_ai/deepseek-ocr-webui:latest

