DeepSeek-OCR-WEBUI 部署指南：低显存高吞吐文档处理方案 | 极客日志

Python

DeepSeek-OCR-WEBUI 部署指南：低显存高吞吐文档处理方案

DeepSeek-OCR-WEBUI 部署指南为什么你需要一个真正好用的 OCR Web 界面？你是否遇到过这些场景：手里有一堆扫描版 PDF 合同、发票、教材，想快速转成可编辑文本，但传统 OCR 工具要么识别不准，要么操作复杂，要么要装一堆依赖；公司内部需要批量处理日均上千页文档，但现有方案要么卡在显存不足，要么推理太慢，部署成本高得离谱；想试试最近很火的 DeepSeek-OCR…

蓝绿部署发布于 2026/4/6更新于 2026/7/2129K 浏览

DeepSeek-OCR-WEBUI 部署指南

1. 为什么你需要一个真正好用的 OCR Web 界面？

你是否遇到过这些场景：

手里有一堆扫描版 PDF 合同、发票、教材，想快速转成可编辑文本，但传统 OCR 工具要么识别不准，要么操作复杂，要么要装一堆依赖；
公司内部需要批量处理日均上千页文档，但现有方案要么卡在显存不足，要么推理太慢，部署成本高得离谱；
想试试最近很火的 DeepSeek-OCR 大模型，但看到官方提供的 Transformers/vLLM 脚本就头大——环境怎么配？参数怎么调？图片传哪儿？结果怎么保存？

别担心。DeepSeek-OCR-WEBUI 就是为解决这些问题而生的：它不是简单套个 Gradio 外壳，而是深度适配 DeepSeek-OCR 模型特性的轻量级 Web UI，单卡 4090D 即可启动，8GB 显存也能跑 Small 模式，支持拖拽上传、多图批量、Markdown 结构化输出、结果一键下载。

更重要的是——它把论文里那些听起来很酷的'光学上下文压缩''Gundam 动态分辨率''MoE 解码约束'，变成了网页上几个下拉框和滑块。你不需要懂窗口注意力怎么算，也不用调 FlashAttention 的 kernel 参数，点几下就能看到效果。

本文将带你从零开始，不改一行代码、不碰终端命令行（可选）、不查文档翻源码，完成 DeepSeek-OCR-WEBUI 的完整部署与高效使用。全程聚焦'能用、好用、省事'。

2. 一句话看懂 DeepSeek-OCR-WEBUI 是什么

DeepSeek-OCR-WEBUI 是一个开箱即用的图形化界面，用于本地运行 DeepSeek 开源的 OCR 大模型。它不是独立模型，而是对 deepseek-ai/DeepSeek-OCR 的工程封装层，核心价值在于：

真·低显存友好：支持 Tiny（512×512）、Small（640×640）等轻量模式，8GB 显存 GPU（如 RTX 3070/4060）可稳定运行；
高吞吐设计：内置队列管理与异步处理，单次上传 10 张图自动排队，不卡死界面；
结构化输出直出：默认输出带格式的 Markdown（含表格、标题、列表），无需后期清洗；
零配置启动：镜像已预装全部依赖（torch 2.6 + transformers 4.46 + flash-attn 2.7 + pillow），连 CUDA 驱动都帮你校验好了；
贴近生产习惯：支持截图粘贴、文件夹拖入、结果分页预览、JSON/MD/TXT 三格式导出。

它不追求'最全功能'，而是把最常被用到的那 20% 能力做到极致——识别准、上传快、结果稳、部署简。

3. 三步完成部署：从镜像拉取到网页可用

注意：以下步骤基于 DeepSeek-OCR-WEBUI 镜像（版本 v1.2.0，含 CUDA 11.8 + PyTorch 2.6 + BF16 优化）

3.1 环境准备（仅需确认两件事）

硬件：一张 NVIDIA GPU（推荐显存 ≥ 8GB；4090D/3090/A100/A10 均可，A6000 亦支持）
系统：Ubuntu 20.04 / 22.04（推荐），或 Windows WSL2（需启用 GPU 支持）

无需手动安装 CUDA、cuDNN、Python——镜像内已全部集成并验证通过。

3.2 一键拉取并启动镜像

打开终端（Linux/macOS）或 PowerShell（Windows WSL2），执行以下命令：

# 拉取镜像（约 8.2GB，首次需下载）
docker pull registry.cn-hangzhou.aliyuncs.com/ZEEKLOG_ai/deepseek-ocr-webui:latest

# 启动容器（映射端口 7860，挂载当前目录为上传根目录）
docker run -d \
  --gpus all \
  -p 7860:7860 \
  -v $(pwd)/uploads:/app/uploads \
  -v $()/outputs:/app/outputs \
  --name deepseek-ocr-webui \
  registry.cn-hangzhou.aliyuncs.com/ZEEKLOG_ai/deepseek-ocr-webui:latest

相关免费在线工具

curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online

模式	输入尺寸	视觉 Token 数	显存占用（BF16）	适用场景	实测耗时（4090D）
Tiny	512×512	64	~5.2 GB	手机拍照文档、纯文字稿、快速预览	< 2.5s
Small	640×640	100	~6.8 GB	日常合同/发票/教材扫描件	~3.8s
Base	1024×1024	256	~12.4 GB	复杂版面、小字号印刷体、带图表 PDF	~6.2s
Gundam	动态组合	256 + n×100	~14.1 GB+	表格密集/脚注繁多/多栏排版	~8.5s+

GPU 型号	显存	平均单图耗时	每分钟最大吞吐（张）	连续运行 1 小时稳定性
RTX 3070	8GB	4.2s	14	无 OOM，温度≤78℃
RTX 4060	8GB	3.6s	16	无 OOM，风扇噪音低
RTX 4090D	24GB	2.1s	28	满载运行无降频
A100 40GB	40GB	1.4s	42	支持 8 并发，吞吐线性提升

import requests
url = "http://localhost:7860/api/predict/"
files = {"file": open("invoice.jpg", "rb")}
data = {
    "resolution_mode": "Small",
    "output_format": "markdown",
    "enable_table_constraints": "true"
}
res = requests.post(url, files=files, data=data)
print(res.json()["result"])  # 直接获取 Markdown 字符串

docker pull registry.cn-hangzhou.aliyuncs.com/ZEEKLOG_ai/deepseek-ocr-webui:latest
docker run -d --gpus all -p 7860:7860 --name deepseek-ocr-webui registry.cn-hangzhou.aliyuncs.com/ZEEKLOG_ai/deepseek-ocr-webui:latest

DeepSeek-OCR-WEBUI 部署指南：低显存高吞吐文档处理方案

DeepSeek-OCR-WEBUI 部署指南

1. 为什么你需要一个真正好用的 OCR Web 界面？

2. 一句话看懂 DeepSeek-OCR-WEBUI 是什么

3. 三步完成部署：从镜像拉取到网页可用

3.1 环境准备（仅需确认两件事）

3.2 一键拉取并启动镜像

更多推荐文章

相关免费在线工具

3.3 网页界面初体验：上传→识别→下载

4. 关键参数详解：哪些开关真正影响你的使用体验

4.1 分辨率模式：不是越高越好，而是'够用即止'

4.2 输出格式控制：让结果直接可用，而非二次加工

4.3 高级选项：三个真正有用的隐藏功能

5. 实战案例：三类高频场景的最优配置

5.1 场景一：扫描版 PDF 教材转可编辑笔记（含公式与图表）

5.2 场景二：电商商品详情页截图批量处理（中英混排 + 价格表）

5.3 场景三：银行回单 OCR（低质量扫描 + 印章干扰）

6. 性能实测：不同硬件下的吞吐与延迟表现

7. 常见问题速查：90% 的问题这里都有答案

8. 进阶玩法：让 WebUI 变成你的文档工作流中枢

8.1 与 RAG 系统打通（免代码）

8.2 自动化脚本调用（Python）

8.3 企业内网部署（安全加固）

9. 总结：为什么 DeepSeek-OCR-WEBUI 值得你今天就部署

更多推荐文章

相关免费在线工具

DeepSeek-OCR-WEBUI 部署指南：低显存高吞吐文档处理方案

DeepSeek-OCR-WEBUI 部署指南

1. 为什么你需要一个真正好用的 OCR Web 界面？

2. 一句话看懂 DeepSeek-OCR-WEBUI 是什么

3. 三步完成部署：从镜像拉取到网页可用

3.1 环境准备（仅需确认两件事）

3.2 一键拉取并启动镜像

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.3 网页界面初体验：上传→识别→下载

4. 关键参数详解：哪些开关真正影响你的使用体验

4.1 分辨率模式：不是越高越好，而是'够用即止'

4.2 输出格式控制：让结果直接可用，而非二次加工

4.3 高级选项：三个真正有用的隐藏功能

5. 实战案例：三类高频场景的最优配置

5.1 场景一：扫描版 PDF 教材转可编辑笔记（含公式与图表）

5.2 场景二：电商商品详情页截图批量处理（中英混排 + 价格表）

5.3 场景三：银行回单 OCR（低质量扫描 + 印章干扰）

6. 性能实测：不同硬件下的吞吐与延迟表现

7. 常见问题速查：90% 的问题这里都有答案

8. 进阶玩法：让 WebUI 变成你的文档工作流中枢

8.1 与 RAG 系统打通（免代码）

8.2 自动化脚本调用（Python）

8.3 企业内网部署（安全加固）

9. 总结：为什么 DeepSeek-OCR-WEBUI 值得你今天就部署

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具