DeepSeek-OCR-WebUI 部署指南
DeepSeek-OCR-WebUI 是一个基于 DeepSeek-OCR 模型的图像识别 Web 应用,为官方推理代码提供了直观的用户界面和交互功能。它支持多种识别模式,并具备现代化的 UI 设计。

项目仓库:https://github.com/neosun100/DeepSeek-OCR-WebUI
1. 核心特性
1.1 七大识别模式
| 模式 | 说明 | 适用场景 |
|---|---|---|
| 文档转 Markdown | 保留格式和布局 | 合同、论文、报告 |
| 通用 OCR | 提取所有可见文字 | 图片文字提取 |
| 纯文本提取 | 纯文本不保留格式 | 简单文本识别 |
| 图表解析 | 识别图表和公式 | 数据图表、数学公式 |
| 图像描述 | 生成详细描述 | 图片理解、无障碍 |
| 查找定位 | 查找并标注位置 | 发票字段定位 |
| 自定义提示 | 自定义识别需求 | 灵活的识别任务 |
1.2 其他亮点
- 边界框可视化:Find 模式下自动标注目标位置。
- 批量处理:支持多张图片逐一识别。
- PDF 支持:上传 PDF 文件后自动转换为图片处理。
- 多语言支持:简体中文、繁体中文、英语、日语。
- 硬件加速:支持 Apple Silicon (MPS) 及 NVIDIA GPU 加速。
- 模型切换:HuggingFace 不可用时自动切换至 ModelScope。
1.3 技术架构
- 引擎: transformers(注重稳定性与兼容性)
- 模型: deepseek-ai/DeepSeek-OCR
- GPU: NVIDIA L40S (自动检测)
- 推理模式: bfloat16
关于 transformers 与 vLLM 的选择,作者倾向于前者用于生产环境:


