DeepSeek-OCR-WebUI 部署指南
在之前的调试中我们发现官方推理代码缺乏 UI 界面,输入输出都不够直观。DeepSeek-OCR-WebUI 是一个基于 DeepSeek-OCR 模型的图像识别 Web 应用,相当于给官方推理代码套了一层外衣,提供直观的用户界面和识别功能。

仓库地址:https://github.com/neosun100/DeepSeek-OCR-WebUI
1. 项目简介
核心亮点
- 7 种识别模式 - 文档、OCR、图表、查找、自定义等
- 边界框可视化 - Find 模式自动标注位置
- 批量处理 - 支持多张图片逐一识别
- PDF 支持 - 上传 PDF 文件,自动转换为图片
- 现代化 UI - 炫酷的渐变背景和动画效果
- 多语言支持 - 简体中文、繁体中文、英语、日语
- Apple Silicon 支持 - Mac M1/M2/M3/M4 原生 MPS 加速
- Docker 部署 - 一键启动,开箱即用
- GPU 加速 - 基于 NVIDIA GPU 的高性能推理
- ModelScope 自动切换 - HuggingFace 不可用时自动切换
7 种识别模式
| 模式 | 图标 | 说明 | 适用场景 |
|---|---|---|---|
| 文档转 Markdown | 📄 | 保留格式和布局 | 合同、论文、报告 |
| 通用 OCR | 📝 | 提取所有可见文字 | 图片文字提取 |
| 纯文本提取 | 📋 | 纯文本不保留格式 | 简单文本识别 |
| 图表解析 | 📊 | 识别图表和公式 | 数据图表、数学公式 |
| 图像描述 | 🖼️ | 生成详细描述 | 图片理解、无障碍 |
| 查找定位 ⭐ | 🔍 | 查找并标注位置 | 发票字段定位 |
| 自定义提示 ⭐ | ✨ | 自定义识别需求 | 灵活的识别任务 |
技术架构说明
该项目主要使用 transformers 引擎而非 ,理由如下:












