PythonAI算法

DeepSeek-OCR-WEBUI 本地部署与 OCR 自动化集成

介绍 DeepSeek-OCR-WEBUI 的本地部署流程及 API 集成方法。涵盖 Conda 环境配置、FastAPI 后端搭建、模型加载策略、OpenAI 兼容接口设计以及前端交互逻辑。通过示例展示如何使用 Python SDK 进行图片文本提取和批量处理，适用于票据处理、档案数字化等场景。

ByteFlow发布于 2026/4/6更新于 2026/7/2157 浏览

引言

OCR 技术的现实挑战

在数字化转型加速的今天，大量纸质文档、扫描件和图像中的文本信息亟需高效提取。传统 OCR（光学字符识别）工具虽然能处理标准印刷体文字，但在面对复杂背景、低分辨率图像、倾斜排版或手写体时往往表现不佳。此外，企业级应用对多语言支持、结构化输出（如表格还原）、API 集成能力提出了更高要求。

DeepSeek-OCR-WEBUI 正是在这一背景下推出的开源解决方案。它基于深度学习大模型，具备强大的文本定位与识别能力，尤其擅长中文场景下的高精度 OCR 任务。通过 Web 界面与 OpenAI 兼容接口的双重设计，既满足开发者集成需求，也方便非技术人员直接使用。

本文目标与价值

本文将带你从零开始部署并使用 DeepSeek-OCR-WEBUI 镜像，涵盖环境准备、服务启动、前后端交互逻辑及实际调用示例。你将掌握：

如何快速部署一个本地 OCR 服务
使用标准 HTTP 请求进行图片文本提取
借助 Web UI 实现可视化操作
将其无缝集成到现有工作流中

无论你是想构建自动化票据处理系统，还是需要批量数字化历史档案，本指南都能提供可立即落地的技术路径。

环境准备与项目结构

系统依赖与 Python 环境配置

为确保 DeepSeek-OCR-WEBUI 正常运行，建议使用以下软硬件环境：

操作系统：Linux（Ubuntu 20.04+）或 Windows WSL2
GPU 支持：NVIDIA GPU（推荐 RTX 4090D 单卡），CUDA 12.x
Python 版本：3.12+
内存要求：至少 16GB RAM，显存≥24GB

推荐使用 Conda 创建独立虚拟环境以避免依赖冲突：

conda create -n deepseekocr python=3.12.9 conda activate deepseekocr

安装核心依赖包：

pip install torch==2.6.0 transformers==4.46.3 tokenizers==0.20.3 einops addict easydict python-multipart uvicorn fastapi Pillow torchvision requests

若希望提升推理速度并降低显存占用，可额外安装 flash-attn：

pip install flash-attn --no-build-isolation

项目目录结构规划

合理的文件组织有助于后期维护与扩展。建议采用如下目录结构：

deepseek-ocr-project/
├── app.py # FastAPI 后端主程序
├── static/
│   └── ui.html # 前端 Web 界面
└── README.md # 项目说明文档

该结构简洁清晰，便于容器化部署或团队协作开发。

后端服务搭建与模型加载

FastAPI 服务初始化

我们使用 FastAPI 构建高性能异步 Web 服务，支持 OpenAI 协议兼容接口。首先创建 app.py 文件，并初始化应用实例：

from fastapi import FastAPI
import logging

# 日志配置
logging.basicConfig(level=logging.INFO)
log = logging.getLogger()


app = FastAPI(title=)

from fastapi.middleware.cors import CORSMiddleware

app.add_middleware(
    CORSMiddleware,
    allow_origins=["*"],
    allow_credentials=True,
    allow_methods=["*"],
    allow_headers=["*"],
)

from transformers import AutoModel, AutoTokenizer
import torch

MODEL_NAME = "/home/qwt/models/DeepSeek-OCR"

# 可替换为远程仓库名
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
model = AutoModel.from_pretrained(
    MODEL_NAME,
    trust_remote_code=True,
    use_safetensors=True
)

if torch.cuda.is_available():
    device = torch.device("cuda:0")
    model = model.eval().to(device)
    try:
        model = model.to(torch.bfloat16)
    except Exception:
        try:
            model = model.to(torch.float16)
            log.info("BF16 不可用，已回退至 FP16")
        except Exception:
            model = model.to(torch.float32)
else:
    device = torch.device("cpu")
    model = model.eval().to(device)
    log.warning("未检测到 CUDA，将在 CPU 上运行")

def _download_to_temp(url: str) -> str:
    if url.startswith("data:"):  # 处理 Data URI
        header, b64 = url.split(",", 1)
        ext = ".png" if "image/png" in header else ".jpg"
        raw = base64.b64decode(b64)
        return _save_bytes_to_temp(raw, suffix=ext)
    elif _is_local_like(url):  # 处理本地文件
        p = _to_local_path(url)
        with open(p, "rb") as f:
            data = f.read()
        ext = os.path.splitext(p)[1] or ".img"
        return _save_bytes_to_temp(data, suffix=ext)
    else:  # 下载远程图片
        resp = requests.get(url, timeout=30)
        resp.raise_for_status()
        ext = mimetypes.guess_extension(resp.headers.get("Content-Type", "")) or ".img"
        return _save_bytes_to_temp(resp.content, suffix=ext)

@app.get("/health")
async def health_check():
    return {"status": "healthy"}

@app.get("/v1/models")
async def list_models():
    return {
        "object": "list",
        "data": [{"id": "deepseek-ocr", "object": "model", "created": int(time.time()), "owned_by": "owner"}]
    }

@app.post("/v1/chat/completions")
async def chat_completions(request: Request):
    payload = await request.json()
    messages = payload.get("messages")
    prompt_text, image_path = _extract_text_and_first_image_from_messages(messages)
    
    if not image_path:
        raise HTTPException(status_code=400, detail="No image found in messages.")
    
    try:
        answer = _run_ocr_infer(prompt_text, image_path)
    finally:
        if image_path and os.path.exists(image_path):
            os.unlink(image_path)
    
    return JSONResponse({
        "id": f"chatcmpl_{uuid.uuid4().hex[:24]}",
        "object": "chat.completion",
        "created": int(time.time()),
        "model": "deepseek-ocr",
        "choices": [{"index": 0, "message": {"role": "assistant", "content": answer}, "finish_reason": "stop"}],
        "usage": {
            "prompt_tokens": _token_count_approx(prompt_text),
            "completion_tokens": _token_count_approx(answer),
            "total_tokens": _token_count_approx(prompt_text + answer)
        }
    })

const fileToDataURI = (file) => new Promise((resolve, reject) => {
    const reader = new FileReader();
    reader.onload = () => resolve(reader.result);
    reader.onerror = () => reject(new Error('读取失败'));
    reader.readAsDataURL(file);
});

const body = {
    model: "deepseek-ocr",
    messages: [
        {
            role: "user",
            content: [
                { type: "text", text: selectedPrompt },
                { type: "image_url", image_url: { url: dataUri } }
            ]
        }
    ]
};
fetch('/v1/chat/completions', {
    method: 'POST',
    headers: { 'Content-Type': 'application/json' },
    body: JSON.stringify(body)
})

from openai import OpenAI

client = OpenAI(base_url="http://127.0.0.1:8001/v1", api_key="sk-x")
response = client.chat.completions.create(
    model="deepseek-ocr",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "请以 Markdown 格式返回 OCR 结果"},
                {"type": "image_url", "image_url": {"url": "test.png"}}
            ]
        }
    ]
)
print(response.choices[0].message.content)

import glob

for img_path in glob.glob("invoices/*.jpg"):
    response = client.chat.completions.create(
        model="deepseek-ocr",
        messages=[{"role": "user", "content": [
            {"type": "text", "text": "提取发票金额与日期"},
            {"type": "image_url", "image_url": {"url": img_path}}
        ]}]
    )
    with open(f"output/{img_path}.txt", "w") as f:
        f.write(response.choices[0].message.content)

DeepSeek-OCR-WEBUI 本地部署与 OCR 自动化集成

引言

OCR 技术的现实挑战

本文目标与价值

环境准备与项目结构

系统依赖与 Python 环境配置

项目目录结构规划

后端服务搭建与模型加载

FastAPI 服务初始化

DeepSeek-OCR-WEBUI 本地部署与 OCR 自动化集成

引言

OCR 技术的现实挑战

本文目标与价值

环境准备与项目结构

系统依赖与 Python 环境配置

项目目录结构规划

后端服务搭建与模型加载

FastAPI 服务初始化

更多推荐文章

相关免费在线工具

模型加载与设备适配策略

核心功能实现与接口设计

图像输入处理机制

OpenAI 兼容接口实现

健康检查 `/health`

模型列表 `/v1/models`

推理接口 `/v1/chat/completions`

Web 前端交互与用户体验优化

单页 HTML 界面设计

前端逻辑实现要点

实际调用与集成实践

Python 客户端调用示例

批量处理与自动化脚本

总结

技术价值回顾

最佳实践建议

更多推荐文章

相关免费在线工具

DeepSeek-OCR-WEBUI 本地部署与 OCR 自动化集成

引言

OCR 技术的现实挑战

本文目标与价值

环境准备与项目结构

系统依赖与 Python 环境配置

项目目录结构规划

后端服务搭建与模型加载

FastAPI 服务初始化

DeepSeek-OCR-WEBUI 本地部署与 OCR 自动化集成

引言

OCR 技术的现实挑战

本文目标与价值

环境准备与项目结构

系统依赖与 Python 环境配置

项目目录结构规划

后端服务搭建与模型加载

FastAPI 服务初始化

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

模型加载与设备适配策略

核心功能实现与接口设计

图像输入处理机制

OpenAI 兼容接口实现

健康检查 /health

模型列表 /v1/models

推理接口 /v1/chat/completions

Web 前端交互与用户体验优化

单页 HTML 界面设计

前端逻辑实现要点

实际调用与集成实践

Python 客户端调用示例

批量处理与自动化脚本

总结

技术价值回顾

最佳实践建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

健康检查 `/health`

模型列表 `/v1/models`

推理接口 `/v1/chat/completions`