PaddleOCR-VL 0.9B 本地一键部署教程 | 极客日志

PythonAI算法

PaddleOCR-VL 0.9B 本地一键部署教程

综述由AI生成PaddleOCR-VL 0.9B 模型的本地 Docker 部署流程。通过解决 flash-attn 依赖及显存溢出问题，实现了在 RTX3060 等主流显卡上的稳定运行。该模型支持 OpenAI API 格式，可无缝集成至 FastGPT、Dify 等应用，适用于需要数据隐私保护的 OCR 场景。

锁机制发布于 2026/3/29更新于 2026/5/2932 浏览

PaddleOCR-VL 0.9B 本地部署指南

本文介绍如何在本地环境部署百度开源的 PaddleOCR-VL 0.9B OCR 模型。该模型支持私有化部署，兼容 OpenAI API 格式，可快速接入 FastGPT、Dify 等应用平台。

环境要求

操作系统：Linux / Windows (不支持 Mac 和 AMD 显卡)
GPU：建议 RTX3060 12G 显存，实测 8G 显存也可运行
软件：Docker, Docker Compose

部署步骤

1. 准备环境

确保已安装并启动 Docker。打开终端（Windows 可使用 CMD 或 PowerShell）。

2. 拉取镜像

docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-genai-vllm-server:latest

3. 启动容器

由于镜像精简过，不包含 CUDA 编译工具，需手动安装 flash-attn 预编译包。使用以下指令一键启动容器：

docker run -d --rm --gpus all -p 8118:8118 --name paddleocr-vl-server ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-genai-vllm-server:latest sh -c "pip install https://github.com/mjun0812/flash-attention-prebuild-wheels/releases/download/v0.4.11/flash_attn-2.8.3+cu128torch2.8-cp310-cp310-linux_x86_64.whl && paddleocr genai_server --model_name PaddleOCR-VL-0.9B --backend vllm --port 8118 --host 0.0.0.0 --backend_config <(echo -e 'gpu-memory-utilization: 0.8')"

注意：--backend_config 参数用于设置 vLLM 显存占用率为 80%，避免内存溢出。若显存充足，可尝试不加此参数优化资源占用。

4. 验证服务

启动成功后，访问 API 文档地址：

http://localhost:8118/docs

5. API 测试

使用 Postman 或其他工具发送请求，支持 OpenAI API 格式。示例如下：

{
  "model": "PaddleOCR-VL-0.9B",
  "messages": [
    {
      "role": "user",
      "content":

PaddleOCR-VL 0.9B 本地一键部署教程

PaddleOCR-VL 0.9B 本地部署指南

环境要求

部署步骤

1. 准备环境

2. 拉取镜像

3. 启动容器

4. 验证服务

5. API 测试

更多推荐文章

相关免费在线工具

6. 接入第三方平台

常见问题

更多推荐文章

相关免费在线工具

PaddleOCR-VL 0.9B 本地一键部署教程

PaddleOCR-VL 0.9B 本地部署指南

环境要求

部署步骤

1. 准备环境

2. 拉取镜像

3. 启动容器

4. 验证服务

5. API 测试

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

6. 接入第三方平台

常见问题

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具