PaddleOCR-VL 0.9B 本地部署指南
本文介绍如何在本地环境部署百度开源的 PaddleOCR-VL 0.9B OCR 模型。该模型支持私有化部署,兼容 OpenAI API 格式,可快速接入 FastGPT、Dify 等应用平台。
环境要求
- 操作系统:Linux / Windows (不支持 Mac 和 AMD 显卡)
- GPU:建议 RTX3060 12G 显存,实测 8G 显存也可运行
- 软件:Docker, Docker Compose
部署步骤
1. 准备环境
确保已安装并启动 Docker。打开终端(Windows 可使用 CMD 或 PowerShell)。
2. 拉取镜像
docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-genai-vllm-server:latest
3. 启动容器
由于镜像精简过,不包含 CUDA 编译工具,需手动安装 flash-attn 预编译包。使用以下指令一键启动容器:
docker run -d --rm --gpus all -p 8118:8118 --name paddleocr-vl-server ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-genai-vllm-server:latest sh -c "pip install https://github.com/mjun0812/flash-attention-prebuild-wheels/releases/download/v0.4.11/flash_attn-2.8.3+cu128torch2.8-cp310-cp310-linux_x86_64.whl && paddleocr genai_server --model_name PaddleOCR-VL-0.9B --backend vllm --port 8118 --host 0.0.0.0 --backend_config <(echo -e 'gpu-memory-utilization: 0.8')"
注意:
--backend_config参数用于设置 vLLM 显存占用率为 80%,避免内存溢出。若显存充足,可尝试不加此参数优化资源占用。
4. 验证服务
启动成功后,访问 API 文档地址:
http://localhost:8118/docs
5. API 测试
使用 Postman 或其他工具发送请求,支持 OpenAI API 格式。示例如下:
{
"model": "PaddleOCR-VL-0.9B",
"messages": [
{
"role": "user",
"content":


