1. 前言
近期百度正式开源了文心大模型 4.5 多模态系列。该系列包含 10 款模型,涵盖 8 个混合专家模型(激活参数规模 47B/3B)及 2 个稠密参数模型(0.3B)。其中 4 款 VL 模型支持多模态特性,可理解图片、音频、视频等非文本内容。作为产业级知识增强大模型,其在多项基准测试中表现突出。本次将深入测评其部署流程及实际推理效果。

2. 测评环境
2.1 硬件配置
- CPU: 16 核 X86 架构 Intel 处理器
- 内存:64G
- GPU: Nvidia A100 80G 显存
2.2 软件环境
- 操作系统:Ubuntu 22.04
- Python: 3.10
- PyTorch: 2.7
2.3 模型选择
核心能力为多模态,选用 ERNIE-4.5-VL-28B-A3B-Paddle。横向对比模型为通义千问的 Qwen2.5-VL-32B-Instruct。
3. 模型部署
得益于 AI 框架的成熟,部署已无显著卡点。百度飞桨框架支持基于 Transformer 的快速部署。相比千问模型文件(68GB),文心大模型仅 55GB,在显存消耗上略有优势。
3.1 环境准备
需一台 80G 显存的 A100 主机,可通过主流算力租赁平台获取。
3.2 安装 PaddlePaddle GPU 版
python -m pip install paddlepaddle-gpu==3.1.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
3.3 安装 FastDeploy
针对 A100 显卡专用版本:
python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-80_90/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
注意:若使用 4090 显卡,请参考官方文档调整安装命令。
3.4 一键部署与推理
执行以下命令完成下载并启动服务:
python -m fastdeploy.entrypoints.openai.api_server \
--model baidu/ERNIE-4.5-VL-28B-A3B-Paddle \
--port 8180 \
--metrics-port 8181 \
--engine-worker-queue-port 8182 \
--max-model-len 32768 \
--enable-mm \
--reasoning-parser ernie-45-vl \
--max-num-seqs 32
成功启动后,端口 8180 将处于监听状态,表示模型已就绪。
4. 多模态图像识别测评
4.1 明星人物识别
以奥黛丽·赫本在厨房操作烤箱的照片为例,对比两个模型的识别结果。
Qwen2.5-VL-32B 结果 识别出女性在厨房操作烤箱,描述了场景构造和物体摆放,但未识别出具体人物身份。
ERNIE-4.5-VL-28B-A3B 结果 精准识别出人物为奥黛丽·赫本,并对环境和元素进行了详细分析。
尽管参数量略少,文心大模型在多模态识别精度上表现更佳,且响应速度优于千问。


