引言
文心大模型 ERNIE 4.5 已开源,覆盖基础、对话、多模态、思考等多个方向,并将核心训练框架、分布式策略完全开放。在基准测试中,其性能大幅超越 Qwen3、DeepSeek-V3 等模型。以下从模型架构特性、技术分析、部署难度等方面进行全面解析。
一、文心大模型 ERNIE 4.5 开源简介
1.1 开源模型版本介绍
本次开源主要分为三类:文本大语言模型、视觉语言模型、和小型密集模型。所有模型都支持 128K 上下文窗口。官方提供了 Base 基础版(预训练)和 PT(Fine-tuned 微调版)两种版本。建议部署时选择 PT 模型,因其性能最佳且对下游任务场景适配更好。
视觉语言模型方面,文心视觉语言模型的参数规模达到 4240 亿,活跃参数达 470 亿,大于通义千问视觉语言模型的参数规模。
1.2 基准测试表现
文心大模型在多个文本和多模态数据集上取得了 SOTA 的性能。ERNIE-4.5-21B-A3B 后训练模型参数量仅为 210 亿,比 Qwen3-30B 更小,却在 BBH 和 CMATH 在内的多个数学和推理基准上效果优于 Qwen3-30B-A3B-Base,实现了效果和效率的双向平衡。
1.3 全面的工具生态链
文心大模型按照 Apache 2.0 协议开源,支持学术研究和商用开发。百度还开源了大模型高效部署套件 FastDeploy,提供一行代码开箱即用的多硬件部署体验,接口兼容 vLLM 和 OpenAI 协议。同时开源了 ERNIEKit 开发套件,提供预训练、全参精调(SFT)、直接偏好优化(DPO)、参数高效精调与对齐、量化等大模型全流程开发支持。
二、文心大模型 ERNIE 4.5 技术分析
2.1 多模态异构 MOE
ERNIE 4.5 设计了多模异构结构,不同于传统的 Mixture of Experts(MoE),它支持跨模态的参数共享,包括自注意力参数共享和专家参数共享,同时允许为每个单独的模态提供专用参数。文本和视觉各有专属专家,减少跨模态干扰,实现互不干扰的协同运作。MoE 层的最终输出由共享专家、文本专家、视觉专家的输出相加构成,促进模态间知识融合。
2.2 高效训练与并行架构
针对大规模多模态 MoE 架构中的负载不均衡问题,文心 ERNIE 4.5 引入了异构并行策略和分层负载均衡方法。在异构并行策略中引入了 FP8 混合精度训练框架和容错系统。ERNIE 4.5 语言模型采用了 8 路专家并行(EP)、12 路管道并行(PP)和 ZeRO-1 数据并行(DP)配置,实现了 47% 的模型 FLOPs 利用率(MFU)。通过分层负载均衡策略,端到端多模态训练中实现了高达 32% 的整体性能提升。
2.3 后训练策略
引入模态感知专家分配策略,视觉专家仅包含文本专家的三分之一参数,提高视觉信息处理效率。采用 SFT(监督微调)、DPO(直接偏好优化)、UPO(统一偏好优化)等策略,满足实际应用的不同要求。
2.4 推理和部署
支持 BF16 和 FP8 推理功能,以及各种低精度推理选项。支持 4bit 和 2bit 的极限压缩,压缩不损效果,还能做动态切换和并行加速。仅需 141GB 显存环境即可部署 2 位 ERNIE-4.5-300BA47B 的超大模型,大大降低了准入门槛。
三、基于开源仓库的文心开源模型个人部署
3.1 个人部署详细步骤
3.1.1 环境选择
不同系列模型对配置要求如下:
| 模型名称 | 上下文长度 | 量化方式 | 最低部署资源 | 说明 |
|---|---|---|---|---|
| ERNIE-4.5-0.3B | 32K/128K | BF16 | 1 块 6G/12G 显存 GPU / 2G 内存 | - |
| ERNIE-4.5-21B-A3B-Paddle | 32K/128K | WINT8 | 1 块 48G 显存 GPU / 128G 内存 | 128K 长度需启用分块预填充 |
| ERNIE-4.5-VL-28B-A3B-Paddle | 32K/128K | WINT8 | 1 块 48G 显存 GPU / 128G 内存 | 需启用分块预填充 |
| ERNIE-4.5-300B-A47B-Paddle | 32K/128K | WINT4 | 4 块 64G 显存 GPU / 600G 内存 | 128K 长度 |
| ERNIE-4.5-VL-424B-A47B-Paddle | 32K/128K | WINT2 | 1 块 141G 显存 GPU / 1T 内存 | 128K 长度需启用分块预填充 |
本次实战部署选择 ERNIE-4.5-VL-28B-A3B-PT 这一型号作为轻量级模型代表。
本地部署百度提供了 FastDeploy 一键部署工具,基于 PaddlePaddle。基于 NVIDIA CUDA GPU 安装 FastDeploy 需要满足以下环境:
| 依赖项 | 版本要求 |
|---|---|
| GPU 驱动程序 | ≥535 |
| CUDA | ≥12.3 |
| CUDNN | ≥9.5 |
| Python | ≥3.10 |
| Linux | X86_64 架构 |
3.1.2 环境准备
使用 PyTorch 镜像,创建虚拟环境以保持系统环境清洁。
- 安装虚拟环境工具
apt update
apt install -y python3-venv
- 创建虚拟环境
python3 -m venv fastdeploy-env/
- 激活虚拟环境
source fastdeploy-env/bin/activate
- 下载 GNU 依赖库
apt update && apt install -y libgomp1 libssl-dev zlib1g-dev
- 安装 paddlepaddle-gpu:3.1.0 版本
python -m pip install paddlepaddle-gpu==3.1.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
- 检测是否安装成功
import paddle
paddle.utils.run_check()
- 安装 fastdeploy
python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-80_90/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
验证 PaddlePaddle GPU 是否支持:
python -c "import paddle; print(paddle.is_compiled_with_cuda()); print(paddle.device.get_device())"
3.1.3 模型下载与配置
拉取开源项目。
- 下载 git 工具
apt install git
- 修改主机映射(避免 DNS 解析失败)
hostname
vim /etc/hosts
3.1.4 部署与测试
一键启动 ERNIE-4.5-VL-28B-A3B-PT。
查看端口是否连接成功,验证服务状态(HTTP 200 表示成功):
curl -i http://0.0.0.0:8180/health
下载 requests 库发送 HTTP 请求:
pip install requests
创建测试文件开始测试:
import requests
import json
url = "http://127.0.0.1:8180/v1/chat/completions"
headers = {"Content-Type": "application/json"}
messages = []
while True:
user_input = input("你:")
if user_input.lower() in ['exit', 'quit']:
break
messages.append({"role": "user", "content": user_input})
data = {
"model": "baidu/ERNIE-4.5-VL-28B-A3B-PT",
"messages": messages,
"temperature": 0.7
}
try:
response = requests.post(url, headers=headers, data=json.dumps(data))
response_json = response.json()
result = response_json["choices"][0]["message"]["content"]
print("ERNIE:", result)
messages.append({"role": "assistant", "content": result})
except Exception as e:
print("请求发生异常:", e)
3.2 个人部署效率分析
| 模型型号 | 显卡型号 | 部署时长 |
|---|---|---|
| ERNIE-4.5-0.3B-Paddle | 4090 | 实测 7 分钟左右 |
| ERNIE-4.5-21B-A3B-PT | A800 | 实测 16 分钟半 |
| ERNIE-4.5-VL-28B-A3B-PT | A100 | 实测 22 分钟 |
整体来说部署时间成本很低,通过 FastDeploy 部署工具十几分钟就能完成一个轻量级大模型的部署使用。
3.3 个人部署难度评估
3.3.1 技术门槛要求
通过 FastDeploy 部署工具的深度优化,整个部署流程被高度简化,开发者无需复杂配置,只需输入预设命令即可实现模型的一键启动。
- 有深度学习基础的开发者:熟悉虚拟环境配置、依赖管理及模型部署流程的用户,可直接参照官方文档和命令示例执行,通常能在半小时内完成服务启动。
- 对于新手开发者而言:尽管可能面临环境配置或命令行操作不熟练等问题,但通过查阅部署文档和技术论坛资料,小白也可轻松部署。整体而言,工具的'一键部署'特性已大幅降低技术壁垒。
3.3.2 常见问题及解决办法
- 依赖冲突问题:配置启动虚拟空间就可以完美解决依赖冲突问题。
- 启动时报错:socket.gaierror: [Errno -2] Name or service not known:检查 /etc/hosts 配置和主机名解析命令,然后对主机名和 ip 进行映射即可解决。
- 启动时报错:ImportError: libgomp.so.1: cannot open shared object file: No such file or directory:系统缺少 PaddlePaddle 运行所需的共享库文件 libgomp.so.1,只需要
apt update && apt install -y libgomp1 libssl-dev zlib1g-dev即可。
四、文心一言 4.5 全方位对比评测
本次参赛选手分别是:ERNIE-4.5-28B-VL-A3B、Qwen2.5-VL-32b、DeepSeek-VL2-Small 三个多模态视觉大模型。
评分机制:首 Token 最快 3 分,最快耗时 3 分,答案是否正确 4 分。
4.1 基础通识测试
问题 1:9.11 和 9.9 哪个更大? 结果汇总:ERNIE-4.5-28B-VL-A3B 总分 26 分,Qwen2.5-VL-32b 总分 18 分,DeepSeek-VL2 总分 12 分。ERNIE-4.5-28B 表现最优。
问题 2:单词 Strawberry 里有几个 r? 结果汇总:ERNIE-4.5-28B-VL-A3B 总分 8 分,Qwen2.5-VL-32b 总分 8 分,DeepSeek-VL2 总分 2 分。
问题 3:请给出 10 句以樱桃俩字为结尾的句子。 结果汇总:ERNIE-4.5-28B-VL-A3B 全部答对,总分 9 分;Qwen2.5-VL-32b 对一个,总分 5 分;DeepSeek-VL2 对两个,总分 5 分。
4.2 高级推理测试
问题 1:弹珠放在红酒杯里倒过来放到冰箱里,弹珠在哪? 结果汇总:ERNIE-4.5-28B-VL-A3B 总分 6 分,Qwen2.5-VL-32b 总分 8 分,DeepSeek-VL2 总分 4 分。
问题 2:晾干 5 件衬衫需要 4 小时,晾干 20 件衬衫需要多久? 结果汇总:ERNIE-4.5-28B-VL-A3B 总分 8 分,Qwen2.5-VL-32b 总分 8 分,DeepSeek-VL2 总分 9 分。
问题 3:房间里有三个杀人犯,进来一人锁门杀了一个,还剩几个? 结果汇总:ERNIE-4.5-28B-VL-A3B 总分 6 分,Qwen2.5-VL-32b 总分 7 分,DeepSeek-VL2 总分 4 分。
综合推理测试:Qwen2.5 得分最高,ERNIE-4.5 在参数少 110 亿的情况下表现也不错。
4.3 视觉能力测试
问题 1:识别动物。 结果汇总:ERNIE-4.5-28B-VL-A3B 总分 7 分,Qwen2.5-VL-32b 总分 8 分,DeepSeek-VL2 总分 9 分。
问题 2:图中一共有多少辆车?按从上到下,从左到右排号依次说出每辆车的颜色。 结果汇总:ERNIE-4.5-28B-VL-A3B 总分 9 分,Qwen2.5-VL-32b 总分 4 分,DeepSeek-VL2 总分 3 分。ERNIE-4.5 完美完成任务,其他模型出现幻觉。
综合视觉能力测试:ERNIE-4.5-28B-VL-A3B 以双任务全正确、细节分析到位脱颖而出。
4.4 代码编程部分
问题 1:创建一个动态时钟页面 HTML。 结果汇总:ERNIE-4.5-28B-VL-A3B 代码最全最完善,响应速度较快。Qwen2.5-VL-32b 代码能力不错但响应慢。DeepSeek-VL2 生成内容不足。
问题 2:HTML 网页按钮随机数随机颜色。 结果汇总:ERNIE-4.5-28B-VL-A3B 生成代码速度遥遥领先,效果完美。Qwen 和 DeepSeek 完成了基础功能实现。
4.5 数学能力测试
ERNIE-4.5-300B-A47B 在 MATH-500、GSM8K、CMath 等权威数学基准测试中展现出极强的综合竞争力,多项核心指标均斩获高分。
4.6 指令能力测试
在 IFEval 和 Multi-IF 两大权威指令评估基准中,ERNIE-4.5-300B-A47B 分别取得 88.0 分和 76.6 分的优异成绩。
4.7 知识能力测试
ERNIE-4.5-300B-A47B 在 ChineseSimpleQA、SimpleQA 等权威知识问答测评中展现出显著领先优势,尤其在 ChineseSimpleQA 任务上以 77.1 的高分凸显中文知识积淀。
4.8 通用能力测试
ERNIE-4.5 系列在 C-Eval、CMMLU、MMCU、General-MMLU 等中文及多语言权威基准测试中表现亮眼,ERNIE-4.5-300B-A47B 在多数场景下稳居榜首。
4.9 对比评测总结
ERNIE-4.5 系列模型在多模态技术的多个关键方向基准测试中始终保持领先,尤其在中文语境深度理解、复杂指令精准执行和数学逻辑严谨推理等核心应用领域,性能优势更为显著。ERNIE-4.5-28B 以 280 亿参数规模,在核心能力上不仅与 320 亿参数的 Qwen2.5-VL-32b 不相伯仲,部分维度更实现超越。
五、总结与社区生态展望
5.1 社区生态展望
文心 ERNIE 4.5 的开源构建了从训练到部署的完整生态体系。通过开源平台的开放协作模式,开发者可直接获取模型代码。利用百度提供的 ERNIEKit 开发套件和 FastDeploy 部署工具即可轻松完成模型部署,大幅降低技术门槛,为模型精调、量化优化、多硬件适配提供全流程支持。
在社区生态层面,飞桨星河社区吸引了大批开发者入驻。开发者既能发现众多优质有趣的开源项目,还能通过社区提供的服务'一键运行'项目直接体验项目效果;同时,也可以自主开源个人项目,吸引广大开发者参与协作开发。
未来,文心 ERNIE 4.5 凭借卓越的模型性能、完善的开发套件与部署工具链、活跃的社区生态氛围以及全面的技术文档支持,必将吸引大批开发者与企业用户投身其中,共同推动文心开源大模型的社区生态走向繁荣。
5.2 全文总结
本次对文心 ERNIE 4.5 开源模型的深度剖析涵盖了模型特性解读、技术架构分析、部署实践指南、到全方位对比评测,系统呈现了其核心能力与优势。对这款模型感兴趣的开发者,可参考官方资源开启部署体验之旅。
六、附录
以下是 ERNIE 4.5 开源生态核心资源合集:
| 资源名称 | 链接 |
|---|---|
| ERNIE4.5 部署配置要求 | FastDeploy 支持模型 |
| Paddlepaddle-gpu 官方文档 | 安装文档 |
| FastDeploy 部署说明 | GPU 安装 |
| ERNIE 开发工具包 | ERNIEKit |
| 飞桨星河社区 | 官网 |


