引言
文心大模型 ERNIE 4.5 已开源,覆盖基础、对话、多模态、思考等多个方向,并将核心训练框架、分布式策略完全开放。在基准测试中,其性能大幅超越 Qwen3、DeepSeek-V3 等模型。以下从模型架构特性、技术分析、部署难度等方面进行全面解析。
一、文心大模型 ERNIE 4.5 开源简介
1.1 开源模型版本介绍
本次开源主要分为三类:文本大语言模型、视觉语言模型、和小型密集模型。所有模型都支持 128K 上下文窗口。官方提供了 Base 基础版(预训练)和 PT(Fine-tuned 微调版)两种版本。建议部署时选择 PT 模型,因其性能最佳且对下游任务场景适配更好。
视觉语言模型方面,文心视觉语言模型的参数规模达到 4240 亿,活跃参数达 470 亿,大于通义千问视觉语言模型的参数规模。
1.2 基准测试表现
文心大模型在多个文本和多模态数据集上取得了 SOTA 的性能。ERNIE-4.5-21B-A3B 后训练模型参数量仅为 210 亿,比 Qwen3-30B 更小,却在 BBH 和 CMATH 在内的多个数学和推理基准上效果优于 Qwen3-30B-A3B-Base,实现了效果和效率的双向平衡。
1.3 全面的工具生态链
文心大模型按照 Apache 2.0 协议开源,支持学术研究和商用开发。百度还开源了大模型高效部署套件 FastDeploy,提供一行代码开箱即用的多硬件部署体验,接口兼容 vLLM 和 OpenAI 协议。同时开源了 ERNIEKit 开发套件,提供预训练、全参精调(SFT)、直接偏好优化(DPO)、参数高效精调与对齐、量化等大模型全流程开发支持。
二、文心大模型 ERNIE 4.5 技术分析
2.1 多模态异构 MOE
ERNIE 4.5 设计了多模异构结构,不同于传统的 Mixture of Experts(MoE),它支持跨模态的参数共享,包括自注意力参数共享和专家参数共享,同时允许为每个单独的模态提供专用参数。文本和视觉各有专属专家,减少跨模态干扰,实现互不干扰的协同运作。MoE 层的最终输出由共享专家、文本专家、视觉专家的输出相加构成,促进模态间知识融合。
2.2 高效训练与并行架构
针对大规模多模态 MoE 架构中的负载不均衡问题,文心 ERNIE 4.5 引入了异构并行策略和分层负载均衡方法。在异构并行策略中引入了 FP8 混合精度训练框架和容错系统。ERNIE 4.5 语言模型采用了 8 路专家并行(EP)、12 路管道并行(PP)和 ZeRO-1 数据并行(DP)配置,实现了 47% 的模型 FLOPs 利用率(MFU)。通过分层负载均衡策略,端到端多模态训练中实现了高达 32% 的整体性能提升。
2.3 后训练策略
引入模态感知专家分配策略,视觉专家仅包含文本专家的三分之一参数,提高视觉信息处理效率。采用 SFT(监督微调)、DPO(直接偏好优化)、UPO(统一偏好优化)等策略,满足实际应用的不同要求。
2.4 推理和部署
支持 BF16 和 FP8 推理功能,以及各种低精度推理选项。支持 4bit 和 2bit 的极限压缩,压缩不损效果,还能做动态切换和并行加速。仅需 141GB 显存环境即可部署 2 位 ERNIE-4.5-300BA47B 的超大模型,大大降低了准入门槛。
三、基于开源仓库的文心开源模型个人部署
3.1 个人部署详细步骤
3.1.1 环境选择
不同系列模型对配置要求如下:
| 模型名称 | 上下文长度 | 量化方式 | 最低部署资源 | 说明 |
|---|---|---|---|---|
| ERNIE-4.5-0.3B | 32K/128K | BF16 | 1 块 6G/12G 显存 GPU / 2G 内存 | - |
| ERNIE-4.5-21B-A3B-Paddle | 32K/128K | WINT8 | 1 块 48G 显存 GPU / 128G 内存 | 128K 长度需启用分块预填充 |
| ERNIE-4.5-VL-28B-A3B-Paddle | 32K/128K | WINT8 |


