引言
2025 年 6 月 30 日,百度文心大模型 4.5 系列正式开源。作为国内领先的大模型研发企业,百度推出的文心大模型已跻身国内顶级行列,此次开源将对各行各业产生深远影响。
一、文心大模型 ERNIE 4.5 开源介绍
1.1 开源版本介绍
文心 ERNIE 4.5 本次开源一次性发布了 10 款模型,覆盖基础、对话、多模态、思考等多个方向。此次开源的模型构建起从 0.3B(3 亿参数)到 424B(4240 亿参数)的完整梯度矩阵,能够精准匹配多样化场景的需求。
![图片描述]
从官方公布的图中可以看到,本次开源的大模型主要分为两类:一类是专注于文本处理的语言模型(LLMs);另一类是能够处理多种模态数据的视觉 - 语言模型(VLMs)。其中,普通模型以文本处理为核心,而带有'VL'标识的模型则具备多模态处理能力。
1.2 ERNIE 4.5 的主要特点和区别
![图片描述]
其中 MoE 是指专家混合(MoE)架构,除最小的 0.3B 稠密模型外,其他模型都采用了 MoE 架构。MoE 架构可以动态的选择并激活不同的专家网络来处理输入,在保障高性能的同时,又有效提升了训练与推理效率。
模型名称中不带 '-Base' 后缀的通常表示这些模型在预训练的基础上,经过了进一步的后训练(Post-Trained)或微调,以优化其在特定应用场景下的性能。而带有 '-Base' 后缀的模型则是基础的预训练模型。
思考模式(Thinking Mode)与非思考模式(Non-Thinking Mode): 在'non-thinking'模式下,模型可以直接给出答案,无需复杂的推理过程。'both'模式(多见于 VL 模型)则使模型能根据任务需求,在直接响应与更深层次的'思考'之间灵活切换。
二、文心 ERNIE 4.5 技术解析
2.1 多模态异构 MOE
异构 MoE(Heterogeneous MoE)作为 ERNIE 4.5 的核心架构,其创新的'异构模态 MoE'设计巧妙破解了多模态模型训练中的关键矛盾。该架构不仅支持跨模态参数共享(涵盖自注意力参数与专家参数共享),还能为各独立模态配置专用参数,实现了共享与专属的灵活平衡。
![图片描述]
与传统的统一 MoE 不同,ERNIE 4.5 将专家 (Experts) 明确划分为三类:文本专家、视觉专家和共享专家。此外,文心还引入了一种模态感知的专家分配策略,其中视觉专家的参数仅为文本专家的三分之一,从而提高了视觉信息处理的效率。
![图片描述]
2.2 高效训练与并行架构
在训练与推理环节文心也实现了关键的技术突破,在训练方面采用了异构并行策略融入 FP8 混合精度训练框架和容错系统,优化内存、通信和计算开销,其最大语言模型采用 8 路专家并行、12 路管道并行和 ZeRO-1 数据并行配置,实现 47% 的 MFU,来支撑超大规模模型开源落地。
![图片描述]
2.3 针对特定模态的后训练策略
针对特定模态的后训练:为了满足实际应用的多样化需求,百度针对特定模态对预训练模型的变体进行了微调。其大模型针对通用语言理解和生成进行了优化。
![图片描述]
对特定的模态的训练策略进行微调,对每个模型采用 SFT(监督微调)手把手教模型怎么做,DPO(直接偏好优化)通过用户偏好直接优化模型输出,让用户更喜欢模型的回答,UPO(统一偏好优化)使模型在多任务场景,能同时兼顾用户的多种偏好,来满足实际应用的不同要求。
![图片描述]
三、文心一言 4.5 开源版本地化部署
相信经过以上介绍,大家对文心 ERNIE 4.5 大模型的架构技术及各开源版本的特点与差异已有清晰认识。接下来,我们就直接进入本地化部署流程。
3.1 部署环境准备
下面是文心 4.5 不同型号模型对配置的要求,我们本次本地部署选择 ERNIE-4.5-0.3B-PT 的这个版本的轻量级模型,仅需一张 4090 系列显卡就满足配置要求了。
| 模型名称 | 上下文长度 | 量化方式 | 最低部署资源 | 说明 |
|---|---|---|---|---|


