前言
2025 年 6 月 30 日,百度正式开源文心大模型 4.5 系列。作为新一代原生多模态基础大模型,它在图片理解(照片、截图、漫画等)和音视频场景分析上表现突出,生成内容真实性较高。
此次开源涉及 10 款模型,包含激活参数为 47B、3B 的混合专家(MoE)模型,以及 0.3B 稠密型模型。预训练权重与推理代码均已开放,开发者可在 GitCode、飞桨星河社区及 HuggingFace 等平台下载部署。API 服务则可通过百度智能云千帆平台调用。

技术基座剖析
文心一言 4.5 的技术底座以**原生多模态混合专家模型(MoE)**为核心,构建了层次化、高效能的技术架构体系。
多模态异构 MoE 架构
通过文本与视觉模态联合预训练,实现多模态信息的细粒度捕捉。为解决传统模型中模态间学习干扰问题,团队设计了异构 MoE 结构:
- 跨模态参数共享机制:统一架构下融合文本与视觉知识,同时保留独立参数空间,打破模态割裂瓶颈。
- 模态隔离路由与损失函数优化:引入模态隔离路由机制,通过路由器正交损失约束特征空间独立性,结合多模态标记平衡损失均衡训练信号,避免单一模态抑制另一模态。
- 多维旋转位置编码:针对长序列建模需求(如视频帧),提升对时序依赖关系的捕捉能力,在 MathVista、MMMU 等任务中优势明显。

高效训练与推理技术
- 训练侧:采用异构混合并行策略(节点内专家并行 + 流水线调度),结合 FP8 混合精度训练与细粒度重计算技术,将大模型预训练的 FLOPs 利用率(MFU)提升至 47%,较传统方案效率提升 30% 以上。
- 推理侧:创新卷积码量化算法,实现 4 位/2 位无损量化。以 ERNIE-4.5-300B-A47B 为例,量化后显存占用从 112GB 降至 28GB,推理延迟减少 40%,显著提升了边缘设备部署可行性。
分层蒸馏策略
针对不同场景设计大模型预训练 + 小模型定向蒸馏路径:
- 基础模型:424B 参数的 ERNIE-4.5-VL-424B-A47B,聚焦多模态复杂推理,在医疗影像、工业图纸解析等专业领域表现突出。
- 轻量级模型:21B 参数的 ERNIE-4.5-21B-A3B,通过蒸馏核心知识,在数学推理与指令遵循任务上以 70% 参数量实现优于 Qwen3-30B 的性能。
部署实战
文心一言 4.5 依托飞桨生态构建了全链路工具链。以下是基于 FastDeploy 的部署流程与实测总结。
| 模型名称 | 部署时间 | 测试场景 | 响应时间 | 输出 Token | 效果总结 |
|---|---|---|---|---|---|
| ERNIE-4.5-0.3B-Base-Paddle |


