文心一言 4.5 开源模型技术剖析与部署指南 | 极客日志

PythonAI算法

文心一言 4.5 开源模型技术剖析与部署指南

深度解析百度文心一言 4.5 开源模型。涵盖 10 款模型版本介绍、基准测试表现及工具生态。技术分析包括多模态异构 MOE 架构、高效训练并行策略及后训练方法。提供基于 FastDeploy 的详细部署步骤与环境配置。通过基础通识、推理、视觉、代码等维度对比评测，展示其在中文理解与多模态任务上的优势。结论表明该系列模型在性能与效率上达到业界 SOTA 水平，适合开发者落地应用。

念念不忘发布于 2026/4/6更新于 2026/7/2157 浏览

引言

文心大模型 ERNIE 4.5 已开源并首发于多个平台！不同于以往的开源模型，百度这次一口气开源了 10 款模型，覆盖基础、对话、多模态、思考等多个方向，甚至将核心训练框架、分布式策略完全开放。在基准测试中，文心开源即刷榜，性能大幅超越 Qwen3、DeepSeek-V3 等模型；下面从模型架构特性、技术分析、部署难度等来对文心模型全面解析一下！

图片描述

一、文心大模型 ERNIE 4.5 开源简介

1.1 开源模型版本介绍

先来看看大家最关心的问题？文心大模型这次开源的 10 款模型，它们都有哪些版本、聚焦什么方向、参数规模多大。

图片描述

文心大模型 ERNIE 4.5 开源本次主要分为 3 类：文本大语言模型、视觉语言模型、和小型密集模型。所有模型都支持 128K 上下文的上下文窗口，覆盖了基础、对话、多模态、思考等多个方向。

对于每个版本的文心模型官方都给出了两种版本：Base 基础版（预训练基础模型）和 PT（Fine-tuned 微调版）模型版本。

建议部署的话通常去选择 PT（Fine-tuned 微调版）模型，不仅因为 PT 模型性能最佳，而且它对人类偏好进行了定向优化，能更好地适配各类下游任务场景。

视觉语言模型方面，Qwen2-VL 有 3B、7B 和 72B，最大参数为 720 亿，而文心视觉语言模型的参数达到了 4240 亿，活跃参数达 470 亿。均大于通义千问视觉语言模型的参数规模。

1.2 基准测试表现

文心大模型开源除带来了各种各样的版本，在基准测试方面也是表现极佳，在多个文本和多模态数据集上取得了 SOTA 的性能，大幅超越 Qwen3、DeepSeek-V3 等模型。

图片描述

从上图我们可以看到文心 300B 的参数模型大幅超越了 Qwen3、DeepSeek-V3，但规模只有 DeepSeek-V3 6710 亿参数的一半，可谓是相当强悍了。

图片描述

其中在 ERNIE-4.5-21B-A3B 后训练模型，ERNIE-4.5-21B-A3B-Base 的参数量仅为 210 亿比 Qwen3-30B 300 亿参数更小，却在 BBH 和 CMATH 在内的多个数学和推理基准上效果优于 Qwen3-30B-A3B-Base。实现了效果和效率的双向平衡。

1.3 全面的工具生态链

除此之外文心大模型本次开源全部按照 Apache 2.0 协议开源，这意味着我们不管是使用它进行学术研究，还是用在商用领域开发产业相关的应用项目，都完全没问题。

模型名称	上下文长度	量化方式	最低部署资源	说明
ERNIE-4.5-0.3B	32K/128K	BF16	1 块 6G/12G 显存 GPU / 2G 内存	-
ERNIE-4.5-21B-A3B-Paddle	32K/128K	WINT8	1 块 48G 显存 GPU / 128G 内存	128K 长度需启用分块预填充
ERNIE-4.5-VL-28B-A3B-Paddle	32K/128K	WINT8	1 块 48G 显存 GPU / 128G 内存	需启用分块预填充
ERNIE-4.5-300B-A47B-Paddle	32K/128K	WINT4	4 块 64G 显存 GPU / 600G 内存	128K 长度
ERNIE-4.5-VL-424B-A47B-Paddle	32K/128K	WINT2	1 块 141G 显存 GPU / 1T 内存	128K 长度需启用分块预填充

依赖项	版本要求
GPU 驱动程序	≥535
CUDA	≥12.3
CUDNN	≥9.5
Python	≥3.10
Linux	X86_64 架构

#更新软件包 apt update #安装虚拟环境工具 apt install -y python3-venv

python3 -m venv fastdeploy-env/

source fastdeploy-env/bin/activate

apt update && apt install -y libgomp1 libssl-dev zlib1g-dev

 python -m pip install paddlepaddle-gpu==3.1.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/

import paddle paddle.utils.run_check()

# Install stable release python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-80_90/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

python -c "import paddle; print(paddle.is_compiled_with_cuda()); print(paddle.device.get_device())"

apt install git

#1. 查看当前主机名 hostname

#2. 编辑 hosts 文件 vim /etc/hosts

curl -i http://0.0.0.0:8180/health

pip install requests

vi test.py

import requests import json # 模型服务的 API 端点，需确保模型服务已启动并可通过该地址访问 url ="http://127.0.0.1:8180/v1/chat/completions"# 请求头，指定发送数据的格式为 JSON headers ={"Content-Type":"application/json"}# 初始化对话上下文列表，用于保存用户输入和模型回复的历史 messages =[]# 启动对话循环，持续获取用户输入并与模型交互 while True: # 获取用户输入，提示用户输入内容 user_input = input("你：")# 如果用户输入 exit 或 quit（不区分大小写），则退出对话循环 if user_input.lower()in['exit', 'quit']: break# 将用户输入以指定格式添加到对话上下文，role 为 user 表示是用户输入 messages.append({"role":"user", "content": user_input})# 构建请求体数据 data ={# 指定要使用的模型，需与服务端部署的模型匹配"model":"baidu/ERNIE-4.5-VL-28B-A3B-PT", # 传入对话上下文，包含历史交互信息"messages": messages, # 温度参数，控制模型输出的随机性，值越大越随机"temperature":0.7} try: # 发送 POST 请求到模型服务，将 data 转为 JSON 字符串传入 response = requests.post(url, headers=headers, data=json.dumps(data))# 解析响应为 JSON 格式 response_json = response.json()# 提取模型回复内容，从响应的特定结构中获取 result = response_json["choices"][0]["message"]["content"]# 输出模型回复，标识为 ERNIE 的回复 print("ERNIE: ", result)# 将模型回复添加到对话上下文，role 为 assistant 表示是模型回复 messages.append({"role":"assistant", "content": result}) except requests.RequestException as e: # 如果请求过程中发生异常（如网络问题、服务未响应等），捕获并提示 print("请求发生异常：", e) except KeyError as e: # 如果响应 JSON 结构不符合预期，捕获并提示 print("解析响应失败，缺少必要字段：", e) except json.JSONDecodeError as e: # 如果响应内容无法正确解析为 JSON，捕获并提示 print("响应内容解析为 JSON 失败：", e)

模型型号	显卡型号	部署时长
ERNIE-4.5-0.3B-Paddle	4090	实测 7 分钟左右
ERNIE-4.5-21B-A3B-PT	A800	实测 16 分钟半
ERNIE-4.5-VL-28B-A3B-PT	A100	实测 22 分钟

Traceback (most recent call last): File "/root/baidu/ERNIE-4.5-0.3B-Paddle/check.py", line 1, in<module>import paddle File "/usr/local/miniconda3/envs/py310/lib/python3.10/site-packages/paddle/__init__.py", line 38, in<module> from .base import core # noqa: F401 File "/usr/local/miniconda3/envs/py310/lib/python3.10/site-packages/paddle/base/__init__.py", line 38, in<module> from .import(# noqa: F401 File "/usr/local/miniconda3/envs/py310/lib/python3.10/site-packages/paddle/base/backward.py", line 28, in<module> from .import core, framework, log_helper, unique_name File "/usr/local/miniconda3/envs/py310/lib/python3.10/site-packages/paddle/base/core.py", line 388, in<module> raise e File "/usr/local/miniconda3/envs/py310/lib/python3.10/site-packages/paddle/base/core.py", line 267, in<module> from .import libpaddle ImportError: libgomp.so.1: cannot open shared object file: No such file or directory

模型名称	参数	是否多模态
ERNIE-4.5-28B-VL-A3B	280 亿	是（含视觉 - 语言多模态能力）
Qwen2.5-VL-32b	320 亿	是（含视觉 - 语言多模态能力）
DeepSeek-VL2	161 亿	是（含视觉 - 语言多模态能力）

模型名称	最优	中等	最差
首 Token	3	2	1
总耗时	3	2	1
正确性	（正确 4 分）	（酌情给分）	（错误 0 分）

模型名称	首 Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	0.91s	2.01s	正确	9
Qwen2.5-VL-32b	1.45s	8.92s	正确	5
DeepSeek-VL2-Small	1.33s	2.01s	错误	5

模型名称	首 Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	0.73s	1.24s	正确	8
Qwen2.5-VL-32b	0.43s	3.9s	正确	8
DeepSeek-VL2	1.46s	1.46s	错误	2

模型名称	首 Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	0.85s	3.85s	正确	9
Qwen2.5-VL-32b	0.45s	7.68s	一个正确	5
DeepSeek-VL2	2.01s	4.57s	俩个正确	5

模型名称	总分
ERNIE-4.5-28B-VL-A3B	9+8+9=26
Qwen2.5-VL-32b	5+8+5=18
DeepSeek-VL2	5+2+5=12

模型名称	首 Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	1.44s	4.94s	未给出答案	6
Qwen2.5-VL-32b	0.84s	11.7s	正确	8
DeepSeek-VL2	2.36s	4.94s	错误	4

模型名称	首 Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	1.14s	6.04s	正确	8
Qwen2.5-VL-32b	0.55s	11.7s	正确	8
DeepSeek-VL2	1.4s	1.4s	正确	9

模型名称	首 Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	0.83s	5.55s	未给出答案	6
Qwen2.5-VL-32b	1.17s	10.92s	正确	7
DeepSeek-VL2	1.5s	1.5s	错误	4

模型名称	总分
ERNIE-4.5-28B-VL-A3B	6+8+6=20
Qwen2.5-VL-32b	8+8+7=23
DeepSeek-VL2	4+9+4=17

模型名称	首 Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	2.97s	3.51s	正确	7
Qwen2.5-VL-32b	1.8s	3.82s	正确	8
DeepSeek-VL2	2.12s	2.12s	正确	9

模型名称	首 Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	1.04s	2.36s	正确	9
Qwen2.5-VL-32b	0.62s	3.63s	错误	4
DeepSeek-VL2	1.86s	2.48s	错误	3

模型名称	总分
ERNIE-4.5-28B-VL-A3B	7+9=16
Qwen2.5-VL-32b	8+4=12
DeepSeek-VL2	9+3=12

模型名称	首 Token	总耗时
ERNIE-4.5-28B-VL-A3B	0.43s	14.94s
Qwen2.5-VL-32b	0.47s	43.67s
DeepSeek-VL2	1.2s	7.08s

模型名称	首 Token	总耗时
ERNIE-4.5-28B-VL-A3B	0.44s	11.61s
Qwen2.5-VL-32b	0.28s	17s
DeepSeek-VL2	1.23s	10.31s

模型名称	基础通识	高级推理	视觉能力	代码编程	综合表现
ERNIE-4.5-28B-VL-A3B	26	20	16	优	🌟🌟🌟🌟🌟
Qwen2.5-VL-32b	18	23	12	良	🌟🌟🌟🌟
DeepSeek-VL2	12	17	12	中	🌟🌟🌟

资源名称	链接
ERNIE4.5 GitCode 开源仓库	【一键直达】
ERNIE4.5 部署配置要求	【一键直达】
Paddlepaddle-gpu 官方文档	【一键直达】
FastDeploy 部署说明	【一键直达】
ERNIE4.5 技术文档	【一键直达】
ERNIE 开发工具包	【一键直达】
飞桨星河社区	【一键直达】

文心一言 4.5 开源模型技术剖析与部署指南

引言

一、文心大模型 ERNIE 4.5 开源简介

1.1 开源模型版本介绍

1.2 基准测试表现

1.3 全面的工具生态链

二、文心大模型 ERNIE 4.5 技术分析

2.1 多模态异构 MOE

2.2 高效训练与并行架构

2.3 后训练策略

2.4 推理和部署

三、基于开源仓库的文心开源模型个人部署

3.1 个人部署详细步骤

3.1.1 环境选择

3.1.2 环境准备

3.1.2 模型下载与配置

3.1.3 部署与测试

3.2 个人部署效率分析

3.2.1 部署时间成本

3.3 个人部署难度评估

3.3.1 技术门槛要求

3.3.2 常见问题及解决办法（选看）

四、文心一言 4.5 全方位对比评测

3.1 基础通识测试

3.2 高级推理测试

3.3 视觉能力测试

3.4 代码编程部分

3.5 数学能力测试

3.6 指令能力测试

3.7 知识能力测试

3.8 通用能力测试

3.9 对比评测总结

五、总结与社区生态展望

5.1 社区生态展望

5.2 全文总结

六、附录

更多推荐文章

相关免费在线工具

文心一言 4.5 开源模型技术剖析与部署指南

引言

一、文心大模型 ERNIE 4.5 开源简介

1.1 开源模型版本介绍

1.2 基准测试表现

1.3 全面的工具生态链

二、文心大模型 ERNIE 4.5 技术分析

2.1 多模态异构 MOE

2.2 高效训练与并行架构

2.3 后训练策略

2.4 推理和部署

三、基于开源仓库的文心开源模型个人部署

3.1 个人部署详细步骤

3.1.1 环境选择

3.1.2 环境准备

3.1.2 模型下载与配置

3.1.3 部署与测试

3.2 个人部署效率分析

3.2.1 部署时间成本

3.3 个人部署难度评估

3.3.1 技术门槛要求

3.3.2 常见问题及解决办法（选看）

四、文心一言 4.5 全方位对比评测

3.1 基础通识测试

3.2 高级推理测试

3.3 视觉能力测试

3.4 代码编程部分

3.5 数学能力测试

3.6 指令能力测试

3.7 知识能力测试

3.8 通用能力测试

3.9 对比评测总结

五、总结与社区生态展望

5.1 社区生态展望

5.2 全文总结

六、附录

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具