文心一言 4.5 开源模型技术解析与部署实践

概述

文心大模型 ERNIE 4.5 已开源，首发于 GitCode 平台。不同于以往的开源模型，百度这次一口气开源了 10 款模型，覆盖基础、对话、多模态、思考等多个方向，甚至将核心训练框架、分布式策略完全开放。在基准测试中，文心开源即刷榜，性能大幅超越 Qwen3、DeepSeek-V3 等模型。下面从模型架构特性、技术分析、部署难度等来对文心模型全面解析。

一、文心大模型 ERNIE 4.5 开源简介

1.1 开源模型版本介绍

文心大模型 ERNIE 4.5 开源本次主要分为 3 类：文本大语言模型、视觉语言模型、和小型密集模型。所有模型都支持 128K 上下文窗口，覆盖了基础、对话、多模态、思考等多个方向。

对于每个版本的文心模型官方都给出了两种版本，Base 基础版（预训练基础模型）和 PT（Fine-tuned 微调版）模型版本。建议部署的话通常选择 PT（Fine-tuned 微调版）模型，不仅因为 PT 模型性能最佳，而且它对人类偏好进行了定向优化，能更好地适配各类下游任务场景。

视觉语言模型方面，Qwen2-VL 有 3B、7B 和 72B，最大参数为 720 亿，而文心视觉语言模型的参数达到了 4240 亿，活跃参数达 470 亿。均大于通义千问视觉语言模型的参数规模。

1.2 基准测试表现

文心大模型开源除带来了各种各样的版本，在基准测试方面也是表现极佳，在多个文本和多模态数据集上取得了 SOTA 的性能，大幅超越 Qwen3、DeepSeek-V3 等模型。

从上图我们可以看到文心 300B 的参数模型大幅超越了 Qwen3、DeepSeek-V3，但规模只有 DeepSeek-V3 6710 亿参数的一半，可谓是相当强悍了。

其中在 ERNIE-4.5-21B-A3B 后训练模型，ERNIE-4.5-21B-A3B-Base 的参数量仅为 210 亿比 Qwen3-30B 300 亿参数更小，却在 BBH 和 CMATH 在内的多个数学和推理基准上效果优于 Qwen3-30B-A3B-Base。实现了效果和效率的双向平衡。

1.3 全面的工具生态链

除此之外文心大模型本次开源全部按照 Apache 2.0 协议开源，这意味着我们不管是使用它进行学术研究，还是用在商用领域开发产业相关的应用项目，都完全没问题。

而且百度这次不仅仅只是开源 10 款大模型而已，为了让所有开发者都能体验上文心大模型 ERNIE 4.5 的强悍性能。还开源了大模型高效部署套件 FastDeploy，提供了一行代码开箱即用的多硬件部署体验，使用接口兼容 vLLM 和 OpenAI 协议。

在模型量化、对齐、LoRA 精调等方面也无需担心。百度早已准备好了，开源了文心大模型开发套件 ERNIEKit，提供预训练、全参精调（SFT）、直接偏好优化（DPO）、参数高效精调与对齐（SFT-LoRA/DPO-LoRA）、训练感知量化（QAT）和训练后量化（PTQ）等大模型全流程开发支持。帮助我们轻松部署及高性能推理文心大模型 4.5 开源系列模型。

模型名称	上下文长度	量化方式	最低部署资源	说明
ERNIE-4.5-0.3B	32K/128K	BF16	1 块 6G/12G 显存 GPU / 2G 内存	-
ERNIE-4.5-21B-A3B-Paddle	32K/128K	WINT8	1 块 48G 显存 GPU / 128G 内存	128K 长度需启用分块预填充
ERNIE-4.5-VL-28B-A3B-Paddle	32K/128K	WINT8	1 块 48G 显存 GPU / 128G 内存	需启用分块预填充
ERNIE-4.5-300B-A47B-Paddle	32K/128K	WINT4	4 块 64G 显存 GPU / 600G 内存	128K 长度
ERNIE-4.5-VL-424B-A47B-Paddle	32K/128K	WINT2	1 块 141G 显存 GPU / 1T 内存	128K 长度需启用分块预填充

依赖项	版本要求
GPU 驱动程序	≥535
CUDA	≥12.3
CUDNN	≥9.5
Python	≥3.10
Linux	X86_64 架构

import requests import json # 模型服务的 API 端点，需确保模型服务已启动并可通过该地址访问 url = "http://127.0.0.1:8180/v1/chat/completions" # 请求头，指定发送数据的格式为 JSON headers = {"Content-Type": "application/json"} # 初始化对话上下文列表，用于保存用户输入和模型回复的历史 messages = [] # 启动对话循环，持续获取用户输入并与模型交互 while True: # 获取用户输入，提示用户输入内容 user_input = input("你：") # 如果用户输入 exit 或 quit（不区分大小写），则退出对话循环 if user_input.lower() in ['exit', 'quit']: break # 将用户输入以指定格式添加到对话上下文，role 为 user 表示是用户输入 messages.append({"role": "user", "content": user_input}) # 构建请求体数据 data = { # 指定要使用的模型，需与服务端部署的模型匹配 "model": "baidu/ERNIE-4.5-VL-28B-A3B-PT", # 传入对话上下文，包含历史交互信息 "messages": messages, # 温度参数，控制模型输出的随机性，值越大越随机 "temperature": 0.7 } try: # 发送 POST 请求到模型服务，将 data 转为 JSON 字符串传入 response = requests.post(url, headers=headers, data=json.dumps(data)) # 解析响应为 JSON 格式 response_json = response.json() # 提取模型回复内容，从响应的特定结构中获取 result = response_json["choices"][0]["message"]["content"] # 输出模型回复，标识为 ERNIE 的回复 print("ERNIE: ", result) # 将模型回复添加到对话上下文，role 为 assistant 表示是模型回复 messages.append({"role": "assistant", "content": result}) except requests.RequestException as e: # 如果请求过程中发生异常（如网络问题、服务未响应等），捕获并提示 print("请求发生异常：", e) except KeyError as e: # 如果响应 JSON 结构不符合预期，捕获并提示 print("解析响应失败，缺少必要字段：", e) except json.JSONDecodeError as e: # 如果响应内容无法正确解析为 JSON，捕获并提示 print("响应内容解析为 JSON 失败：", e)

模型型号	显卡型号	部署时长
ERNIE-4.5-0.3B-Paddle	4090	实测 7 分钟左右
ERNIE-4.5-21B-A3B-PT	A800	实测 16 分钟半
ERNIE-4.5-VL-28B-A3B-PT	A100	实测 22 分钟

模型名称	参数	是否多模态
ERNIE-4.5-28B-VL-A3B	280 亿	是（含视觉 - 语言多模态能力）
Qwen2.5-VL-32b	320 亿	是（含视觉 - 语言多模态能力）
DeepSeek-VL2	161 亿	是（含视觉 - 语言多模态能力）

模型名称	最优	中等	最差
首 Token	3	2	1
总耗时	3	2	1
正确性	（正确 4 分）	（酌情给分）	（错误 0 分）

模型名称	首 Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	0.91s	2.01s	正确	9
Qwen2.5-VL-32b	1.45s	8.92s	正确	5
DeepSeek-VL2-Small	1.33s	2.01s	错误	5

模型名称	首 Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	0.73s	1.24s	正确	8
Qwen2.5-VL-32b	0.43s	3.9s	正确	8
DeepSeek-VL2	1.46s	1.46s	错误	2

文心一言 4.5 开源模型技术解析与部署实践

概述

一、文心大模型 ERNIE 4.5 开源简介

1.1 开源模型版本介绍

1.2 基准测试表现

1.3 全面的工具生态链

更多推荐文章

相关免费在线工具

二、文心大模型 ERNIE 4.5 技术分析

2.1 多模态异构 MOE

2.2 高效训练与并行架构

2.3 后训练策略

2.4 推理和部署

三、文心开源模型个人部署

3.1 个人部署详细步骤

3.1.1 环境选择

3.1.2 环境准备

3.1.3 模型下载与配置

3.1.4 部署与测试

3.2 个人部署效率分析

3.2.1 部署时间成本

3.3 个人部署难度评估

3.3.1 技术门槛要求

3.3.2 常见问题及解决办法（选看）

四、文心一言 4.5 全方位对比评测

4.1 基础通识测试

4.2 高级推理测试

4.3 视觉能力测试

4.4 代码编程部分

4.5 数学能力测试

4.6 指令能力测试

4.7 知识能力测试

4.8 通用能力测试

4.9 对比评测总结

五、总结

更多推荐文章

相关免费在线工具

模型名称	首 Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	0.85s	3.85s	正确	9
Qwen2.5-VL-32b	0.45s	7.68s	一个正确	5
DeepSeek-VL2	2.01s	4.57s	俩个正确	5

模型名称	总分
ERNIE-4.5-28B-VL-A3B	9+8+9=26
Qwen2.5-VL-32b	5+8+5=18
DeepSeek-VL2	5+2+5=12

模型名称	首 Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	1.44s	4.94s	未给出答案	6
Qwen2.5-VL-32b	0.84s	11.7s	正确	8
DeepSeek-VL2	2.36s	4.94s	错误	4

模型名称	首 Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	1.14s	6.04s	正确	8
Qwen2.5-VL-32b	0.55s	11.7s	正确	8
DeepSeek-VL2	1.4s	1.4s	正确	9

模型名称	首 Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	0.83s	5.55s	未给出答案	6
Qwen2.5-VL-32b	1.17s	10.92s	正确	7
DeepSeek-VL2	1.5s	1.5s	错误	4

模型名称	总分
ERNIE-4.5-28B-VL-A3B	6+8+6=20
Qwen2.5-VL-32b	8+8+7=23
DeepSeek-VL2	4+9+4=17

模型名称	首 Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	2.97s	3.51s	正确	7
Qwen2.5-VL-32b	1.8s	3.82s	正确	8
DeepSeek-VL2	2.12s	2.12s	正确	9

模型名称	首 Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	1.04s	2.36s	正确	9
Qwen2.5-VL-32b	0.62s	3.63s	错误	4
DeepSeek-VL2	1.86s	2.48s	错误	3

模型名称	总分
ERNIE-4.5-28B-VL-A3B	7+9=16
Qwen2.5-VL-32b	8+4=12
DeepSeek-VL2	9+3=12

模型名称	首 Token	总耗时
ERNIE-4.5-28B-VL-A3B	0.43s	14.94s
Qwen2.5-VL-32b	0.47s	43.67s
DeepSeek-VL2	1.2s	7.08s

模型名称	基础通识	高级推理	视觉能力	代码编程	综合表现
ERNIE-4.5-28B-VL-A3B	26	20	16	优	🌟🌟🌟🌟🌟
Qwen2.5-VL-32b	18	23	12	良	🌟🌟🌟🌟
DeepSeek-VL2	12	17	12	中	🌟🌟🌟

模型名称	首 Token	总耗时
ERNIE-4.5-28B-VL-A3B	0.44s	11.61s
Qwen2.5-VL-32b	0.28s	17s
DeepSeek-VL2	1.23s	10.31s

文心一言 4.5 开源模型技术解析与部署实践

概述

一、文心大模型 ERNIE 4.5 开源简介

1.1 开源模型版本介绍

1.2 基准测试表现

1.3 全面的工具生态链

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

二、文心大模型 ERNIE 4.5 技术分析

2.1 多模态异构 MOE

2.2 高效训练与并行架构

2.3 后训练策略

2.4 推理和部署

三、文心开源模型个人部署

3.1 个人部署详细步骤

3.1.1 环境选择

3.1.2 环境准备

3.1.3 模型下载与配置

3.1.4 部署与测试

3.2 个人部署效率分析

3.2.1 部署时间成本

3.3 个人部署难度评估

3.3.1 技术门槛要求

3.3.2 常见问题及解决办法（选看）

四、文心一言 4.5 全方位对比评测

4.1 基础通识测试

4.2 高级推理测试

4.3 视觉能力测试

4.4 代码编程部分

4.5 数学能力测试

4.6 指令能力测试

4.7 知识能力测试

4.8 通用能力测试

4.9 对比评测总结

五、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具