跳到主要内容
文心 ERNIE 4.5 开源模型架构、部署与评测分析 | 极客日志
Python AI 算法
文心 ERNIE 4.5 开源模型架构、部署与评测分析 综述由AI生成 深入剖析百度文心 ERNIE 4.5 开源模型,涵盖 10 款模型的版本特性、多模态异构 MOE 架构及高效训练策略。详细介绍了基于 FastDeploy 的本地部署流程与环境配置,并通过基础通识、推理、视觉、代码等多维度基准测试,对比了其与 Qwen2.5-VL、DeepSeek-VL2 的性能表现。结果显示 ERNIE 4.5 在中文理解、指令遵循及多模态任务上具有显著优势,适合开发者进行落地应用。
ApiHolic 发布于 2026/4/6 更新于 2026/5/20 27 浏览引言
文心大模型 ERNIE 4.5 已开源,首发于 GitCode 平台。不同于以往的开源模型,百度这次一口气开源了 10 款模型,覆盖基础、对话、多模态、思考等多个方向,甚至将核心训练框架、分布式策略完全开放。在基准测试中,文心开源即刷榜,性能大幅超越 Qwen3、DeepSeek-V3 等模型;下面从模型架构特性、技术分析、部署难度等对文心模型全面解析。
一、文心大模型 ERNIE 4.5 开源简介
1.1 开源模型版本介绍
文心大模型 ERNIE 4.5 开源本次主要分为 3 类:文本大语言模型、视觉语言模型、和小型密集模型。所有模型都支持 128K 上下文窗口,覆盖了基础、对话、多模态、思考等多个方向。
对于每个版本的文心模型官方都给出了两种版本:Base 基础版(预训练基础模型)和 PT(Fine-tuned 微调版)模型版本。建议部署的话通常选择 PT(Fine-tuned 微调版)模型,不仅因为 PT 模型性能最佳,而且它对人类偏好进行了定向优化,能更好地适配各类下游任务场景。
视觉语言模型方面,Qwen2-VL 有 3B、7B 和 72B,最大参数为 720 亿,而文心视觉语言模型的参数达到了 4240 亿,活跃参数达 470 亿。均大于通义千问视觉语言模型的参数规模。
1.2 基准测试表现
文心大模型开源除带来了各种各样的版本,在基准测试方面也是表现极佳,在多个文本和多模态数据集上取得了 SOTA 的性能,大幅超越 Qwen3、DeepSeek-V3 等模型。
从上图我们可以看到文心 300B 的参数模型大幅超越了 Qwen3、DeepSeek-V3,但规模只有 DeepSeek-V3 6710 亿参数的一半,可谓是相当强悍了。
其中在 ERNIE-4.5-21B-A3B 后训练模型,ERNIE-4.5-21B-A3B-Base 的参数量仅为 210 亿比 Qwen3-30B 300 亿参数更小,却在 BBH 和 CMATH 在内的多个数学和推理基准上效果优于 Qwen3-30B-A3B-Base。实现了效果和效率的双向平衡。
1.3 全面的工具生态链
除此之外文心大模型本次开源全部按照 Apache 2.0 协议开源,这意味着我们不管是使用它进行学术研究,还是用在商用领域开发产业相关的应用项目,都完全没问题。
而且百度这次不仅仅只是开源 10 款大模型而已,为了让所有开发者都能体验上文心大模型 ERNIE 4.5 的强悍性能。还开源了大模型高效部署套件 FastDeploy,提供了一行代码开箱即用的多硬件部署体验,使用接口兼容 vLLM 和 OpenAI 协议。
在模型量化、对齐、LoRA 精调等方面也无需担心。百度早已准备好了,开源了文心大模型开发套件 ERNIEKit,提供预训练、全参精调(SFT)、直接偏好优化(DPO)、参数高效精调与对齐(SFT-LoRA/DPO-LoRA)、训练感知量化(QAT)和训练后量化(PTQ)等大模型全流程开发支持。帮助我们轻松部署及高性能推理文心大模型 4.5 开源系列模型。
二、文心大模型 ERNIE 4.5 技术分析 或许不少用户心里都犯嘀咕,为啥这次文心大模型 ERNIE 4.5 实力这么强劲?它不光在性能上超越 Qwen3、DeepSeek - V3,还在多个文本与多模态基准测试里达到 SOTA 水平。
接下来,借着文心大模型 ERNIE 4.5 的技术文档,来看看其中百度给我们带来了什么技术亮点!
2.1 多模态异构 MOE 文心一言这一次性能达到 SOTA 水平,靠的可不是简单粗暴的参数堆砌。而是对整个架构都更新换代了,设计了一个很巧妙的多模异构结构。于传统的 Mixture of Experts(MoE)模型不同,ERNIE 4.5 使用了一种新的异构结构模态结构,它支持跨模态的参数共享,包括自注意力参数共享和专家参数共享,同时还允许为每个单独的模态提供专用参数。
注意这可不是简单的'拉通共享'的粗暴拼接就能实现的,而是文本和视觉各有专属专家。为其各自的特征量身定制的不同专家组,从而减少跨模态干扰。让文字与视觉精准分工、各行其道,实现互不干扰的协同运作。
同时 MoE(混合专家模型)的文本和视觉标记都会经过共享专家处理,其输出与文本专家、视觉专家的输出相加,共同构成 MoE 层的最终输出,从而促进模态间知识融合,让模型在多模态任务中表现更优。
彻底保证了既不互相干扰,又能互相增强,催生出 1+1 远大于 2 的协同效能。
2.2 高效训练与并行架构 在大规模多模态 MoE 架构中,文本、图像等不同模态的信息数据结构与处理逻辑差异显著。分布式训练时,会导致专家负载不均衡、模态间数据交互不畅、资源分配失衡、利用率低甚至模型收敛困难等问题。
为此,文心 ERNIE 4.5 引入了一种异构并行策略,以实现高效的联合训练。此外,还提出了一种分层负载均衡方法,用于提高可变分辨率训练的扩展效率。
在异构并行策略引入了 FP8 混合精度训练框架和容错系统,对内存、通信、计算开销进行优化。文心最大的 ERNIE 4.5 语言模型采用了 8 路专家并行(EP)、12 路管道并行(PP)和 ZeRO-1 数据并行(DP)配置。
通过以上全面优化,实现了 47% 的模型 FLOPs 利用率(MFU),比 DeepSeek 的 FLOPs 利用率还高。
在层负载均衡策略这边采用了,粗粒度负载均衡和细粒度动态均衡分区,对 ViT 编码器数据并行组令牌计数,借循环分区算法分发打包序列,实现粗粒度负载平衡;再在 attention 算子内外执行动态分区,进一步均衡负载。
通过这次的分层负载均衡策略,计算、内存和通信的资源利用效率得到了显著提高。与没有负载均衡的基线方法相比,ERNIE-4.5-VL424B-A47B-Base 在端到端多模态训练中实现了高达 32% 的整体性能提升。
2.3 后训练策略 文心 4.5 还引入了一种模态感知专家分配策略,其中视觉专家仅包含文本专家的三分之一参数,从而提高了视觉信息处理的效率。
并且对特定的模态的训练策略进行微调,对每个模型采用 SFT(监督微调)手把手教模型怎么做,DPO(直接偏好优化)通过用户偏好直接优化模型输出,让用户更喜欢模型的回答,UPO(统一偏好优化)使模型在多任务场景,能同时兼顾用户的多种偏好,来满足实际应用的不同要求。
2.4 推理和部署 推理和部署方面,文心 4.5 的技术依旧很猛,为了进一步提高推理效率并支持更广泛的硬件,不仅提供 BF16 和 FP8 推理功能,还提供各种低精度推理选项。支持 4bit 和 2bit 的'极限压缩',但压缩不损效果,还能做动态切换和并行加速。
也就是说只要有一个 141GB 的显存环境,就可以部署 2 位 ERNIE-4.5-300BA47B 的超大模型了,也就是两张 A100 就满足要求了(80GB)大大降低了 ERNIE 4.5 的准入门槛。而同级别的 Qwen3、DeepSeek-V3 等模型所需要的显存远远不止这个数。
三、基于仓库的文心开源模型个人部署 经过前面的细致介绍与深度解读,相信各位用户对文心 4.5 已构建起全面清晰的认知。面对这款性能强悍的大模型,想必大家早已按捺不住实战部署的热切期待。话不多说,接下来就让我们直接踏入部署实战的环节。
3.1 个人部署详细步骤
3.1.1 环境选择 再部署之前我们先看下简单 ERNIE 不同系列模型对于配置的要求。
模型名称 上下文长度 量化方式 最低部署资源 说明 ERNIE-4.5-0.3B 32K/128K BF16 1 块 6G/12G 显存 GPU / 2G 内存 - ERNIE-4.5-21B-A3B-Paddle 32K/128K WINT8 1 块 48G 显存 GPU / 128G 内存 128K 长度需启用分块预填充 ERNIE-4.5-VL-28B-A3B-Paddle 32K/128K WINT8 1 块 48G 显存 GPU / 128G 内存 需启用分块预填充 ERNIE-4.5-300B-A47B-Paddle 32K/128K WINT4 4 块 64G 显存 GPU / 600G 内存 128K 长度 ERNIE-4.5-VL-424B-A47B-Paddle 32K/128K WINT2 1 块 141G 显存 GPU / 1T 内存 128K 长度需启用分块预填充
以上就是部分文心模型对显存的要求,从配置要求可以看出,文心大模型的 0.3B 轻量版本仅需一张 40 系显卡即可流畅运行。
本次实战部署,我们特意选择了 ERNIE-4.5-VL-28B-A3B-PT 这一型号作为轻量级模型中的代表性选择,在模型性能、多模态理解与生成、应用场景等方面有出色表现,并且对中文的语义理解和文化背景知识的把握更精准,具备广泛的应用适配性,当前主流算力平台也能够轻松适配,非常适合实战体验。
对于本地部署百度提供了 FastDeploy 一键部署工具,FastDeploy 是基于 PaddlePaddle 的大型语言模型和可视化语言模型的推理部署工具包。它提供具有核心加速技术的生产就绪型开箱即用部署的解决方案。
以下是对基于 NVIDIA CUDA GPU 安装 FastDeploy,需要满足以下环境。
依赖项 版本要求 GPU 驱动程序 ≥535 CUDA ≥12.3 CUDNN ≥9.5 Python ≥3.10 Linux X86_64 架构
3.1.2 环境准备 ERNIE-4.5-VL-28B-A3B-PT 对于本地部署还是需要较强的硬件资源的,一般本机的配置不足以进行搭建与测试。博主这边也是给大家租了一台 A100 显卡的配置来给大家实测一下。(ps 现在市面上已经有很多算力平台提供算力服务,适用于各种 AI 深度学习、高性能计算、渲染测绘、云游戏等算力租用各种场景,大家随便选择就好)
这里我们直接选择 PyToch 镜像,可以看到预装了很多环境基本不需要自己配置,我们选择满足部署 FastDeploy 启动的环境就够了。
① 创建云实例成功后,有两种方式可连接实例:一是通过 SSH 密钥连接,二是借助 JupyterLab 可视化工具连接(推荐使用这种更便捷的方式)。② 点击进入 JupyterLab 可视化的工具的终端进入工作空间控制台。
然后我们选择用 python 创建虚拟空间,主要是来保持保持系统环境清洁和隔离项目依赖① 避免我们后续操作出现环境上的报错问题,确保依赖互不干扰② 如果不用虚拟环境我们就肯会出现下面的报错。
apt update
apt install -y python3-venv
2. 创建虚拟环境,创建名为 fastdeploy-env 的虚拟环境
python3 -m venv fastdeploy-env/
source fastdeploy-env/bin/activate
libgomp1 是 GNU OpenMP 库的一部分,用于支持程序中的并行计算(多线程并行处理),在后面我们启动服务是需要依赖 libgomp1 来实现并行计算加速。
apt update && apt install -y libgomp1 libssl-dev zlib1g-dev
6. 安装 paddlepaddle-gpu:3.1.0 版本
因为 FastDeploy 的部分核心功能(如模型解析、推理引擎适配)直接依赖 PaddlePaddle 的底层库,未安装 Paddle 的话,FastDeploy 将无法正确加载和运行 Paddle 模型来以提供 CUDA/CUDNN 等 GPU 加速所需的依赖。所以我们先安装一下 paddlepaddle-gpu。① 在这里我们一定要根据自己显卡厂商和 CUDA 的版本来选择安装命令,否则导致依赖冲突② paddlepaddle-gpu 安装的详细说明:查看安装信息
python -m pip install paddlepaddle-gpu==3.1.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
paddlepaddle-gpu 安装好了我们可以使用一下代码检测一下,如果没问题那么就证明可以下一步了① vi check.py 用 vim 编辑器创建一个 python 文件,把代码复制进去② python check.py 运行代码查看信息。
import paddle
paddle.utils.run_check()
这边可以看命令运行完之后,显示 paddlepaddle-gpu 安装成功,现在就开始使用 PaddlePaddle 进行深度学习吧。
下载完 fastdeploy 工具我们就可以一键启动我们的 ERNIE-4.5-VL-28B-A3B-Paddle 了。① 在下载时我们要注意使用自己 CPU 架构对应的版本来安装下载,不然就会启动失败② fastdeploy 的安装手册:安装指南
我们本次显卡是 A100 所以直接选择对应版本的命令下载就好了。
python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-80_90/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
看到下面这种就是成功安装了 fastdeploy。
安装完成后,再次运行以下命令,确认输出为 True 和 gpu,如果输出结果为 False cpu 表示这意味着 PaddlePaddle 没有使用 CUDA 编译,只能在 CPU 上运行。需要重新安装 paddlepaddle-gpu:3.1.0。
python -c "import paddle; print(paddle.is_compiled_with_cuda()); print(paddle.device.get_device())"
3.1.2 模型下载与配置 1. 下载 git 工具(如果系统有就不用下载了,直接拉取就好)
为了避免大模型后续启动解析主机名(或获取本机 IP)时,DNS 解析失败。使用我们这里修改一下主机的配置来让主机名与本机 IP 的映射。
3.1.3 部署与测试 一键启动 ERNIE-4.5-VL-28B-A3B-PT
由于这是 280 亿参数的大模型,部署需要一定时间,我们稍微等待 5 分钟左右即可。当下方显示 8180 端口启动时,咱们的大模型就部署完成了。服务启动了一定要注意,不要 Ctrl+C 退出连接,否则服务会停止,API 也无法访问了。
查看端口是否连接成功,验证服务状态(HTTP 200 表示成功)
curl -i http://0.0.0.0:8180/health
首先我们需要下载一个 requests 库发送 HTTP 请求。
这里我给大家准备了一个 python 的大模型交互程序来方便我们进行和大模型交互,把下面代码复制进 test 文件。
import requests
import json
url = "http://127.0.0.1:8180/v1/chat/completions"
headers = {"Content-Type" : "application/json" }
messages = []
while True :
user_input = input ("你:" )
if user_input.lower() in ['exit' , 'quit' ]:
break
messages.append({"role" : "user" , "content" : user_input})
data = {
"model" : "baidu/ERNIE-4.5-VL-28B-A3B-PT" ,
"messages" : messages,
"temperature" : 0.7
}
try :
response = requests.post(url, headers=headers, data=json.dumps(data))
response_json = response.json()
result = response_json["choices" ][0 ]["message" ]["content" ]
print ("ERNIE: " , result)
messages.append({"role" : "assistant" , "content" : result})
except requests.RequestException as e:
print ("请求发生异常:" , e)
except KeyError as e:
print ("解析响应失败,缺少必要字段:" , e)
except json.JSONDecodeError as e:
print ("响应内容解析为 JSON 失败:" , e)
问题:9.11 和 9.9 哪个更大?这个问题详细大家都不陌生吧,连 chatGPT 遇到了都容易出错的简单问题!国内很多模型都回答不出来我们来看看 ERNIE-4.5-VL-28B-A3B-PT 的推理能力如何。
从实际测试来看,文心 ERNIE-4.5-28B 版本的推理能力表现稳健,对比多数同级别模型优势明显。不过受限于终端交互体验的局限性,这里暂不展开更多测试内容。本次环节主要是带大家初步感知模型的基础能力,更全面、深入的对比评测将在下文详细呈现。
3.2 个人部署效率分析
3.2.1 部署时间成本 文心 ERNIE-4.5 不同版本的模型博主也去实际测试部署了一下,整个部署流程通过 fastdeploy 部署工具其实很简单几分钟就搞定,其中部署的大部分时间都是在等待模型启动毕竟参数也是 280 亿的大模型,部署时间肯定是要比稠密型模型要时间长。
模型型号 显卡型号 部署时长 ERNIE-4.5-0.3B-Paddle 4090 实测 7 分钟左右 ERNIE-4.5-21B-A3B-PT A800 实测 16 分钟半 ERNIE-4.5-VL-28B-A3B-PT A100 实测 22 分钟
整体来说文心 ERNIE-4.5 部署时间成本很低,通过 fastdeploy 部署工具 10 几分钟就能完成一个轻量级大模型的部署使用。
3.3 个人部署难度评估
3.3.1 技术门槛要求 从上面的部署测试全过程不难看出,百度文心 4.5 的部署技术门槛已降至中等偏下水平。通过百度 FastDeploy 部署工具的深度优化 —— 整个部署流程被高度简化,开发者无需复杂配置,只需输入预设命令即可实现模型的一键启动,极大降低了操作难度。这种'轻量化'的部署体验,让更多开发者能轻松跨越技术壁垒,快速上手文心开源模型的落地应用。
有深度学习基础的开发者:熟悉虚拟环境配置、依赖管理及模型部署流程的用户,可直接参照 GitCode 仓库的官方文档和命令示例,按照步骤执行部署命令,通常能在半小时内完成服务启动,过程顺畅度较高。
对于新手开发者而言:尽管可能面临环境配置(如 CUDA 版本不兼容、依赖安装失败)或命令行操作不熟练等问题,但通过查阅部署文档、百度飞桨开发者社区等技术论坛的资料,小白也可轻松部署。整体而言,工具的'一键部署'特性已大幅降低技术壁垒,新手通过 1-2 小时的学习和调试即可完成部署,技术门槛处于中等水平。
3.3.2 常见问题及解决办法(选看) 在部署过程中最容易出现的就是依赖冲突问题,容易导致各种报错。对于这种报错只需要配置启动虚拟空间就可以完美解决依赖冲突问题。
启动时报错:socket.gaierror: [Errno -2] Name or service not known
此报错核心是主机名无法解析为 IP,优先检查 /etc/hosts 配置和主机名解析命令然后对主机名和 ip 进行映射即可解决 hostname 查询出主机名 然后 vim /etc/host 进行修改映射关系。
启动时报错:ImportError: libgomp.so.1: cannot open shared object file: No such file or directory
这个报错主要的原因是,系统缺少 PaddlePaddle 运行所需的共享库文件 libgomp.so.1 只需要 pip 安装即可:apt update && apt install -y libgomp1 libssl-dev zlib1g-dev。
Traceback (most recent call last):
File "/root/baidu/ERNIE-4.5-0.3B-Paddle/check.py" , line 1 , in <module >
import paddle
...
ImportError: libgomp.so.1 : cannot open shared object file: No such file or directory
四、文心一言 4.5 全方位对比评测 上面部署大模型的时候也给大家做了一些简单的评测,不过由于终端的交互性不怎么好,如果对比大模型的话展现也麻烦。所以这里使用文心千帆平台来调用 api,用 UI 交互的方式,对比文心 ERNIE-4.5 与同级别的大模型究竟谁强谁弱?
本次的参赛选手分别是:ERNIE-4.5-28B-VL-A3B & Qwen2.5-VL-32b & DeepSeek-VL2-Small 3 个多模态视觉大模型。
模型名称 参数 是否多模态 ERNIE-4.5-28B-VL-A3B 280 亿 是(含视觉 - 语言多模态能力) Qwen2.5-VL-32b 320 亿 是(含视觉 - 语言多模态能力) DeepSeek-VL2 161 亿 是(含视觉 - 语言多模态能力)
每次评分的机制为,首 token 最快 3 分,最快耗时 3 分,答案是否正确 4 分这三个核心方面分别体现了大模型响应效率,处理时长,和推理能力。
模型名称 最优 中等 最差 首 Token 3 2 1 总耗时 3 2 1 正确性 (正确 4 分) (酌情给分) (错误 0 分)
4.1 基础通识测试 为了测试大模型的基础通识能力,我给各位大模型准备了 3 道题,这些题可是业内公认的大模型处理难题,看看各位模型面对它们时,到底能交出怎样的答卷,比比谁更厉害。
通过测试大家可以看到 ERNIE-4.5-28B-VL-A3B 在本轮表现不错,不仅耗时最快,而且答案也正确,其次是 DeepSeek-VL2 响应也很快,但是推理方面有点问题,答案是错误的。
模型名称 首 Token 总耗时 正确性 总分 ERNIE-4.5-28B-VL-A3B 0.91s 2.01s 正确 9 Qwen2.5-VL-32b 1.45s 8.92s 正确 5 DeepSeek-VL2-Small 1.33s 2.01s 错误 5
问题 2:单词 Strawberry 里有几个 r?
这里 Qwen2.5 的响应时间更短,但耗时方面 ERNIE-4.5 更优俩个模型不分上下,DeepSeek-VL2 依旧是推理有些问题。
模型名称 首 Token 总耗时 正确性 总分 ERNIE-4.5-28B-VL-A3B 0.73s 1.24s 正确 8 Qwen2.5-VL-32b 0.43s 3.9s 正确 8 DeepSeek-VL2 1.46s 1.46s 错误 2
问题 3:请给出 10 句以樱桃俩字为结尾的句子。
这道题只有 ERNIE-4.5 全部都答对了,Qwen 对了一个这里给他算的一分,DeepSeek 对了 2 个算 2 分。
模型名称 首 Token 总耗时 正确性 总分 ERNIE-4.5-28B-VL-A3B 0.85s 3.85s 正确 9 Qwen2.5-VL-32b 0.45s 7.68s 一个正确 5 DeepSeek-VL2 2.01s 4.57s 俩个正确 5
在本次基础通识测试,可以明显看到 ERNIE-4.5-28B 的模型是比 Qwen2.5-VL-32b 和 DeepSeek-VL2 要强出不少的,所以基础通识测试冠军给到 ERNIE-4.5-28B 这边,下面我们看看其他测试。
模型名称 总分 ERNIE-4.5-28B-VL-A3B 9+8+9=26 Qwen2.5-VL-32b 5+8+5=18 DeepSeek-VL2 5+2+5=12
4.2 高级推理测试 这里同样是使用 3 个推理问题来考验一下 3 个大模型的推理能力怎么样。
问题 1:一个弹珠被放到红酒杯里,然后将这个红酒杯在桌子上倒过来,然后将红酒杯拿起来放到冰箱里。请问弹珠现在在哪?
在这个问题里 ERNIE-4.5 并没有给出准确答案,而是向我们索要更多信息后再推理所以酌情给分 1 分。DeepSeek-VL2 就有些逻辑混乱了回答弹珠在杯子顶部。
模型名称 首 Token 总耗时 正确性 总分 ERNIE-4.5-28B-VL-A3B 1.44s 4.94s 未给出答案 6 Qwen2.5-VL-32b 0.84s 11.7s 正确 8 DeepSeek-VL2 2.36s 4.94s 错误 4
问题 2:如果晾干 5 件衬衫需要 4 小时,那么晾干 20 件衬衫需要多久?
这一题我们主要是测试大模型的是否能推理出晾干是一个并行事件,来考验一下推理能力。在本次测试中每个大模型都给出了正确答案非常不错 DeepSeek-VL2 在本次也是支棱起来耗时最短拿下第一。
模型名称 首 Token 总耗时 正确性 总分 ERNIE-4.5-28B-VL-A3B 1.14s 6.04s 正确 8 Qwen2.5-VL-32b 0.55s 11.7s 正确 8 DeepSeek-VL2 1.4s 1.4s 正确 9
问题 3:一个房间里有三个杀人犯,有一个人进来后锁死房门,然后杀了其中一个杀人犯,那现在房间里还剩下多少个杀人犯?正确答案:还剩 3 个杀人犯。
在本次测试中 ERNIE-4.5 并没有给出正确答案,而是继续索要信息。而 Qwen2.5 给我们爆来惊喜是唯一一个回答正确的。
模型名称 首 Token 总耗时 正确性 总分 ERNIE-4.5-28B-VL-A3B 0.83s 5.55s 未给出答案 6 Qwen2.5-VL-32b 1.17s 10.92s 正确 7 DeepSeek-VL2 1.5s 1.5s 错误 4
在本次推理测试中,Qwen2.5 是我们得分最高的模型。总分为 20 分的模型只有两个,分别是 Qwen2.5 和 ERNIE-4.5(文心 4.5)。文心 4.5 在参数少了 110 亿的情况下还能达到这样的效果,也是挺不错的。
模型名称 总分 ERNIE-4.5-28B-VL-A3B 6+8+6=20 Qwen2.5-VL-32b 8+8+7=23 DeepSeek-VL2 4+9+4=17
4.3 视觉能力测试 既然本次测评聚焦于多模态模型,自然不能仅局限于文本能力的考验。接下来,我们将重点转向视觉能力的测试,看看这些大模型在图像识别等视觉任务中的表现究竟如何?
这里每个大模型都给出了正确答案,DeepSeek 总耗时最快。但答案也很简洁,而 ERNIE-4.5 和 Qwen2.5 都对图像做了更精准的描述图像分析能力更强一些。
模型名称 首 Token 总耗时 正确性 总分 ERNIE-4.5-28B-VL-A3B 2.97s 3.51s 正确 7 Qwen2.5-VL-32b 1.8s 3.82s 正确 8 DeepSeek-VL2 2.12s 2.12s 正确 9
下面我们来一个复杂一点的场景和问题,来看看每个模型会不会在图像识别上出现幻觉?
问题:图中一共有多少辆车?按从上到下,从左到右排号依次说出每辆车的颜色。
在本次测试中可以看到文心 4.5 完美的完成了我们的任务并且给出的信息更加详细。而 Qwen 和 DeepSeek 俩个人推理没问题但好像都出现了幻觉给我脑补了一台车太奇怪了。
模型名称 首 Token 总耗时 正确性 总分 ERNIE-4.5-28B-VL-A3B 1.04s 2.36s 正确 9 Qwen2.5-VL-32b 0.62s 3.63s 错误 4 DeepSeek-VL2 1.86s 2.48s 错误 3
综合两项任务表现,ERNIE-4.5-28B-VL-A3B 以'双任务全正确、细节分析到位、响应效率均衡'的优异成绩,在本次视觉能力测试中脱颖而出,成功斩获视觉能力冠军;而 Qwen2.5-VL-32b 和 DeepSeek-VL2 则在复杂场景的准确性上暴露出不足,需在多模态推理的严谨性上进一步优化。
模型名称 总分 ERNIE-4.5-28B-VL-A3B 7+9=16 Qwen2.5-VL-32b 8+4=12 DeepSeek-VL2 9+3=12
4.4 代码编程部分 在代码这部分我们也来进行测试一下看看 3 个大模型的代码能力怎么样?本次也选取了一个比较有难度的代码任务,为了更好的展示效果我们选择生成单个 html 文件,方便网页直接打开查看。
问题:通过 html,创建一个动态时钟页面,要求如下:
必须以单个 html 文件形式创建,有时针分针秒针的表盘式时钟。
时间会每秒自动更新,始终显示当前时间。
样式要求:时钟在页面中央,背景为淡蓝色得分点:需要时针分针秒针聚集在表盘中心,且时间显示正确,
时钟位置在页面中央,背景颜色为淡蓝色,
只能使用单个 html 文件创建。
通过 GIF 相信各种都看到各个大模型的代码能力了。我们先从生成代码能力来分析一下,ERNIE-4.5-28B 是本次给出的代码最全最完善大模型,其次是 Qwen2.5-VL-32b 的代码能力也还不错但是响应速度明显不如 ERNIE-4.5-28B。DeepSeek-VL2 在本次任务中完成很快,但是生成的内容很少一看就不足以完成本次代码任务。
模型名称 首 Token 总耗时 ERNIE-4.5-28B-VL-A3B 0.43s 14.94s Qwen2.5-VL-32b 0.47s 43.67s DeepSeek-VL2 1.2s 7.08s
下面我们依次下载了 3 个大模型生成的 html 文档打开看一下效果,可以看到 ERNIE-4.5-28B 虽然中心点有些小瑕疵但是整体效果都符合要求,背景时间中心点指针都满足要求了。而 Qwen2.5-VL-32b 的中心点就没满足要求了,指针都糊在一起了,背景符合我们的要求 DeepSeek-VL2 的代码生成的太简短了,所以结果也如我们所料一塌糊涂。
上面的代码要求确实是有些难度,下面我为 3 个模型又准备一个简单点的题目来区分这 3 个模型在代码编程下的能力。
问题 2:一个 HTML 网页,上面有个按钮,每次摁下就会随机生成一个随机数,同时这个按钮需要更换一个随机颜色。请使用单个 html 文件。
在这道题目的的实测中我们可以看到 ERNIE-4.5-28B 在本次生成代码速度中依旧是遥遥领先 Qwen 和 DeepSeek 最先完成本次任务。
模型名称 首 Token 总耗时 ERNIE-4.5-28B-VL-A3B 0.44s 11.61s Qwen2.5-VL-32b 0.28s 17s DeepSeek-VL2 1.23s 10.31s
下面我们还是依次下载了每个模型生成的代码,可以看到 ERNIE-4.5-28B 的效果可以说实现的非常完美了,完全按照我们的要求来完成的,没有其他任何多余的。Qwen 和 DeepSeek 在这里也是完成了基础功能的实现,总体来说 Qwen 的效果是比 DeepSeek 的展示更好一些的。
4.5 数学能力测试 数学解题与逻辑推理能力作为衡量大模型核心智能水平的关键指标,自然是本次评估的重点方向。在这一维度中,ERNIE-4.5-300B-A47B 表现尤为突出——其在 MATH-500、GSM8K、CMath 等权威数学基准测试中展现出极强的综合竞争力,多项核心指标均斩获高分。这一优异表现不仅印证了模型在复杂问题拆解、多步骤逻辑推导上的精准性,更直观体现了其在逻辑思维能力上的显著突破与进步。
4.6 指令能力测试 模型对复杂指令的理解与执行能力,是衡量其实际应用价值的核心维度之一。在 IFEval 和 Multi-IF 两大权威指令评估基准中 ERNIE-4.5-300B-A47B 分别取得 88.0 分和 76.6 分的优异成绩,直观印证了该模型对复杂指令的精准理解与高效执行能力。
IFEval 指令遵循评估数据集聚焦于'可验证指令'
尽管在 Sysbench 基准测试中 GPT-4.1 暂居榜首但 ERNIE-4.5-300B-A47B 仍以稳健发挥保持着极强的竞争力,充分展现了其在多样化指令场景下的可靠适配性。
Sysbench 基于 LuaJIT 的模块化、跨平台、多线程基准测试工具
4.7 知识能力测试 在衡量模型知识储备与问答准确性的核心任务中,ERNIE-4.5 系列同样交出了亮眼答卷。作为系列中的旗舰模型,ERNIE-4.5-300B-A47B 在 ChineseSimpleQA、SimpleQA 等权威知识问答测评中展现出显著领先优势——尤其在 ChineseSimpleQA 任务上,以 77.1 的高分凸显了其深厚的中文知识积淀与精准的问答能力。
ChineseSimpleQA 语言模型回答简短问题真实性能力的中文基准
即便在中等参数量级的较量中,ERNIE-4.5 系列的表现依然可圈可点。例如 ERNIE-4.5-21B-A3B-Base 在 SimpleQA 任务中,性能不仅优于同量级的 Qwen3-30B-A3B-Base,更彰显了其在知识理解与问答逻辑上的优化优势。
SimpleQA 评估语言模型回答简短事实性问题能力基准数据集
4.8 通用能力测试 中文语境理解这方面一直都是 ERNIE 系列模型的核心优势,而 ERNIE-4.5 系列更是在此基础上实现了中文及多语言通用能力的跨越式升级。在 C-Eval、CMMLU、MMCU、General-MMLU 等中文及多语言权威基准测试中,ERNIE-4.5 系列的表现尤为亮眼。
其中,ERNIE-4.5-300B-A47B 在多数场景下稳居榜首,多数场景下得分领先同基本的大模型显示出其在通用语言理解和生成方面的强大实力。
值得一提的是,即便参数规模相对精简的 ERNIE-4.5-0.3B-Base 模型,在其适配的任务边界内也展现出扎实的通用能力基底。
MMCU 甲骨易 AI 研究院推出的国内首个高质量中文评测数据集
4.9 对比评测总结 通过本次覆盖基础通识、高级推理、视觉能力、代码编程等八大核心维度的全面测试可以清晰看到,ERNIE-4.5 系列模型在多模态技术的多个关键方向基准测试中始终保持领先。这种领先并非局限于单一领域的突出表现,而是呈现出跨维度的全面优势——尤其在中文语境深度理解、复杂指令精准执行和数学逻辑严谨推理等核心应用领域,其性能优势更为显著。
模型名称 基础通识 高级推理 视觉能力 代码编程 综合表现 ERNIE-4.5-28B-VL-A3B 26 20 16 优 🌟🌟🌟🌟🌟 Qwen2.5-VL-32b 18 23 12 良 🌟🌟🌟🌟 DeepSeek-VL2 12 17 12 中 🌟🌟🌟
并且在 11 项细分任务的综合评测中,ERNIE-4.5-28B 视觉语言大模型对比同级别大模型 Qwen2.5-VL-32b、DeepSeek-VL2,展现出全面且稳定的性能表现。ERNIE-4.5-28B 以 280 亿参数规模,在核心能力上不仅与 320 亿参数的 Qwen2.5-VL-32b 不相伯仲,部分维度更实现超越。
整体来说,ERNIE-4.5 此次呈现的大模型在技术性能上表现突出,其凭借均衡的跨模态能力与高效的参数利用率,达成了业界 SOTA(state-of-the-art)级别的技术水准。从实际测试数据来看,该模型在多维度任务中展现出全面且稳定的性能输出,在本次多模态模型评测中,以综合表现优势成为具备高可靠性的选择。
五、总结与社区生态展望
5.1 社区生态展望 文心 ERNIE 4.5 的开源不仅给我们带来了高性能模型,更构建了从训练到部署的完整生态体系。通过开源平台的开放协作模式,开发者可直接获取模型代码。利用百度提供的 ERNIEKit 开发套件和 FastDeploy 部署工具即可轻松完成模型部署,大幅降低技术门槛,为模型精调、量化优化、多硬件适配提供全流程支持。
在社区生态层面,飞桨星河社区上线短短几天便吸引了大批开发者入驻。在这里,开发者既能发现众多优质有趣的开源项目,还能通过社区提供的服务'一键运行'项目直接体验项目效果;同时,也可以自主开源个人项目,吸引广大开发者参与协作开发,一起完善开源项目。
未来,我相信文心 ERNIE 4.5 凭借卓越的模型性能、完善的开发套件与部署工具链、活跃的社区生态氛围以及全面的技术文档支持,必将吸引大批开发者与企业用户投身其中,共同推动文心开源大模型的社区生态走向繁荣。
5.2 全文总结 本次对文心 ERNIE 4.5 开源模型的深度剖析到这里就告一段落了。我们从模型特性解读、技术架构分析、部署实践指南、到全方位对比评测,已系统呈现了其核心能力与优势。相信大家对文心 ERNIE 4.5 的实力已有清晰认知,无需过多赘述。对这款模型感兴趣的开发者,不妨开启属于你的部署体验之旅吧!一起来轻松玩转文心大模型吧!
六、附录 以下是博主在本次评测梳理的 ERNIE-4.5 开源生态核心资源合集,涵盖代码仓库、部署配置规范、技术白皮书及开发工具包等关键内容,希望能为各位对文心 ERNIE4.5 感兴趣的开发者提供帮助。
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
随机西班牙地址生成器 随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online
Gemini 图片去水印 基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online
curl 转代码 解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online