ERNIE-4.5 模型系列全解析：从架构创新到多场景性能测评 | 极客日志

PythonAI算法

ERNIE-4.5 模型系列全解析：从架构创新到多场景性能测评

综述由AI生成深入解析百度开源的 ERNIE-4.5 模型系列，涵盖架构创新（MoE/Dense）、三大分支特性及 Base 版与进阶版差异。通过 FastDeploy 工具在 NVIDIA GPU 环境下完成部署测试，对比了 ERNIE-4.5 与 DeepSeek、Qwen 系列在文本、视觉任务上的性能。结果显示 ERNIE-4.5 在参数效率、速度及多模态理解上表现优异，尤其在中型模型和多模态任务中超越竞品，适合不同规模的应用场景。

黑客发布于 2026/3/29更新于 2026/6/227 浏览

前言

百度正式开源了其 ERNIE 4.5 系列的模型，这是一款强大的基础模型家族，专为提升语言理解、推理和生成能力而设计。此次发布包含十种模型变体，从紧凑的 0.3B 密集模型到庞大的专家混合（MoE）架构，其中最大变体参数量达到 424B。

模型阵容多元：ERNIE 4.5 包含 10 种变体，其中文本模型 6 个、多模态模型 4 个。模型类型涵盖混合专家模型（MoE）和 Dense 模型，旗舰模型总参数量高达 424B，活跃参数为 47B。
多模态架构特点：在多模态架构上，ERNIE 4.5 与 Qwen2.5 高度相似，具体体现在多个方面——视觉 Transformer（ViT）参考了 NaViT 的设计，同时采用了 2D-RoPE 技术。在语言模型部分，其采用异构 MoE 架构，将视觉 Expert 与文本 Expert 进行分离处理。
模块化设计优势：ERNIE 4.5 通过模块化设计，实现了文本与视觉组件的灵活分离。当移除 Vision Expert（视觉专家）、Vision Encoder（视觉编码器）和 Adapter（适配器）后，模型可简化为纯语言模型 ERNIE-4.5；而包含完整参数（含视觉组件）时，则构成多模态模型 ERNIE-4.5-VL。
性能表现突出：在文本与多模态基准测试中，ERNIE 4.5 均达到了当前最佳水平（SOTA），尤其在指令遵循、世界知识记忆、视觉理解和多模态推理等关键能力上，展现出显著优势。

ERNIE 4.5 系列一图看懂

ERNIE 4.5 包含 10 种变体，其中文本模型 6 个、多模态模型 4 个。模型类型涵盖混合专家模型（MoE）和 Dense 模型，旗舰模型总参数量高达 424B，活跃参数为 47B。

核心特点

模型架构
- ERNIE 4.5 是全新大规模多模态模型系列，含 10 个变体。模型家族有 47B 和 3B 参数量的专家混合（MoE）模型（最大模型参数总量 424B），以及 0.3B 密集模型。
- MoE 架构采用新颖异构模态结构，支持跨模态参数共享，也为各模态设专用参数，可提升多模态理解能力，且不降低甚至提升文本任务性能。
- 所有模型基于 PaddlePaddle 深度学习框架，以最优效率训练，支持高性能推理与简化部署。最大 ERNIE 4.5 语言模型预训练中，模型 FLOPs 利用率 (MFU) 达 47%。
- 所有模型遵循 Apache 2.0 许可公开，助力领域研究发展。同时开源 ERNIE 4.5 开发工具包，具备工业级能力、资源高效训练推理流程及多硬件兼容性。
训练与推理
- ERNIE 4.5 模型使用 PaddlePaddle 框架进行训练和推理部署。
- ERNIEKit 和 FastDeploy 工具包支持 ERNIE 4.5 的训练、压缩和推理的完整工作流程。
性能表现
- 在文本与多模态基准测试中达到 SOTA，尤其在指令遵循、世界知识记忆、视觉理解和多模态推理方面。

三大分支技术特性与场景定位

文心大模型 4.5 开源系列覆盖 A47B、A3B、0.3B 三大分支，从超大规模多模态到轻量级文本模型梯度分布，适配不同场景需求。

模型对比总览

特性	A47B 超大规模多模态旗舰	A3B 轻量多模态与高效文本	0.3B 极致轻量化文本模型
参数规模	激活参数 47B（总参数 424B）	激活参数 3B（总参数 21B/28B）	0.3B 稠密参数
架构特点	异构混合专家（MoE）架构	MoE 架构（精简专家数量）	精简 Transformer 架构（无 MoE）

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

模型系列	Base 版	进阶版	核心差异
A47B (超大规模多模态)	ERNIE-4.5-300B-A47B-Base	ERNIE-4.5-300B-A47B	增加 QAT 量化感知训练，支持低比特量化
A3B (轻量多模态与高效文本)	ERNIE-4.5-21B-A3B-Base	ERNIE-4.5-21B-A3B	动态角色转换部署技术，4-bit 无损量化
0.3B (极致轻量化文本)	ERNIE-4.5-0.3B-Base	ERNIE-4.5-0.3B	优化推理引擎适配性，支持多芯片无缝部署

对比维度	🔵 Base 版	🔴 进阶版
训练方式	仅支持 SFT、SFT-LoRA、DPO、DPO-LoRA 等基础微调聚焦通用多模态任务的标准化输出	在 Base 版基础上增加 QAT（量化感知训练）支持模型在低比特量化（如 2Bits、W4A8C8）时保持精度
核心能力	提供完整的文本 - 视觉交互基础能力适用于多数通用场景（常规图文问答、基础视频分析）	强化复杂场景的推理稳定性医疗影像高精度分析、工业级图纸解析等对精度要求极高的任务中表现更优
主要优势	模型稳定性高适配多数通用工具链适合作为二次开发的"基准模型"	兼顾高性能与推理效率适合对量化部署、复杂多模态推理有强需求的场景适用于科研机构、高端制造等领域

对比维度	🔵 Base 版	🔴 进阶版
训练方式	以通用 SFT 和基础 LoRA 微调为主参数规模精简但保留核心能力	优化推理适配性动态角色转换部署技术 4-bit 无损量化训练
核心能力	聚焦轻量场景的基础多模态交互移动端图文识别、简单指令响应推理速度快但不支持极致量化	强化"效率 - 性能平衡" 支持移动端、边缘设备的实时响应智能客服终端、车载交互系统等应用
主要优势	轻量级部署基础多模态能力	以 70% 参数量实现接近大模型的效果适合垂直领域的轻量化部署教育平板、金融移动终端等场景

对比维度	🔵 Base 版	🔴 进阶版
架构特点	基础稠密模型无特殊增强模块聚焦文本生成与理解的核心功能	优化推理引擎适配性支持多芯片（如寒武纪、昇腾）的无缝部署部署门槛再降 10%-20%
核心能力	满足简单文本任务短文本分类、基础对话在嵌入式设备上实现快速响应	强化低功耗场景下的稳定性物联网终端（如智能家居语音助手）毫秒级响应且功耗降低
主要优势	极致轻量基础文本处理能力	专为资源受限场景设计适合大规模嵌入式设备的批量部署

🔵 Base 版价值	🔴 进阶版价值
"开箱即用"的通用能力无需复杂配置即可满足多数基础需求适合新手用户或快速验证场景	为专业用户提供"性能增强包" 避免通用模型在复杂任务中"力不从心" 满足高级用户的特定需求

🔵 Base 版价值	🔴 进阶版价值
无需为基础场景支付"增强功能溢价" 训练成本更低部署更轻量	通过定向优化提升性能高性能需求用户无需承担全量模型的冗余成本针对性能优化的精准投入

🔵 Base 版特性	🔴 进阶版特性
更适配标准算力环境通用部署场景稳定可靠的基础性能	支持低比特量化（如 2Bits）显著降低对硬件资源的需求可部署在中端 GPU 甚至边缘芯片上

评估维度	说明	重要性
响应时间	从发送请求到收到首个 token 的时间	反映模型启动速度和系统延迟
生成 Token 数量	模型输出的 token 总数	反映输出内容的丰富度
总 Token 数量	输入 + 输出的 token 总数	反映任务的整体规模
Token 生成速度	每秒生成的 token 数量	核心性能指标，直接影响用户体验
质量评分	人工评估的输出质量得分 (0-10 分)	最终用户价值的关键指标

任务类型	缩写	任务描述	评分重点
类比推理	AR	识别概念间的类比关系	逻辑推理能力
常识性知识挖掘	CK	提取常识性知识	知识广度与准确性
代码生成	CG	根据需求生成代码	代码正确性与可读性
文本生成评估	TG	生成连贯、有意义的文本	流畅度与创造性
事实探测	FP	识别事实与虚构内容	事实准确性
一般条件生成	GCG	根据条件生成内容	条件符合度
信息提取	IE	从文本中提取特定信息	提取准确性与完整性
数学推理	MR	解决数学问题	计算准确性与推理过程
问题回答	QA	回答各类问题	回答准确性与完整性
语义解析	SP	理解语言的语义结构	语义理解深度
符号推理	SR	处理符号逻辑问题	逻辑推理能力
总结	SUM	文本摘要与总结	摘要质量与关键点覆盖
序列标记	TAG	文本标注与分类	标记准确性
文本分类	TC	将文本分类到预定义类别	分类准确性
理论分析	TA	分析理论与概念	分析深度与准确性
机器翻译	MT	语言间翻译	翻译准确性与流畅度
语言能力探测	LP	测试语言理解与生成能力	语言掌握程度

任务类型	缩写	任务描述	评分重点
多模态接地	MG	将文本与视觉内容关联	跨模态理解能力
视觉事实探测	VFP	识别图像中的事实内容	视觉事实准确性
视觉问题回答	VQA	回答关于图像的问题	视觉理解与回答质量

分数区间	性能水平	说明
9-10 分	卓越	输出质量极高，完全满足或超越预期
7-8 分	优秀	输出质量很好，基本满足预期
5-6 分	良好	输出质量尚可，存在小缺陷
3-4 分	一般	输出质量一般，存在明显缺陷
1-2 分	较差	输出质量较差，难以满足基本需求
0 分	失败	无法完成任务或输出完全不相关

依赖类型	最低版本要求
GPU Driver	≥ 535
CUDA	≥ 12.3
CUDNN	≥ 9.5
Python	≥ 3.10
操作系统架构	Linux X86_64

类别	规格要求
操作系统	Linux（具体验证：CentOS release 7.6 (Final)）
Python 版本	3.10
XPU 型号	P800（含 OAM Edition 版本）
XPU 驱动版本	≥ 5.0.21.10（验证版本：5.0.21.10）
XPU 固件版本	≥ 1.31（验证版本：1.31）

CPU 架构	内存容量	显卡配置	硬盘容量
x86	1TB	8x BI150	1TB

芯片类型	驱动版本	TopsRider 版本
Enflame S60	1.5.0.5	3.4.623

配置项	具体信息
镜像	python310_torch270_cu128
GPU 型号	A100
GPU 显存	80G
GPU 算力	19 TFLOps
CPU 配置	16 核，64GB 内存

python -m pip install paddlepaddle-gpu==3.1.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/

python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-80_90/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-86_89/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

# 更新包列表
apt-get update
# 安装 libgomp1（包含 libgomp.so.1）
apt-get install -y libgomp1

# 查看当前主机名
hostname=$(hostname)
# 将主机名添加到 /etc/hosts
echo "127.0.0.1 $hostname" >> /etc/hosts

import requests
import time
import json

# 模型 API 配置
API_URL = "http://0.0.0.0:8180/v1/chat/completions"
MODEL_NAME = "ernie-4.5-0.3b-paddle"

# 用户输入
prompt = "下雨了出门需要带什么"

# 准备请求数据
request_data = {
    "model": MODEL_NAME,
    "messages": [{"role": "user", "content": prompt}],
    "temperature": 0.7,
    "max_tokens": 512
}

# 记录开始时间
start_time = time.time()

# 发送请求
try:
    response = requests.post(API_URL, headers={"Content-Type": "application/json"}, data=json.dumps(request_data))
    response.raise_for_status()
    response_data = response.json()
except requests.exceptions.RequestException as e:
    print(f"请求失败：{e}")
    if response.status_code:
        print(f"状态码：{response.status_code}")
        print(f"响应内容：{response.text}")
    exit(1)

# 记录结束时间并计算响应时间
end_time = time.time()
response_time = end_time - start_time

# 提取生成的文本
try:
    generated_text = response_data["choices"][0]["message"]["content"]
    prompt_tokens = response_data["usage"]["prompt_tokens"]
    completion_tokens = response_data["usage"]["completion_tokens"]
    total_tokens = response_data["usage"]["total_tokens"]
except(KeyError, IndexError)as e:
    print(f"解析响应失败：{e}")
    print(f"响应内容：{response_data}")
    exit(1)

# 输出结果和统计信息
print(f"使用模型：{MODEL_NAME}")
print("\n===== 生成结果 =====")
print(generated_text)
print("\n===== 性能统计 =====")
print(f"响应时间：{response_time:.2f} 秒")
print(f"提示 Token 数量：{prompt_tokens}")
print(f"生成 Token 数量：{completion_tokens}")
print(f"总 Token 数量：{total_tokens}")
print(f"Token 生成速度：{completion_tokens/response_time:.2f} tokens/秒")

import time
from openai import OpenAI

# 初始化 OpenAI 客户端
client = OpenAI(
    api_key='YOUR_API_KEY',
    base_url="http://0.0.0.0:8000/v1"
)

# 获取可用模型
model_name = client.models.list().data[0].id

# 获取用户输入
user_input = ""

# 记录开始时间
start_time = time.time()

# 发送请求
response = client.chat.completions.create(
    model=model_name,
    messages=[{"role": "user", "content": user_input}],
    temperature=1,
)

# 计算响应时间
response_time = time.time() - start_time

# 输出结果和统计信息
print("\n===== 生成结果 =====")
print(response.choices[0].message.content)
print("\n===== 性能统计 =====")
print(f"响应时间：{response_time:.2f} 秒")
print(f"提示 Token 数量：{response.usage.prompt_tokens}")
print(f"生成 Token 数量：{response.usage.completion_tokens}")
print(f"总 Token 数量：{response.usage.total_tokens}")
print(f"Token 生成速度：{response.usage.completion_tokens/response_time:.2f} tokens/秒")

python -m fastdeploy.entrypoints.openai.api_server \
--model baidu/ERNIE-4.5-0.3B-Paddle \
--port 8180 \
--metrics-port 8181 \
--engine-worker-queue-port 8182 \
--max-model-len 32768 \
--max-num-seqs 32

vllm serve /model/HuggingFace/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --port 8000

python -m fastdeploy.entrypoints.openai.api_server \
--model baidu/ERNIE-4.5-21B-A3B-Paddle \
--port 8180 \
--metrics-port 8181 \
--engine-worker-queue-port 8182 \
--max-model-len 32768 \
--max-num-seqs 32

vllm serve /model/HuggingFace/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --port 8000 -tp 4 --max-model-len 65168

import requests
import time
import json
import base64
import os

# ==================== 用户配置区域 ====================
API_URL = "http://localhost:8180/v1/chat/completions"
MODEL_NAME = "baidu/ERNIE-4.5-VL-28B-A3B-Paddle"
IMAGE1_PATH = "./image/图片中太阳在东边.png"
IMAGE2_PATH = ""
USER_PROMPT = "判断'图片中太阳在东边'是否正确"
TEMPERATURE = 0.7
MAX_TOKENS = 1024
ENABLE_THINKING = True

# ====================================================
def encode_image_to_base64(image_path):
    """将本地图片编码为 Base64 格式"""
    if not image_path:
        return None
    if not os.path.exists(image_path):
        raise FileNotFoundError(f"图片文件不存在：{image_path}")
    with open(image_path, "rb") as image_file:
        encoded_string = base64.b64encode(image_file.read()).decode('utf-8')
    return encoded_string

def main():
    # 初始化提示词（避免未赋值引用）
    user_prompt = USER_PROMPT
    image_contents = []
    try:
        # 添加第一张图片
        image1_base64 = encode_image_to_base64(IMAGE1_PATH)
        image_contents.append({"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image1_base64}"}})
        # 检查是否有第二张图片
        has_second_image = False
        if IMAGE2_PATH and os.path.exists(IMAGE2_PATH):
            has_second_image = True
            # 添加第二张图片
            image2_base64 = encode_image_to_base64(IMAGE2_PATH)
            image_contents.append({"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image2_base64}"}})
        # 自动生成提示词（如果用户未填写）
        if not user_prompt.strip():
            if has_second_image:
                user_prompt = "对比分析这两张图片的异同点"
            else:
                user_prompt = "详细描述这张图片的内容"
        # 添加用户提示词到请求内容
        image_contents.append({"type": "text", "text": user_prompt})
    except Exception as e:
        print(f"图片处理错误：{e}")
        return
    # 准备请求数据
    request_data = {
        "model": MODEL_NAME,
        "messages": [{"role": "user", "content": image_contents}],
        "temperature": TEMPERATURE,
        "max_tokens": MAX_TOKENS,
        "metadata": {"enable_thinking": ENABLE_THINKING}
    }
    # 记录开始时间
    start_time = time.time()
    # 发送请求
    try:
        response = requests.post(API_URL, headers={"Content-Type": "application/json"}, data=json.dumps(request_data))
        response.raise_for_status()
        response_data = response.json()
    except requests.exceptions.RequestException as e:
        print(f"请求失败：{e}")
        if 'response' in locals() and response.status_code:
            print(f"状态码：{response.status_code}")
            print(f"响应内容：{response.text}")
        return
    # 记录结束时间并计算响应时间
    end_time = time.time()
    response_time = end_time - start_time
    # 提取生成的文本
    try:
        generated_text = response_data["choices"][0]["message"]["content"]
        prompt_tokens = response_data["usage"]["prompt_tokens"]
        completion_tokens = response_data["usage"]["completion_tokens"]
        total_tokens = response_data["usage"]["total_tokens"]
    except(KeyError, IndexError)as e:
        print(f"解析响应失败：{e}")
        print(f"响应内容：{response_data}")
        return
    # 输出结果和统计信息
    print(f"使用模型：{MODEL_NAME}")
    print("\n===== 生成结果 =====")
    print(generated_text)
    print("\n===== 性能统计 =====")
    print(f"响应时间：{response_time:.2f} 秒")
    print(f"提示 Token 数量：{prompt_tokens}")
    print(f"生成 Token 数量：{completion_tokens}")
    print(f"总 Token 数量：{total_tokens}")
    print(f"Token 生成速度：{completion_tokens/response_time:.2f} tokens/秒")

if __name__ == "__main__":
    main()

from openai import OpenAI
import base64
import time
import os

# ==================== 用户配置区域 ====================
openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8000/v1"
model_name = "/model/ModelScope/Qwen/Qwen2.5-VL-32B-Instruct"
IMAGE1_PATH = "./image/是否为艾菲尔.jpeg"
IMAGE2_PATH = ""
USER_PROMPT = "图片中的艾菲尔铁塔拍摄于白天，是否正确？"
TEMPERATURE = 0.7
MAX_TOKENS = 2048

# ====================================================
client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

def encode_image(image_path):
    """将图片编码为 Base64 格式"""
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

def main():
    # 准备图片内容
    content = []
    # 添加第一张图片
    content.append({"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{encode_image(IMAGE1_PATH)}"}})
    # 如果有第二张图片，添加第二张
    has_two_images = bool(IMAGE2_PATH and os.path.exists(IMAGE2_PATH))
    if has_two_images:
        content.append({"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{encode_image(IMAGE2_PATH)}"}})
    # 自动生成提示词（如果用户未指定）
    user_prompt = USER_PROMPT
    if not user_prompt:
        if has_two_images:
            user_prompt = "对比分析这两张图片的异同点"
        else:
            user_prompt = "详细描述这张图片的内容"
    # 添加文本提示
    content.append({"type": "text", "text": user_prompt})
    # 记录开始时间
    start_time = time.time()
    # 发送请求
    response = client.chat.completions.create(
        model=model_name,
        messages=[{"role": "user", "content": content}],
        temperature=TEMPERATURE,
        max_tokens=MAX_TOKENS
    )
    # 记录结束时间并计算响应时间
    end_time = time.time()
    response_time = end_time - start_time
    # 提取结果
    generated_text = response.choices[0].message.content
    prompt_tokens = response.usage.prompt_tokens
    completion_tokens = response.usage.completion_tokens
    total_tokens = response.usage.total_tokens
    # 输出结果
    print(f"使用模型：{model_name}")
    print("\n===== 生成结果 =====")
    print(generated_text)
    print("\n===== 性能统计 =====")
    print(f"响应时间：{response_time:.2f} 秒")
    print(f"提示 Token 数量：{prompt_tokens}")
    print(f"生成 Token 数量：{completion_tokens}")
    print(f"总 Token 数量：{total_tokens}")
    print(f"Token 生成速度：{completion_tokens/response_time:.2f} tokens/秒")

if __name__ == "__main__":
    main()

python -m fastdeploy.entrypoints.openai.api_server \
--model baidu/ERNIE-4.5-VL-28B-A3B-Paddle \
--port 8180 \
--metrics-port 8181 \
--engine-worker-queue-port 8182 \
--max-model-len 32768 \
--enable-mm \
--reasoning-parser ernie-45-vl \
--max-num-seqs 32

vllm serve /model/ModelScope/Qwen/Qwen2.5-VL-32B-Instruct --port 8000 -tp 4 --max-model-len=20480 --gpu-memory-utilization 0.85 --allowed-local-media-path /root --mm_processor_kwargs '{"max_pixels": 589824,"min_pixels": 3136}'

模型名称	平均 Token 生成速度	参数规模
DeepSeek-R1-Distill-Qwen-1.5B	约 194 tokens/秒	1.5B
ERNIE-4.5-0.3B-Paddle	约 112 tokens/秒	0.3B

┌─────────────────────────────────────────────────────┐
│ DeepSeek-R1-Distill-Qwen-1.5B                       │
│ ████████████████████ ~194 tokens/秒                 │
├─────────────────────────────────────────────────────┤
│ ERNIE-4.5-0.3B-Paddle                               │
│ ███████████░░░░░░░░░ ~112 tokens/秒                 │
└─────────────────────────────────────────────────────┘

任务类型	DeepSeek-1.5B	ERNIE-0.3B	差异
AR（类比推理）	1.0	2.0	+1.0
CKM（常识性知识挖掘）	2.0	3.0	+1.0
CR（常识推理）	1.7	3.0	+1.3
CodeGen（代码生成）	1.5	5.5	+4.0
EVALG（文本生成评估）	1.5	5.0	+3.5
FP（事实探测）	5.0	5.7	+0.7
GCG（条件生成）	1.7	6.3	+4.6
IE（信息提取）	2.0	5.0	+3.0
MR（数学推理）	2.7	6.7	+4.0
QA（问题回答）	8.5	9.0	+0.5
SEMP（语义解析）	5.3	7.7	+2.4
SR（符号推理）	5.3	7.3	+2.0
SUM（总结）	4.3	7.3	+3.0
TAG（序列标记）	1.7	8.3	+6.6
TC（文本分类）	3.7	8.3	+4.6
Theory（理论分析）	3.7	6.7	+3.0
机器翻译	1.0	7.7	+6.7
语言能力探测	1.7	6.3	+4.6

任务类型	DeepSeek-32B	ERNIE-21B	性能差异分析
AR（类比推理）	4.7	9.0	ERNIE 在抽象思维上更胜一筹
CodeGen（代码生成）	6.0	8.5	两者都具备代码能力，ERNIE 更优
MR（数学推理）	6.7	9.0	ERNIE 在复杂推理上更为出色
QA（问题回答）	8.5	10.0	两者都擅长问答，ERNIE 略胜
机器翻译	2.3	10.0	DeepSeek 在翻译任务上表现极差

任务类型	DeepSeek-32B	ERNIE-21B	差距	特点分析
机器翻译	2.3	10.0	+7.7	ERNIE 完全碾压
TAG（序列标记）	4.7	9.3	+4.6	ERNIE 显著领先
EVALG（文本生成评估）	6.0	10.0	+4.0	ERNIE 满分表现
QA（问题回答）	8.5	10.0	+1.5	双方都表现优秀
SEMP（语义解析）	8.3	10.0	+1.7	高水平竞争

任务类型	ERNIE-4.5-VL	Qwen2.5-VL	评分差距
MG（多模态接地）	8.3	3.3	+5.0 分
VFP（视觉事实探测）	9.0	7.5	+1.5 分
VQA（视觉问题回答）	9.7	5.7	+4.0 分

任务类型	ERNIE-4.5-VL	Qwen2.5-VL	差异分析
MG（多模态接地）	8.3	3.3	ERNIE 在多模态理解与生成上优势显著，差距达 5.0 分
VFP（视觉事实探测）	9.0	7.5	两模型在事实判断上差距相对较小，仅相差 1.5 分
VQA（视觉问题回答）	9.7	5.7	ERNIE 在视觉问答上表现卓越，领先 4.0 分

模型	最适合的应用场景	优势
ERNIE-4.5-0.3B	移动设备、边缘计算、低资源环境	超小参数量、较好的文本理解能力
ERNIE-4.5-21B-A3B	企业级应用、通用 AI 助手、专业领域服务	平衡的速度与性能、全面的能力覆盖
ERNIE-4.5-VL-28B-A3B	多模态应用、图像理解、视觉问答系统	出色的视觉理解能力、高效的跨模态处理

ERNIE-4.5 模型系列全解析：从架构创新到多场景性能测评

前言

ERNIE 4.5 系列一图看懂

核心特点

三大分支技术特性与场景定位

模型对比总览

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Base 版与进阶版

模型版本对比总览

详细对比分析

A47B 分支（超大规模多模态）

A3B 分支（轻量多模态与高效文本）

0.3B 分支（极致轻量化文本）

细分逻辑的核心价值

1. 降低使用门槛

2. 平衡效率与成本

3. 适配多样化部署

部署及测试

测评维度

测评任务类型

文本类任务 (17 种)

视觉类任务 (3 种)

评分标准

模型部署测试

FastDeploy 硬件环境依赖要求

NVIDIA GPU 环境依赖要求

Kunlunxin XPU 环境依赖要求

Iluvatar GPU 环境依赖要求

Enflame GCU 环境依赖要求

镜像选择

三次报错解决方案

文本类模型测试脚本

聚焦小参数模型的效率与基础性能表现

侧重中等参数量级下的综合能力较量

视觉类模型测试脚本

专注跨模态任务处理能力的深度对比

模型速度与性能综合分析

1. 小型模型综合对比分析

生成速度对比

评分分布特征

性能亮点分析

ERNIE-4.5-0.3B 优势任务

DeepSeek-1.5B 相对强项

各任务类型评分对比

2. 中型模型综合对比分析

3. 多模态模型综合对比分析

测评结论

1. ERNIE-4.5 系列模型的核心优势

参数效率优势

速度与性能平衡

任务适应性

2. 不同规模模型的应用场景建议

3. 测评局限性与未来展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具