文心一言 4.5 开源深度剖析：性能中文双项碾压，开源引擎驱动行业变革，解锁大模型新范式

文心一言 4.5 开源深度剖析：性能中文双项碾压，开源引擎驱动行业变革，解锁大模型新范式 | 极客日志

模型名称	上下文长度	量化方式	最低部署资源	说明
ERNIE-4.5-0.3B	32K/128K	BF16	1块6G/12G显存GPU / 2G内存	-
ERNIE-4.5-21B-A3B-Paddle	32K/128K	WINT8	1块48G显存GPU / 128G内存	128K长度需启用分块预填充
ERNIE-4.5-VL-28B-A3B-Paddle	32K/128K	WINT8	1块48G显存GPU / 128G内存	需启用分块预填充
ERNIE-4.5-300B-A47B-Paddle	32K/128K	WINT4	4块64G显存GPU / 600G内存	128K长度
ERNIE-4.5-VL-424B-A47B-Paddle	32K/128K	WINT2	1块141G显存GPU / 1T内存	128K长度需启用分块预填充

依赖项	版本要求
GPU驱动程序	≥535
CUDA	≥12.3
CUDNN	≥9.5
Python	≥3.10
Linux	X86_64架构

#更新软件包apt update #安装虚拟环境工具aptinstall -y python3-venv

python3 -m venv fastdeploy-env/

source fastdeploy-env/bin/activate

apt update &&aptinstall -y libgomp1 libssl-dev zlib1g-dev

 python -m pip install paddlepaddle-gpu==3.1.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/

import paddle paddle.utils.run_check()

# Install stable release python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-80_90/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

python -c "import paddle; print(paddle.is_compiled_with_cuda()); print(paddle.device.get_device())"

aptinstallgit

#1. 查看当前主机名hostname

#2. 编辑 hosts 文件vim /etc/hosts

curl -i http://0.0.0.0:8180/health

pip install requests

vi test.py

import requests import json # 模型服务的API端点，需确保模型服务已启动并可通过该地址访问 url ="http://127.0.0.1:8180/v1/chat/completions"# 请求头，指定发送数据的格式为JSON headers ={"Content-Type":"application/json"}# 初始化对话上下文列表，用于保存用户输入和模型回复的历史 messages =[]# 启动对话循环，持续获取用户输入并与模型交互while True: # 获取用户输入，提示用户输入内容 user_input = input("你: ")# 如果用户输入exit或quit（不区分大小写），则退出对话循环if user_input.lower()in['exit', 'quit']: break# 将用户输入以指定格式添加到对话上下文，role为user表示是用户输入 messages.append({"role":"user", "content": user_input})# 构建请求体数据 data ={# 指定要使用的模型，需与服务端部署的模型匹配"model":"baidu/ERNIE-4.5-VL-28B-A3B-PT", # 传入对话上下文，包含历史交互信息"messages": messages, # 温度参数，控制模型输出的随机性，值越大越随机"temperature":0.7} try: # 发送POST请求到模型服务，将data转为JSON字符串传入 response = requests.post(url, headers=headers, data=json.dumps(data))# 解析响应为JSON格式 response_json = response.json()# 提取模型回复内容，从响应的特定结构中获取 result = response_json["choices"][0]["message"]["content"]# 输出模型回复，标识为ERNIE的回复 print("ERNIE: ", result)# 将模型回复添加到对话上下文，role为assistant表示是模型回复 messages.append({"role":"assistant", "content": result}) except requests.RequestException as e: # 如果请求过程中发生异常（如网络问题、服务未响应等），捕获并提示 print("请求发生异常: ", e) except KeyError as e: # 如果响应JSON结构不符合预期，捕获并提示 print("解析响应失败，缺少必要字段: ", e) except json.JSONDecodeError as e: # 如果响应内容无法正确解析为JSON，捕获并提示 print("响应内容解析为JSON失败: ", e)

模型型号	显卡型号	部署时长
ERNIE-4.5-0.3B-Paddle	4090	实测7分钟左右
ERNIE-4.5-21B-A3B-PT	A800	实测16分钟半
ERNIE-4.5-VL-28B-A3B-PT	A100	实测22分钟

Traceback (most recent call last): File "/root/baidu/ERNIE-4.5-0.3B-Paddle/check.py", line 1, in<module>import paddle File "/usr/local/miniconda3/envs/py310/lib/python3.10/site-packages/paddle/__init__.py", line 38, in<module> from .base import core # noqa: F401 File "/usr/local/miniconda3/envs/py310/lib/python3.10/site-packages/paddle/base/__init__.py", line 38, in<module> from .import(# noqa: F401 File "/usr/local/miniconda3/envs/py310/lib/python3.10/site-packages/paddle/base/backward.py", line 28, in<module> from .import core, framework, log_helper, unique_name File "/usr/local/miniconda3/envs/py310/lib/python3.10/site-packages/paddle/base/core.py", line 388, in<module> raise e File "/usr/local/miniconda3/envs/py310/lib/python3.10/site-packages/paddle/base/core.py", line 267, in<module> from .import libpaddle ImportError: libgomp.so.1: cannot open shared object file: No such file or directory

模型名称	参数	是否多模态
ERNIE-4.5-28B-VL-A3B	280亿	是（含视觉 - 语言多模态能力）
Qwen2.5-VL-32b	320 亿	是（含视觉 - 语言多模态能力）
DeepSeek-VL2	161 亿	是（含视觉 - 语言多模态能力）

模型名称	最优	中等	最差
首Token	3	2	1
总耗时	3	2	1
正确性	（正确4分）	（酌情给分）	（错误 0分）

模型名称	首Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	0.91s	2.01s	正确	9
Qwen2.5-VL-32b	1.45s	8.92s	正确	5
DeepSeek-VL2-Small	1.33s	2.01s	错误	5

模型名称	首Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	0.73s	1.24s	正确	8
Qwen2.5-VL-32b	0.43s	3.9s	正确	8
DeepSeek-VL2	1.46s	1.46s	错误	2

模型名称	首Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	0.85s	3.85s	正确	9
Qwen2.5-VL-32b	0.45s	7.68s	一个正确	5
DeepSeek-VL2	2.01s	4.57s	俩个正确	5

模型名称	总分
ERNIE-4.5-28B-VL-A3B	9+8+9=26
Qwen2.5-VL-32b	5+8+5=18
DeepSeek-VL2	5+2+5=12

模型名称	首Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	1.44s	4.94s	未给出答案	6
Qwen2.5-VL-32b	0.84s	11.7s	正确	8
DeepSeek-VL2	2.36s	4.94s	错误	4

模型名称	首Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	1.14s	6.04s	正确	8
Qwen2.5-VL-32b	0.55s	11.7s	正确	8
DeepSeek-VL2	1.4s	1.4s	正确	9

模型名称	首Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	0.83s	5.55s	未给出答案	6
Qwen2.5-VL-32b	1.17s	10.92s	正确	7
DeepSeek-VL2	1.5s	1.5s	错误	4

模型名称	总分
ERNIE-4.5-28B-VL-A3B	6+8+6=20
Qwen2.5-VL-32b	8+8+7=23
DeepSeek-VL2	4+9+4=17

模型名称	首Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	2.97s	3.51s	正确	7
Qwen2.5-VL-32b	1.8s	3.82s	正确	8
DeepSeek-VL2	2.12s	2.12s	正确	9

模型名称	首Token	总耗时	正确性	总分
ERNIE-4.5-28B-VL-A3B	1.04s	2.36s	正确	9
Qwen2.5-VL-32b	0.62s	3.63s	错误	4
DeepSeek-VL2	1.86s	2.48s	错误	3

模型名称	总分
ERNIE-4.5-28B-VL-A3B	7+9=16
Qwen2.5-VL-32b	8+4=12
DeepSeek-VL2	9+3=12

模型名称	首Token	总耗时
ERNIE-4.5-28B-VL-A3B	0.43s	14.94s
Qwen2.5-VL-32b	0.47s	43.67s
DeepSeek-VL2	1.2s	7.08s

模型名称	首Token	总耗时
ERNIE-4.5-28B-VL-A3B	0.44s	11.61s
Qwen2.5-VL-32b	0.28s	17s
DeepSeek-VL2	1.23s	10.31s

模型名称	基础通识	高级推理	视觉能力	代码编程	综合表现
ERNIE-4.5-28B-VL-A3B	26	20	16	优	🌟🌟🌟🌟🌟
Qwen2.5-VL-32b	18	23	12	良	🌟🌟🌟🌟
DeepSeek-VL2	12	17	12	中	🌟🌟🌟

资源名称	链接
ERNIE4.5 GitCode 开源仓库	【一键直达】
ERNIE4.5 部署配置要求	【一键直达】
Paddlepaddle-gpu官方文档	【一键直达】
FastDeploy部署说明	【一键直达】
ERNIE4.5技术文档	【一键直达】
ERNIE 开发工具包	【一键直达】
飞桨星河社区	【一键直达】

文心一言 4.5 开源深度剖析：性能中文双项碾压，开源引擎驱动行业变革，解锁大模型新范式

引言

文章目录

一、文心大模型 ERNIE 4.5 开源简介

1.1 开源模型版本介绍

1.2 基准测试表现

1.3 全面的工具生态链

二、文心大模型 ERNIE 4.5技术分析

2.1 多模态异构 MOE

2.2 高效训练与并行架构

2.3 后训练策略

2.4 推理和部署

三、基于 GitCode 仓库的文心开源模型个人部署

3.1 个人部署详细步骤

3.1.1 环境选择

3.1.2 环境准备

3.1.2 模型下载与配置

3.1.3 部署与测试

3.2 个人部署效率分析

3.2.1 部署时间成本

3.3 个人部署难度评估

3.3.1 技术门槛要求

3.3.2 常见问题及解决办法（选看）

四、文心一言 4.5 全方位对比评测

3.1 基础通识测试

3.2 高级推理测试

3.3 视觉能力测试

3.4 代码编程部分

3.5 数学能力测试

3.6 指令能力测试

3.7 知识能力测试

3.8 通用能力测试

3.9 对比评测总结

五、总结与社区生态展望

5.1 社区生态展望

5.2 全文总结

六、附录

更多推荐文章

相关免费在线工具

文心一言 4.5 开源深度剖析：性能中文双项碾压，开源引擎驱动行业变革，解锁大模型新范式

引言

文章目录

一、文心大模型 ERNIE 4.5 开源简介

1.1 开源模型版本介绍

1.2 基准测试表现

1.3 全面的工具生态链

二、文心大模型 ERNIE 4.5技术分析

2.1 多模态异构 MOE

2.2 高效训练与并行架构

2.3 后训练策略

2.4 推理和部署

三、基于 GitCode 仓库的文心开源模型个人部署

3.1 个人部署详细步骤

3.1.1 环境选择

3.1.2 环境准备

3.1.2 模型下载与配置

3.1.3 部署与测试

3.2 个人部署效率分析

3.2.1 部署时间成本

3.3 个人部署难度评估

3.3.1 技术门槛要求

3.3.2 常见问题及解决办法（选看）

四、文心一言 4.5 全方位对比评测

3.1 基础通识测试

3.2 高级推理测试

3.3 视觉能力测试

3.4 代码编程部分

3.5 数学能力测试

3.6 指令能力测试

3.7 知识能力测试

3.8 通用能力测试

3.9 对比评测总结

五、总结与社区生态展望

5.1 社区生态展望

5.2 全文总结

六、附录

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具