文心一言 4.5 开源版本本地化部署指南与性能测试

文心一言 4.5 开源版本本地化部署指南与性能测试 | 极客日志

模型名称	上下文长度	量化方式	最低部署资源	说明
baidu/ERNIE-4.5-VL-424B-A47B-Paddle	32K/128K	WINT4	4×80G GPU 显存/1T 内存	128K 长度需启用分块预填充
baidu/ERNIE-4.5-VL-424B-A47B-Paddle	32K/128K	WINT8	8×80G GPU 显存/1T 内存	128K 长度需启用分块预填充
baidu/ERNIE-4.5-300B-A47B-Paddle	32K/128K	WINT4	4×64G GPU 显存/600G 内存	128K 长度需启用分块预填充
baidu/ERNIE-4.5-300B-A47B-Paddle	32K/128K	WINT8	8×64G GPU 显存/600G 内存	128K 长度需启用分块预填充
baidu/ERNIE-4.5-300B-A47B-2Bits-Paddle	32K/128K	WINT2	1×141G GPU 显存/600G 内存	128K 长度需启用分块预填充
baidu/ERNIE-4.5-300B-A47B-W4A8C8-TP4-Paddle	32K/128K	W4A8C8	4×64G GPU 显存/160G 内存	固定 4-GPU 配置，建议启用分块预填充
baidu/ERNIE-4.5-300B-A47B-FP8-Paddle	32K/128K	FP8	8×64G GPU 显存/600G 内存	建议启用分块预填充，仅支持带专家并行的 PD 分离部署
baidu/ERNIE-4.5-300B-A47B-Base-Paddle	32K/128K	WINT4	4×64G GPU 显存/600G 内存	建议启用分块预填充
baidu/ERNIE-4.5-300B-A47B-Base-Paddle	32K/128K	WINT8	8×64G GPU 显存/600G 内存	建议启用分块预填充
baidu/ERNIE-4.5-VL-28B-A3B-Paddle	32K	WINT4	1×24G GPU 显存/128G 内存	需启用分块预填充
baidu/ERNIE-4.5-VL-28B-A3B-Paddle	128K	WINT4	1×48G GPU 显存/128G 内存	需启用分块预填充
baidu/ERNIE-4.5-VL-28B-A3B-Paddle	32K/128K	WINT8	1×48G GPU 显存/128G 内存	需启用分块预填充
baidu/ERNIE-4.5-21B-A3B-Paddle	32K/128K	WINT4	1×24G GPU 显存/128G 内存	128K 长度需启用分块预填充
baidu/ERNIE-4.5-21B-A3B-Paddle	32K/128K	WINT8	1×48G GPU 显存/128G 内存	128K 长度需启用分块预填充
baidu/ERNIE-4.5-21B-A3B-Base-Paddle	32K/128K	WINT4	1×24G GPU 显存/128G 内存	128K 长度需启用分块预填充
baidu/ERNIE-4.5-21B-A3B-Base-Paddle	32K/128K	WINT8	1×48G GPU 显存/128G 内存	128K 长度需启用分块预填充
baidu/ERNIE-4.5-0.3B-Paddle	32K/128K	BF16	1×6G/12G GPU 显存/2G 内存	无
baidu/ERNIE-4.5-0.3B-Base-Paddle	32K/128K	BF16	1×6G/12G GPU 显存/2G 内存	无

依赖项	版本要求
GPU 驱动程序	≥535
CUDA	≥12.3
CUDNN	≥9.5
Python	≥3.10
Linux	X86_64 架构

#更新软件包
apt update
#安装虚拟环境工具
apt install -y python3-venv

python3 -m venv fastdeploy-env/

source fastdeploy-env/bin/activate

apt update && apt install -y libgomp1 libssl-dev zlib1g-dev

python -m pip install paddlepaddle-gpu==3.1.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/

import paddle
paddle.utils.run_check()

python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-86_89/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

python -c "import paddle; print(paddle.is_compiled_with_cuda()); print(paddle.device.get_device())"

apt install git

#1. 查看当前主机名
hostname

#2. 编辑 hosts 文件
vim /etc/hosts

curl -i http://0.0.0.0:8180/health

pip install requests

vi test.py

import requests
import json

# 模型服务的 API 端点，需确保模型服务已启动并可通过该地址访问
url = "http://127.0.0.1:8180/v1/chat/completions"
# 请求头，指定发送数据的格式为 JSON
headers = {"Content-Type": "application/json"}
# 初始化对话上下文列表，用于保存用户输入和模型回复的历史
messages = []

# 启动对话循环，持续获取用户输入并与模型交互
while True:
    # 获取用户输入，提示用户输入内容
    user_input = input("你：")
    # 如果用户输入 exit 或 quit（不区分大小写），则退出对话循环
    if user_input.lower() in ['exit', 'quit']:
        break
    # 将用户输入以指定格式添加到对话上下文，role 为 user 表示是用户输入
    messages.append({"role": "user", "content": user_input})
    # 构建请求体数据
    data = {
        # 指定要使用的模型，需与服务端部署的模型匹配
        "model": "baidu/ERNIE-4.5-VL-28B-A3B-PT",
        # 传入对话上下文，包含历史交互信息
        "messages": messages,
        # 温度参数，控制模型输出的随机性，值越大越随机
        "temperature": 0.7
    }
    try:
        # 发送 POST 请求到模型服务，将 data 转为 JSON 字符串传入
        response = requests.post(url, headers=headers, data=json.dumps(data))
        # 解析响应为 JSON 格式
        response_json = response.json()
        # 提取模型回复内容，从响应的特定结构中获取
        result = response_json["choices"][0]["message"]["content"]
        # 输出模型回复，标识为 ERNIE 的回复
        print("ERNIE: ", result)
        # 将模型回复添加到对话上下文，role 为 assistant 表示是模型回复
        messages.append({"role": "assistant", "content": result})
    except requests.RequestException as e:
        # 如果请求过程中发生异常（如网络问题、服务未响应等），捕获并提示
        print("请求发生异常：", e)
    except KeyError as e:
        # 如果响应 JSON 结构不符合预期，捕获并提示
        print("解析响应失败，缺少必要字段：", e)
    except json.JSONDecodeError as e:
        # 如果响应内容无法正确解析为 JSON，捕获并提示
        print("响应内容解析为 JSON 失败：", e)

vi test2.py

import requests
import json

def test_ernie_model():
    # 设置 API 端点
    url = "http://127.0.0.1:8180/v1/chat/completions"
    # 设置请求头
    headers = {"Content-Type": "application/json"}
    # 测试问题
    test_question = """ 请解析以下古诗并仿写一句： 枯藤老树昏鸦，小桥流水人家，古道西风瘦马。夕阳西下，断肠人在天涯。 """
    # 构建请求体
    data = {
        "model": "baidu/ERNIE-4.5-0.3B-PT",
        "messages": [{"role": "user", "content": test_question.strip()}],
        "temperature": 0.7, # 控制生成文本的随机性
        "max_tokens": 500 # 限制生成文本的最大长度
    }
    try:
        # 发送请求
        response = requests.post(
            url, headers=headers, data=json.dumps(data), timeout=30 # 设置超时时间
        )
        # 检查响应状态
        response.raise_for_status()
        # 解析响应
        result = response.json()
        # 提取并打印模型回复
        if "choices" in result and len(result["choices"]) > 0:
            answer = result["choices"][0]["message"]["content"]
            print("模型回复：\n")
            print(answer)
        else:
            print("未获取到有效回复")
            print("完整响应：", result)
    except requests.exceptions.RequestException as e:
        print(f"请求发生错误：{e}")
    except json.JSONDecodeError:
        print("响应解析失败，非 JSON 格式")
    except Exception as e:
        print(f"发生意外错误：{e}")

if __name__ == "__main__":
    print("正在测试 ERNIE-4.5-0.3B 模型...")
    print("测试问题：解析《天净沙·秋思》并仿写\n")
    test_ernie_model()

vi test2.py

import requests
import json

def generate_fairy_tale():
    # API 端点
    url = "http://127.0.0.1:8180/v1/chat/completions"
    # 请求头
    headers = {"Content-Type": "application/json"}
    # 生成童话故事的提示
    prompt = """ 请创作一个 400 字左右的童话故事，要求： 1. 主人公是一个小女孩 2. 包含'魔法森林'场景 3. 故事要有简单的情节发展和温暖的结局 4. 语言风格适合儿童阅读，用词生动形象 """
    # 构建请求数据
    data = {
        "model": "baidu/ERNIE-4.5-0.3B-PT",
        "messages": [{"role": "user", "content": prompt.strip()}],
        "temperature": 0.8, # 适当提高随机性，增加故事创意
        "max_tokens": 600, # 预留足够长度确保故事完整
        "top_p": 0.9
    }
    try:
        # 发送请求
        response = requests.post(
            url, headers=headers, data=json.dumps(data), timeout=60
        )
        response.raise_for_status()
        # 解析响应
        result = response.json()
        # 提取并返回故事内容
        if "choices" in result and len(result["choices"]) > 0:
            story = result["choices"][0]["message"]["content"]
            print("生成的童话故事：\n")
            print(story)
            return story
        else:
            print("未能生成故事，请检查模型服务")
            return None
    except Exception as e:
        print(f"生成过程出错：{str(e)}")
        return None

if __name__ == "__main__":
    print("正在生成包含小女孩和魔法森林的童话故事...\n")
    generate_fairy_tale()

文心一言 4.5 开源版本本地化部署指南与性能测试

引言

一、文心大模型 ERNIE 4.5 开源介绍

1.1 开源版本介绍

1.2 ERNIE 4.5 的主要特点和区别

二、文心 ERNIE 4.5 技术解析

2.1 多模态异构 MOE

2.2 高效训练与并行架构

更多推荐文章

相关免费在线工具

2.3 针对特定模态的后训练策略

三、文心一言 4.5 开源版本本地化部署

3.1 部署环境准备

3.2 安装部署工具

3.3 拉取文心 ERNIE 4.5 启动大模型

3.4 本地化部署总结

四部署测试

4.1 测试环境准备

4.2 通识基础测试

4.3 中文复杂语境测试

4.4 写作能力测试

五、总结

更多推荐文章

相关免费在线工具

文心一言 4.5 开源版本本地化部署指南与性能测试

引言

一、文心大模型 ERNIE 4.5 开源介绍

1.1 开源版本介绍

1.2 ERNIE 4.5 的主要特点和区别

二、文心 ERNIE 4.5 技术解析

2.1 多模态异构 MOE

2.2 高效训练与并行架构

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.3 针对特定模态的后训练策略

三、文心一言 4.5 开源版本本地化部署

3.1 部署环境准备

3.2 安装部署工具

3.3 拉取 文心 ERNIE 4.5 启动大模型

3.4 本地化部署总结

四 部署测试

4.1 测试环境准备

4.2 通识基础测试

4.3 中文复杂语境测试

4.4 写作能力测试

五、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.3 拉取文心 ERNIE 4.5 启动大模型

四部署测试