ERNIE-4.5-0.3B 轻量模型部署与性能测试指南 | 极客日志

PythonAI算法

ERNIE-4.5-0.3B 轻量模型部署与性能测试指南

介绍百度 ERNIE-4.5-0.3B 模型的本地化部署流程与性能评估。涵盖环境搭建（Ubuntu, CUDA 12.6, Python 3.12）、框架配置（PaddlePaddle, FastDeploy）、API 服务启动及安全加固。通过代码生成、逻辑推理、数学优化等场景测试模型能力，并提供量化调优与故障排查方案。实测显示该模型在 RTX 4090 上可实现高效推理，适合中小企业私有化部署。

独立开发者发布于 2026/4/5更新于 2026/5/2426 浏览

引言：轻量化部署的时代突围

2024 年，大模型部署领域正经历一场静默革命：

算力成本困局：千亿级模型单次推理成本较高，中小企业望而却步
效率瓶颈：API 平均响应时延难以承载高并发场景
安全焦虑：敏感数据经第三方 API 传输风险陡增

这时，ERNIE-4.5 发布了开源版本。ERNIE-4.5-0.3B 是一个专门的轻量级模型列表，支持各类应用快速部署实操。

ERNIE-4.5-0.3B 的破局价值： 在 FastDeploy 框架加持下，这款仅 3 亿参数的轻量模型实现：

单张 RTX 4090 承载百万级日请求
中文场景推理精度达 ERNIE-4.5-7B 的 92%
企业私有化部署成本降至传统方案的 1/10

本文将详细介绍如何部署百度文心大模型（本文是文心的 0.3B）。

一、技术栈全景图：精准匹配的黄金组合

基础层：硬核环境支撑

组件	版本	作用	验证命令
操作系统	Ubuntu 22.04	提供稳定运行环境	lsb_release -a
CUDA 驱动	12.6	GPU 计算核心	nvidia-smi --query-gpu=driver_version --format=csv
Python	3.12.3	主运行环境	python3.12 --version

框架层：深度优化套件

组件	版本	关键特性	安装指令（摘要）
PaddlePaddle	3.1.0	适配 CUDA 12.6 的推理引擎	pip install paddlepaddle-gpu==3.1.0 -i cu126 源
FastDeploy	1.1.0	高性能服务框架	pip install fastdeploy-gpu --extra-index-url 清华源
urllib3	1.26.15	解决 Python 3.12 兼容问题	pip install urllib3==1.26.15

工具层：部署利器

模型服务 Nginx Locust Prometheus 负载均衡压力测试性能监控

环境验证要点（部署前必做）： CUDA 可用性：nvidia-smi显示驱动版本≥535.86.10 Python 兼容性：执行import distutils无报错内存带宽：sudo dmidecode -t memory确认≥3200MHz

二、详细步骤：精准匹配 CUDA 12.6 的黄金组合

准备环节

1. 模型选择

apt update && apt install -y libgomp1

apt install -y python3.12 python3-pip

python3.12 --version

curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py

python3.12 get-pip.py --force-reinstall

python3.12 -m pip install --upgrade setuptools

python3.12 -m pip install paddlepaddle-gpu==3.1.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/

python3.12 -c "import paddle; print('版本:', paddle.__version__); print('GPU 可用:', paddle.device.is_compiled_with_cuda())"

python3.12 -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-80_90/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

apt remove -y python3-urllib3

python3.12 -m pip install urllib3==1.26.15 six --force-reinstall

python3.12 -m pip install urllib3

python3.12 -m fastdeploy.entrypoints.openai.api_server \
--model baidu/ERNIE-4.5-0.3B-Paddle \
--port 8180 \
--host 0.0.0.0 \
--max-model-len 32768 \
--max-num-seqs 32

参数	值	说明
`--max-model-len`	32768	支持 32K 长文本推理
`--max-num-seqs`	32	并发请求处理数
`--engine`	paddle	指定推理后端

import requests
import json

def main():
    # 设置 API 端点
    url = "http://127.0.0.1:8180/v1/chat/completions"
    # 设置请求头
    headers = {"Content-Type": "application/json"}
    # 构建请求体
    data = {
        "model": "baidu/ERNIE-4.5-0.3B-PT",
        "messages": [{"role": "user", "content": "问题"}]
    }
    try:
        # 发送请求
        response = requests.post(url, headers=headers, data=json.dumps(data))
        # 检查响应状态
        response.raise_for_status()
        # 解析响应
        result = response.json()
        # 打印响应结果
        print("状态码:", response.status_code)
        print("响应内容:")
        print(json.dumps(result, indent=2, ensure_ascii=False))
        # 提取并打印 AI 的回复内容
        if "choices" in result and len(result["choices"]) > 0:
            ai_message = result["choices"][0]["message"]["content"]
            print("\nAI 回复:")
            print(ai_message)
    except requests.exceptions.RequestException as e:
        print(f"请求错误：{e}")
    except json.JSONDecodeError:
        print(f"JSON 解析错误，响应内容：{response.text}")
    except Exception as e:
        print(f"发生错误：{e}")

if __name__ == "__main__":
    main()

python demo.py

curl -X POST http://localhost:8180/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{ "model": "ERNIE-4.5-0.3B-Paddle", "messages": [{"role": "user", "content": "问题"}] }'

import requests
import json

def main():
    # 设置 API 端点
    url = "http://127.0.0.1:8180/v1/chat/completions"
    # 设置请求头
    headers = {"Content-Type": "application/json"}
    # 构建请求体
    data = {
        "model": "baidu/ERNIE-4.5-0.3B-PT",
        "messages": [{"role": "user", "content": "1+1=?"}]
    }
    try:
        # 发送请求
        response = requests.post(url, headers=headers, data=json.dumps(data))
        # 检查响应状态
        response.raise_for_status()
        # 解析响应
        result = response.json()
        # 打印响应结果
        print("状态码:", response.status_code)
        print("响应内容:")
        print(json.dumps(result, indent=2, ensure_ascii=False))
        # 提取并打印 AI 的回复内容
        if "choices" in result and len(result["choices"]) > 0:
            ai_message = result["choices"][0]["message"]["content"]
            print("\nAI 回复:")
            print(ai_message)
    except requests.exceptions.RequestException as e:
        print(f"请求错误：{e}")
    except json.JSONDecodeError:
        print(f"JSON 解析错误，响应内容：{response.text}")
    except Exception as e:
        print(f"发生错误：{e}")

if __name__ == "__main__":
    main()

python demo.py

import os
import time
import random
from concurrent.futures import ThreadPoolExecutor
from typing import Dict, List, Optional

class MetadataSyncManager:
    def __init__(self, pool_size: int = 10):
        self.pool_size = pool_size
        self.servers = {}
        self.labels = {}
        self.node_id = 0

    def add_node(self, node_id: int):
        """添加新节点"""
        self.servers[node_id] = {'name': f'node-{node_id}', 'port': 0, 'ip': None, 'replicas': 1, 'sync_timeout': 30, 'sync_success': False}
        self.labels['node_id'] = node_id

    def add_file(self, path: str, mode: int = 0o644) -> Dict[str, Dict]:
        """添加单个文件"""
        file_info = {'path': path, 'mode': mode, 'owner': None, 'last_sync_time': None, 'last_error': None}
        with open(path, 'rb') as f:
            file_info['owner'] = os.path.basename(path)
            file_info['last_sync_time'] = time.time()
        if 'last_error' in self.labels:
            self.labels['last_error'] = self.labels['node_id'][0]
        self.servers[self.node_id]['replicas'] += 1
        self.labels['node_id']['replicas'] += 1
        return file_info

    def add_file_sync(self, file_path: str, mode: int = 0o644) -> Dict[str, Dict]:
        """添加同步文件"""
        file_info = self.add_file(file_path, mode)
        with open(file_path, 'rb') as f:
            file_info['last_sync_time'] = time.time()
        self.servers[self.node_id]['sync_success'] = True
        self.labels['node_id']['sync_success'] = True
        return file_info

    def get_node_metadata(self, node_id: int) -> Dict[str, Dict]:
        """获取单个节点的元数据"""
        if node_id not in self.labels:
            return None
        return {'name': self.labels['node_id'], 'sync_success': self.labels['node_id']['sync_success'], 'replicas': self.labels['node_id']['replicas']}

    def get_file_metadata(self, file_id: int) -> Dict[str, Dict]:
        """获取单个文件的元数据"""
        if file_id not in self.labels:
            return None
        return {'path': self.servers[self.node_id]['name'], 'owner': self.servers[self.node_id]['name'], 'last_sync_time': self.servers[self.node_id]['last_sync_time']}

    def get_node_labels(self, node_id: int) -> Dict[str, Dict]:
        """获取单个节点的标签信息"""
        if node_id not in self.labels:
            return None
        return {'name': self.labels['node_id'], 'sync_success': self.labels['node_id']['sync_success'], 'replicas': self.labels['node_id']['replicas']}

    def get_file_labels(self, file_id: int) -> Dict[str, Dict]:
        """获取单个文件的标签信息"""
        if file_id not in self.labels:
            return None
        return {'path': self.servers[self.node_id]['name'], 'owner': self.servers[self.node_id]['owner'], 'last_sync_time': self.servers[self.node_id]['last_sync_time']}

    def start_server(self) -> None:
        """启动监控服务"""
        try:
            # start_http_server(3000)
            pass
        except Exception as e:
            print(f"Failed to start server: {e}")
            raise
        print("Server started on http://localhost:3000")

class NodeManager:
    def __init__(self, sync_manager: MetadataSyncManager):
        self.sync_manager = sync_manager
        self.node_manager = {'node1': self.sync_manager, 'node2': self.sync_manager, 'node3': self.sync_manager}

    def add_node(self, node_id: int):
        """添加新节点"""
        self.sync_manager.add_node(node_id)

    def start_node(self, node_id: int):
        """启动单个节点"""
        self.sync_manager.add_node(node_id)

    def get_node_metadata(self, node_id: int) -> Dict[str, Dict]:
        """获取单个节点的元数据"""
        return self.sync_manager.get_node_metadata(node_id)

    def get_file_metadata(self, file_id: int) -> Dict[str, Dict]:
        """获取单个文件的元数据"""
        return self.sync_manager.get_file_metadata(file_id)

    def get_node_labels(self, node_id: int) -> Dict[str, Dict]:
        """获取单个节点的标签信息"""
        return self.sync_manager.get_node_labels(node_id)

    def get_file_labels(self, file_id: int) -> Dict[str, Dict]:
        """获取单个文件的标签信息"""
        return self.sync_manager.get_file_labels(file_id)

    def get_node_labels_with_labels(self, node_id: int, labels: Dict[str, Dict]) -> Dict[str, Dict]:
        """获取带有标签信息的节点元数据"""
        return {'name': self.sync_manager.get_node_metadata(node_id), 'labels': labels}

from concurrent.futures import ThreadPoolExecutor

class DistributedFileSystem:
    def __init__(self, node_manager: NodeManager):
        self.node_manager = node_manager
        self.stats = {'node_count': len(self.node_manager), 'file_count': 0, 'labels_count': 0, 'node_labels_count': 0}

    def add_node(self, node_id: int):
        """添加新节点"""
        self.node_manager.add_node(node_id)
        self.add_file(self.node_manager.get_file_metadata(node_id))
        self.add_file_sync(self.node_manager.get_file_metadata(node_id))
        self.stats['node_count'] += 1
        self.stats['file_count'] += 1
        self.stats['labels_count'] += 1

    def add_file(self, file_metadata: Dict):
        """添加单个文件"""
        self.node_manager.add_file(file_metadata['path'], file_metadata['mode'])
        self.stats['file_count'] += 1
        self.stats['labels_count'] += 1

    def add_file_sync(self, file_metadata: Dict):
        """添加同步文件"""
        self.node_manager.add_file_sync(file_metadata['path'], file_metadata['mode'])
        self.stats['file_count'] += 1
        self.stats['labels_count'] += 1

    def get_node_labels(self, node_id: int) -> Dict[str, Dict]:
        """获取单个节点的标签信息"""
        return self.node_manager.get_node_labels(node_id)

    def get_file_metadata(self, file_id: int) -> Dict[str, Dict]:
        """获取单个文件的元数据"""
        return self.node_manager.get_file_metadata(file_id)

    def get_node_labels_with_labels(self, node_id: int, labels: Dict) -> Dict[str, Dict]:
        """获取带有标签的节点元数据"""
        return self.node_manager.get_node_labels_with_labels(node_id, labels)

    def get_all_counters(self) -> Dict[str, Counter]:
        """获取所有节点相关计数器"""
        return {'node_count': self.node_manager.stats['node_count'], 'file_count': self.stats['file_count'], 'labels_count': self.stats['labels_count']}

    def get_all_metrics(self) -> Dict[str, Counter]:
        """获取所有节点相关指标"""
        return {'node_count': self.node_manager.stats['node_count'], 'file_count': self.stats['file_count'], 'labels_count': self.stats['labels_count']}

    def get_all_labels(self) -> Dict[str, Dict]:
        """获取所有节点相关标签"""
        return {'node_labels_count': self.node_manager.stats['node_labels_count'], 'labels_count': self.stats['labels_count']}

    def get_node_labels_with_labels(self, node_id: int, labels: Dict) -> Dict[str, Dict]:
        """获取特定节点带有标签的元数据"""
        return self.node_manager.get_node_labels_with_labels(node_id, labels)

import heapq
import random
from heapq import heappush, heappop
from concurrent.futures import ThreadPoolExecutor

class FaultTolerantFileSystem:
    def __init__(self, node_manager: NodeManager):
        self.node_manager = node_manager
        self.metrics = {'node_faults': 0, 'node_recovery_time': 0, 'node_failures': 0}

    def add_node(self, node_id: int):
        """添加新节点"""
        self.node_manager.add_node(node_id)
        self.add_file(self.node_manager.get_file_metadata(node_id))
        self.add_file_sync(self.node_manager.get_file_metadata(node_id))
        self.node_manager.stats['node_count'] += 1
        self.node_manager.stats['node_failures'] += 1

    def add_file(self, file_metadata: Dict):
        """添加单个文件"""
        self.node_manager.add_file(file_metadata['path'], file_metadata['mode'])
        self.node_manager.stats['node_failures'] += 1

    def add_file_sync(self, file_metadata: Dict):
        """添加同步文件"""
        self.node_manager.add_file_sync(file_metadata['path'], file_metadata['mode'])
        self.node_manager.stats['node_failures'] += 1

    def get_node_labels(self, node_id: int) -> Dict[str, Dict]:
        """获取单个节点的标签信息"""
        return self.node_manager.get_node_labels(node_id)

    def get_file_metadata(self, file_id: int) -> Dict[str, Dict]:
        """获取单个文件的元数据"""
        return self.node_manager.get_file_metadata(file_id)

    def get_node_labels_with_labels(self, node_id: int, labels: Dict) -> Dict[str, Dict]:
        """获取带有标签的节点元数据"""
        return self.node_manager.get_node_labels_with_labels(node_id, labels)

    def get_all_metrics(self) -> Dict[str, Counter]:
        """获取所有节点相关指标"""
        return {'node_count': self.node_manager.stats['node_count'], 'node_failures': self.node_manager.metrics['node_failures'], 'node_recovery_time': self.node_manager.metrics['node_recovery_time'], 'node_faults': self.node_manager.metrics['node_faults']}

    def add_node_fault(self, node_id: int, count: int) -> None:
        """添加节点故障"""
        self.node_manager.add_node(node_id)
        self.metrics['node_faults'] += count
        self.node_manager.stats['node_faults'] += count

    def get_node_faults(self) -> int:
        """获取当前节点故障数量"""
        return self.node_manager.metrics['node_faults']

    def get_node_recovery_time(self) -> float:
        """获取节点故障恢复时间"""
        return self.node_manager.metrics['node_recovery_time'] / 1000.0

    def get_node_failures(self) -> int:
        """获取节点故障总数"""
        return self.node_manager.metrics['node_failures']

def handle_exception(exception):
    """异常处理函数"""
    print(f"Error occurred: {exception}")
    if isinstance(exception, (IndexError, OSError)):
        print("⚠️ Node ID out of range")
    elif isinstance(exception, (ValueError, TypeError)):
        print("⚠️ Incorrect type detected")
    else:
        print(f"⚠️ Unexpected exception: {exception}")
    return

def start_server_with_health(node_id: int):
    """启动监控服务并检查健康状态"""
    try:
        # start_http_server(3000)
        print(f"Server started on http://localhost:{node_id}")
        # 简单健康检查
        if node_id == 1:
            return "Healthy"
        else:
            return "Not healthy"
    except Exception as e:
        handle_exception(e)
        return "Error starting server"
    finally:
        # start_tcp_server(3000)
        pass

def add_node_health_check(node_id: int, health_check_func: callable):
    """添加节点健康检查"""
    try:
        # start_http_server(3000)
        print(f"Node {node_id} health check initiated")
        health_check_func(node_id)
        return True
    except Exception as e:
        handle_exception(e)
        return False

class NetworkPartitioning:
    def __init__(self, node_manager: NodeManager):
        self.node_manager = node_manager
        self.partition_size = 10  # 每个节点可处理的副本数
        self.node_count = 0
        self.node_failures = 0

    def add_node(self, node_id: int):
        """添加新节点"""
        self.node_manager.add_node(node_id)
        self.node_manager.stats['node_count'] += 1
        self.node_manager.stats['node_failures'] += 1

    def add_file(self, file_metadata: Dict):
        """添加单个文件"""
        self.node_manager.add_file(file_metadata['path'], file_metadata['mode'])
        self.node_manager.stats['node_failures'] += 1

    def add_file_sync(self, file_metadata: Dict):
        """添加同步文件"""
        self.node_manager.add_file_sync(file_metadata['path'], file_metadata['mode'])
        self.node_manager.stats['node_failures'] += 1

    def remove_node(self, node_id: int):
        """移除节点"""
        if node_id in self.node_manager:
            self.node_manager.remove_node(node_id)
            self.node_manager.stats['node_count'] -= 1
            self.node_manager.stats['node_failures'] -= 1

    def get_node_health(self) -> Dict[str, bool]:
        """获取当前节点健康状态"""
        return {'node_count': self.node_manager.stats['node_count'], 'node_failures': self.node_manager.metrics['node_failures'], 'node_recovery_time': self.node_manager.metrics['node_recovery_time']}

    def get_node_labels_with_labels(self, node_id: int, labels: Dict) -> Dict[str, Dict]:
        """获取带有标签的节点元数据"""
        return {'node_labels_count': self.node_manager.stats['node_labels_count'], 'labels': self.node_manager.get_node_labels_with_labels(node_id, labels)}

if __name__ == "__main__":
    # 创建元数据同步管理器
    fs = MetadataSyncManager(pool_size=5)
    # 创建分布式文件系统
    fs.add_node(1)
    fs.add_node(2)
    fs.add_node(3)
    # 添加文件
    fs.add_file(fs.get_file_metadata(1))
    fs.add_file(fs.get_file_metadata(2))
    fs.add_file(fs.get_file_metadata(3))
    # 添加同步文件
    fs.add_file_sync(fs.get_file_metadata(1))
    fs.add_file_sync(fs.get_file_metadata(2))
    fs.add_file_sync(fs.get_file_metadata(3))
    # 添加节点故障
    fs.add_node_fault(1, 2)
    # 监控节点状态
    print("Node 1 status:", fs.get_node_labels_with_labels(1))
    print("Node 2 status:", fs.get_node_labels_with_labels(2))
    # 监控节点故障
    print("Node 1 health check:", fs.get_node_health())
    print("Node 2 health check:", fs.get_node_health())
    # 获取所有节点相关指标
    metrics = fs.get_all_metrics()
    print("Node count:", metrics['node_count'])
    print("Node failures:", metrics['node_failures'])
    print("Node recovery time:", metrics['node_recovery_time'])
    print("Node health:", fs.get_all_labels())
    # 添加新节点并监控
    fs.add_node(4)
    print("Node 4 status:", fs.get_node_labels_with_labels(4))
    print("Node 4 health check:", fs.get_node_health())

from pulp import LpMinimize, LpVariable

# 定义变量
residential_points = [LpVariable(f'residential', lowBound=0, cat='Integer') for f in range(1, 4)]
industrial_points = [LpVariable(f'industrial', lowBound=0, cat='Integer') for f in range(1, 3)]
waterways = [LpVariable(f'waterways', lowBound=0, cat='Integer') for f in range(1, 4)]

# 目标函数：最小化居民区点总占地面积
def objective_function(x):
    total_area = sum(x)
    return total_area

# 求解
prob = pulp.LpProblem("Residential_and_Waterways_Planning", pulp.LpMinimize)

# 添加约束
prob += LpVariable(f'residential', name='residential_points').domain(LpMinimize)
prob += LpVariable(f'industrial', name='industrial_points').domain(LpMinimize)
prob += LpVariable(f'waterways', name='waterways').domain(LpMinimize)

# 添加居民区点数量约束
prob += sum(x_i >= 3 for x_i in residential_points)

# 添加工业区点数量约束
prob += sum(y_i >= 2 for y_i in industrial_points)

# 添加生态保护区点数量约束
prob += sum(z_j >= 1 for z_j in waterways)

# 求解
prob.solve()

# 输出结果
print("Optimal Residential Points:")
for i, x in enumerate(residential_points):
    print(f"Point {i+1}: {x.var().name}")

print("\nOptimal Waterways:")
for i, z in enumerate(waterways):
    print(f"Point {i+1}: {z.var().name}")

print("\nOptimal Total Area:")
for i, area in enumerate(residential_points):
    print(f"Point {i+1}: {area.var().value}")

Optimal Residential Points: Point 1: residential_points.0 Point 2: residential_points.1 Point 3: residential_points.2 Optimal Waterways: Point 1: waterways.0 Point 2: waterways.1 Point 3: waterways.2 Optimal Total Area: Point 1: 1.0 Point 2: 1.0 Point 3: 1.0

curl -X POST http://localhost:8180/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{ "model": "ERNIE-4.5-0.3B-Paddle", "messages": [{"role": "user", "content": "用现代语言解释'落霞与孤鹜齐飞，秋水共长天一色'，并仿写一句类似意境的句子"}] }'

import requests
import json
import time
from statistics import mean

def send_request():
    """发送单次请求并返回响应时间和结果"""
    # 设置 API 端点
    url = "http://127.0.0.1:8180/v1/chat/completions"
    # 设置请求头
    headers = {"Content-Type": "application/json"}
    # 构建请求体 - 塔罗牌占卜问题
    data = {
        "model": "baidu/ERNIE-4.5-0.3B-PT",
        "messages": [{"role": "user", "content": """ 我希望进行一次塔罗牌占卜，请根据以下信息为我解读： 【占卜者信息】 性别：女 年龄：28 问题领域：事业 当前状况：目前在一家互联网公司担任产品经理，工作压力较大，但有晋升机会。最近团队内部竞争激烈，我不确定是否应该争取晋升，还是保持现状。 【塔罗牌牌阵】 采用塔罗牌经典的圣三角牌阵，牌面信息如下： 1. 过去（代表过去的状况或影响）：正位的圣杯 3 2. 现在（代表当前的状况或面临的问题）：逆位的宝剑 5 3. 未来（代表未来的发展趋势或可能的结果）：正位的恋人 【具体问题】 1. 这三张牌组合起来对我的事业发展有什么启示？ 2. 针对当前的工作压力和团队竞争，我应该如何应对？ 3. 争取晋升是否是一个明智的选择？ 4. 未来 6 个月内，我的事业发展可能会有哪些变化？ 请根据塔罗牌的象征意义和我的具体情况进行解读，提供详细、实用的建议。 """}]}
    try:
        # 记录开始时间
        start_time = time.time()
        # 发送请求
        response = requests.post(url, headers=headers, data=json.dumps(data))
        # 检查响应状态
        response.raise_for_status()
        # 解析响应
        result = response.json()
        # 计算响应时间（秒）
        response_time = time.time() - start_time
        # 获取 token 数量
        completion_tokens = result.get('usage', {}).get('completion_tokens', 0)
        prompt_tokens = result.get('usage', {}).get('prompt_tokens', 0)
        total_tokens = result.get('usage', {}).get('total_tokens', 0)
        # 计算每秒 token 数量
        tokens_per_second = total_tokens / response_time if response_time > 0 else 0
        return {"success": True, "response_time": response_time, "status_code": response.status_code, "result": result, "completion_tokens": completion_tokens, "prompt_tokens": prompt_tokens, "total_tokens": total_tokens, "tokens_per_second": tokens_per_second}
    except requests.exceptions.RequestException as e:
        print(f"请求错误：{e}")
        return {"success": False, "error": str(e)}
    except json.JSONDecodeError as e:
        print(f"JSON 解析错误：{e}")
        return {"success": False, "error": f"JSON 解析错误：{str(e)}"}
    except Exception as e:
        print(f"发生错误：{e}")
        return {"success": False, "error": str(e)}

def main():
    # 请求次数
    request_count = 1
    # 存储统计数据
    response_times = []
    tokens_per_second_list = []
    completion_tokens_list = []
    prompt_tokens_list = []
    total_tokens_list = []
    # 存储成功请求数
    success_count = 0
    print(f"开始执行 {request_count} 次塔罗牌占卜请求...\n")
    # 执行多次请求
    for i in range(request_count):
        print(f"请求 {i+1}/{request_count} 执行中...")
        # 发送请求
        result = send_request()
        if result["success"]:
            success_count += 1
            response_times.append(result['response_time'])
            tokens_per_second_list.append(result['tokens_per_second'])
            completion_tokens_list.append(result['completion_tokens'])
            prompt_tokens_list.append(result['prompt_tokens'])
            total_tokens_list.append(result['total_tokens'])
            print(f"请求 {i+1} 成功:")
            print(f"响应时间：{result['response_time']:.3f} 秒")
            print(f"完成 tokens: {result['completion_tokens']}")
            print(f"提示 tokens: {result['prompt_tokens']}")
            print(f"总 tokens: {result['total_tokens']}")
            print(f"每秒 tokens: {result['tokens_per_second']:.2f}")
            # 只打印第一次请求的详细结果
            if i == 0:
                print("\n第一次请求详细信息:")
                print("状态码:", result["status_code"])
                print("响应内容:")
                print(json.dumps(result["result"], indent=2, ensure_ascii=False))
                # 提取并打印 AI 的回复内容
                if "choices" in result["result"] and len(result["result"]["choices"]) > 0:
                    ai_message = result["result"]["choices"][0]["message"]["content"]
                    print("\nAI 塔罗牌占卜回复:")
                    print(ai_message)
        else:
            print(f"请求 {i+1} 失败：{result.get('error','未知错误')}")
        print("-" * 50)
        # 如果不是最后一次请求，添加短暂延迟以避免请求过于频繁
        if i < request_count - 1:
            time.sleep(0.5)
    # 计算统计信息
    if response_times:
        avg_response_time = mean(response_times)
        min_response_time = min(response_times)
        max_response_time = max(response_times)
        avg_tokens_per_second = mean(tokens_per_second_list)
        avg_completion_tokens = mean(completion_tokens_list)
        avg_prompt_tokens = mean(prompt_tokens_list)
        avg_total_tokens = mean(total_tokens_list)
        print("\n请求统计信息:")
        print(f"总请求数：{request_count}")
        print(f"成功请求数：{success_count}")
        print(f"失败请求数：{request_count - success_count}")
        print("\n时间统计:")
        print(f"平均响应时间：{avg_response_time:.3f} 秒")
        print(f"最小响应时间：{min_response_time:.3f} 秒")
        print(f"最大响应时间：{max_response_time:.3f} 秒")
        print("\nToken 统计:")
        print(f"平均完成 tokens: {avg_completion_tokens:.1f}")
        print(f"平均提示 tokens: {avg_prompt_tokens:.1f}")
        print(f"平均总 tokens: {avg_total_tokens:.1f}")
        print(f"平均每秒 tokens: {avg_tokens_per_second:.2f}")
    else:
        print("\n所有请求均失败，无法计算统计信息。")

if __name__ == "__main__":
    main()

第一次请求详细信息: 状态码：200 响应内容: { "id": "chatcmpl-7f483e5a-30e3-459c-aedd-86b3622caf59", "object": "chat.completion", "created": 1751902426, "model": "baidu/ERNIE-4.5-0.3B-PT", "choices": [ { "index": 0, "message": { "role": "assistant", "content": "### 塔罗牌解读：\n\n#### 1. 三张牌组合对我事业发展的启示 \n- 圣杯 3（正位）：象征过去的阻碍与机遇。代表在事业初期可能遭遇过挫折、挑战或阻碍，需要调整策略、突破自我，才能为未来铺路。 \n- 宝剑 5（逆位）：象征当前的不确定性与迷茫。代表当前的工作压力、团队竞争可能让你感到焦虑、迷茫，需要冷静思考、明确方向，但同时需保持谦逊，避免过度自我怀疑。 \n- 恋人（正位）：象征未来的可能性与平衡。暗示事业发展可能因当前困境而暂时停滞，但通过与他人的合作、调整方向，未来仍可能迎来转机，甚至创造新的突破点。 \n\n启示： \n- 过去的挫折是成功的基础，需通过行动重建信心。 \n- 当前压力可能让你感到焦虑，但通过冷静分析，可找到平衡点，避免陷入重复的困境。 \n- 未来的可能性取决于你是否能与他人合作、调整策略，而非完全放弃当前目标。\n\n#### 2. 当前的工作压力与团队竞争应对策略 \n- 工作压力： \n - 宝剑 5（迷茫）暗示你对现状感到无力，需要找到平衡点。 \n - 圣杯 3（阻碍）可能让你感到压力，需保持冷静，通过数据化分析（如 KPI、团队绩效）明确目标，而非抱怨现状。 \n- 团队竞争： \n - 宝剑 5（迷茫）可能让你对团队产生抵触情绪，需保持谦逊，通过自我表达（如定期汇报进展、建立信任）减少冲突。 \n - 圣杯 3（阻碍）可能让你感到孤立无援，需主动与团队成员沟通，寻求支持，而非封闭自己。 \n\n应对策略： \n- 平衡压力与动力：通过数据化分析，明确当前压力点，同时通过团队合作提升动力。 \n- 保持谦逊与开放：用数据说话，而非指责他人，同时主动寻求支持。 \n- 建立信任关系：通过定期沟通、共享经验，减少团队竞争带来的隔阂。\n\n#### 3. 争取晋升是否明智？ \n- 圣杯 3（正位）：象征明确的目标与勇气。代表你有清晰的职业规划，敢于挑战自我，具备挑战能力，未来有机会晋升。 \n- 宝剑 5（逆位）：象征迷茫与犹豫。可能让你犹豫是否晋升，需要冷静思考，而非盲目乐观。 \n- 恋人（正位）：象征平衡与可能性。暗示你有可能通过晋升实现突破，但需结合自身能力，而非盲目依赖他人。 \n\n明智性判断： \n- 晋升是可取的，但需结合自身能力、行业趋势及团队潜力。 \n- 需提前规划晋升路径，避免因犹豫导致职业发展受阻。 \n\n#### 4. 未来 6 个月事业发展的变化 \n- 圣杯 3（正位）：象征事业的稳定与可持续性。代表你现有的工作状态是基础，未来需通过持续努力，实现可持续增长。 \n- 宝剑 5（逆位）：象征不确定性与挑战。可能让你感到压力，需保持冷静，通过持续学习、团队协作、寻求外部支持，减少不确定性。 \n- 恋人（正位）：象征未来的可能性与转折。暗示事业发展可能因当前困境而暂时停滞，但通过调整方向，未来可能迎来转机。 \n\n变化趋势： \n- 稳定增长：需持续努力，避免因压力而放弃。 \n- 动态调整：通过持续学习、团队协作，逐步突破瓶颈。 \n- 转折点：若团队竞争激烈，需主动调整策略，找到平衡点。 \n\n### 综合建议 \n1. 保持专业能力：无论晋升与否，均需通过数据化分析，提升专业能力。 \n2. 建立支持系统：与团队成员、导师保持沟通，寻求外部支持。 \n3. 设定长期目标：将晋升视为提升职业竞争力的机会，而非短期冲动的结果。 \n4. 灵活调整策略：若当前压力较大，可尝试阶段性调整，而非一蹴而就。 \n\n最终结论： \n- 积极争取晋升，但需结合自身能力与行业趋势，通过持续努力实现可持续增长。 \n- 保持平衡与开放，既不过度自我怀疑，也不过于消极逃避。", "reasoning_content": null, "tool_calls": null }, "finish_reason": "stop" }, "usage": { "prompt_tokens": 247, "total_tokens": 1276, "completion_tokens": 1029, "prompt_tokens_details": { "cached_tokens": 0 } } }

章节	核心任务类型	总 token 数	响应时间（秒）	每秒 token 数
四	工业级代码生成	5400	68.05	79.35
五	复杂系统博弈推理	968	25.29	38.28
六	数学优化模型	1334	24.64	54.14
七	古典文体创作	112	3.15	35.60
八	中文语义理解	-	-	-
九	角色扮演与创意生成	1276	13.316	95.83

# 启动时开启知识缓存（支持缓存实体关系、常识问答等）
python3.12 -m fastdeploy.entrypoints.openai.api_server \
--model baidu/ERNIE-4.5-0.3B-Paddle \
--port 8180 \
--knowledge-cache true \
--cache-size 10000 \
--cache-ttl 3600

缓存状态	平均响应时间 (ms)	日均推理次数	GPU 利用率
未开启	320	500	80%
开启	80	360	65%

# 针对简单问题优先启用轻量推理路径
python3.12 -m fastdeploy.entrypoints.openai.api_server \
... \
--ernie-light-mode-threshold 0.6

动态路由状态	简单问题平均响应时间 (ms)	单卡日处理量（万）
未开启	320	100
开启	196	140

# 文心专属量化工具（含知识模块保护）
python3.12 -m paddle.quantization.ernie_quantize \
--model_dir /opt/models/ERNIE-4.5-0.3B-Paddle \
--output_dir /opt/models/ERNIE-4.5-0.3B-INT4 \
--quant_level int4 \
--preserve-kb true

任务类型	FP16 精度	INT4 精度（通用工具）	INT4 精度（文心专属工具）
中文常识问答	92.3%	85.7%	90.1%
实体关系抽取	89.5%	82.1%	88.3%

# 仅允许内网访问
--host 192.168.1.0/24
# 启用 API 密钥认证
--api-keys YOUR_SECRET_KEY

server {
    listen 443 ssl;
    server_name ernie.example.com;
    ssl_certificate /etc/ssl/certs/ernie.crt;
    ssl_certificate_key /etc/ssl/private/ernie.key;
    location / {
        proxy_pass http://localhost:8180;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        # 限制请求速率
        limit_req zone=ernie_limit burst=20;
    }
    # 每秒最多 10 个请求
    limit_req_zone $binary_remote_addr zone=ernie_limit:10m rate=10r/s;
}

问题场景	错误信息	根本原因	解决方案
验证 PaddlePaddle 安装	`ModuleNotFoundError: No module named 'paddle'`	系统 pip 与 Python 3.12 版本不匹配，导致 paddlepaddle-gpu 安装失败	1. 使用 python3.12 -m pip 重新安装：`python3.12 -m pip install paddlepaddle-gpu==3.1.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/` 2. 验证安装：`python3.12 -c "import paddle; print(paddle.__version__)"`
安装 paddlepaddle-gpu	`from distutils.util import strtobool` 错误	Python 3.12 已移除 distutils 模块，而系统自带 pip 依赖该模块	1. 强制安装适配 Python 3.12 的 pip：`curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py && python3.12 get-pip.py --force-reinstall` 2. 升级 setuptools：`python3.12 -m pip install --upgrade setuptools`
安装 FastDeploy	`python setup.py egg_info did not run successfully` 及 `ModuleNotFoundError: No module named 'distutils'`	FastDeploy 安装依赖 setuptools，而 setuptools 依赖已被 Python 3.12 移除的 distutils 模块	1. 安装兼容 Python 3.12 的 setuptools：`python3.12 -m pip install setuptools==68.0.0` 2. 若仍失败，改用 wheel 包安装：下载对应版本 wheel（如 fastdeploy-1.0.0-cp312-cp312-linux_x86_64.whl），执行 `python3.12 -m pip install 文件名.whl`
启动服务	`ModuleNotFoundError: No module named 'six.moves'`	系统自带 urllib3 版本过旧，与 six 模块存在依赖冲突（urllib3 依赖 six.moves，但模块缺失）	1. 卸载系统自带 urllib3：`apt remove -y python3-urllib3` 2. 重新安装适配的 urllib3 和 six：`python3.12 -m pip install urllib3==1.26.15 six --upgrade`
启动服务	`ConnectionRefusedError: [Errno 111]`	端口冲突，指定端口被其他程序占用	改用 `--port 8280` 参数指定空闲端口，例如：`python3.12 -m fastdeploy.entrypoints.openai.api_server --port 8280`
模型推理	`OutOfMemoryError: CUDA out of memory`	模型运行时显存不足	1. 启用 `--max-num-seqs` 参数限制并发请求数量 2. 使用量化模型减少显存占用（如 INT8 量化）
验证 Paddle 安装	`ModuleNotFoundError: No module named 'paddle'`	Paddle 未正确安装或版本不兼容	重装匹配 CUDA 版本的 paddlepaddle-gpu，例如：`python3.12 -m pip install paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/packages/stable/cu126/`

# 实时显存监控
watch -n 1 nvidia-smi
# API 服务性能分析
python3.12 -m fastdeploy.tools.monitor --port 8180

ERNIE-4.5-0.3B 轻量模型部署与性能测试指南

引言：轻量化部署的时代突围

一、技术栈全景图：精准匹配的黄金组合

基础层：硬核环境支撑

框架层：深度优化套件

工具层：部署利器

二、详细步骤：精准匹配 CUDA 12.6 的黄金组合

准备环节

1. 模型选择

2. 配置实例

3. 选择镜像

4. 进入 JupyterLab

5. 进入终端

6. 连接到 SSH

系统基础依赖安装

1. 更新源并安装核心依赖

2. 安装 Python 3.12 和配套 pip

解决 pip 报错

深度学习框架部署：PaddlePaddle-GPU 深度调优

FastDeploy-GPU 企业级部署框架

1. 安装 FastDeploy 核心组件

2. 修复 urllib3 与 six 依赖冲突

启动兼容 API 服务

三、提问的方式

3.1 创建新文件问

3.2 直接问

3.3 验证是否可以使用

四、代码生成与系统设计：工业级场景的深度开发

测试案例

AI 返回结果

模型响应内容

核心模块实现

异常处理与网络分区容错

异常处理机制

网络分区容错策略

使用示例

性能优化建议

五、逻辑推理：复杂系统与博弈问题

测试案例

AI 返回结果

问题重述

解题步骤

1. 理解博弈的初始状态

2. 初始博弈的分布

3. 纳什均衡的定义

4. 可能的策略

5. 寻找策略的组合

策略组合的尝试

纳什均衡分析

验证策略的合理性

结论

数学验证

可能的误区

总结

六、数学与优化：高阶问题求解

测试案例

AI 返回结果

问题描述

问题建模

1. 居民区

2. 工业区

3. 生态保护区

目标函数

约束条件

模型建立

变量定义

目标函数

约束条件

求解策略

1. 定义变量

2. 目标函数

3. 约束条件

Python 代码实现

输出结果

验证

可能的优化方向

总结

七、中文与文化：极致复杂度挑战

测试案例

AI 返回结果