AI大模型应用性能核心指标:TTFT 与 TPOT 详解
一、核心定义总览
这两个指标专门衡量大模型流式响应性能,是评估用户体验的关键指标。

二、TTFT(Time To First Token) - 首Token延迟
- 1. 定义与重要性
TTFT = 从用户发送请求到接收到第一个输出Token的时间间隔
用户: "请介绍一下量子计算" ↓ 请求发送 (t=0) 服务器: [接收→预处理→模型推理→生成第一个字] ↓ 首Token生成 (t=TTFT) 用户看到: "量..."- 2. TTFT的关键组成
# TTFT 分解示意图 TTFT = ( network_latency + # 网络传输延迟 queue_delay + # 服务排队时间 preprocessing_time + # 请求预处理时间 model_initialization + # 模型初始化 first_token_generation # 生成第一个token的推理时间 )- 3. 影响TTFT的因素矩阵
影响因素 | 具体说明 | 优化策略 |
模型大小 | 大模型加载和初始化慢 | 模型量化、模型分片、缓存预热 |
输入长度 | 长Prompt需要更多预处理时间 | Prompt压缩、上下文优化 |
硬件性能 | GPU/TPU算力直接影响推理速度 | 使用更强大硬件、GPU优化 |
并发压力 | 高并发导致排队延迟 | 请求队列管理、自动扩缩容 |
网络延迟 | 用户到服务器的距离 | CDN加速、边缘计算节点 |
- 4. 行业标准参考
用户体验感知阈值: - < 100ms: 即时响应(优秀) - 100-300ms: 轻微延迟(良好) - 300-1000ms: 明显等待(可接受) - > 1000ms: 体验差(需要优化) 大模型典型TTFT范围: - 小模型(<7B): 50-200ms - 中模型(7B-70B): 200-800ms - 大模型(>70B): 800ms-3s三、TPOT(Time Per Output Token) - Token生成速率
- 1. 定义与计算
TPOT = 生成每个输出Token的平均时间
数学公式:TPOT = (总生成时间 - TTFT) / (输出Token数 - 1) 示例: 总生成时间:4.2秒 TTFT:0.8秒 输出Token数:100个 TPOT = (4.2 - 0.8) / (100 - 1) = 3.4 / 99 ≈ 34ms/token- 2. TPOT的技术本质
// 大模型生成过程的流水线示意 生成过程 = { 阶段1: "首Token生成" // 包含完整计算 阶段2: "后续Token生成" // 使用KV缓存加速 KV缓存机制: { 第一次推理: 计算所有token的注意力 后续推理: 重用已计算的KV缓存 效果: 后续token生成更快 } }- 3. TPOT性能影响因素

四、TTFT 与 TPOT 的对比分析
- 1. 性能指标对比表
维度 | TTFT(首Token延迟) | TPOT(Token生成速率) |
测量对象 |