AI大模型应用性能核心指标：TTFT 与 TPOT 详解

Ne0inhk

16 Mar 2026 — 3 min read

一、核心定义总览

这两个指标专门衡量大模型流式响应性能，是评估用户体验的关键指标。

二、TTFT（Time To First Token） - 首Token延迟

1. 定义与重要性

TTFT = 从用户发送请求到接收到第一个输出Token的时间间隔

用户: "请介绍一下量子计算"          ↓ 请求发送 (t=0) 服务器: [接收→预处理→模型推理→生成第一个字]          ↓ 首Token生成 (t=TTFT) 用户看到: "量..."

2. TTFT的关键组成

# TTFT 分解示意图 TTFT = (     network_latency +          # 网络传输延迟     queue_delay +              # 服务排队时间     preprocessing_time +       # 请求预处理时间     model_initialization +     # 模型初始化     first_token_generation     # 生成第一个token的推理时间 )

3. 影响TTFT的因素矩阵

影响因素	具体说明	优化策略
模型大小	大模型加载和初始化慢	模型量化、模型分片、缓存预热
输入长度	长Prompt需要更多预处理时间	Prompt压缩、上下文优化
硬件性能	GPU/TPU算力直接影响推理速度	使用更强大硬件、GPU优化
并发压力	高并发导致排队延迟	请求队列管理、自动扩缩容
网络延迟	用户到服务器的距离	CDN加速、边缘计算节点

4. 行业标准参考

用户体验感知阈值： - < 100ms: 即时响应（优秀） - 100-300ms: 轻微延迟（良好） - 300-1000ms: 明显等待（可接受） - > 1000ms: 体验差（需要优化） 大模型典型TTFT范围： - 小模型（<7B）: 50-200ms - 中模型（7B-70B）: 200-800ms - 大模型（>70B）: 800ms-3s

三、TPOT（Time Per Output Token） - Token生成速率

1. 定义与计算

TPOT = 生成每个输出Token的平均时间

数学公式：TPOT = (总生成时间 - TTFT) / (输出Token数 - 1) 示例： 总生成时间：4.2秒 TTFT：0.8秒 输出Token数：100个 TPOT = (4.2 - 0.8) / (100 - 1) = 3.4 / 99 ≈ 34ms/token

2. TPOT的技术本质

// 大模型生成过程的流水线示意 生成过程 = {     阶段1: "首Token生成"  // 包含完整计算     阶段2: "后续Token生成"  // 使用KV缓存加速          KV缓存机制: {         第一次推理: 计算所有token的注意力         后续推理: 重用已计算的KV缓存         效果: 后续token生成更快     } }