核心定义总览
这两个指标专门衡量大模型流式响应性能,是评估用户体验的关键指标。
TTFT(Time To First Token) - 首 Token 延迟
1. 定义与重要性
TTFT = 从用户发送请求到接收到第一个输出 Token 的时间间隔
用户:"请介绍一下量子计算"
↓ 请求发送 (t=0)
服务器:[接收→预处理→模型推理→生成第一个字]
↓ 首 Token 生成 (t=TTFT)
用户看到:"量..."
2. TTFT 的关键组成
# TTFT 分解示意图
TTFT = (
network_latency + # 网络传输延迟
queue_delay + # 服务排队时间
preprocessing_time + # 请求预处理时间
model_initialization + # 模型初始化
first_token_generation # 生成第一个 token 的推理时间
)
3. 影响 TTFT 的因素矩阵
| 影响因素 | 具体说明 | 优化策略 |
|---|---|---|
| 模型大小 | 大模型加载和初始化慢 | 模型量化、模型分片、缓存预热 |
| 输入长度 | 长 Prompt 需要更多预处理时间 | Prompt 压缩、上下文优化 |
| 硬件性能 | GPU/TPU 算力直接影响推理速度 | 使用更强大硬件、GPU 优化 |
| 并发压力 | 高并发导致排队延迟 | 请求队列管理、自动扩缩容 |
| 网络延迟 | 用户到服务器的距离 | CDN 加速、边缘计算节点 |
4. 行业标准参考
用户体验感知阈值:
- < 100ms: 即时响应(优秀)
- 100-300ms: 轻微延迟(良好)
- 300-1000ms: 明显等待(可接受)
- > 1000ms: 体验差(需要优化)
大模型典型 TTFT 范围:
- 小模型(<7B): 50-200ms
- 中模型(7B-70B): 200-800ms
- 大模型(>70B): 800ms-3s
TPOT(Time Per Output Token) - Token 生成速率
1. 定义与计算
TPOT = 生成每个输出 Token 的平均时间

