大模型推理技术详解：从基础概念到 vLLM | 极客日志

PythonAI算法

大模型推理技术详解：从基础概念到 vLLM

大模型推理涉及预填充和解码两个阶段，分别处理提示输入和生成新 token。在线推理用于实时交互，离线推理用于批处理任务。关键性能指标包括延迟、吞吐量、首 Token 时间（TTFT）和每输出 Token 时间（TPOT）。内存管理核心在于 KV Cache 的优化，通过分页注意力等技术提升利用率。主流推理框架如 vLLM、TensorRT-LLM 等各有特点，选择时需考虑功能、许可证及社区活跃度。此外，推测解码、隐私保护推理及模型并行也是提升性能的重要手段。

念念不忘发布于 2025/2/7更新于 2026/6/1226 浏览

推理

术语表

CLA: 跨层注意力（Cross-Layer Attention）

FHE: 全同态加密（Fully Homomorphic Encryption）

GQA: 分组查询注意力（Grouped-Query Attention）

ITL: 词间延迟（Inter-Token Latency）

KV: 键值（Key Value）

LPU: 语言处理单元™（Language Processing Unit™）

MHA: 多头注意力（Multi-Head Attention）

MPC: 安全多方计算（Secure Multi-Party Computation

MQA: 多查询注意力（Multi-Query Attention）

PPML: 隐私保护机器学习（Privacy-Preserving Machine Learning）

QPS: 每秒查询数（Queries Per Second）

TPOT: 每个输出 token 的时间（Time Per Output Token）

TTFT: 第一个 token 的时间（Time to First Token）

参见下面的概念部分获取更多类似术语的条目。

概念

预填充和解码

在进行推理时，有两个阶段：

预填充

预填充：由于提示的所有 token 都是已知的 - 一次处理完整的提示长度（类似于训练）并缓存中间状态（KV 缓存）。由于即使是 1k 的提示也可以在足够的内存下非常快地处理，因此这一阶段几乎不会增加延迟。

解码

解码：新 token 的生成是基于所有先前的 token（提示和迄今为止生成的任何新 token）一次生成一个新 token（回归方法）。因此，与预填充不同，这一阶段对生成的延迟贡献最大，因为解码无法并行化。

在线推理与离线推理

当用户实时发送查询时 - 这是在线推理，也称为部署。示例：聊天机器人、搜索引擎、通用 REST API。在这种情况下，通常会运行一个推理服务器，并且可能有各种客户端连接到它。

当你有一个包含提示的文件需要进行推理时 - 这是离线推理。示例：基准评估、合成数据生成。在这种情况下，通常不需要推理服务器，推理直接在发送查询的同一程序中运行（客户端和服务器在一个应用程序中）。

基础（Grounding）

这是为预训练模型提供在训练期间不可用的额外信息的过程。例如，输入基础任务（input-grounded-tasks，见下面的任务的第一个）在提示中为模型提供了大量额外信息。非零样本提示在示例中为模型提供基础，改变了默认的模型行为。提示工程的全部内容是使模型在推理期间以某种特定方式来推理。

检索增强生成（RAG）是为模型提供基础的主要技术之一，因为它为推理过程提供了与提示相关的额外数据。目的是使模型比其训练时的大量压缩信息更重视这些信息。

微调到不同的知识领域是另一种基础方法，我们更新模型，使其在一个新的数据集上有基础，这个数据集可能与基础模型训练的原始数据领域完全不同。

基础可以被认为是提供上下文。正如任何人都可以证明的那样，当一个人理解问题的上下文时，回答问题会更容易。模型生成也是如此。上下文越好，生成的输出就越相关。

在多模态使用情况下，图像或视频与文本提示一起提供可以作为基础或上下文。

任务（Tasks）

输入基础任务（Input-grounded tasks）

输入基础任务是那些生成响应主要来自提示的任务，即主要知识包含在提示中。这些包括：

翻译

摘要

文档问答

多轮对话

代码编辑

语音识别（音频转录）

批处理（Batching）

一次处理一个 token 的解码阶段对加速器来说是非常低效的。将多个查询一起批处理可以提高加速器的利用率，并使一次处理多个请求成为可能。

批处理的最大可能大小取决于在加载模型权重和填充 KV 缓存后剩余的内存量。

静态批处理（Static batching）

这是最简单直接的批处理方式，前 N 个查询一起批处理 - 问题在于，如果许多查询已经完成生成，它们将不得不等待最长的查询完成，然后才能返回给调用者 - 大大增加了延迟。

连续批处理或飞行中的批处理（Continuous Batching or In-flight batching）

logits = math.log(probs) / temperature

["string", "string", ..., "string"]   123...

{     "type": "object",     "properties": {       "name": { "type": "string"},       "age": { "type": "integer"}     },     "required": ["name", "age"]   }

[...I can see is just]   [...I can see is just another]   [...I can see is just another lemon]

[...I can see is just] another   [...I can see is just another] lemon   [...I can see is just another lemon] tree

读者	WPM	TPM	TPS	TPOT
发声阅读	250	375	6.25	0.16
听觉阅读	450	675	11.25	0.089
视觉阅读	700	1050	18.75	0.057

http_req_duration..: avg=13.74s   min=12.54s  med=13.81s   max=13.83s   p(90)=13.79s   p(95)=13.83s   http_req_receiving.: avg=27.98µs  min=15.16µs med=21.6µs   max=98.13µs  p(90)=44.98µs  p(95)=59.2µs   http_req_sending...: avg=133.8µs  min=20.47µs med=75.39µs  max=598.04µs p(90)=327.73µs p(95)=449.65µs

[... create client, data, etc. ...]   prefill_tokens_len = len(prompt)   start_time = time.time()   decode_text = ""   decode_started = False   completion = client.completions.create(prompt=prompt, ...)   for chunk in completion:       if chunk.choices:           decode_text += text           if not decode_started:               decode_started_time = time.time()               prefill_time = decode_started_time - start_time               decode_started = True      end_time = time.time()   decode_time = end_time - decode_started_time   decode_tokens = tokenizer.encode(decode_text)   decode_tokens_len = len(decode_tokens)      # tokens/per sec   prefill_throughput = prefill_tokens_len / prefill_time   decode_throughput  = decode_tokens_len  / decode_time

大模型推理技术详解：从基础概念到 vLLM

推理

术语表

概念

预填充和解码

预填充

解码

在线推理与离线推理

基础（Grounding）

任务（Tasks）

输入基础任务（Input-grounded tasks）

批处理（Batching）

静态批处理（Static batching）

连续批处理或飞行中的批处理（Continuous Batching or In-flight batching）

分页注意力（Paged Attention）

解码方法（Decoding methods）

（一）贪心解码（Greedy decoding）

（二）束搜索（Beam search）

（三）采样（Sampling）

（四）温度（Temperature）

指导文本生成（Guided Text Generation）

（一）使用指导生成加速推理（Faster inference with guided generation）

推测解码（Speculative decoding）

隐私保护推理

模型并行

关键推理性能指标

系统性能指标

（一）延迟

（二）吞吐量

用户体验指标

（一）第一个 Token 的时间

（二）每个输出 Token 的时间

简化的性能指标

（一）预填充吞吐量

（二）解码吞吐量

更多指标说明

（一）加速器利用率

（二）百分位数

加速模型加载时间

基准测试

模型内存使用情况解析

模型权重

KV Caching

推理框架

如何选择推理框架

推理芯片

Groq

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具