vLLM、SGLang 与 llama.cpp 深度对比及选型指南

推理引擎——大模型落地的最后一公里

在 LLM 的工程化落地中，模型权重仅仅是静态的参数，而推理引擎则是负责加载这些参数、构建计算图并高效执行算子的运行时环境（Runtime）。

文章配图

理解推理引擎，本质上是理解如何通过极致的显存管理与算子调度，将静态的模型参数转化为动态、高并发、低延迟的流式服务。它负责解决的是：如何在有限的资源边界内，压榨出 LLM 生成任务的吞吐量极限。

为什么推理引擎如此重要？

文章配图

成本控制：在多数线上 LLM 产品中，推理通常是主要成本之一
用户体验：首 Token 延迟（TTFT）和吞吐量直接影响产品体验
规模化能力：能否在目标 SLA 下支撑高并发/高 QPS（并保持 P95/P99 延迟）是商业化关键门槛。
硬件适配：不同硬件平台需要专门的优化策略

一、技术栈决策指南：一张表看透核心取向

引擎	核心优势场景	关键技术亮点	学习曲线	社区活跃度
Transformers	原型验证、算法调试、学术研究	动态图 (Eager Execution)	⭐ 低	⭐⭐⭐⭐⭐
llama.cpp	本地端侧部署 (Mac/IoT/PC)	GGUF, 量化，SIMD/Metal	⭐⭐ 中低	⭐⭐⭐⭐⭐
vLLM	生产环境、高并发 API 服务	PagedAttention, Continuous Batching	⭐⭐ 中	⭐⭐⭐⭐⭐
SGLang	复杂 Agent、长多轮对话、结构化输出	RadixAttention, 前缀复用	⭐⭐⭐ 中高	⭐⭐⭐⭐
KTransformers	单机运行超大模型 (如 DeepSeek-V3)	异构计算 (CPU+GPU Offload)	⭐⭐⭐ 中高	⭐⭐⭐
MindIE	国产化算力 (华为昇腾) 生态	CANN, NPU 算子深度优化	⭐⭐⭐⭐ 高	⭐⭐⭐

💡 快速选型建议

文章配图

根据你的实际场景，可以参考以下决策路径：

个人玩家 / Mac 用户：首选 llama.cpp

注：流行的 Ollama 底层基于 llama.cpp/ggml 构建。如果你追求开箱即用，Ollama 是不错的选择；如果需要更细粒度的控制，直接使用 llama.cpp。不同版本实现细节可能变动，以官方仓库/发行说明为准。

企业服务 / 高并发：首选 vLLM

vLLM 是目前生产环境部署的事实标准，拥有最成熟的 OpenAI 兼容 API、完善的监控指标和弹性扩缩容支持。

复杂 Agent / 强 JSON 约束：SGLang 是上位替代

当涉及长 System Prompt 复用或高频工具调用时，SGLang 的前缀缓存机制能带来 2-5 倍的性能提升。

显存告急跑大模型：利用 KTransformers 实现"显存不够、内存来凑"

特别适合想在消费级显卡上体验 DeepSeek-V3、Qwen-72B 等大模型的开发者。

信创/国产化路径：基于华为昇腾硬件，MindIE 是官方重点方案

MindIE 是华为 Ascend 官方重点推荐的推理引擎套件。同时社区也有 vLLM-Ascend、LMDeploy 等可选路径，可根据具体需求选择。

二、核心概念前置：理解 LLM 推理的性能瓶颈

在深入各引擎之前，我们需要先理解 LLM 推理面临的核心挑战：

2.1 KV Cache：空间换时间的经典策略

文章配图

在 Transformer 的自回归生成过程中，每生成一个新 Token，都需要对之前所有 Token 计算 Attention。为避免重复计算，业界采用 KV Cache 策略：将历史 Token 的 Key 和 Value 向量缓存起来。

显存占用公式（通用形式）：
KV Cache Size = 2 × batch_size × num_layers × seq_len × (num_kv_heads × head_dim) × precision_bytes

注：对于使用 GQA（Grouped Query Attention）或 MQA（Multi-Query Attention）的模型，num_kv_heads < num_attention_heads，可大幅降低 KV Cache 占用。
若无 GQA/MQA，则 num_kv_heads = num_attention_heads，此时 kv_dim ≈ hidden_dim。

以 LLaMA-2-70B (GQA, 80 层，num_kv_heads=8, head_dim=128) 为例：
单请求 4K 上下文 (FP16) = 2 × 1 × 80 × 4096 × (8×128) × 2 ≈ 1.34 GB
对比：若无 GQA (num_kv_heads=64)，同样配置则需 ≈ 10.7 GB
这正是 GQA 技术的价值——在保持模型能力的同时，将 KV Cache 压缩约 8 倍。

这意味着：KV Cache 的管理效率，直接决定了系统能支撑的并发量。 理解 GQA/MQA 等注意力变体对 KV Cache 的影响，是进行容量规划的前提。

2.2 Prefill vs Decode：两阶段的性能特征

文章配图

阶段	计算特点	瓶颈类型	优化方向
Prefill（预填充）	并行处理整个 Prompt	计算密集型	提升算力利用率
Decode（解码）	逐 Token 串行生成	访存密集型	优化内存带宽

大部分推理引擎的优化，都围绕这两个阶段的特性展开。

2.3 Batching 策略演进

静态 Batching（传统方式）
├── 所有请求等待最长序列完成
├── 显存利用率低
└── 延迟不可控

Continuous Batching（动态批处理）
├── 请求完成即释放，新请求立即加入
├── 显存利用率大幅提升
└── 系统吞吐量提升 2–4 倍

注：Continuous Batching（也称 In-flight Batching）并非某个引擎独创，TGI、TensorRT-LLM 等也有类似实现。vLLM 的贡献在于将 PagedAttention + Continuous Batching 做成了工程上极具影响力的开源方案，并在社区中广泛传播。

三、重点引擎深度解析：从通用到极致

3.1 Transformers：研究者的瑞士军刀

Hugging Face 的 Transformers 库在 LLM 领域的地位，类似于 Python 标准库。它强调的是通用性与易读性，而非生产环境的极致吞吐。

适用场景：

模型微调与训练
快速原型验证
学术论文复现
小规模推理任务

核心痛点：通用性优先，而非极致调度

Transformers 近年已抽象出多种 KV Cache 策略（Dynamic/Static/Quantized/Offloaded 等），并非只有简单的"Concat 扩容"。但其设计目标是研究型通用实现，强调可读性与灵活性。在高并发 Serving 场景下，它缺乏像 vLLM 那样的"Block Allocator + 请求调度"一体化极致工程优化，因此在吞吐量和显存利用率上不如专用推理引擎。

# Transformers 基础推理示例
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_id = "meta-llama/Llama-3.1-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id, torch_dtype=torch.bfloat16, device_map="auto")
messages = [{"role":"user","content":"什么是推理引擎？"}]
inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)
outputs = model.generate(inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

性能优化建议：

启用 torch.compile() 进行图编译加速
使用 Flash Attention 2 替代原生 Attention
结合 BitsAndBytes 进行 4-bit 量化

3.2 llama.cpp：边缘计算的王者

llama.cpp 的哲学是在通用硬件上极致"压榨"性能，打破了 NVIDIA GPU 的垄断。由 Georgi Gerganov 开发，已成为端侧部署的事实标准。

核心技术亮点：

① GGUF 格式与内存映射

支持 mmap 快速加载，通过 4-bit 甚至更低比特的量化，大幅缓解了"内存墙"瓶颈。

# 量化级别对比
Q8_0: 8-bit 量化，精度损失极小，体积约为原始的 50%
Q4_K_M: 4-bit 量化 (推荐), 精度与体积的最佳平衡
Q2_K: 2-bit 量化，体积最小，但精度损失明显

② 异构加速矩阵

硬件平台	加速方案	性能表现
Intel/AMD CPU	AVX-512/AVX2	10-30 tokens/s
Apple Silicon	Metal API	30-80 tokens/s
NVIDIA GPU	CUDA	50-150 tokens/s
树莓派 5	NEON	2-5 tokens/s

快速上手：

# 安装 llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j

# 下载 GGUF 模型并运行
./llama-cli -m models/llama-3.1-8b-instruct-q4_k_m.gguf \
-p "什么是推理引擎？" \
-n 256 --temp 0.7

3.3 vLLM：生产环境的黄金标准

当场景转向高并发服务器时，显存利用率就是生命线。vLLM 的出现具有里程碑意义，由 UC Berkeley 团队开发。

PagedAttention：虚拟内存思想的精妙迁移

它借鉴了操作系统"虚拟内存"的思想，允许 KV Cache 在物理显存中分散存储。

传统方案：
┌─────────────┐
│ Request 1   │
├─────────────┤
│ [碎片空间]  │
├─────────────┤
│ Request 2   │
└─────────────┘
显存利用率：~50%

PagedAttention：
┌───┬───┬───┬───┐
│ 1 │ 2 │ 1 │ 3 │ <- 物理块
├───┼───┼───┼───┤
│ 2 │ 3 │ 2 │ 1 │ <- 虚拟映射
├───┼───┼───┼───┤
│ 3 │ 1 │ 3 │ 2 │
└───┴───┴───┴───┘
显存利用率：接近满载

彻底消除了内存碎片，使显存利用率接近理论极限，从而支撑起惊人的 Continuous Batching 能力。

生产部署示例：

# 启动 OpenAI 兼容的 API 服务
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-3.1-8B-Instruct \
--tensor-parallel-size 2 \
--max-model-len 8192 \
--gpu-memory-utilization 0.9

# 客户端调用
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="token")
response = client.chat.completions.create(
    model="meta-llama/Llama-3.1-8B-Instruct",
    messages=[{"role":"user","content":"什么是推理引擎？"}],
    max_tokens=256)
print(response.choices[0].message.content)

关键配置参数：

参数	说明	推荐值
`--gpu-memory-utilization`	GPU 显存使用比例	0.85-0.95
`--max-num-seqs`	最大并发请求数	根据显存调整
`--tensor-parallel-size`	张量并行度	GPU 数量
`--enable-prefix-caching`	启用前缀缓存	Agent 场景开启

四、进阶生态：特化领域的"特种兵"

4.1 SGLang：为 Agent 和结构化输出而生

文章配图

虽然借鉴了 vLLM，但 SGLang 在复杂交互场景下走得更远，由 LMSYS 团队打造。

Radix Attention：智能前缀复用

它像 CPU 的 L2 Cache 一样工作。通过前缀树（Radix Tree）管理 KV Cache，自动识别并复用多轮对话中的公共前缀。

多轮对话场景：
Round 1: "System: 你是助手..." + "User: 问题 1" -> 生成回答 1
Round 2: "System: 你是助手..." + "User: 问题 1" + "AI: 回答 1" + "User: 问题 2"
↑________________公共前缀，直接复用 KV Cache________________↑

性能提升：在多轮/多调用、前缀高度复用的场景下，可显著减少重复 prefill 计算；官方材料报告吞吐可达最高 5x

结构化输出：Agent 开发的刚需

原生支持结构化输出约束（JSON Schema / Regex 等），这对于需要解析模型输出的 Agent 工具链来说是"刚需"。

import sglang as sgl

@sgl.function
def extract_info(s, text):
    s += "从以下文本中提取结构化信息：\n" + text
    # 使用正则约束输出格式
    s += sgl.gen("result", max_tokens=200, regex=r'\{"name": "[^"]+", "age": \d+\}')
    # 输出保证符合正则约束
    state = extract_info.run(text="张三今年 25 岁")
    print(state["result"]) # {"name": "张三", "age": 25}

注：vLLM 的 OpenAI 兼容服务端同样支持 guided decoding（JSON Schema / Regex），可选用 outlines、xgrammar 等后端。两者都具备结构化输出能力，差异更多在于整体编程模型和前缀复用机制。

SGLang vs vLLM 场景对比：

场景	推荐引擎	原因
简单问答 API	vLLM	生态成熟，部署简单
多轮对话	SGLang	RadixAttention 前缀复用带来显著加速
程序化编排/多阶段生成	SGLang	DSL 设计更贴合复杂工作流
结构化输出	两者皆可	vLLM 也支持 guided decoding

4.2 KTransformers：超大模型的单机折中方案

文章配图

针对 DeepSeek-V3、Mixtral 等巨型 MoE（Mixture of Experts）模型，KTransformers 提供了创新的调度策略。

异构卸载（Offload）原理：

利用 MoE 的稀疏激活特性——每次推理只激活部分专家——将非激活的专家权重留在 CPU/内存中，仅将激活的专家动态加载或计算。

DeepSeek-V3 架构 (671B 总参数，每次推理约 37B 激活):
┌─────────────────────────────────────────┐
│ GPU (24GB VRAM)                         │
│ ┌─────────────────────────────────┐     │
│ │ Attention + 当前激活的专家参数  │     │
│ └─────────────────────────────────┘     │
└─────────────────────────────────────────┘
⇕ 动态加载
┌─────────────────────────────────────────┐
│ CPU/RAM (382GB+)                        │
│ ┌─────────────────────────────────┐     │
│ │ 未被当前 token 路由到的参数      │     │
│ │ （主要来自未激活的专家权重）    │     │
│ └─────────────────────────────────┘     │
└─────────────────────────────────────────┘

注："37B 激活"包含始终参与计算的稠密参数 + 被路由选中的专家参数，并非简单的总参数减法。

这让单张 24G 显存的显卡运行百 B 级模型成为可能，但需注意"能跑"与"跑得快/实用"是两回事。

硬件配置参考（以 KTransformers 官方口径为准）：

模型	最低显存	最低内存	说明
DeepSeek-V3/R1	24GB	382GB	官方 README 明确要求
Qwen-72B	12GB	80GB+	视量化程度而定
Mixtral-8x22B	16GB	64GB+	MoE 稀疏激活

4.3 MindIE：国产算力的桥头堡

文章配图

华为 Ascend 官方重点推荐的推理引擎套件，是信创环境下的核心选择之一。

技术特点：

深度集成 CANN（Compute Architecture for Neural Networks）
针对 Ascend 310/910 系列芯片深度优化
支持 Atlas 800 等推理服务器

生态说明：

华为 MindIE 官方页面也将 vLLM/SGLang 列为 Text Generation 相关方案
社区存在独立的 vLLM-Ascend 项目
LMDeploy 也提供 Ascend 支持指南

五、性能基准测试参考

以下数据展示各引擎的相对性能趋势，帮助建立直观认知：

引擎	吞吐量趋势	首 Token 延迟	显存效率	并发能力
Transformers	基准 (1x)	较高	一般	低
vLLM	高 (3-5x)	低	高	高
SGLang	高 (3-5x)	低	高	高
llama.cpp (Q4)	中 (量化优势)	中	极高	中低

重要声明：上表为定性趋势对比，实际性能高度依赖以下因素：

模型：参数量、是否 GQA/MQA、是否 MoE
输入输出：Prompt 长度、生成长度、并发请求数
配置：是否启用 FlashAttention、prefix caching、CUDA Graph
引擎参数：max_num_seqs、block_size、量化方式等

六、实战建议：从选型到上线

6.1 选型决策树

开始
├─ 是否需要在消费级硬件/嵌入式运行？
├─ 是 → llama.cpp / Ollama
└─ 否 ↓
├─ 是否需要运行超大 MoE 模型？
├─ 是 → KTransformers
└─ 否 ↓
├─ 是否涉及复杂 Agent / 多轮对话？
├─ 是 → SGLang
└─ 否 ↓
└─ 默认选择 → vLLM

6.2 常见问题排查

问题现象	可能原因	解决方案
OOM（显存溢出）	max_model_len 过大	降低上下文长度或启用量化
吞吐量低	Batch 过小	调大 max_num_seqs
首 Token 延迟高	Prefill 瓶颈	升级 GPU 或启用 FlashAttention
输出格式不稳定	缺少约束	使用 SGLang 结构化输出

结语：没有最强的引擎，只有最合适的负载

回顾全文，每个引擎都有其独特的设计哲学和适用场景：

vLLM 解决了"如何在高并发下管好内存"
SGLang 解决了"如何在高复用下省掉计算"
llama.cpp 解决了"如何在普通硬件上跑得飞快"
KTransformers 解决了"如何用有限显存跑大模型"

理解这些引擎背后的资源调度逻辑，比单纯比拼 Benchmark 分数更能指导实际业务的落地。

在实际项目中，建议采用渐进式策略：

原型阶段：使用 Transformers 快速验证
开发阶段：切换到 vLLM/SGLang 进行性能调优
生产阶段：根据业务特征选择最优引擎并持续监控

技术在不断演进，保持对新特性的关注，才能在大模型落地的道路上走得更远。

推理引擎——大模型落地的最后一公里

在 LLM 的工程化落地中，模型权重仅仅是静态的参数，而推理引擎则是负责加载这些参数、构建计算图并高效执行算子的运行时环境（Runtime）。

文章配图

为什么推理引擎如此重要？

文章配图

成本控制：在多数线上 LLM 产品中，推理通常是主要成本之一
用户体验：首 Token 延迟（TTFT）和吞吐量直接影响产品体验
规模化能力：能否在目标 SLA 下支撑高并发/高 QPS（并保持 P95/P99 延迟）是商业化关键门槛。
硬件适配：不同硬件平台需要专门的优化策略

一、技术栈决策指南：一张表看透核心取向

引擎	核心优势场景	关键技术亮点	学习曲线	社区活跃度
Transformers	原型验证、算法调试、学术研究	动态图 (Eager Execution)	⭐ 低	⭐⭐⭐⭐⭐
llama.cpp	本地端侧部署 (Mac/IoT/PC)	GGUF, 量化，SIMD/Metal	⭐⭐ 中低	⭐⭐⭐⭐⭐
vLLM	生产环境、高并发 API 服务	PagedAttention, Continuous Batching	⭐⭐ 中	⭐⭐⭐⭐⭐
SGLang	复杂 Agent、长多轮对话、结构化输出	RadixAttention, 前缀复用	⭐⭐⭐ 中高	⭐⭐⭐⭐
KTransformers	单机运行超大模型 (如 DeepSeek-V3)	异构计算 (CPU+GPU Offload)	⭐⭐⭐ 中高	⭐⭐⭐
MindIE	国产化算力 (华为昇腾) 生态	CANN, NPU 算子深度优化	⭐⭐⭐⭐ 高	⭐⭐⭐

💡 快速选型建议

文章配图

根据你的实际场景，可以参考以下决策路径：

个人玩家 / Mac 用户：首选 llama.cpp

企业服务 / 高并发：首选 vLLM

vLLM 是目前生产环境部署的事实标准，拥有最成熟的 OpenAI 兼容 API、完善的监控指标和弹性扩缩容支持。

复杂 Agent / 强 JSON 约束：SGLang 是上位替代

当涉及长 System Prompt 复用或高频工具调用时，SGLang 的前缀缓存机制能带来 2-5 倍的性能提升。

显存告急跑大模型：利用 KTransformers 实现"显存不够、内存来凑"

特别适合想在消费级显卡上体验 DeepSeek-V3、Qwen-72B 等大模型的开发者。

信创/国产化路径：基于华为昇腾硬件，MindIE 是官方重点方案

MindIE 是华为 Ascend 官方重点推荐的推理引擎套件。同时社区也有 vLLM-Ascend、LMDeploy 等可选路径，可根据具体需求选择。

二、核心概念前置：理解 LLM 推理的性能瓶颈

在深入各引擎之前，我们需要先理解 LLM 推理面临的核心挑战：

2.1 KV Cache：空间换时间的经典策略

文章配图

显存占用公式（通用形式）：
KV Cache Size = 2 × batch_size × num_layers × seq_len × (num_kv_heads × head_dim) × precision_bytes

注：对于使用 GQA（Grouped Query Attention）或 MQA（Multi-Query Attention）的模型，num_kv_heads < num_attention_heads，可大幅降低 KV Cache 占用。
若无 GQA/MQA，则 num_kv_heads = num_attention_heads，此时 kv_dim ≈ hidden_dim。

以 LLaMA-2-70B (GQA, 80 层，num_kv_heads=8, head_dim=128) 为例：
单请求 4K 上下文 (FP16) = 2 × 1 × 80 × 4096 × (8×128) × 2 ≈ 1.34 GB
对比：若无 GQA (num_kv_heads=64)，同样配置则需 ≈ 10.7 GB
这正是 GQA 技术的价值——在保持模型能力的同时，将 KV Cache 压缩约 8 倍。

这意味着：KV Cache 的管理效率，直接决定了系统能支撑的并发量。 理解 GQA/MQA 等注意力变体对 KV Cache 的影响，是进行容量规划的前提。

2.2 Prefill vs Decode：两阶段的性能特征

文章配图

阶段	计算特点	瓶颈类型	优化方向
Prefill（预填充）	并行处理整个 Prompt	计算密集型	提升算力利用率
Decode（解码）	逐 Token 串行生成	访存密集型	优化内存带宽

大部分推理引擎的优化，都围绕这两个阶段的特性展开。

2.3 Batching 策略演进

静态 Batching（传统方式）
├── 所有请求等待最长序列完成
├── 显存利用率低
└── 延迟不可控

Continuous Batching（动态批处理）
├── 请求完成即释放，新请求立即加入
├── 显存利用率大幅提升
└── 系统吞吐量提升 2–4 倍

三、重点引擎深度解析：从通用到极致

3.1 Transformers：研究者的瑞士军刀

Hugging Face 的 Transformers 库在 LLM 领域的地位，类似于 Python 标准库。它强调的是通用性与易读性，而非生产环境的极致吞吐。

适用场景：

模型微调与训练
快速原型验证
学术论文复现
小规模推理任务

核心痛点：通用性优先，而非极致调度

# Transformers 基础推理示例
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_id = "meta-llama/Llama-3.1-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id, torch_dtype=torch.bfloat16, device_map="auto")
messages = [{"role":"user","content":"什么是推理引擎？"}]
inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)
outputs = model.generate(inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

性能优化建议：

启用 torch.compile() 进行图编译加速
使用 Flash Attention 2 替代原生 Attention
结合 BitsAndBytes 进行 4-bit 量化

3.2 llama.cpp：边缘计算的王者

llama.cpp 的哲学是在通用硬件上极致"压榨"性能，打破了 NVIDIA GPU 的垄断。由 Georgi Gerganov 开发，已成为端侧部署的事实标准。

核心技术亮点：

① GGUF 格式与内存映射

支持 mmap 快速加载，通过 4-bit 甚至更低比特的量化，大幅缓解了"内存墙"瓶颈。

# 量化级别对比
Q8_0: 8-bit 量化，精度损失极小，体积约为原始的 50%
Q4_K_M: 4-bit 量化 (推荐), 精度与体积的最佳平衡
Q2_K: 2-bit 量化，体积最小，但精度损失明显

② 异构加速矩阵

硬件平台	加速方案	性能表现
Intel/AMD CPU	AVX-512/AVX2	10-30 tokens/s
Apple Silicon	Metal API	30-80 tokens/s
NVIDIA GPU	CUDA	50-150 tokens/s
树莓派 5	NEON	2-5 tokens/s

快速上手：

# 安装 llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j

# 下载 GGUF 模型并运行
./llama-cli -m models/llama-3.1-8b-instruct-q4_k_m.gguf \
-p "什么是推理引擎？" \
-n 256 --temp 0.7

3.3 vLLM：生产环境的黄金标准

当场景转向高并发服务器时，显存利用率就是生命线。vLLM 的出现具有里程碑意义，由 UC Berkeley 团队开发。

PagedAttention：虚拟内存思想的精妙迁移

它借鉴了操作系统"虚拟内存"的思想，允许 KV Cache 在物理显存中分散存储。

传统方案：
┌─────────────┐
│ Request 1   │
├─────────────┤
│ [碎片空间]  │
├─────────────┤
│ Request 2   │
└─────────────┘
显存利用率：~50%

PagedAttention：
┌───┬───┬───┬───┐
│ 1 │ 2 │ 1 │ 3 │ <- 物理块
├───┼───┼───┼───┤
│ 2 │ 3 │ 2 │ 1 │ <- 虚拟映射
├───┼───┼───┼───┤
│ 3 │ 1 │ 3 │ 2 │
└───┴───┴───┴───┘
显存利用率：接近满载

彻底消除了内存碎片，使显存利用率接近理论极限，从而支撑起惊人的 Continuous Batching 能力。

生产部署示例：

# 启动 OpenAI 兼容的 API 服务
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-3.1-8B-Instruct \
--tensor-parallel-size 2 \
--max-model-len 8192 \
--gpu-memory-utilization 0.9

# 客户端调用
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="token")
response = client.chat.completions.create(
    model="meta-llama/Llama-3.1-8B-Instruct",
    messages=[{"role":"user","content":"什么是推理引擎？"}],
    max_tokens=256)
print(response.choices[0].message.content)

关键配置参数：

参数	说明	推荐值
`--gpu-memory-utilization`	GPU 显存使用比例	0.85-0.95
`--max-num-seqs`	最大并发请求数	根据显存调整
`--tensor-parallel-size`	张量并行度	GPU 数量
`--enable-prefix-caching`	启用前缀缓存	Agent 场景开启

四、进阶生态：特化领域的"特种兵"

4.1 SGLang：为 Agent 和结构化输出而生

文章配图

虽然借鉴了 vLLM，但 SGLang 在复杂交互场景下走得更远，由 LMSYS 团队打造。

Radix Attention：智能前缀复用

它像 CPU 的 L2 Cache 一样工作。通过前缀树（Radix Tree）管理 KV Cache，自动识别并复用多轮对话中的公共前缀。

多轮对话场景：
Round 1: "System: 你是助手..." + "User: 问题 1" -> 生成回答 1
Round 2: "System: 你是助手..." + "User: 问题 1" + "AI: 回答 1" + "User: 问题 2"
↑________________公共前缀，直接复用 KV Cache________________↑

性能提升：在多轮/多调用、前缀高度复用的场景下，可显著减少重复 prefill 计算；官方材料报告吞吐可达最高 5x

结构化输出：Agent 开发的刚需

原生支持结构化输出约束（JSON Schema / Regex 等），这对于需要解析模型输出的 Agent 工具链来说是"刚需"。

import sglang as sgl

@sgl.function
def extract_info(s, text):
    s += "从以下文本中提取结构化信息：\n" + text
    # 使用正则约束输出格式
    s += sgl.gen("result", max_tokens=200, regex=r'\{"name": "[^"]+", "age": \d+\}')
    # 输出保证符合正则约束
    state = extract_info.run(text="张三今年 25 岁")
    print(state["result"]) # {"name": "张三", "age": 25}

SGLang vs vLLM 场景对比：

场景	推荐引擎	原因
简单问答 API	vLLM	生态成熟，部署简单
多轮对话	SGLang	RadixAttention 前缀复用带来显著加速
程序化编排/多阶段生成	SGLang	DSL 设计更贴合复杂工作流
结构化输出	两者皆可	vLLM 也支持 guided decoding

4.2 KTransformers：超大模型的单机折中方案

文章配图

针对 DeepSeek-V3、Mixtral 等巨型 MoE（Mixture of Experts）模型，KTransformers 提供了创新的调度策略。

异构卸载（Offload）原理：

利用 MoE 的稀疏激活特性——每次推理只激活部分专家——将非激活的专家权重留在 CPU/内存中，仅将激活的专家动态加载或计算。

DeepSeek-V3 架构 (671B 总参数，每次推理约 37B 激活):
┌─────────────────────────────────────────┐
│ GPU (24GB VRAM)                         │
│ ┌─────────────────────────────────┐     │
│ │ Attention + 当前激活的专家参数  │     │
│ └─────────────────────────────────┘     │
└─────────────────────────────────────────┘
⇕ 动态加载
┌─────────────────────────────────────────┐
│ CPU/RAM (382GB+)                        │
│ ┌─────────────────────────────────┐     │
│ │ 未被当前 token 路由到的参数      │     │
│ │ （主要来自未激活的专家权重）    │     │
│ └─────────────────────────────────┘     │
└─────────────────────────────────────────┘

注："37B 激活"包含始终参与计算的稠密参数 + 被路由选中的专家参数，并非简单的总参数减法。

这让单张 24G 显存的显卡运行百 B 级模型成为可能，但需注意"能跑"与"跑得快/实用"是两回事。

硬件配置参考（以 KTransformers 官方口径为准）：

模型	最低显存	最低内存	说明
DeepSeek-V3/R1	24GB	382GB	官方 README 明确要求
Qwen-72B	12GB	80GB+	视量化程度而定
Mixtral-8x22B	16GB	64GB+	MoE 稀疏激活

4.3 MindIE：国产算力的桥头堡

文章配图

华为 Ascend 官方重点推荐的推理引擎套件，是信创环境下的核心选择之一。

技术特点：

深度集成 CANN（Compute Architecture for Neural Networks）
针对 Ascend 310/910 系列芯片深度优化
支持 Atlas 800 等推理服务器

生态说明：

华为 MindIE 官方页面也将 vLLM/SGLang 列为 Text Generation 相关方案
社区存在独立的 vLLM-Ascend 项目
LMDeploy 也提供 Ascend 支持指南

五、性能基准测试参考

以下数据展示各引擎的相对性能趋势，帮助建立直观认知：

引擎	吞吐量趋势	首 Token 延迟	显存效率	并发能力
Transformers	基准 (1x)	较高	一般	低
vLLM	高 (3-5x)	低	高	高
SGLang	高 (3-5x)	低	高	高
llama.cpp (Q4)	中 (量化优势)	中	极高	中低

重要声明：上表为定性趋势对比，实际性能高度依赖以下因素：

模型：参数量、是否 GQA/MQA、是否 MoE
输入输出：Prompt 长度、生成长度、并发请求数
配置：是否启用 FlashAttention、prefix caching、CUDA Graph
引擎参数：max_num_seqs、block_size、量化方式等

六、实战建议：从选型到上线

6.1 选型决策树

开始
├─ 是否需要在消费级硬件/嵌入式运行？
├─ 是 → llama.cpp / Ollama
└─ 否 ↓
├─ 是否需要运行超大 MoE 模型？
├─ 是 → KTransformers
└─ 否 ↓
├─ 是否涉及复杂 Agent / 多轮对话？
├─ 是 → SGLang
└─ 否 ↓
└─ 默认选择 → vLLM

6.2 常见问题排查

问题现象	可能原因	解决方案
OOM（显存溢出）	max_model_len 过大	降低上下文长度或启用量化
吞吐量低	Batch 过小	调大 max_num_seqs
首 Token 延迟高	Prefill 瓶颈	升级 GPU 或启用 FlashAttention
输出格式不稳定	缺少约束	使用 SGLang 结构化输出

结语：没有最强的引擎，只有最合适的负载

回顾全文，每个引擎都有其独特的设计哲学和适用场景：

vLLM 解决了"如何在高并发下管好内存"
SGLang 解决了"如何在高复用下省掉计算"
llama.cpp 解决了"如何在普通硬件上跑得飞快"
KTransformers 解决了"如何用有限显存跑大模型"

理解这些引擎背后的资源调度逻辑，比单纯比拼 Benchmark 分数更能指导实际业务的落地。

在实际项目中，建议采用渐进式策略：

原型阶段：使用 Transformers 快速验证
开发阶段：切换到 vLLM/SGLang 进行性能调优
生产阶段：根据业务特征选择最优引擎并持续监控

技术在不断演进，保持对新特性的关注，才能在大模型落地的道路上走得更远。

vLLM、SGLang 与 llama.cpp 深度对比及选型指南

推理引擎——大模型落地的最后一公里

为什么推理引擎如此重要？

一、技术栈决策指南：一张表看透核心取向

💡 快速选型建议

二、核心概念前置：理解 LLM 推理的性能瓶颈

2.1 KV Cache：空间换时间的经典策略

2.2 Prefill vs Decode：两阶段的性能特征

2.3 Batching 策略演进

三、重点引擎深度解析：从通用到极致

3.1 Transformers：研究者的瑞士军刀

3.2 llama.cpp：边缘计算的王者

3.3 vLLM：生产环境的黄金标准

四、进阶生态：特化领域的"特种兵"

4.1 SGLang：为 Agent 和结构化输出而生

4.2 KTransformers：超大模型的单机折中方案

4.3 MindIE：国产算力的桥头堡

五、性能基准测试参考

六、实战建议：从选型到上线

6.1 选型决策树

6.2 常见问题排查

结语：没有最强的引擎，只有最合适的负载

vLLM、SGLang 与 llama.cpp 深度对比及选型指南

推理引擎——大模型落地的最后一公里

为什么推理引擎如此重要？

一、技术栈决策指南：一张表看透核心取向

💡 快速选型建议

二、核心概念前置：理解 LLM 推理的性能瓶颈

2.1 KV Cache：空间换时间的经典策略

2.2 Prefill vs Decode：两阶段的性能特征

2.3 Batching 策略演进

三、重点引擎深度解析：从通用到极致

3.1 Transformers：研究者的瑞士军刀

3.2 llama.cpp：边缘计算的王者

3.3 vLLM：生产环境的黄金标准

四、进阶生态：特化领域的"特种兵"

4.1 SGLang：为 Agent 和结构化输出而生

4.2 KTransformers：超大模型的单机折中方案

4.3 MindIE：国产算力的桥头堡

五、性能基准测试参考

六、实战建议：从选型到上线

6.1 选型决策树

6.2 常见问题排查

结语：没有最强的引擎，只有最合适的负载

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具