大模型推理框架选型入门：Ollama、llama.cpp 与 vLLM 全景对比

随着大语言模型（LLM）的广泛应用，如何将模型高效地部署到生产环境成为每个 AI 工程师必须面对的问题。目前市面上主流的推理框架有 Ollama、llama.cpp 和 vLLM，但它们的技术定位、适用场景差异巨大。

很多开发者在选型时容易陷入误区：

用 Ollama 部署高并发 API 服务，结果吞吐量上不去
用 vLLM 跑边缘设备，发现资源占用过高
混淆 llama.cpp 和 vLLM 的定位，不知道何时该用哪个

本文将从架构分层视角出发，帮你建立清晰的选型认知。

一、三大框架的技术定位

1.1 三层架构视角

如果把 LLM 推理技术栈比作一座大厦，三个框架分别位于不同的楼层：

┌─────────────────────────────────────────────────────────────┐
│ 应用层（第 3 层）                                             │
│ ┌─────────────┐                                              │
│ │ Ollama      │ ← 一键式模型管理，类似 Docker 的体验         │
│ └─────────────┘                                              │
├─────────────────────────────────────────────────────────────┤
│ 推理引擎层（第 2 层）                                         │
│ ┌─────────────┐ ┌─────────────────────────────────────┐     │
│ │ llama.cpp   │ │ vLLM                                │     │
│ │ C++ 引擎    │ │ Python 推理服务平台                   │     │
│ └─────────────┘ └─────────────────────────────────────┘     │
├─────────────────────────────────────────────────────────────┤
│ 硬件加速层（第 1 层）                                         │
│ CUDA / Metal / ROCm / AVX512                                 │
└─────────────────────────────────────────────────────────────┘

核心区别一句话总结：

Ollama：让开发者'开箱即用'的工具层
llama.cpp：追求极致轻量的 C++ 推理引擎
vLLM：面向生产的高吞吐推理服务平台

1.2 各框架的本质定位

维度	Ollama	llama.cpp	vLLM
本质	模型管理工具	推理引擎库	推理服务框架
设计目标	开发便捷	跨平台兼容	高吞吐服务化
核心用户	开发者/研究者	嵌入式工程师	SRE/运维工程师
部署形态	单二进制文件	静态库/可执行文件	Python 服务+API

场景	推荐框架	理由
本地开发测试	Ollama	一键安装，Modelfile 灵活配置
MacBook Pro 本地跑 70B	llama.cpp	Metal 后端优化，统一内存优势
边缘设备/嵌入式	llama.cpp	ARM NEON 优化，低资源占用
高并发 API 服务	vLLM	连续批处理，PagedAttention
70B+ 大模型生产部署	vLLM	TP/PP 分布式支持完善
MoE 模型 (DeepSeek)	vLLM	EP 专家并行原生支持
CPU 兜底/降级链路	llama.cpp	跨平台稳定，GGUF 生态成熟

大模型推理框架选型入门：Ollama、llama.cpp 与 vLLM 全景对比

大模型推理框架选型入门：Ollama、llama.cpp 与 vLLM 全景对比

一、三大框架的技术定位

1.1 三层架构视角

1.2 各框架的本质定位

更多推荐文章

相关免费在线工具

1.3 Ollama 的真相：llama.cpp 的封装层

二、适用场景速查表

2.1 按使用场景选型

2.2 按硬件环境选型

三、快速上手示例

3.1 Ollama：5 分钟跑起来

3.2 llama.cpp：从源码构建

3.3 vLLM：生产级部署

四、常见误区澄清

误区 1：Ollama 可以替代 vLLM 用于生产

误区 2：llama.cpp 比 vLLM 慢，应该被淘汰

误区 3：vLLM 支持所有模型格式

参考资源

更多推荐文章

相关免费在线工具

大模型推理框架选型入门：Ollama、llama.cpp 与 vLLM 全景对比

大模型推理框架选型入门：Ollama、llama.cpp 与 vLLM 全景对比

一、三大框架的技术定位

1.1 三层架构视角

1.2 各框架的本质定位

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.3 Ollama 的真相：llama.cpp 的封装层

二、适用场景速查表

2.1 按使用场景选型

2.2 按硬件环境选型

三、快速上手示例

3.1 Ollama：5 分钟跑起来

3.2 llama.cpp：从源码构建

3.3 vLLM：生产级部署

四、常见误区澄清

误区 1：Ollama 可以替代 vLLM 用于生产

误区 2：llama.cpp 比 vLLM 慢，应该被淘汰

误区 3：vLLM 支持所有模型格式

参考资源

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具