大模型推理框架选型入门：Ollama、llama.cpp与vLLM对比

综述由AI生成对比了 Ollama、llama.cpp 和 vLLM 三大主流大模型推理框架。通过三层架构视角分析，明确 Ollama 为开箱即用工具层，llama.cpp 为轻量级引擎，vLLM 为高吞吐服务框架。文章提供了按场景（本地开发、边缘设备、高并发 API）和硬件环境（CPU、GPU、Apple Silicon）的选型速查表，并给出快速上手命令示例及常见误区澄清，帮助开发者根据实际需求选择合适的部署方案。

王者发布于 2026/4/5更新于 2026/5/2434 浏览

大模型推理框架选型入门：Ollama、llama.cpp与vLLM对比

随着大语言模型（LLM）的广泛应用，如何将模型高效地部署到生产环境成为每个 AI 工程师必须面对的问题。目前市面上主流的推理框架有 Ollama、llama.cpp 和 vLLM，但它们的技术定位、适用场景差异巨大。

很多开发者在选型时容易陷入误区：

用 Ollama 部署高并发 API 服务，结果吞吐量上不去
用 vLLM 跑边缘设备，发现资源占用过高
混淆 llama.cpp 和 vLLM 的定位，不知道何时该用哪个

本文将从架构分层视角出发，帮你建立清晰的选型认知。

一、三大框架的技术定位

1.1 三层架构视角

如果把 LLM 推理技术栈比作一座大厦，三个框架分别位于不同的楼层：

┌─────────────────────────────────────────────────────────────┐
│ 应用层（第 3 层）                                             │
│ ┌─────────────┐                                              │
│ │ Ollama      │ ← 一键式模型管理，类似 Docker 的体验         │
│ └─────────────┘                                              │
├─────────────────────────────────────────────────────────────┤
│ 推理引擎层（第 2 层）                                         │
│ ┌─────────────┐ ┌─────────────────────────────────────┐     │
│ │ llama.cpp   │ │ vLLM                                │     │
│ │ C++ 引擎    │ │ Python 推理服务平台                 │     │
│ └─────────────┘ └─────────────────────────────────────┘     │
├─────────────────────────────────────────────────────────────┤
│ 硬件加速层（第 1 层）                                         │
│ CUDA / Metal / ROCm / AVX512                                │
└─────────────────────────────────────────────────────────────┘

核心区别一句话总结：

Ollama：让开发者'开箱即用'的工具层
llama.cpp：追求极致轻量的 C++ 推理引擎
vLLM：面向生产的高吞吐推理服务平台

1.2 各框架的本质定位

维度	Ollama	llama.cpp	vLLM
本质	模型管理工具	推理引擎库	推理服务框架
设计目标	开发便捷	跨平台兼容	高吞吐服务化
核心用户	开发者/研究者	嵌入式工程师	SRE/运维工程师
部署形态	单二进制文件	静态库/可执行文件	Python 服务+API

1.3 Ollama 的真相：llama.cpp 的封装层

很多开发者不知道的是，Ollama 底层调用的正是 llama.cpp：

Ollama  → Modelfile 解析 → GGUF 模型下载 → llama.cpp 推理引擎

大模型推理框架选型入门：Ollama、llama.cpp与vLLM对比

很多开发者在选型时容易陷入误区：

用 Ollama 部署高并发 API 服务，结果吞吐量上不去
用 vLLM 跑边缘设备，发现资源占用过高
混淆 llama.cpp 和 vLLM 的定位，不知道何时该用哪个

本文将从架构分层视角出发，帮你建立清晰的选型认知。

一、三大框架的技术定位

1.1 三层架构视角

如果把 LLM 推理技术栈比作一座大厦，三个框架分别位于不同的楼层：

┌─────────────────────────────────────────────────────────────┐
│ 应用层（第 3 层）                                             │
│ ┌─────────────┐                                              │
│ │ Ollama      │ ← 一键式模型管理，类似 Docker 的体验         │
│ └─────────────┘                                              │
├─────────────────────────────────────────────────────────────┤
│ 推理引擎层（第 2 层）                                         │
│ ┌─────────────┐ ┌─────────────────────────────────────┐     │
│ │ llama.cpp   │ │ vLLM                                │     │
│ │ C++ 引擎    │ │ Python 推理服务平台                 │     │
│ └─────────────┘ └─────────────────────────────────────┘     │
├─────────────────────────────────────────────────────────────┤
│ 硬件加速层（第 1 层）                                         │
│ CUDA / Metal / ROCm / AVX512                                │
└─────────────────────────────────────────────────────────────┘

核心区别一句话总结：

Ollama：让开发者'开箱即用'的工具层
llama.cpp：追求极致轻量的 C++ 推理引擎
vLLM：面向生产的高吞吐推理服务平台

1.2 各框架的本质定位

维度	Ollama	llama.cpp	vLLM
本质	模型管理工具	推理引擎库	推理服务框架
设计目标	开发便捷	跨平台兼容	高吞吐服务化
核心用户	开发者/研究者	嵌入式工程师	SRE/运维工程师
部署形态	单二进制文件	静态库/可执行文件	Python 服务+API

1.3 Ollama 的真相：llama.cpp 的封装层

很多开发者不知道的是，Ollama 底层调用的正是 llama.cpp：

Ollama  → Modelfile 解析 → GGUF 模型下载 → llama.cpp 推理引擎

场景	推荐框架	理由
本地开发测试	Ollama	一键安装，Modelfile 灵活配置
MacBook Pro 本地跑 70B	llama.cpp	Metal 后端优化，统一内存优势
边缘设备/嵌入式	llama.cpp	ARM NEON 优化，低资源占用
高并发 API 服务	vLLM	连续批处理，PagedAttention
70B+ 大模型生产部署	vLLM	TP/PP 分布式支持完善
MoE 模型 (DeepSeek)	vLLM	EP 专家并行原生支持
CPU 兜底/降级链路	llama.cpp	跨平台稳定，GGUF 生态成熟

大模型推理框架选型入门：Ollama、llama.cpp与vLLM对比

大模型推理框架选型入门：Ollama、llama.cpp与vLLM对比

一、三大框架的技术定位

1.1 三层架构视角

1.2 各框架的本质定位

1.3 Ollama 的真相：llama.cpp 的封装层

大模型推理框架选型入门：Ollama、llama.cpp与vLLM对比

大模型推理框架选型入门：Ollama、llama.cpp与vLLM对比

一、三大框架的技术定位

1.1 三层架构视角

1.2 各框架的本质定位

1.3 Ollama 的真相：llama.cpp 的封装层

更多推荐文章

相关免费在线工具

二、适用场景速查表

2.1 按使用场景选型

2.2 按硬件环境选型

三、快速上手示例

3.1 Ollama：5 分钟跑起来

3.2 llama.cpp：从源码构建

3.3 vLLM：生产级部署

四、常见误区澄清

误区 1：Ollama 可以替代 vLLM 用于生产

误区 2：llama.cpp 比 vLLM 慢，应该被淘汰

误区 3：vLLM 支持所有模型格式

参考资源

更多推荐文章

相关免费在线工具

大模型推理框架选型入门：Ollama、llama.cpp与vLLM对比

大模型推理框架选型入门：Ollama、llama.cpp与vLLM对比

一、三大框架的技术定位

1.1 三层架构视角

1.2 各框架的本质定位

1.3 Ollama 的真相：llama.cpp 的封装层

大模型推理框架选型入门：Ollama、llama.cpp与vLLM对比

大模型推理框架选型入门：Ollama、llama.cpp与vLLM对比

一、三大框架的技术定位

1.1 三层架构视角

1.2 各框架的本质定位

1.3 Ollama 的真相：llama.cpp 的封装层

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

二、适用场景速查表

2.1 按使用场景选型

2.2 按硬件环境选型

三、快速上手示例

3.1 Ollama：5 分钟跑起来

3.2 llama.cpp：从源码构建

3.3 vLLM：生产级部署

四、常见误区澄清

误区 1：Ollama 可以替代 vLLM 用于生产

误区 2：llama.cpp 比 vLLM 慢，应该被淘汰

误区 3：vLLM 支持所有模型格式

参考资源

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具