01 - 大模型推理框架选型入门：Ollama、llama.cpp与vLLM全景对比

本文是《大模型推理框架深度解析》系列的第一篇，适合刚接触LLM部署的开发者阅读。

写在前面

随着大语言模型（LLM）的广泛应用，如何将模型高效地部署到生产环境成为每个AI工程师必须面对的问题。目前市面上主流的推理框架有Ollama、llama.cpp和vLLM，但它们的技术定位、适用场景差异巨大。

很多开发者在选型时容易陷入误区：

用Ollama部署高并发API服务，结果吞吐量上不去
用vLLM跑边缘设备，发现资源占用过高
混淆llama.cpp和vLLM的定位，不知道何时该用哪个

本文将从架构分层视角出发，帮你建立清晰的选型认知。

一、三大框架的技术定位

1.1 三层架构视角

如果把LLM推理技术栈比作一座大厦，三个框架分别位于不同的楼层：

┌─────────────────────────────────────────────────────────────┐ │ 应用层（第3层） │ │ ┌─────────────┐ │ │ │ Ollama │ ← 一键式模型管理，类似Docker的体验 │ │ └─────────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ 推理引擎层（第2层） │ │ ┌─────────────┐ ┌─────────────────────────────────────┐ │ │ │ llama.cpp │ │ vLLM │ │ │ │ C++引擎 │ │ Python推理服务平台 │ │ │ └─────────────┘ └─────────────────────────────────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ 硬件加速层（第1层） │ │ CUDA / Metal / ROCm / AVX512 │ └─────────────────────────────────────────────────────────────┘

核心区别一句话总结：

Ollama：让开发者"开箱即用"的工具层
llama.cpp：追求极致轻量的C++推理引擎
vLLM：面向生产的高吞吐推理服务平台

1.2 各框架的本质定位

维度	Ollama	llama.cpp	vLLM
本质	模型管理工具	推理引擎库	推理服务框架
设计目标	开发便捷	跨平台兼容	高吞吐服务化
核心用户	开发者/研究者	嵌入式工程师	SRE/运维工程师
部署形态	单二进制文件	静态库/可执行文件	Python服务+API

1.3 Ollama的真相：llama.cpp的封装层

很多开发者不知道的是，Ollama底层调用的正是llama.cpp：

Ollama  → Modelfile解析 → GGUF模型下载 → llama.cpp推理引擎

场景	推荐框架	理由
本地开发测试	Ollama	一键安装，Modelfile灵活配置
MacBook Pro本地跑70B	llama.cpp	Metal后端优化，统一内存优势
边缘设备/嵌入式	llama.cpp	ARM NEON优化，低资源占用
高并发API服务	vLLM	连续批处理，PagedAttention
70B+大模型生产部署	vLLM	TP/PP分布式支持完善
MoE模型(DeepSeek)	vLLM	EP专家并行原生支持
CPU兜底/降级链路	llama.cpp	跨平台稳定，GGUF生态成熟

01 - 大模型推理框架选型入门：Ollama、llama.cpp与vLLM全景对比

01 - 大模型推理框架选型入门：Ollama、llama.cpp与vLLM全景对比

写在前面

一、三大框架的技术定位

1.1 三层架构视角

1.2 各框架的本质定位

1.3 Ollama的真相：llama.cpp的封装层

更多推荐文章

相关免费在线工具

二、适用场景速查表

2.1 按使用场景选型

2.2 按硬件环境选型

三、快速上手示例

3.1 Ollama：5分钟跑起来

3.2 llama.cpp：从源码构建

3.3 vLLM：生产级部署

四、常见误区澄清

误区1：Ollama可以替代vLLM用于生产

误区2：llama.cpp比vLLM慢，应该被淘汰

误区3：vLLM支持所有模型格式

五、系列文章预告

参考资源

文章标签

更多推荐文章

相关免费在线工具

01 - 大模型推理框架选型入门：Ollama、llama.cpp与vLLM全景对比

01 - 大模型推理框架选型入门：Ollama、llama.cpp与vLLM全景对比

写在前面

一、三大框架的技术定位

1.1 三层架构视角

1.2 各框架的本质定位

1.3 Ollama的真相：llama.cpp的封装层

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

二、适用场景速查表

2.1 按使用场景选型

2.2 按硬件环境选型

三、快速上手示例

3.1 Ollama：5分钟跑起来

3.2 llama.cpp：从源码构建

3.3 vLLM：生产级部署

四、常见误区澄清

误区1：Ollama可以替代vLLM用于生产

误区2：llama.cpp比vLLM慢，应该被淘汰

误区3：vLLM支持所有模型格式

五、系列文章预告

参考资源

文章标签

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具