大模型推理框架选型入门:Ollama、llama.cpp 与 vLLM 对比
一、三大框架的技术定位
1.1 三层架构视角
如果把 LLM 推理技术栈比作一座大厦,三个框架分别位于不同的楼层:
┌─────────────────────────────────────────────────────────────┐ │ 应用层(第 层) │ │ ┌─────────────┐ │ │ │ Ollama │ ← 一键式模型管理,类似 Docker 的体验 │ │ └─────────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ 推理引擎层(第 层) │ │ ┌─────────────┐ ┌─────────────────────────────────────┐ │ │ │ llama.cpp │ │ vLLM │ │ │ │ C++ 引擎 │ │ Python 推理服务平台 │ │ │ └─────────────┘ └─────────────────────────────────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ 硬件加速层(第 层) │ │ CUDA / Metal / ROCm / │ └─────────────────────────────────────────────────────────────┘

