01 - 大模型推理框架选型入门：Ollama、llama.cpp与vLLM全景对比

优质文章学习记录

07 Apr 2026 — 5 min read

01 - 大模型推理框架选型入门：Ollama、llama.cpp与vLLM全景对比

本文是《大模型推理框架深度解析》系列的第一篇，适合刚接触LLM部署的开发者阅读。

写在前面

随着大语言模型（LLM）的广泛应用，如何将模型高效地部署到生产环境成为每个AI工程师必须面对的问题。目前市面上主流的推理框架有Ollama、llama.cpp和vLLM，但它们的技术定位、适用场景差异巨大。

很多开发者在选型时容易陷入误区：

用Ollama部署高并发API服务，结果吞吐量上不去
用vLLM跑边缘设备，发现资源占用过高
混淆llama.cpp和vLLM的定位，不知道何时该用哪个

本文将从架构分层视角出发，帮你建立清晰的选型认知。

一、三大框架的技术定位

1.1 三层架构视角

如果把LLM推理技术栈比作一座大厦，三个框架分别位于不同的楼层：

┌─────────────────────────────────────────────────────────────┐ │ 应用层（第3层） │ │ ┌─────────────┐ │ │ │ Ollama │ ← 一键式模型管理，类似Docker的体验 │ │ └─────────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ 推理引擎层（第2层） │ │ ┌─────────────┐ ┌─────────────────────────────────────┐ │ │ │ llama.cpp │ │ vLLM │ │ │ │ C++引擎 │ │ Python推理服务平台 │ │ │ └─────────────┘ └─────────────────────────────────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ 硬件加速层（第1层） │ │ CUDA / Metal / ROCm / AVX512 │ └─────────────────────────────────────────────────────────────┘

核心区别一句话总结：

Ollama：让开发者"开箱即用"的工具层
llama.cpp：追求极致轻量的C++推理引擎
vLLM：面向生产的高吞吐推理服务平台

1.2 各框架的本质定位

维度	Ollama	llama.cpp	vLLM
本质	模型管理工具	推理引擎库	推理服务框架
设计目标	开发便捷	跨平台兼容	高吞吐服务化
核心用户	开发者/研究者	嵌入式工程师	SRE/运维工程师
部署形态	单二进制文件	静态库/可执行文件	Python服务+API

1.3 Ollama的真相：llama.cpp的封装层

很多开发者不知道的是，Ollama底层调用的正是llama.cpp：

Ollama CLI → Modelfile解析 → GGUF模型下载 → llama.cpp推理引擎

这意味着：

Ollama的"简单"是有代价的——它隐藏了llama.cpp的精细调参能力
在高并发场景下，Ollama的HTTP层成为瓶颈
生产环境建议绕过Ollama，直接使用底层引擎

二、适用场景速查表

2.1 按使用场景选型

场景	推荐框架	理由
本地开发测试	Ollama	一键安装，Modelfile灵活配置
MacBook Pro本地跑70B	llama.cpp	Metal后端优化，统一内存优势
边缘设备/嵌入式	llama.cpp	ARM NEON优化，低资源占用
高并发API服务	vLLM	连续批处理，PagedAttention
70B+大模型生产部署	vLLM	TP/PP分布式支持完善
MoE模型(DeepSeek)	vLLM	EP专家并行原生支持
CPU兜底/降级链路	llama.cpp	跨平台稳定，GGUF生态成熟

2.2 按硬件环境选型

无GPU环境：

# 唯一选择：llama.cpp ./llama-cli -m model.gguf --threads 32

单卡消费级GPU（RTX 4090 24GB）：

# 7B-13B模型：vLLM或llama.cpp均可# 70B模型：必须用量化版 + vLLM vllm serve --model llama-70b-awq --quantization awq

多卡数据中心GPU（A100/H100）：

# vLLM是最佳选择 vllm serve --model llama-405b --tensor-parallel-size 8

Apple Silicon（M1/M2/M3）：

# llama.cpp Metal后端最优 ./llama-cli -m model.gguf -ngl 99# 全部层卸载到GPU

三、快速上手示例

3.1 Ollama：5分钟跑起来

# 安装curl -fsSL https://ollama.com/install.sh |sh# 拉取并运行模型 ollama run llama3.1:70b # 自定义Modelfilecat> Modelfile <<'EOF' FROM llama3.1:70b PARAMETER temperature 0.7 PARAMETER top_p 0.9 SYSTEM "你是一个专业的编程助手" EOF ollama create my-model -f Modelfile

3.2 llama.cpp：从源码构建

# 克隆并编译git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp make -j LLAMA_CUDA=1# NVIDIA GPU# 下载GGUF模型并运行 ./llama-cli \ -m models/llama-3.1-70b-Q4_K_M.gguf \ --ctx-size 32768\ --threads 32\ -ngl 99# GPU层数，99表示全部

3.3 vLLM：生产级部署

# pip安装 pip install vllm # 启动服务 vllm serve meta-llama/Llama-3.1-70B \ --tensor-parallel-size 4\ --gpu-memory-utilization 0.85\ --max-model-len 32768\ --enable-prefix-caching # 调用APIcurl http://localhost:8000/v1/completions \ -H "Content-Type: application/json"\ -d '{ "model": "meta-llama/Llama-3.1-70B", "prompt": "Hello,", "max_tokens": 100 }'

四、常见误区澄清

误区1：Ollama可以替代vLLM用于生产

真相：Ollama的HTTP层和调度逻辑在高并发下会成为瓶颈。实测数据显示，相同硬件下vLLM的吞吐量是Ollama的3-5倍。

误区2：llama.cpp比vLLM慢，应该被淘汰

真相：llama.cpp在CPU推理和边缘设备场景下是最佳选择。它的跨平台能力和GGUF生态是vLLM无法替代的。

误区3：vLLM支持所有模型格式

真相：vLLM主要支持HuggingFace格式（safetensors/bin），而llama.cpp专注于GGUF。选型前需要确认模型格式支持。

五、系列文章预告

本文是系列的开篇，后续将深入各个技术细节：

02 - 量化与性能：GGUF、AWQ、GPTQ的原理差异与性能基准
03 - KV Cache与批处理：PagedAttention如何让内存利用率从60%提升到95%
04 - 分布式推理：TP/PP/EP并行策略的原理与配置
05 - 生产架构：Kubernetes部署与混合链路设计
06 - 故障排查：监控指标、性能调优与故障演练

参考资源

文章标签

大模型推理LLM部署vLLMllama.cppOllamaAI工程化模型量化

10分钟零代码！用OpenClaw搭建私人微信AI助理，彻底解放双手

做了这么久AI应用落地，我被问得最多的问题就是：“能不能给我的微信整个AI助理，自动回消息、管日程、汇总群聊？” 说实话，这个需求我自己折腾了快两年，踩过的坑能绕开三圈： * 最早用itchat、wechaty写Python脚本，代码写了几百行，调试了半个月，结果用了不到3天，微信直接限制登录，差点把主号搞封了； * 后来用企业微信机器人，只能在企业群里用，个人微信、私域群完全用不了，局限性拉满； * 再后来试了市面上的第三方SaaS工具，要么是按月付费贵得离谱，要么是所有聊天数据都要传到人家服务器，客户信息、私人聊天全泄露了，根本不敢用； * 最头疼的是，所有方案都要写代码、调接口、搭环境，新手根本无从下手，就算是开发者，也要折腾好几天才能跑通。直到我把OpenClaw部署落地后，这个问题被彻底解决了。不用写一行代码，不用研究微信协议，不用申请任何企业资质，10分钟就能搭好一个完全私有化的微信AI助理，消息自动回复、群聊汇总、日程提醒、待办管理全搞定，而且数据全在本地，大模型可以接本地开源的，完全不用担心隐私泄露，封号风险也降到了最低。这篇文章，我就用保姆级的步骤

云边端一体化解析：什么是云边端，为何能成为AI基础设施核心

云边端一体化解析：什么是云边端，为何能成为AI基础设施核心 📚 本章学习目标：深入理解什么是云边端，为何能成为AI基础设施核心的核心概念与实践方法，掌握关键技术要点，了解实际应用场景与最佳实践。本文属于《云原生、云边端一体化与算力基建：AI时代基础设施革命教程》云原生入门篇（第一阶段）。在上一章，我们学习了"云原生入门：新手必懂的云原生核心定义与核心价值"。本章，我们将深入探讨什么是云边端，为何能成为AI基础设施核心，这是云原生与AI基础设施学习中非常重要的一环。一、核心概念与背景 1.1 什么是什么是云边端，为何能成为AI基础设施核心 💡 基本定义：什么是云边端，为何能成为AI基础设施核心是云原生与AI基础设施领域的核心知识点之一。掌握这项技能对于提升云原生架构设计能力和AI应用落地效果至关重要。 # 云原生基础命令示例# Docker容器操作docker run -d--name myapp nginx:latest dockerpsdocker logs myapp # Kubernetes基础操作 kubectl get pods -n default

Llama-3.2V-11B-cot部署避坑指南：视觉权重加载致命Bug修复原理与验证方法

Llama-3.2V-11B-cot部署避坑指南：视觉权重加载致命Bug修复原理与验证方法 1. 项目背景与核心价值 Llama-3.2V-11B-cot是基于Meta最新多模态大模型开发的高性能视觉推理工具，专为双卡RTX 4090环境深度优化。该工具最大的突破是彻底解决了困扰开发者的视觉权重加载致命Bug，同时保留了完整的Chain of Thought（CoT）逻辑推演能力。对于想要体验Llama多模态大模型的开发者而言，这个工具解决了三个核心痛点： * 视觉权重加载失败导致模型"失明"的问题 * 双卡环境显存分配不合理的OOM报错 * 复杂参数配置带来的高学习门槛 2. 致命Bug修复原理详解 2.1 视觉权重加载Bug现象在原始版本中，当尝试加载视觉编码器权重时，会出现以下典型错误： RuntimeError: Error(s) in loading state_dict for CLIPVisionModel: size mismatch for vision_model.embeddings.position_embedding.weight

Stable Diffusion XL 1.0开源镜像部署：灵感画廊Noto Serif SC中文字体渲染教程

Stable Diffusion XL 1.0开源镜像部署：灵感画廊Noto Serif SC中文字体渲染教程 “见微知著，凝光成影。将梦境的碎片，凝结为永恒的视觉诗篇。” 当你第一次打开“灵感画廊”时，可能会被它的界面所吸引。它不像常见的AI绘画工具那样充满冰冷的按钮和参数，反而像一本摊开的古籍，或是一间静谧的画室。宣纸般的底色，优雅的衬线字体，恰到好处的留白——这一切都让你感觉不是在操作软件，而是在进行一场艺术创作。这种独特的视觉体验，很大程度上归功于一个精心挑选的字体：Noto Serif SC。它让中文提示词“梦境描述”和“尘杂规避”显得格外有韵味，也让整个界面的文字排版充满了书卷气。今天，我们就来聊聊如何从零开始，部署这个充满艺术感的“灵感画廊”镜像，并深入探讨如何让它完美地渲染出Noto Serif SC中文字体，打造属于你自己的沉浸式AI创作空间。 1. 开篇：为什么是“灵感画廊”与Noto Serif