01 - 大模型推理框架选型入门：Ollama、llama.cpp与vLLM全景对比

优质文章学习记录

08 Apr 2026 — 5 min read

01 - 大模型推理框架选型入门：Ollama、llama.cpp与vLLM全景对比

本文是《大模型推理框架深度解析》系列的第一篇，适合刚接触LLM部署的开发者阅读。

写在前面

随着大语言模型（LLM）的广泛应用，如何将模型高效地部署到生产环境成为每个AI工程师必须面对的问题。目前市面上主流的推理框架有Ollama、llama.cpp和vLLM，但它们的技术定位、适用场景差异巨大。

很多开发者在选型时容易陷入误区：

用Ollama部署高并发API服务，结果吞吐量上不去
用vLLM跑边缘设备，发现资源占用过高
混淆llama.cpp和vLLM的定位，不知道何时该用哪个

本文将从架构分层视角出发，帮你建立清晰的选型认知。

一、三大框架的技术定位

1.1 三层架构视角

如果把LLM推理技术栈比作一座大厦，三个框架分别位于不同的楼层：

┌─────────────────────────────────────────────────────────────┐ │ 应用层（第3层） │ │ ┌─────────────┐ │ │ │ Ollama │ ← 一键式模型管理，类似Docker的体验 │ │ └─────────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ 推理引擎层（第2层） │ │ ┌─────────────┐ ┌─────────────────────────────────────┐ │ │ │ llama.cpp │ │ vLLM │ │ │ │ C++引擎 │ │ Python推理服务平台 │ │ │ └─────────────┘ └─────────────────────────────────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ 硬件加速层（第1层） │ │ CUDA / Metal / ROCm / AVX512 │ └─────────────────────────────────────────────────────────────┘

核心区别一句话总结：

Ollama：让开发者"开箱即用"的工具层
llama.cpp：追求极致轻量的C++推理引擎
vLLM：面向生产的高吞吐推理服务平台

1.2 各框架的本质定位

维度	Ollama	llama.cpp	vLLM
本质	模型管理工具	推理引擎库	推理服务框架
设计目标	开发便捷	跨平台兼容	高吞吐服务化
核心用户	开发者/研究者	嵌入式工程师	SRE/运维工程师
部署形态	单二进制文件	静态库/可执行文件	Python服务+API

1.3 Ollama的真相：llama.cpp的封装层

很多开发者不知道的是，Ollama底层调用的正是llama.cpp：

Ollama CLI → Modelfile解析 → GGUF模型下载 → llama.cpp推理引擎

这意味着：

Ollama的"简单"是有代价的——它隐藏了llama.cpp的精细调参能力
在高并发场景下，Ollama的HTTP层成为瓶颈
生产环境建议绕过Ollama，直接使用底层引擎

二、适用场景速查表

2.1 按使用场景选型

场景	推荐框架	理由
本地开发测试	Ollama	一键安装，Modelfile灵活配置
MacBook Pro本地跑70B	llama.cpp	Metal后端优化，统一内存优势
边缘设备/嵌入式	llama.cpp	ARM NEON优化，低资源占用
高并发API服务	vLLM	连续批处理，PagedAttention
70B+大模型生产部署	vLLM	TP/PP分布式支持完善
MoE模型(DeepSeek)	vLLM	EP专家并行原生支持
CPU兜底/降级链路	llama.cpp	跨平台稳定，GGUF生态成熟

2.2 按硬件环境选型

无GPU环境：

# 唯一选择：llama.cpp ./llama-cli -m model.gguf --threads 32

单卡消费级GPU（RTX 4090 24GB）：

# 7B-13B模型：vLLM或llama.cpp均可# 70B模型：必须用量化版 + vLLM vllm serve --model llama-70b-awq --quantization awq

多卡数据中心GPU（A100/H100）：

# vLLM是最佳选择 vllm serve --model llama-405b --tensor-parallel-size 8

Apple Silicon（M1/M2/M3）：

# llama.cpp Metal后端最优 ./llama-cli -m model.gguf -ngl 99# 全部层卸载到GPU

三、快速上手示例

3.1 Ollama：5分钟跑起来

# 安装curl -fsSL https://ollama.com/install.sh |sh# 拉取并运行模型 ollama run llama3.1:70b # 自定义Modelfilecat> Modelfile <<'EOF' FROM llama3.1:70b PARAMETER temperature 0.7 PARAMETER top_p 0.9 SYSTEM "你是一个专业的编程助手" EOF ollama create my-model -f Modelfile

3.2 llama.cpp：从源码构建

# 克隆并编译git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp make -j LLAMA_CUDA=1# NVIDIA GPU# 下载GGUF模型并运行 ./llama-cli \ -m models/llama-3.1-70b-Q4_K_M.gguf \ --ctx-size 32768\ --threads 32\ -ngl 99# GPU层数，99表示全部

3.3 vLLM：生产级部署

# pip安装 pip install vllm # 启动服务 vllm serve meta-llama/Llama-3.1-70B \ --tensor-parallel-size 4\ --gpu-memory-utilization 0.85\ --max-model-len 32768\ --enable-prefix-caching # 调用APIcurl http://localhost:8000/v1/completions \ -H "Content-Type: application/json"\ -d '{ "model": "meta-llama/Llama-3.1-70B", "prompt": "Hello,", "max_tokens": 100 }'

四、常见误区澄清

误区1：Ollama可以替代vLLM用于生产

真相：Ollama的HTTP层和调度逻辑在高并发下会成为瓶颈。实测数据显示，相同硬件下vLLM的吞吐量是Ollama的3-5倍。

误区2：llama.cpp比vLLM慢，应该被淘汰

真相：llama.cpp在CPU推理和边缘设备场景下是最佳选择。它的跨平台能力和GGUF生态是vLLM无法替代的。

误区3：vLLM支持所有模型格式

真相：vLLM主要支持HuggingFace格式（safetensors/bin），而llama.cpp专注于GGUF。选型前需要确认模型格式支持。

五、系列文章预告

本文是系列的开篇，后续将深入各个技术细节：

02 - 量化与性能：GGUF、AWQ、GPTQ的原理差异与性能基准
03 - KV Cache与批处理：PagedAttention如何让内存利用率从60%提升到95%
04 - 分布式推理：TP/PP/EP并行策略的原理与配置
05 - 生产架构：Kubernetes部署与混合链路设计
06 - 故障排查：监控指标、性能调优与故障演练

参考资源

文章标签

大模型推理LLM部署vLLMllama.cppOllamaAI工程化模型量化

解锁AIGC新时代：通义万相2.1与蓝耘智算平台的完美结合引领AI内容生成革命

前言通义万相2.1作为一个开源的视频生成AI模型，在发布当天便荣登了VBench排行榜的榜首，超越了Sora和Runway等业内巨头，展现出惊人的潜力。模型不仅能够生成1080P分辨率的视频，而且没有时长限制，能够模拟自然动作，甚至还可以还原物理规律，这在AIGC领域中简直堪称革命性突破。通过蓝耘智算平台，我们能够轻松部署这个模型，创建属于自己的AI视频生成工具。今天，我将为大家深入探讨通义万相2.1的强大功能，并分享如何利用蓝耘智算平台快速入门。蓝耘智算平台 1. 平台概述蓝耘智算平台是一个为高性能计算需求设计的云计算平台，提供强大的计算能力与灵活服务。平台基于领先的基础设施和大规模GPU算力，采用现代化的Kubernetes架构，专为大规模GPU加速工作负载而设计，满足用户多样化的需求。 2. 核心优势 * 硬件层：蓝耘智算平台支持多型号GPU，包括NVIDIA A100、V100、H100等高性能显卡，能够通过高速网络实现多机多卡并行计算，突破单机算力瓶颈。 * 软件层：集成Kubernetes与Docker技术，便于任务迁移与隔离；支持PyTo

【记录】Copilot｜Github Copilot重新学生认证通过方法（2025年7月，包括2FA和认证材料、Why are you not on campus）

文章目录 * 前言 * 步骤 * 最重要的一步前言事实上，Github Copilot马上就要开源了，我原本的认证过期了。但是在我体验了众多的代码补全工具实在是太难用了之后，我觉得一天也等不了了，就去再一次认证了学生认证。这次严格了很多，要求巨无敌多，这里写一下新认证要干的事情。一口气认证了八次的含金量谁懂，把要踩的坑全踩完了。。步骤（如果你是第一次认证还要额外添加一下自己的学校邮箱，这里我就略过不提了）在所有的步骤之前，最好确保你的本人就在学校或者在学校附近。当你出现了报错You appear not to be near any campus location for the school you have selected.时，会非常难通过。而其他的报错可以按我下文这种方式通过。（对于部分学校，比如华科大）双重认证Two-factor authentication要打开：跳转这个网站https://github.com/settings/security，然后点下一步开启认证，

NVIDIA Isaac Sim 结合 ROS2 在无人机室内导航的应用：从仿真到实战的全维度解析

前言：室内导航的技术困境与仿真革命在天津某冷链物流中心的深夜，一架四旋翼无人机正试图穿过仅 0.8 米宽的货架通道。机腹的深度相机在低温下闪烁着蓝光，却因货架金属表面的反光产生了大量噪点。地面控制终端上，定位坐标如同醉酒般摇摆 —— 这不是设备故障，而是室内无人机导航面临的典型挑战。当 GPS 信号被混凝土墙体完全屏蔽，当 Wi-Fi 信号在密集货架间剧烈波动，当视觉传感器被光照变化和相似场景迷惑，无人机如何像在室外那样自如穿梭？这个问题的答案藏在两个技术领域的交叉点上：高保真仿真平台与机器人操作系统。NVIDIA Isaac Sim 作为基于 Omniverse 的物理精确仿真环境，提供了从像素到牛顿的全尺度模拟能力；而 ROS2（Robot Operating System 2）则作为机器人控制的 "神经中枢"，实现了感知、决策与执行的模块化协作。当这两者结合，不仅解决了室内导航算法开发的成本与风险问题，更构建了一条从虚拟测试到物理部署的无缝桥梁。本文将以 4 万字篇幅，通过 50

深入解析VR与AR：从技术原理到未来图景

引言虚拟现实（VR）和增强现实（AR）正逐步从科幻概念演变为改变我们工作、娱乐和社交方式的核心技术。它们通过数字内容与现实世界的融合，重塑了人机交互的边界。本文将系统分析两者的定义、技术架构、应用场景、当前挑战及未来趋势，帮助您全面理解这一变革性领域。一、核心定义与区别维度虚拟现实 (VR)增强现实 (AR)混合现实 (MR)概念完全由计算机生成的虚拟环境，用户沉浸其中，与物理世界隔绝将数字信息叠加到真实世界之上，用户同时看到虚实内容数字对象与真实世界实时交互，并相互影响（AR的进阶）沉浸感完全沉浸（封闭式）部分沉浸（透视式）虚实融合，具有空间锚定和物理交互典型设备Oculus Quest, HTC Vive, PlayStation VRMicrosoft HoloLens, Google Glass, 手机AR（ARKit/ARCore）Microsoft HoloLens 2, Magic Leap核心技术头显显示、