Ollama 底层架构：llama.cpp 与 GGUF 详解

综述由AI生成Ollama 运行的底层技术。GGUF 是大模型权重的通用压缩格式，支持量化以减小体积并适配多平台。llama.cpp 是轻量级推理引擎，专注于 CPU 优化和低内存占用。两者结合使得 Ollama 能在本地低配设备上快速运行大模型。文章对比了不同框架的优劣，并提供了 llama.cpp 的使用示例。

热情发布于 2026/4/5更新于 2026/5/2242 浏览

GGUF = 大模型权重的「通用压缩格式」（类似视频的 MP4，适配所有播放器） llama.cpp = 跑 GGUF 格式模型的「轻量级推理引擎」（类似视频播放器，能在低配电脑上流畅播 MP4）两者配合：GGUF 让模型体积变小、适配性强，llama.cpp 让模型能在 CPU / 低配 GPU 上快速跑这也是 Ollama 能做到'一键本地运行'的底层原因

GGUF 详解：大模型的'通用压缩包'

核心定义

GGUF（Generic GGML Format）是 GGML 格式的升级版，是专门为大模型权重设计的二进制存储格式核心目标是「通用、高效、压缩」

GGML 是什么？ GGML 最初是 Georgi Gerganov 为 llama.cpp 开发的轻量级机器学习张量库（核心是为 CPU 优化），早期大模型量化权重格式直接叫「GGML 格式」，但这个格式只适配 llama.cpp，通用性差

GGUF 为什么是'升级版'？随着 llama.cpp 支持的模型越来越多（Llama、Qwen、Phi 等），原 GGML 格式的局限性暴露（比如不支持多模态、跨框架适配差）因此在 2023 年底推出 GGUF，把'专属格式'升级为'通用格式'，全称里加「Generic」就是为了突出'通用'这个核心升级点

GGUF 的命名在 llama.cpp 官方仓库（https://github.com/ggerganov/llama.cpp）的 GGUF 规范文档中明确标注为「Generic GGML Format」

为什么需要 GGUF

早期大模型权重格式（如 PyTorch 的 .pth、Hugging Face 的 .bin）有如下问题：

体积大：7B 模型原生权重约 13GB，普通电脑装不下
适配差：不同推理框架（llama.cpp/transformers）需要转格式，门槛高
速度慢：原生权重不做优化，CPU 推理卡成幻灯片

GGUF 针对性解决

特性	说明
量化压缩	支持 4bit/8bit/16bit 量化，7B 模型从 13GB → 4GB（4bit），低配电脑（8G 内存）也能装下
通用适配	所有主流大模型（Llama 3/Qwen/Phi 3）都能转 GGUF，所有推理框架（llama.cpp/Ollama）都能读，不用为不同模型/框架反复转格式
加载加速	预编译权重结构，模型启动时间从分钟级 → 秒级，本地调用模型响应更快
跨平台	兼容 Windows/Mac/Linux/树莓派，甚至手机，任何设备都能跑

实战关联：Ollama 里的 GGUF

Ollama 下载的所有模型（如 llama3:7b），底层都是 GGUF 量化格式（默认 4bit/8bit），这也是它能在 Mac M1 / 老旧电脑上运行的关键

llama.cpp 详解：跑 GGUF 模型的'轻量级引擎'

核心定义

llama.cpp 是由开发者 Georgi Gerganov 开源的 C/C++ 编写的大模型推理框架最初只为跑 Llama 模型设计，现在支持所有 GGUF 格式的模型（Llama 3、Qwen、Gemini 等）

核心优势（为什么 Ollama 选它做底层）

优势	具体效果	对应 Ollama 的表现
纯 CPU 友好	极致优化 CPU 推理（用 SIMD / 多线程），不用高端 GPU 也能跑	Ollama 不用装 CUDA，普通电脑直接运行
极简轻量化	无依赖（不用装 Python/PyTorch/TensorFlow），编译后就一个可执行文件	Ollama 一键安装，不用配复杂环境

GGUF 详解：大模型的'通用压缩包'

核心定义

GGUF（Generic GGML Format）是 GGML 格式的升级版，是专门为大模型权重设计的二进制存储格式核心目标是「通用、高效、压缩」

GGUF 的命名在 llama.cpp 官方仓库（https://github.com/ggerganov/llama.cpp）的 GGUF 规范文档中明确标注为「Generic GGML Format」

为什么需要 GGUF

早期大模型权重格式（如 PyTorch 的 .pth、Hugging Face 的 .bin）有如下问题：

体积大：7B 模型原生权重约 13GB，普通电脑装不下
适配差：不同推理框架（llama.cpp/transformers）需要转格式，门槛高
速度慢：原生权重不做优化，CPU 推理卡成幻灯片

GGUF 针对性解决

特性	说明
量化压缩	支持 4bit/8bit/16bit 量化，7B 模型从 13GB → 4GB（4bit），低配电脑（8G 内存）也能装下
通用适配	所有主流大模型（Llama 3/Qwen/Phi 3）都能转 GGUF，所有推理框架（llama.cpp/Ollama）都能读，不用为不同模型/框架反复转格式
加载加速	预编译权重结构，模型启动时间从分钟级 → 秒级，本地调用模型响应更快
跨平台	兼容 Windows/Mac/Linux/树莓派，甚至手机，任何设备都能跑

实战关联：Ollama 里的 GGUF

Ollama 下载的所有模型（如 llama3:7b），底层都是 GGUF 量化格式（默认 4bit/8bit），这也是它能在 Mac M1 / 老旧电脑上运行的关键

llama.cpp 详解：跑 GGUF 模型的'轻量级引擎'

核心定义

llama.cpp 是由开发者 Georgi Gerganov 开源的 C/C++ 编写的大模型推理框架最初只为跑 Llama 模型设计，现在支持所有 GGUF 格式的模型（Llama 3、Qwen、Gemini 等）

核心优势（为什么 Ollama 选它做底层）

优势	具体效果	对应 Ollama 的表现
纯 CPU 友好	极致优化 CPU 推理（用 SIMD / 多线程），不用高端 GPU 也能跑	Ollama 不用装 CUDA，普通电脑直接运行
极简轻量化	无依赖（不用装 Python/PyTorch/TensorFlow），编译后就一个可执行文件	Ollama 一键安装，不用配复杂环境

框架 / 格式	核心特点
GGUF + llama.cpp	轻量、纯 CPU、低内存、跨平台
Hugging Face Transformers	功能全、支持所有模型、GPU 优化好
vLLM	高吞吐、动态批处理、GPU 专用

框架 / 格式	适用场景	缺点
GGUF + llama.cpp	本地低配设备、离线运行、快速原型	推理速度比 GPU 框架慢（适合轻量场景）
Hugging Face Transformers	云端 / 高端 GPU 部署、复杂微调	依赖多、低配设备跑不动、体积大
vLLM	高并发 API 服务、云端部署	仅支持 GPU、低配设备用不了

Ollama 底层架构：llama.cpp 与 GGUF 详解

GGUF 详解：大模型的'通用压缩包'

核心定义

为什么需要 GGUF

GGUF 针对性解决

实战关联：Ollama 里的 GGUF

llama.cpp 详解：跑 GGUF 模型的'轻量级引擎'

核心定义

核心优势（为什么 Ollama 选它做底层）

Ollama 底层架构：llama.cpp 与 GGUF 详解

GGUF 详解：大模型的'通用压缩包'

核心定义

为什么需要 GGUF

GGUF 针对性解决

实战关联：Ollama 里的 GGUF

llama.cpp 详解：跑 GGUF 模型的'轻量级引擎'

核心定义

核心优势（为什么 Ollama 选它做底层）

更多推荐文章

相关免费在线工具

极简使用示例

llama.cpp + GGUF 与 Ollama 的关系

和其他推理框架的对比

更多推荐文章

相关免费在线工具

Ollama 底层架构：llama.cpp 与 GGUF 详解

GGUF 详解：大模型的'通用压缩包'

核心定义

为什么需要 GGUF

GGUF 针对性解决

实战关联：Ollama 里的 GGUF

llama.cpp 详解：跑 GGUF 模型的'轻量级引擎'

核心定义

核心优势（为什么 Ollama 选它做底层）

Ollama 底层架构：llama.cpp 与 GGUF 详解

GGUF 详解：大模型的'通用压缩包'

核心定义

为什么需要 GGUF

GGUF 针对性解决

实战关联：Ollama 里的 GGUF

llama.cpp 详解：跑 GGUF 模型的'轻量级引擎'

核心定义

核心优势（为什么 Ollama 选它做底层）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

极简使用示例

llama.cpp + GGUF 与 Ollama 的关系

和其他推理框架的对比

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具