Ollama 底层的 llama.cpp 和 GGUF

优质文章学习记录

08 Apr 2026 — 5 min read

GGUF = 大模型权重的「通用压缩格式」（类似视频的 MP4，适配所有播放器）
llama.cpp = 跑 GGUF 格式模型的「轻量级推理引擎」（类似视频播放器，能在低配电脑上流畅播 MP4）
两者配合：GGUF 让模型体积变小、适配性强，llama.cpp 让模型能在 CPU / 低配 GPU 上快速跑
这也是 Ollama 能做到 “一键本地运行” 的底层原因

GGUF 详解：大模型的 “通用压缩包”

核心定义

GGUF（Generic GGML Format）是 GGML 格式的升级版，是专门为大模型权重设计的二进制存储格式
核心目标是「通用、高效、压缩」

GGML 是什么？
GGML 最初是 Georgi Gerganov 为 llama.cpp 开发的轻量级机器学习张量库（核心是为 CPU 优化），早期大模型量化权重格式直接叫「GGML 格式」，但这个格式只适配 llama.cpp，通用性差

GGUF 为什么是 “升级版”？
随着 llama.cpp 支持的模型越来越多（Llama、Qwen、Phi 等），原 GGML 格式的局限性暴露（比如不支持多模态、跨框架适配差）
因此在 2023 年底推出 GGUF，把 “专属格式” 升级为 “通用格式”，全称里加「Generic」就是为了突出 “通用” 这个核心升级点

GGUF 的命名在 llama.cpp 官方仓库（https://github.com/ggerganov/llama.cpp）的 GGUF 规范文档中明确标注为「Generic GGML Format」

为什么需要 GGUF

早期大模型权重格式（如 PyTorch 的 .pth、Hugging Face 的 .bin）有如下问题：

体积大：7B 模型原生权重约 13GB，普通电脑装不下
适配差：不同推理框架（llama.cpp/transformers）需要转格式，门槛高
速度慢：原生权重不做优化，CPU 推理卡成幻灯片

GGUF 针对性解决

量化压缩支持 4bit/8bit/16bit 量化，7B 模型从 13GB → 4GB（4bit）低配电脑（8G 内存）也能装下
通用适配所有主流大模型（Llama 3/Qwen/Phi 3）都能转 GGUF，所有推理框架（llama.cpp/Ollama）都能读，不用为不同模型/框架反复转格式
加载加速预编译权重结构，模型启动时间从分钟级 → 秒级，本地调用模型响应更快
跨平台兼容 Windows/Mac/Linux/ 树莓派，甚至手机，任何设备都能跑

实战关联：Ollama 里的 GGUF
Ollama 下载的所有模型（如 llama3:7b），底层都是 GGUF 量化格式（默认 4bit/8bit），这也是它能在 Mac M1 / 老旧电脑上运行的关键

llama.cpp 详解：跑 GGUF 模型的 “轻量级引擎”

核心定义

llama.cpp 是由开发者 Georgi Gerganov 开源的 C/C++ 编写的大模型推理框架
最初只为跑 Llama 模型设计，现在支持所有 GGUF 格式的模型（Llama 3、Qwen、Gemini 等）

核心优势（为什么 Ollama 选它做底层）

优势具体效果对应 Ollama 的表现
纯 CPU 友好极致优化 CPU 推理（用 SIMD / 多线程），不用高端 GPU 也能跑 Ollama 不用装 CUDA，普通电脑直接运行
极简轻量化无依赖（不用装 Python/PyTorch/TensorFlow），编译后就一个可执行文件 Ollama 一键安装，不用配复杂环境
支持 GGUF 原生支持 GGUF 量化格式，推理速度比原生权重快 2-5 倍 Ollama 模型启动快、响应快
跨平台支持 x86/ARM 架构（Mac M 系列、树莓派、手机） Ollama 能跨 Windows/Mac/Linux 运行
低内存占用 4bit 量化的 7B 模型，仅需 4-6GB 内存就能跑老旧笔记本也能跑大模型

极简使用示例

不用 Ollama，直接用 llama.cpp 跑 GGUF 模型的核心步骤：

# 1. 下载 llama.cppgit clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp &&make# 编译（仅需 C 编译器，无其他依赖）# 2. 下载 GGUF 格式的模型（比如 Llama 3 7B 4bit）wget https://xxx.com/llama-3-7b-instruct-q4_0.gguf # 3. 运行模型（纯 CPU，无需 GPU） ./main -m llama-3-7b-instruct-q4_0.gguf -p "解释一下 Agent 集群"

执行后就能在终端看到模型的推理结果，这就是 Ollama 底层的核心操作（Ollama 只是把这些步骤封装成了 ollama run 命令）

llama.cpp + GGUF 与 Ollama 的关系

用户 → Ollama（一键命令/API）→ llama.cpp（推理引擎）→ GGUF 模型（量化压缩的权重）→ 本地硬件（CPU/GPU）

Ollama 是「用户友好的封装层」：把复杂的 llama.cpp 命令、GGUF 模型下载 / 管理封装成简单指令
llama.cpp 是「推理执行层」：负责实际的模型计算、token 生成
GGUF 是「模型存储层」：让模型体积小、加载快、适配性强

和其他推理框架的对比

框架 / 格式核心特点
GGUF + llama.cpp 轻量、纯 CPU、低内存、跨平台
Hugging Face Transformers 功能全、支持所有模型、GPU 优化好
vLLM 高吞吐、动态批处理、GPU 专用

框架 / 格式适用场景缺点
GGUF + llama.cpp 本地低配设备、离线运行、快速原型推理速度比 GPU 框架慢（适合轻量场景）
Hugging Face Transformers 云端 / 高端 GPU 部署、复杂微调依赖多、低配设备跑不动、体积大
vLLM 高并发 API 服务、云端部署仅支持 GPU、低配设备用不了

总结
GGUF 是大模型权重的通用量化格式，核心价值是「压缩体积、通用适配、加载加速」，让低配设备装得下模型
llama.cpp 是轻量级推理引擎，核心价值是「纯 CPU 优化、极简无依赖、跨平台」，让低配设备跑得动模型
两者是 Ollama 实现 “本地一键运行大模型” 的底层核心，也是目前本地 AI 部署的主流技术组合

AI无人机赋能乡村道路管护构建智慧交通的“最后一公里“新范式，基于YOLOv8全系列【n/s/m/l/x】参数模型开发构建公共交通道路场景下路面缺陷病害智能化检测预警系统

在乡村振兴战略的推进过程中，"村村通"工程作为连接城乡的重要纽带，已实现全国98%以上的行政村通硬化路。然而，随着农村公路里程的快速增长，传统人工巡检模式逐渐暴露出效率低、覆盖难、响应慢等痛点。当AI技术遇上低空无人机，一场乡村道路管护的智能化革命正在悄然发生，为破解农村交通治理难题提供了创新方案。一、传统巡检之困：乡村道路管护的"阿喀琉斯之踵" 农村公路具有"点多、线长、面广"的典型特征，全国农村公路总里程已突破450万公里。传统人工巡检模式下，养护队伍需定期徒步或驾车巡查，日均巡检里程不足20公里，且受地形限制，桥梁涵洞、临水临崖等特殊路段存在巡检盲区。某农业大省调研显示，农村公路病害发现平均滞后周期达47天，裂缝发展成坑槽的比例高达63%，直接导致养护成本增加3-5倍。更严峻的是，农村地区技术人才短缺，巡检人员平均年龄超过50岁，对裂缝宽度、沉陷深度等关键指标的判断依赖经验，数据记录仍采用纸质台账，难以实现病害发展的动态追踪。这种"被动式"

OpenClaw 飞书机器人搭建流程

OpenClaw 飞书机器人搭建流程手把手教你搭建属于自己的飞书 AI 机器人！一、创建企业自建应用首先进入飞书开发者后台： 👉 https://open.feishu.cn/app 填写应用名称和描述，直接点击创建即可。创建完成后，会自动生成 App ID 和 App Secret，这两个凭证后面配置 OpenClaw 时会用到，先记下来。二、添加机器人能力在应用详情页左侧菜单找到「机器人」，点击添加。添加成功后，机器人就可以在飞书中被搜索和使用了。三、开通消息权限进入「权限管理」，找到 im: 相关权限，全部勾选。 ⚠️ 注意：以下这个权限建议不要勾选：获取群组中所有消息（im:message.group_msg）否则群里所有消息机器人都会收到并响应，会造成不必要的干扰。

Windows安装Neo4j保姆级教程（图文详解）

文章目录 * 前言 * 系统要求 * 安装Java环境 * 步骤1：检查Java版本 * 步骤2：下载Java JDK * 步骤3：安装Java JDK * 下载Neo4j * 步骤1：访问官方网站下载Neo4j * 步骤2：解压Neo4j * 启动Neo4j服务 * 步骤1：以管理员身份打开命令提示符 * 步骤2：导航到Neo4j的bin目录 * 步骤3：安装Neo4j服务 * 步骤4：启动Neo4j服务 * 步骤5：验证服务状态 * 访问Neo4j * 基本操作和配置 * 常用管理命令 * 配置文件修改 * 常见问题解决 * 问题1：端口被占用 * 问题2：Java版本不匹配 * 问题3：服务启动失败 * 总结前言 Neo4j是一款强大的图数据库，特别适合处理复杂的关系数据。本教程将手把手教你在Windows系统上安装Neo4j，并配置可视化工具，让你快速上手图数据库的世界。系统要求在开始安装之前，请确保你的系统满足以下要求：操作系统:

大疆无人机常见故障提示及应对指南

大疆无人机在使用过程中，故障提示主要通过 DJI Fly/DJI GO 4 App 弹窗、机身指示灯状态及遥控器提示音三种方式呈现。以下按「连接通信类」「传感系统类」「动力系统类」「图传相机类」「电池电源类」五大核心场景，整理常见故障提示、核心原因及分步解决办法，帮助快速定位并处理问题。北京云升智维科技有限责任公司是一家专业从事电子设备维修第三方服务企业，我们拥有深厚的电路原理知识和丰富的维修经验，能够为各种设备和电路板提供专业的检测和维修服务。我们的服务范围广泛，包括但不限于电路板、工控主板、工业机械、医疗设备、精密仪器、大地测量仪器及驱动器等。我们拥有一支技术过硬,经验丰富的维修团队,精通各类设备维修，结合多年实战维修经验，快速准确诊断故障，提高维修效率，为客户节省35%及以上维修成本及时间成本，我们致力于为客户提供高质量、可靠的服务，确保设备的稳定运行。我们坚持诚实守信、笃行致远的原则，以确保客户满意。一、连接通信类故障提示核心表现：App 提示连接异常，遥控器与无人机无法联动，

GGUF 详解：大模型的 “通用压缩包”

核心定义

为什么需要 GGUF

GGUF 针对性解决

llama.cpp 详解：跑 GGUF 模型的 “轻量级引擎”

核心定义

核心优势（为什么 Ollama 选它做底层）

极简使用示例

llama.cpp + GGUF 与 Ollama 的关系

和其他推理框架的对比

Read more

AI无人机赋能乡村道路管护构建智慧交通的“最后一公里“新范式，基于YOLOv8全系列【n/s/m/l/x】参数模型开发构建公共交通道路场景下路面缺陷病害智能化检测预警系统

OpenClaw 飞书机器人搭建流程

Windows安装Neo4j保姆级教程（图文详解）

大疆无人机常见故障提示及应对指南