Ollama 底层的 llama.cpp 和 GGUF

优质文章学习记录

06 Apr 2026 — 5 min read

GGUF = 大模型权重的「通用压缩格式」（类似视频的 MP4，适配所有播放器）
llama.cpp = 跑 GGUF 格式模型的「轻量级推理引擎」（类似视频播放器，能在低配电脑上流畅播 MP4）
两者配合：GGUF 让模型体积变小、适配性强，llama.cpp 让模型能在 CPU / 低配 GPU 上快速跑
这也是 Ollama 能做到 “一键本地运行” 的底层原因

GGUF 详解：大模型的 “通用压缩包”

核心定义

GGUF（Generic GGML Format）是 GGML 格式的升级版，是专门为大模型权重设计的二进制存储格式
核心目标是「通用、高效、压缩」

GGML 是什么？
GGML 最初是 Georgi Gerganov 为 llama.cpp 开发的轻量级机器学习张量库（核心是为 CPU 优化），早期大模型量化权重格式直接叫「GGML 格式」，但这个格式只适配 llama.cpp，通用性差

GGUF 为什么是 “升级版”？
随着 llama.cpp 支持的模型越来越多（Llama、Qwen、Phi 等），原 GGML 格式的局限性暴露（比如不支持多模态、跨框架适配差）
因此在 2023 年底推出 GGUF，把 “专属格式” 升级为 “通用格式”，全称里加「Generic」就是为了突出 “通用” 这个核心升级点

GGUF 的命名在 llama.cpp 官方仓库（https://github.com/ggerganov/llama.cpp）的 GGUF 规范文档中明确标注为「Generic GGML Format」

为什么需要 GGUF

早期大模型权重格式（如 PyTorch 的 .pth、Hugging Face 的 .bin）有如下问题：

体积大：7B 模型原生权重约 13GB，普通电脑装不下
适配差：不同推理框架（llama.cpp/transformers）需要转格式，门槛高
速度慢：原生权重不做优化，CPU 推理卡成幻灯片

GGUF 针对性解决

量化压缩支持 4bit/8bit/16bit 量化，7B 模型从 13GB → 4GB（4bit）低配电脑（8G 内存）也能装下
通用适配所有主流大模型（Llama 3/Qwen/Phi 3）都能转 GGUF，所有推理框架（llama.cpp/Ollama）都能读，不用为不同模型/框架反复转格式
加载加速预编译权重结构，模型启动时间从分钟级 → 秒级，本地调用模型响应更快
跨平台兼容 Windows/Mac/Linux/ 树莓派，甚至手机，任何设备都能跑

实战关联：Ollama 里的 GGUF
Ollama 下载的所有模型（如 llama3:7b），底层都是 GGUF 量化格式（默认 4bit/8bit），这也是它能在 Mac M1 / 老旧电脑上运行的关键

llama.cpp 详解：跑 GGUF 模型的 “轻量级引擎”

核心定义

llama.cpp 是由开发者 Georgi Gerganov 开源的 C/C++ 编写的大模型推理框架
最初只为跑 Llama 模型设计，现在支持所有 GGUF 格式的模型（Llama 3、Qwen、Gemini 等）

核心优势（为什么 Ollama 选它做底层）

优势具体效果对应 Ollama 的表现
纯 CPU 友好极致优化 CPU 推理（用 SIMD / 多线程），不用高端 GPU 也能跑 Ollama 不用装 CUDA，普通电脑直接运行
极简轻量化无依赖（不用装 Python/PyTorch/TensorFlow），编译后就一个可执行文件 Ollama 一键安装，不用配复杂环境
支持 GGUF 原生支持 GGUF 量化格式，推理速度比原生权重快 2-5 倍 Ollama 模型启动快、响应快
跨平台支持 x86/ARM 架构（Mac M 系列、树莓派、手机） Ollama 能跨 Windows/Mac/Linux 运行
低内存占用 4bit 量化的 7B 模型，仅需 4-6GB 内存就能跑老旧笔记本也能跑大模型

极简使用示例

不用 Ollama，直接用 llama.cpp 跑 GGUF 模型的核心步骤：

# 1. 下载 llama.cppgit clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp &&make# 编译（仅需 C 编译器，无其他依赖）# 2. 下载 GGUF 格式的模型（比如 Llama 3 7B 4bit）wget https://xxx.com/llama-3-7b-instruct-q4_0.gguf # 3. 运行模型（纯 CPU，无需 GPU） ./main -m llama-3-7b-instruct-q4_0.gguf -p "解释一下 Agent 集群"

执行后就能在终端看到模型的推理结果，这就是 Ollama 底层的核心操作（Ollama 只是把这些步骤封装成了 ollama run 命令）

llama.cpp + GGUF 与 Ollama 的关系

用户 → Ollama（一键命令/API）→ llama.cpp（推理引擎）→ GGUF 模型（量化压缩的权重）→ 本地硬件（CPU/GPU）

Ollama 是「用户友好的封装层」：把复杂的 llama.cpp 命令、GGUF 模型下载 / 管理封装成简单指令
llama.cpp 是「推理执行层」：负责实际的模型计算、token 生成
GGUF 是「模型存储层」：让模型体积小、加载快、适配性强

和其他推理框架的对比

框架 / 格式核心特点
GGUF + llama.cpp 轻量、纯 CPU、低内存、跨平台
Hugging Face Transformers 功能全、支持所有模型、GPU 优化好
vLLM 高吞吐、动态批处理、GPU 专用

框架 / 格式适用场景缺点
GGUF + llama.cpp 本地低配设备、离线运行、快速原型推理速度比 GPU 框架慢（适合轻量场景）
Hugging Face Transformers 云端 / 高端 GPU 部署、复杂微调依赖多、低配设备跑不动、体积大
vLLM 高并发 API 服务、云端部署仅支持 GPU、低配设备用不了

总结
GGUF 是大模型权重的通用量化格式，核心价值是「压缩体积、通用适配、加载加速」，让低配设备装得下模型
llama.cpp 是轻量级推理引擎，核心价值是「纯 CPU 优化、极简无依赖、跨平台」，让低配设备跑得动模型
两者是 Ollama 实现 “本地一键运行大模型” 的底层核心，也是目前本地 AI 部署的主流技术组合

Nature新刊Sensors：清华团队突破机器人触觉难题，多模态感知精度直逼人类指尖

首次让触觉数据从“数值”变成“可理解的信息” ——鸽眼的启发目录 01 传统触觉传感器的痛点电子皮肤（e-skin）：分辨率和模态难两全视觉触觉传感器：光谱范围被“卡脖子” 数据解读：多模态信息“各说各话” 02 仿生灵感导电层：既是“电极”也是“透光开关” 荧光层+反射层：多光谱“信息接收器” 可调节气压，适应不同物体 03 DOVE模型让触觉会“说话” 多模态数据“融合解读” 物体差异“对比推理” 联想判断 04 6大维度刷新触觉传感器纪录三指灵巧手平行夹爪 05 待解难题微型化：目前还无法装在机器人指尖耐用性：长期使用后性能会下降动态场景适应：无法处理快速运动的物体

老手机本地部署小龙虾OpenClaw（使用本地千问大模型）实机演示 Termux+Ubuntu+Llama 新手完整安装教程（含代码）

本教程提供从 0 到 1 的详细步骤，在安卓手机上通过 Termux 运行 Ubuntu，部署本地 Llama 大模型，并集成 OpenClaw 进行 AI 交互，全程无需 Root。建议手机配置：≥4GB 内存，≥64GB 存储，Android 7+。一、准备工作 1.1 安装 Termux 1. 从F-Droid或GitHub下载最新版 Termux（避免应用商店旧版本） 2. 安装并打开，首次启动会自动配置基础环境 1.2 手机设置优化 1. 开启开发者选项（设置→关于手机→连续点击版本号 7 次） 2.

Z-Image-Turbo与Midjourney对比：开源VS闭源生成效果实测

Z-Image-Turbo与Midjourney对比：开源VS闭源生成效果实测 1. 开源新星Z-Image-Turbo来了，它到底有多强？你有没有遇到过这种情况：脑子里有个画面，想画出来却无从下手？或者做设计时，为了找一张合适的配图翻遍全网都不满意？现在，AI绘画已经能帮你把想法变成现实。而在众多AI图像生成工具中，最近冒出来一个叫 Z-Image-Turbo 的模型，势头特别猛。它是阿里巴巴通义实验室开源的一款高效文生图模型，名字里的“Turbo”可不是吹的——主打一个快、准、稳。更关键的是，它完全免费，还能在消费级显卡上跑起来。相比之下，像Midjourney这样的闭源工具虽然效果也不错，但得付费、要翻墙、还得绑定Discord，用起来没那么自由。那问题就来了：这个新开源的Z-Image-Turbo，真能跟Midjourney掰手腕吗？我们决定来一场面对面的实测PK，看看谁才是真正的“造图王者”。 2. Z-Image-Turbo是什么？为什么值得关注 2.1 什么是Z-Image-Turbo Z-Image-Turbo是阿里通义实验室推出的高效文本生成图

【干货实操】AI绘画/设计变现：零美术基础也能赚外快，90天落地计划+提示词模板（附可用学习链接）

前言你是不是羡慕别人靠设计接单赚钱，却苦于没美术基础、没专业软件、没接单渠道？当下AI绘画技术的成熟，给普通人打开了一扇零门槛、零成本的变现大门——AI绘画/设计变现。不需要你会手绘、懂PS，只要掌握AI绘画工具的基础操作和精准提示词技巧，依托“AI生成初稿+人工微调优化”的模式，就能做出高质量的设计作品，承接头像、壁纸、海报等刚需订单，适合程序员、职场人、学生党利用碎片化时间赚外快，全程坚守合规底线，可直接落地。本文整理了90天详细落地计划，包含工具选型、获客渠道、定价策略、版权注意事项等全流程实操步骤，附赠公共可用的学习资料和提示词模板，普通人照做就能上手，轻松实现从0到1的收益突破。核心原则 1. 零成本起步：拒绝付费会员、培训课程，全部使用免费AI绘画工具和免费获客渠道； 2. AI+人工双驱动：AI负责基础图像生成，人工负责细节优化、风格调整，保证作品差异化； 3. 刚需低竞争赛道切入：避开复杂的商业插画、

GGUF 详解：大模型的 “通用压缩包”

核心定义

为什么需要 GGUF

GGUF 针对性解决

llama.cpp 详解：跑 GGUF 模型的 “轻量级引擎”

核心定义

核心优势（为什么 Ollama 选它做底层）

极简使用示例

llama.cpp + GGUF 与 Ollama 的关系

和其他推理框架的对比

Read more

Nature新刊Sensors：清华团队突破机器人触觉难题，多模态感知精度直逼人类指尖

老手机 本地部署小龙虾OpenClaw（使用本地千问大模型）实机演示 Termux+Ubuntu+Llama 新手完整安装教程（含代码）

Z-Image-Turbo与Midjourney对比：开源VS闭源生成效果实测

【干货实操】AI绘画/设计变现：零美术基础也能赚外快，90天落地计划+提示词模板（附可用学习链接）

老手机本地部署小龙虾OpenClaw（使用本地千问大模型）实机演示 Termux+Ubuntu+Llama 新手完整安装教程（含代码）