大模型基于llama.cpp量化详解

优质文章学习记录

10 Apr 2026 — 3 min read

概述

llama.cpp 是一个高性能的 LLM 推理库，支持在各种硬件（包括 CPU 和 GPU）上运行量化后的大语言模型。本文档详细介绍如何使用 llama.cpp 将 HuggingFace 格式的模型转换为 GGUF 格式，并进行不同程度的量化。

GGUF 格式：GGUF（Georgi Gerganov Universal Format）是 llama.cpp 专门设计的模型文件格式，针对快速加载和保存模型进行了优化，支持单文件部署，包含加载模型所需的所有信息，无需依赖外部文件。

1.安装cmake
CMake 是跨平台的构建工具，用于编译 llama.cpp 项目。

下载地址：https://cmake.org/download/

安装建议：

Windows 用户建议下载 cmake-3.x.x-windows-x86_64.msi 安装包
安装时选择 “Add CMake to the system PATH”，以便在命令行中直接使用

验证安装：

cmake --version 2.安装llama.cpp ```bash git clone https://github.com/ggerganov/llama.cpp

convert_hf_to_gguf.py：HuggingFace 格式转 GGUF 的脚本
llama-quantize（或 quantize.exe）：量化工具
main（或 main.exe）：推理主程序
examples/：各种示例程序

3.编译

cd llama.cpp pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple pip install -r requirements/requirements-convert_hf_to_gguf.txt cmake -G "MinGW Makefiles" -DCMAKE_C_COMPILER=gcc -DCMAKE_CXX_COMPILER=g++ -B build cmake --build build --config Release

4.模型转换
将safetensors转换为gguf

 convert-hf-to-gguf.py D:\\Project\\2026\\llama3-lora-merge --outtype f16 --outfile D:\\Project\\2026\\my_llama3.gguf

参数说明：
D:\Project\2026\llama3-lora-merge：输入模型路径（包含 config.json 和权重文件的目录）
–outtype f16：输出类型，f16 表示半精度浮点数（16-bit），可选 f32（全精度）或 bf16
–outfile：输出 GGUF 文件路径

类型	精度	说明
`f32`	32-bit	全精度，文件最大，精度最高
`f16`	16-bit	半精度，平衡选择
`bf16`	16-bit	Brain Float，动态范围更大
`q8_0`	8-bit	直接量化为 8 位

6.进一步量化

 D:\Project\2026\test_llama3.cpp\llama.cpp\build\bin\Release quantize.exe D:\\Project\\2026\\my_llama3.gguf D:\\Project\\2026\\quantized_model.gguf q4_0

llama-quantize可执行文件来对模型进行进一步量化处理。量化可以帮助我们减少模型的大小，但是代价是损失了模型精度，也就是模型回答的能力可能有所下降。权衡以后我们可以选择合适的量化参数，保证模型的最大效益。
量化使用 q 表示存储权重的位数。位数越低，模型越小，速度越快，但精度损失越大。

量化类型	位宽	精度损失	适用场景	典型压缩率
`q2_k`	2-bit	高	极低资源环境，实验用途	~75%
`q3_k_s` / `q3_k_m` / `q3_k_l`	3-bit	中高	资源受限，可接受一定质量损失	~60%
`q4_0` / `q4_1`	4-bit	中	最常用，平衡大小与质量	~50%
`q4_k_s` / `q4_k_m`	4-bit	中	改进的 4-bit，质量更好	~50%
`q5_0` / `q5_1`	5-bit	低	较高质量要求	~40%
`q5_k_s` / `q5_k_m`	5-bit	低	改进的 5-bit	~40%
`q6_k`	6-bit	很低	接近原始质量	~35%
`q8_0`	8-bit	极低	几乎无损，文件较大	~25%
`f16`	16-bit	无	原始转换，未量化	0%

K-quant 说明：
后缀带 _k 的（如 q4_k_m）使用改进的量化算法
混合量化策略：对 attention 层使用更高精度，其他层使用较低精度
_s（small）、_m（medium）、_l（large）表示混合程度

【AI与大模型实战】【避坑指南】使用Ollama管理本地大模型，这10个问题你一定遇到过

【避坑指南】使用Ollama管理本地大模型，这10个问题你一定遇到过 2026年初，Ollama已成为本地部署大模型的首选工具，但新手在安装和使用过程中总会遇到各种“坑”。本文汇总了10个最常见的问题及解决方案，帮你快速排雷，让本地AI助手运行如飞！问题1：安装后服务无法启动，提示“端口被占用” 问题现象：执行ollama serve时出现bind: address already in use错误，或者安装后命令行输入ollama无响应。根本原因：Ollama默认使用11434端口，该端口可能被其他进程占用（如Docker、Hyper-V、残留的Ollama进程等）。解决方案：方法一：检查并释放端口 # Windows系统netstat-ano| findstr :11434 # 找到占用端口的PID，然后在任务管理器中结束对应进程# Linux/macOS系统lsof-i :11434 sudokill-9<PID> 方法二：修改Ollama端口 # 临时修改（重启后失效）exportOLLAMA_HOST="

OpenClaw到底是什么？3分钟搞懂AI圈的这些“黑话“

OpenClaw到底是什么？3分钟搞懂AI圈的这些"黑话" 你是不是也经常听到这些词：RAG、MCP、Skills、AI Agent… 每次看到都觉得似懂非懂，却又不好意思问？今天，我们就用最通俗的话，把这些概念一次性讲清楚！写在前面最近刷到一个视频，讲的是 OpenClaw（clawdbot）这个项目。说实话，第一反应也是懵的：这又是个啥？但仔细看完后发现，这个项目其实是个很好的"教材"——它把现在AI圈最火的几个技术串在了一起。搞懂了它，你也就搞懂了整个AI技术栈的底层逻辑。那么，OpenClaw到底是个啥？简单说，它就是一个聪明的AI助手框架，把各种AI能力（记忆、检索、工具调用）整合在一起，让AI真的能"干活"，而不只是聊天。先搞清楚一个概念：什么是"

OpenCode AI 编程保姆级使用教程：从安装到实战，效率直接拉满

前言当下 AI 编程工具层出不穷，而OpenCode凭借开源免费、多模型兼容、多端适配、项目级上下文感知的核心优势，成为了程序员的新晋效率神器。它不是简单的代码补全工具，而是能真正理解项目架构、帮你从需求分析到代码落地的 AI 编码代理，支持终端、桌面应用、IDE 扩展等多种使用方式，还能对接国内外 75 + 种 LLM 模型，兼顾便捷性和代码隐私性。本文结合 OpenCode 官方文档和实际使用经验，用最通俗易懂的语言，从安装配置、核心操作、实战技巧、高级玩法四个维度，带你彻底玩转 OpenCode，不管是编程新手还是资深开发者，都能快速上手并提升开发效率！一、先搞懂：OpenCode 到底适合谁？有啥核心优势？ 1. 适用人群 * 编程新手：不用死记硬背语法，自然语言描述需求就能生成代码，快速入门； * 资深开发者：摆脱重复编码、重构老项目、

将openclaw接入飞书：10分钟，让你的AI员工直接操作你的文档和表格！

上一篇，我们给小龙虾接了 Telegram，实现了手机遥控。但说实话，Telegram 只解决了"能聊天"的问题。你跟小龙虾说"帮我写个文档"，它写完了——然后呢？你还得自己复制粘贴到你的编辑器中。这就像请了个助手，他只能站在门外隔着门跟你喊话，但不能进屋帮你干活。今天这篇，我们把门打开。让小龙虾直接进入你的飞书——读文档、写文档、操作表格、管理日程，全部自己来。先看效果👇 飞书的配置比 Telegram 多一些步骤，但别慌——跟着我走，每一步都有截图，大概10分钟搞定。飞书的接入分四个阶段，先有个全局概念，不容易迷路： 1. 在飞书上造一个机器人 — 相当于给小龙虾办一张飞书工牌 2. 在服务器上装飞书插件 — 让小龙虾学会"说飞书的语言" 3.

概述

Read more

【AI与大模型实战】【避坑指南】使用Ollama管理本地大模型，这10个问题你一定遇到过

OpenClaw到底是什么？3分钟搞懂AI圈的这些“黑话“

OpenCode AI 编程保姆级使用教程：从安装到实战，效率直接拉满

将openclaw接入飞书：10分钟，让你的AI员工直接操作你的文档和表格！