大模型基于llama.cpp量化详解

优质文章学习记录

06 Apr 2026 — 3 min read

概述

llama.cpp 是一个高性能的 LLM 推理库，支持在各种硬件（包括 CPU 和 GPU）上运行量化后的大语言模型。本文档详细介绍如何使用 llama.cpp 将 HuggingFace 格式的模型转换为 GGUF 格式，并进行不同程度的量化。

GGUF 格式：GGUF（Georgi Gerganov Universal Format）是 llama.cpp 专门设计的模型文件格式，针对快速加载和保存模型进行了优化，支持单文件部署，包含加载模型所需的所有信息，无需依赖外部文件。

1.安装cmake
CMake 是跨平台的构建工具，用于编译 llama.cpp 项目。

下载地址：https://cmake.org/download/

安装建议：

Windows 用户建议下载 cmake-3.x.x-windows-x86_64.msi 安装包
安装时选择 “Add CMake to the system PATH”，以便在命令行中直接使用

验证安装：

cmake --version 2.安装llama.cpp ```bash git clone https://github.com/ggerganov/llama.cpp

convert_hf_to_gguf.py：HuggingFace 格式转 GGUF 的脚本
llama-quantize（或 quantize.exe）：量化工具
main（或 main.exe）：推理主程序
examples/：各种示例程序

3.编译

cd llama.cpp pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple pip install -r requirements/requirements-convert_hf_to_gguf.txt cmake -G "MinGW Makefiles" -DCMAKE_C_COMPILER=gcc -DCMAKE_CXX_COMPILER=g++ -B build cmake --build build --config Release

4.模型转换
将safetensors转换为gguf

 convert-hf-to-gguf.py D:\\Project\\2026\\llama3-lora-merge --outtype f16 --outfile D:\\Project\\2026\\my_llama3.gguf

参数说明：
D:\Project\2026\llama3-lora-merge：输入模型路径（包含 config.json 和权重文件的目录）
–outtype f16：输出类型，f16 表示半精度浮点数（16-bit），可选 f32（全精度）或 bf16
–outfile：输出 GGUF 文件路径

类型	精度	说明
`f32`	32-bit	全精度，文件最大，精度最高
`f16`	16-bit	半精度，平衡选择
`bf16`	16-bit	Brain Float，动态范围更大
`q8_0`	8-bit	直接量化为 8 位

6.进一步量化

 D:\Project\2026\test_llama3.cpp\llama.cpp\build\bin\Release quantize.exe D:\\Project\\2026\\my_llama3.gguf D:\\Project\\2026\\quantized_model.gguf q4_0

llama-quantize可执行文件来对模型进行进一步量化处理。量化可以帮助我们减少模型的大小，但是代价是损失了模型精度，也就是模型回答的能力可能有所下降。权衡以后我们可以选择合适的量化参数，保证模型的最大效益。
量化使用 q 表示存储权重的位数。位数越低，模型越小，速度越快，但精度损失越大。

量化类型	位宽	精度损失	适用场景	典型压缩率
`q2_k`	2-bit	高	极低资源环境，实验用途	~75%
`q3_k_s` / `q3_k_m` / `q3_k_l`	3-bit	中高	资源受限，可接受一定质量损失	~60%
`q4_0` / `q4_1`	4-bit	中	最常用，平衡大小与质量	~50%
`q4_k_s` / `q4_k_m`	4-bit	中	改进的 4-bit，质量更好	~50%
`q5_0` / `q5_1`	5-bit	低	较高质量要求	~40%
`q5_k_s` / `q5_k_m`	5-bit	低	改进的 5-bit	~40%
`q6_k`	6-bit	很低	接近原始质量	~35%
`q8_0`	8-bit	极低	几乎无损，文件较大	~25%
`f16`	16-bit	无	原始转换，未量化	0%

K-quant 说明：
后缀带 _k 的（如 q4_k_m）使用改进的量化算法
混合量化策略：对 attention 层使用更高精度，其他层使用较低精度
_s（small）、_m（medium）、_l（large）表示混合程度

Magic API：低代码接口开发平台完全指南

Magic API：低代码接口开发平台完全指南 🌟 你好，我是励志成为糕手！ 🌌 在代码的宇宙中，我是那个追逐优雅与性能的星际旅人。 ✨ 每一行代码都是我种下的星光，在逻辑的土壤里生长成璀璨的银河； 🛠️ 每一个算法都是我绘制的星图，指引着数据流动的最短路径； 🔍 每一次调试都是星际对话，用耐心和智慧解开宇宙的谜题。 🚀 准备好开始我们的星际编码之旅了吗？目录 * Magic API：低代码接口开发平台完全指南 * 摘要 * 1. Magic API概述与核心概念 * 1.1 什么是Magic API * 1.2 Magic API的核心特性 * 1.3 Magic API的设计理念 * 2. Magic API架构设计与组件分析 * 2.1 整体架构概览 * 2.2 API引擎工作原理 * 2.3 脚本引擎与SQL执行机制 * 3. Magic API核心功能实现

前端标签的语义化艺术与实战指南

不止是展示：前端标签的语义化艺术与实战指南在前端这个日新月异的领域，我们每天都在追逐新的框架、库和工具。但有时，我们或许会忽略了这所有一切的基石——HTML。很多初学者甚至一些有经验的开发者，常常将HTML标签仅仅看作是包裹内容的“容器”，用<div>和<span>“一把梭”解决所有布局和样式问题。然而，这就像用同一种砖块去建造整座宏伟的教堂，虽然可能成形，但却失去了结构之美和内在的灵魂。今天，我要介绍HTML标签的正确“打开方式”，也就是语义化。这不仅关乎代码的优雅，更直接影响到可访问性（Accessibility）、搜索引擎优化（SEO）以及代码的可维护性。一、地基与骨架：文档的“顶层设计” 在动工之前，我们先要打好地基，搭好骨架。 * <!DOCTYPE html>: 这不是一个标签，而是一个声明。它像是在告诉浏览器：“嘿，

前端动画新范式： CSS animation-timeline 动画时间线

前言在 Web 开发中，动画不仅是提升用户体验的重要手段，更是实现信息层次、引导用户注意力和增强交互反馈的核心工具。长期以来，前端动画主要依赖两种机制： * CSS Transitions / Animations：基于时间的声明式动画； * JavaScript 驱动的动画（如 requestAnimationFrame）：基于逻辑控制的过程式动画。然而，这两种方式都默认绑定于文档时间线（Document Timeline）——即从页面加载开始计时的绝对时间轴。这使得动画难以与用户的滚动行为、视口变化等上下文状态直接关联，往往需要借助 Intersection Observer、scroll 事件监听器等复杂逻辑来实现“滚动驱动动画”，不仅代码冗余，还容易引发性能问题。为解决这一痛点，W3C 提出了 Animation Timeline（动画时间线）的新规范，并通过 CSS 属性 animation-timeline 和 Web Animations API 的 timeline

Motrix WebExtension 浏览器扩展终极配置指南

Motrix WebExtension 浏览器扩展终极配置指南【免费下载链接】motrix-webextensionA browser extension for the Motrix Download Manager 项目地址: https://gitcode.com/gh_mirrors/mo/motrix-webextension 🎯 扩展核心功能与优势 Motrix WebExtension 是一款革命性的浏览器扩展，能够将您的下载任务无缝转移到功能强大的 Motrix 下载管理器。告别浏览器缓慢的原生下载体验，拥抱专业级下载管理的极致效率！ 📋 准备工作与系统要求在使用扩展前，请确保满足以下条件： * 已安装最新版 Motrix 应用程序（版本不低于 1.6.0） * 浏览器支持 Chrome、Firefox、Edge 或 Opera * 基本的浏览器扩展管理操作知识 ⚙️ 详细配置流程详解第一步：生成 RPC

概述

Read more

Magic API：低代码接口开发平台完全指南

前端标签的语义化艺术与实战指南

前端动画新范式： CSS animation-timeline 动画时间线

Motrix WebExtension 浏览器扩展终极配置指南