大模型基于llama.cpp量化详解

优质文章学习记录

11 Apr 2026 — 3 min read

概述

llama.cpp 是一个高性能的 LLM 推理库，支持在各种硬件（包括 CPU 和 GPU）上运行量化后的大语言模型。本文档详细介绍如何使用 llama.cpp 将 HuggingFace 格式的模型转换为 GGUF 格式，并进行不同程度的量化。

GGUF 格式：GGUF（Georgi Gerganov Universal Format）是 llama.cpp 专门设计的模型文件格式，针对快速加载和保存模型进行了优化，支持单文件部署，包含加载模型所需的所有信息，无需依赖外部文件。

1.安装cmake
CMake 是跨平台的构建工具，用于编译 llama.cpp 项目。

下载地址：https://cmake.org/download/

安装建议：

Windows 用户建议下载 cmake-3.x.x-windows-x86_64.msi 安装包
安装时选择 “Add CMake to the system PATH”，以便在命令行中直接使用

验证安装：

cmake --version 2.安装llama.cpp ```bash git clone https://github.com/ggerganov/llama.cpp

convert_hf_to_gguf.py：HuggingFace 格式转 GGUF 的脚本
llama-quantize（或 quantize.exe）：量化工具
main（或 main.exe）：推理主程序
examples/：各种示例程序

3.编译

cd llama.cpp pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple pip install -r requirements/requirements-convert_hf_to_gguf.txt cmake -G "MinGW Makefiles" -DCMAKE_C_COMPILER=gcc -DCMAKE_CXX_COMPILER=g++ -B build cmake --build build --config Release

4.模型转换
将safetensors转换为gguf

 convert-hf-to-gguf.py D:\\Project\\2026\\llama3-lora-merge --outtype f16 --outfile D:\\Project\\2026\\my_llama3.gguf

参数说明：
D:\Project\2026\llama3-lora-merge：输入模型路径（包含 config.json 和权重文件的目录）
–outtype f16：输出类型，f16 表示半精度浮点数（16-bit），可选 f32（全精度）或 bf16
–outfile：输出 GGUF 文件路径

类型	精度	说明
`f32`	32-bit	全精度，文件最大，精度最高
`f16`	16-bit	半精度，平衡选择
`bf16`	16-bit	Brain Float，动态范围更大
`q8_0`	8-bit	直接量化为 8 位

6.进一步量化

 D:\Project\2026\test_llama3.cpp\llama.cpp\build\bin\Release quantize.exe D:\\Project\\2026\\my_llama3.gguf D:\\Project\\2026\\quantized_model.gguf q4_0

llama-quantize可执行文件来对模型进行进一步量化处理。量化可以帮助我们减少模型的大小，但是代价是损失了模型精度，也就是模型回答的能力可能有所下降。权衡以后我们可以选择合适的量化参数，保证模型的最大效益。
量化使用 q 表示存储权重的位数。位数越低，模型越小，速度越快，但精度损失越大。

量化类型	位宽	精度损失	适用场景	典型压缩率
`q2_k`	2-bit	高	极低资源环境，实验用途	~75%
`q3_k_s` / `q3_k_m` / `q3_k_l`	3-bit	中高	资源受限，可接受一定质量损失	~60%
`q4_0` / `q4_1`	4-bit	中	最常用，平衡大小与质量	~50%
`q4_k_s` / `q4_k_m`	4-bit	中	改进的 4-bit，质量更好	~50%
`q5_0` / `q5_1`	5-bit	低	较高质量要求	~40%
`q5_k_s` / `q5_k_m`	5-bit	低	改进的 5-bit	~40%
`q6_k`	6-bit	很低	接近原始质量	~35%
`q8_0`	8-bit	极低	几乎无损，文件较大	~25%
`f16`	16-bit	无	原始转换，未量化	0%

K-quant 说明：
后缀带 _k 的（如 q4_k_m）使用改进的量化算法
混合量化策略：对 attention 层使用更高精度，其他层使用较低精度
_s（small）、_m（medium）、_l（large）表示混合程度

以为AI开发就是调接口？一场25K的面试让我看到真相，原来真正的技术深度在这！

以为AI开发就是调接口？一场25K的面试让我看到真相，原来真正的技术深度在这！核心观点：AI应用开发绝非简单的API调用，而是融合算法理解、系统架构、工程实践、业务洞察的综合性技术领域。随着人工智能技术的爆发式增长，越来越多的企业和开发者涌入AI应用开发赛道。然而，一个普遍存在的认知偏见依然困扰着这个领域——**很多人认为AI应用开发本质上就是调用大模型API，难度系数不高。**这种表象化的理解，恰恰忽视了AI应用开发的深层技术复杂度。通过一次极具代表性的技术面试，我们可以清晰地看到AI应用开发的真实技术图谱。同时，我们也将深入探讨这个领域的技术演进、最佳实践以及未来发展趋势。文章目录 * 以为AI开发就是调接口？一场25K的面试让我看到真相，原来真正的技术深度在这！ * 技术背景重构 * 面试者画像可视化 * AI应用开发的技术现状与挑战 * 技术生态的演进路径 * 提示词工程的深层逻辑 * 提示词工程的系统性方法论 * 1. 场景分类体系 * 2. 提示词模板管理 *

停止把项目扔在GitHub吃灰：为你的AIGC工作流，找一个技术买家和变现平台

如果你的LangChain脚本、精调模型或提示词工程库，始终无法跨越从“个人项目”到“商业产品”的鸿沟，那么你错失的不只是收入，更是技术价值的定义权。作为一名开发者，你是否也陷入了这个典型的技术-商业断层？在GitHub上：你拥有一个获得几百Star的AIGC项目。它设计精良，README详细，解决了某个垂直领域（如自动化代码审查、智能运维日志分析）的真实痛点。Issue区零星有人问：“这个怎么用？能商业合作吗？” 在现实中：每次沟通都像是从零开始。你需要解释环境配置、API密钥、参数调优，甚至为不同客户定制输入输出格式。这些工程支持消耗的时间，远超项目开发本身。最终，你的技术价值被稀释成“劳务费”，而那个精巧的技术架构，始终未能成为可以独立销售的数字资产。核心问题浮出水面：开发者的AIGC解决方案被困在 “可运行的项目” 与 “可交易的产品” 之间。缺少的，是一套能将你的技术能力标准化、封装化、并自动化交付的 “技术资产化基础设施”。聚量库的工程化解法：为你的代码构建“商业接口” 我们旨在成为AIGC开发者的

抛弃Copilot？手把手教你用Python+Claude 3.5 Sonnet打造“全栈代码审计”Agent

在AI辅助编程领域，GitHub Copilot虽然方便，但往往只能针对当前文件进行补全，缺乏对“整个项目结构”的宏观理解。随着 Claude 3.5 Sonnet 在Coding Benchmarks（编程基准测试）中全面霸榜，以及 Gemini 1.5 Pro 开放百万级上下文窗口，我们完全有能力自己动手，构建一个比Copilot更懂业务逻辑的私人编程助手。本文将从AST（抽象语法树）解析开始，深入讲解如何利用Python构建一个RAG（检索增强生成）架构，并通过API聚合网关接入Claude 3.5，实现对遗留代码（Legacy Code）的自动化重构与审计。文末附带独家免费测试额度及完整源码。一、痛点：为什么我们需要“第二代”AI编程助手？作为一名每天要写几百行代码的开发者，你是否遇到过以下场景： 1. 接手“屎山”代码：前人留下的代码逻辑错综复杂，

零基础入门Stable Diffusion 3.5 FP8：手把手教你完成Python安装配置

零基础入门Stable Diffusion 3.5 FP8：手把手教你完成Python安装配置在如今这个内容爆炸的时代，谁能更快地产出高质量图像，谁就掌握了视觉表达的主动权。从电商海报到游戏原画，从社交媒体配图到AI艺术创作，文本生成图像（Text-to-Image）技术正以前所未有的速度重塑创意工作流。而在这场变革中，Stable Diffusion 3.5 FP8 的出现，堪称一次“性价比革命”——它让高分辨率、低延迟的图像生成不再是数据中心专属，而是真正走进了普通开发者的本地工作站。你可能已经听说过 Stable Diffusion，但面对“FP8”、“量化”、“显存优化”这些术语时仍感到一头雾水。别担心，本文不会一上来就堆砌公式和架构图。我们将从一个最实际的问题出发：如何用一台普通的 RTX 3090 显卡，流畅运行原本需要 A100 才能扛得住的 SD3.5 模型？答案就是：FP8 量化。

概述

Read more

以为AI开发就是调接口？一场25K的面试让我看到真相，原来真正的技术深度在这！

停止把项目扔在GitHub吃灰：为你的AIGC工作流，找一个技术买家和变现平台

抛弃Copilot？手把手教你用Python+Claude 3.5 Sonnet打造“全栈代码审计”Agent

零基础入门Stable Diffusion 3.5 FP8：手把手教你完成Python安装配置