大模型基于llama.cpp量化详解

大模型基于llama.cpp量化详解

概述

llama.cpp 是一个高性能的 LLM 推理库,支持在各种硬件(包括 CPU 和 GPU)上运行量化后的大语言模型。本文档详细介绍如何使用 llama.cpp 将 HuggingFace 格式的模型转换为 GGUF 格式,并进行不同程度的量化。

GGUF 格式:GGUF(Georgi Gerganov Universal Format)是 llama.cpp 专门设计的模型文件格式,针对快速加载和保存模型进行了优化,支持单文件部署,包含加载模型所需的所有信息,无需依赖外部文件。

1.安装cmake
CMake 是跨平台的构建工具,用于编译 llama.cpp 项目。

下载地址:https://cmake.org/download/

安装建议

  • Windows 用户建议下载 cmake-3.x.x-windows-x86_64.msi 安装包
  • 安装时选择 “Add CMake to the system PATH”,以便在命令行中直接使用

验证安装

cmake --version 2.安装llama.cpp ```bash git clone https://github.com/ggerganov/llama.cpp 

convert_hf_to_gguf.py:HuggingFace 格式转 GGUF 的脚本
llama-quantize(或 quantize.exe):量化工具
main(或 main.exe):推理主程序
examples/:各种示例程序

3.编译

cd llama.cpp pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple pip install -r requirements/requirements-convert_hf_to_gguf.txt cmake -G "MinGW Makefiles" -DCMAKE_C_COMPILER=gcc -DCMAKE_CXX_COMPILER=g++ -B build cmake --build build --config Release 

4.模型转换
将safetensors转换为gguf

 convert-hf-to-gguf.py D:\\Project\\2026\\llama3-lora-merge --outtype f16 --outfile D:\\Project\\2026\\my_llama3.gguf 

参数说明:
D:\Project\2026\llama3-lora-merge:输入模型路径(包含 config.json 和权重文件的目录)
–outtype f16:输出类型,f16 表示半精度浮点数(16-bit),可选 f32(全精度)或 bf16
–outfile:输出 GGUF 文件路径

类型精度说明
f3232-bit全精度,文件最大,精度最高
f1616-bit半精度,平衡选择
bf1616-bitBrain Float,动态范围更大
q8_08-bit直接量化为 8 位

6.进一步量化

 D:\Project\2026\test_llama3.cpp\llama.cpp\build\bin\Release quantize.exe D:\\Project\\2026\\my_llama3.gguf D:\\Project\\2026\\quantized_model.gguf q4_0 

llama-quantize可执行文件来对模型进行进一步量化处理。量化可以帮助我们减少模型的大小,但是代价是损失了模型精度,也就是模型回答的能力可能有所下降。权衡以后我们可以选择合适的量化参数,保证模型的最大效益。
量化使用 q 表示存储权重的位数。位数越低,模型越小,速度越快,但精度损失越大。

量化类型位宽精度损失适用场景典型压缩率
q2_k2-bit极低资源环境,实验用途~75%
q3_k_s / q3_k_m / q3_k_l3-bit中高资源受限,可接受一定质量损失~60%
q4_0 / q4_14-bit最常用,平衡大小与质量~50%
q4_k_s / q4_k_m4-bit改进的 4-bit,质量更好~50%
q5_0 / q5_15-bit较高质量要求~40%
q5_k_s / q5_k_m5-bit改进的 5-bit~40%
q6_k6-bit很低接近原始质量~35%
q8_08-bit极低几乎无损,文件较大~25%
f1616-bit原始转换,未量化0%

K-quant 说明:
后缀带 _k 的(如 q4_k_m)使用改进的量化算法
混合量化策略:对 attention 层使用更高精度,其他层使用较低精度
_s(small)、_m(medium)、_l(large)表示混合程度

Read more

Magic API:低代码接口开发平台完全指南

Magic API:低代码接口开发平台完全指南

Magic API:低代码接口开发平台完全指南 🌟 你好,我是 励志成为糕手 ! 🌌 在代码的宇宙中,我是那个追逐优雅与性能的星际旅人。 ✨ 每一行代码都是我种下的星光,在逻辑的土壤里生长成璀璨的银河; 🛠️ 每一个算法都是我绘制的星图,指引着数据流动的最短路径; 🔍 每一次调试都是星际对话,用耐心和智慧解开宇宙的谜题。 🚀 准备好开始我们的星际编码之旅了吗? 目录 * Magic API:低代码接口开发平台完全指南 * 摘要 * 1. Magic API概述与核心概念 * 1.1 什么是Magic API * 1.2 Magic API的核心特性 * 1.3 Magic API的设计理念 * 2. Magic API架构设计与组件分析 * 2.1 整体架构概览 * 2.2 API引擎工作原理 * 2.3 脚本引擎与SQL执行机制 * 3. Magic API核心功能实现

前端标签的语义化艺术与实战指南

前端标签的语义化艺术与实战指南

不止是展示:前端标签的语义化艺术与实战指南 在前端这个日新月异的领域,我们每天都在追逐新的框架、库和工具。但有时,我们或许会忽略了这所有一切的基石——HTML。 很多初学者甚至一些有经验的开发者,常常将HTML标签仅仅看作是包裹内容的“容器”,用<div>和<span>“一把梭”解决所有布局和样式问题。然而,这就像用同一种砖块去建造整座宏伟的教堂,虽然可能成形,但却失去了结构之美和内在的灵魂。 今天,我要介绍HTML标签的正确“打开方式”,也就是语义化。这不仅关乎代码的优雅,更直接影响到可访问性(Accessibility)、搜索引擎优化(SEO)以及代码的可维护性。 一、地基与骨架:文档的“顶层设计” 在动工之前,我们先要打好地基,搭好骨架。 * <!DOCTYPE html>: 这不是一个标签,而是一个声明。它像是在告诉浏览器:“嘿,

前端动画新范式: CSS animation-timeline 动画时间线

前端动画新范式: CSS animation-timeline 动画时间线

前言 在 Web 开发中,动画不仅是提升用户体验的重要手段,更是实现信息层次、引导用户注意力和增强交互反馈的核心工具。长期以来,前端动画主要依赖两种机制: * CSS Transitions / Animations:基于时间的声明式动画; * JavaScript 驱动的动画(如 requestAnimationFrame):基于逻辑控制的过程式动画。 然而,这两种方式都默认绑定于文档时间线(Document Timeline)——即从页面加载开始计时的绝对时间轴。这使得动画难以与用户的滚动行为、视口变化等上下文状态直接关联,往往需要借助 Intersection Observer、scroll 事件监听器等复杂逻辑来实现“滚动驱动动画”,不仅代码冗余,还容易引发性能问题。 为解决这一痛点,W3C 提出了 Animation Timeline(动画时间线) 的新规范,并通过 CSS 属性 animation-timeline 和 Web Animations API 的 timeline

Motrix WebExtension 浏览器扩展终极配置指南

Motrix WebExtension 浏览器扩展终极配置指南 【免费下载链接】motrix-webextensionA browser extension for the Motrix Download Manager 项目地址: https://gitcode.com/gh_mirrors/mo/motrix-webextension 🎯 扩展核心功能与优势 Motrix WebExtension 是一款革命性的浏览器扩展,能够将您的下载任务无缝转移到功能强大的 Motrix 下载管理器。告别浏览器缓慢的原生下载体验,拥抱专业级下载管理的极致效率! 📋 准备工作与系统要求 在使用扩展前,请确保满足以下条件: * 已安装最新版 Motrix 应用程序(版本不低于 1.6.0) * 浏览器支持 Chrome、Firefox、Edge 或 Opera * 基本的浏览器扩展管理操作知识 ⚙️ 详细配置流程详解 第一步:生成 RPC