大模型基于llama.cpp量化详解

大模型基于llama.cpp量化详解

概述

llama.cpp 是一个高性能的 LLM 推理库,支持在各种硬件(包括 CPU 和 GPU)上运行量化后的大语言模型。本文档详细介绍如何使用 llama.cpp 将 HuggingFace 格式的模型转换为 GGUF 格式,并进行不同程度的量化。

GGUF 格式:GGUF(Georgi Gerganov Universal Format)是 llama.cpp 专门设计的模型文件格式,针对快速加载和保存模型进行了优化,支持单文件部署,包含加载模型所需的所有信息,无需依赖外部文件。

1.安装cmake
CMake 是跨平台的构建工具,用于编译 llama.cpp 项目。

下载地址:https://cmake.org/download/

安装建议

  • Windows 用户建议下载 cmake-3.x.x-windows-x86_64.msi 安装包
  • 安装时选择 “Add CMake to the system PATH”,以便在命令行中直接使用

验证安装

cmake --version 2.安装llama.cpp ```bash git clone https://github.com/ggerganov/llama.cpp 

convert_hf_to_gguf.py:HuggingFace 格式转 GGUF 的脚本
llama-quantize(或 quantize.exe):量化工具
main(或 main.exe):推理主程序
examples/:各种示例程序

3.编译

cd llama.cpp pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple pip install -r requirements/requirements-convert_hf_to_gguf.txt cmake -G "MinGW Makefiles" -DCMAKE_C_COMPILER=gcc -DCMAKE_CXX_COMPILER=g++ -B build cmake --build build --config Release 

4.模型转换
将safetensors转换为gguf

 convert-hf-to-gguf.py D:\\Project\\2026\\llama3-lora-merge --outtype f16 --outfile D:\\Project\\2026\\my_llama3.gguf 

参数说明:
D:\Project\2026\llama3-lora-merge:输入模型路径(包含 config.json 和权重文件的目录)
–outtype f16:输出类型,f16 表示半精度浮点数(16-bit),可选 f32(全精度)或 bf16
–outfile:输出 GGUF 文件路径

类型精度说明
f3232-bit全精度,文件最大,精度最高
f1616-bit半精度,平衡选择
bf1616-bitBrain Float,动态范围更大
q8_08-bit直接量化为 8 位

6.进一步量化

 D:\Project\2026\test_llama3.cpp\llama.cpp\build\bin\Release quantize.exe D:\\Project\\2026\\my_llama3.gguf D:\\Project\\2026\\quantized_model.gguf q4_0 

llama-quantize可执行文件来对模型进行进一步量化处理。量化可以帮助我们减少模型的大小,但是代价是损失了模型精度,也就是模型回答的能力可能有所下降。权衡以后我们可以选择合适的量化参数,保证模型的最大效益。
量化使用 q 表示存储权重的位数。位数越低,模型越小,速度越快,但精度损失越大。

量化类型位宽精度损失适用场景典型压缩率
q2_k2-bit极低资源环境,实验用途~75%
q3_k_s / q3_k_m / q3_k_l3-bit中高资源受限,可接受一定质量损失~60%
q4_0 / q4_14-bit最常用,平衡大小与质量~50%
q4_k_s / q4_k_m4-bit改进的 4-bit,质量更好~50%
q5_0 / q5_15-bit较高质量要求~40%
q5_k_s / q5_k_m5-bit改进的 5-bit~40%
q6_k6-bit很低接近原始质量~35%
q8_08-bit极低几乎无损,文件较大~25%
f1616-bit原始转换,未量化0%

K-quant 说明:
后缀带 _k 的(如 q4_k_m)使用改进的量化算法
混合量化策略:对 attention 层使用更高精度,其他层使用较低精度
_s(small)、_m(medium)、_l(large)表示混合程度

Read more

Qt Creator配置AI编程插件GitHub Copilot

Qt Creator配置AI编程插件GitHub Copilot

第一步:GitHub Copilot插件安装 QtCreator18.0为例,点击左侧Extensions菜单,在上方搜索栏搜索 GitHub Copilot, 然后点击右上角Active启动后重启QtCreator即可完成该工具安装. 第二步:copilot.vim 环境配置 去GitHub下载copilot.vim压缩包:copilot.vim。下载地址:https://github.com/github/copilot.vim 随后解压到自定义位置。 将其目录下.\dist\language-server.js地址填入设置的Path to language-serverjs项。 第三步:安装Node.js 去Node.js官网下载并安装node.js:node.js官网。 同样将node.exe地址链接到设置的Node.js path项。下载地址:https://nodejs.org/zh-cn 第四步:

隐私安全!Z-Image i2L本地AI绘画解决方案

隐私安全!Z-Image i2L本地AI绘画解决方案 1. 前言:当AI绘画遇上隐私焦虑 你有没有过这样的经历? 想用AI生成一张创意图片,可能是个人头像、产品概念图,或者一些比较私密的创作灵感。但当你把想法输入到某个在线AI绘画平台时,心里总会犯嘀咕:我的描述词会不会被记录?生成的图片会不会被平台拿去训练模型?如果涉及商业机密或个人隐私,该怎么办? 这正是许多创作者和企业面临的现实困境。在线AI绘画工具虽然方便,但数据安全和隐私保护始终是个绕不开的问题。今天,我要介绍一个完全不同的解决方案——Z-Image i2L本地AI绘画工具。 这个工具最大的特点就是:一切都在你的电脑上运行,数据不出本地,隐私绝对安全。无论你是生成商业设计稿、个人艺术作品,还是任何敏感内容,都不需要担心数据泄露的风险。 更重要的是,它不只是“能用”,而是“好用”。经过专门的性能优化,即使在普通消费级显卡上,也能流畅运行,生成高质量的图像。接下来,我将带你深入了解这个工具,看看它是如何工作的,以及如何快速上手使用。 2. 核心原理:底座模型+权重注入 要理解Z-Image

FLUX.1-dev FP8量化模型:6GB显存实现专业级AI绘画

FLUX.1-dev FP8量化模型:6GB显存实现专业级AI绘画 【免费下载链接】flux1-dev 项目地址: https://ai.gitcode.com/hf_mirrors/Comfy-Org/flux1-dev 还在为高端AI绘画软件对显卡的苛刻要求而苦恼吗?现在,FLUX.1-dev FP8量化版本为你带来了全新的解决方案!这款革命性的AI绘画模型将显存需求从传统的16GB大幅降低至仅需6GB,让普通玩家也能轻松享受专业级的图像生成体验。 🎯 为什么FP8量化是AI绘画的未来? 传统AI绘画模型对硬件配置的要求让许多创作者望而却步。FLUX.1-dev FP8通过创新的智能量化技术,在保持生成质量的同时实现了显存占用的大幅优化: * 精准量化策略:对模型不同模块采用差异化精度处理 * 文本理解保持:关键模块维持FP16精度,确保提示词理解准确度 * 生成效率优化:图像生成部分应用FP8量化,显著降低资源消耗 * 智能平衡机制:在画质与性能之间找到最佳平衡点 📈 硬件兼容性全面升级 显卡配置传统模型兼容性FP8量化模型兼容性实际使用体验RTX

OpenClaw之Memory配置成本地模式,Ubuntu+CUDA+cuDNN+llama.cpp

文章目录 * 背景:Memory不生效的问题 * OpenClaw的Memory配置 * Ubuntu24.04安装CUDA和cuDNN * 编译llama.cpp * 验证方案1: * 验证方案2:下载并运行Llama-2 7B模型 * 安装node-llama-cpp * 验证Memory * sqlite-vec unavailable * 踩过的坑 * 安装node-llama-cpp的一些提示 * 安装node-llama-cpp的前置条件 * Using `node-llama-cpp` With Vulkan 承接上文:Windows11基于WSL2首次运行Openclaw,并对接飞书应用,我已经在电脑上安装了OpenClaw,接下来解决Memory问题。走了很多弯路,下面主要讲我总结的正确的安装过程。 总结来说:针对Memory不生效的问题,又不想用OpenAI或Gemini,或者只想单纯的节省token,可以按照如下的方式,设置为local模式: * 修改openclaw.json配置 * 安装CUDA和cu