轻松内网部署:llama.cpp量化大模型运行指南!

轻松内网部署:llama.cpp量化大模型运行指南!

跑量化模型,LLama.cpp 还是方便,用 C/C++ 实现,性能很高,还支持的 CPU+GPU 做量化模型推理,命令行参数很精细,跑 GGUF 很方便。本文就详细介绍安装、运行全过程,中间踩坑无数,希望对大家有所帮助。

一、什么是 llama.cpp?为什么它如此重要?

llama.cpp 的核心思想是让大模型运行在普通人的消费级硬件上。它通过以下关键技术实现了这一目标:

  • C/C++ 实现:没有复杂的 Python 依赖,编译后即是原生可执行文件,性能极高。
  • 模型量化 (Quantization):将模型权重从传统的 32 位或 16 位浮点数,压缩成更小的整数(如 4 位、5 位)。这使得模型文件大小和内存占用都减少数倍,而对模型性能的影响却很小。
  • GGUF 格式:一种专为 llama.cpp 设计的模型文件格式,将模型结构和量化后的权重打包在一起,方便分发和加载。
  • 硬件优化:充分利用现代 CPU 的向量指令集(如 AVX2)和 GPU 的并行计算能力(如 Apple Metal, NVIDIA CUDA),实现惊人的推理速度。

01.第一步:环境准备与基础编译

首先,我们需要安装编译 llama.cpp 所需的基础工具。

  • macOS: 打开**终端 (Terminal)**,运行 xcode-select --install
  • Linux (Ubuntu/Debian): 运行 sudo apt update && sudo apt install build-essential git cmake
  • Windows: 安装 Git for WindowsCMake, 以及带有 "使用 C++ 的桌面开发" 工作负载的 Visual Studio Community Edition

然后,克隆项目仓库:

git clone https://github.com/ggerganov/llama.cpp cd llama.cpp 

在进行下一步编译之前,我们先来了解如何开启 GPU 加速。


02.第二步:开启 GPU 加速(核心步骤)

默认情况下,llama.cpp 只使用 CPU。要发挥硬件的最大潜力,你需要在编译时明确告诉它使用哪个 GPU 后端。

编译命令详解

llama.cpp 使用 cmake 进行编译。开启 GPU 支持的关键是在 cmake 命令后附加 -D 标志。

对于 AMD/Intel GPU 用户 (使用 OpenCL 或 Vulkan):这是一个更通用的选项,但性能可能不如官方支持的 CUDA 和 Metal。

# 使用 OpenCL cmake -B build -DLLAMA_CLBLAST=ON cmake --build build --config Release -j 

对于 NVIDIA GPU 用户 (使用 CUDA):你需要先安装 NVIDIA CUDA Toolkit。安装后,执行:

cmake -B build -DLLAMA_CUDA=ON cmake --build build --config Release -j 

对于 Apple Silicon (M1/M2/M3/M4) 用户 (使用 Metal):

cmake -B build -DLLAMA_METAL=ON cmake --build build --config Release -j 

这会开启 Apple 的 Metal 图形和计算框架,性能极佳。

编译成功后,生成的 llama-cli 和 server 等工具就具备了 GPU 加速的能力。

如果运气好,上面即可编译成功,但是我运气不好

我在 RHEL 系统实操时,各种报错

走了 N 多弯路,尝试 N 多方法,最终在 10978 号 issue 中找到了答案

图片

内网升级 gcc 有点麻烦,我用了编辑 CMakeLists.tx 的方法

图片

我比较喜欢 unsloth 的玩法

在自己的大模型文件夹里:cp llama.cpp/build/bin/llama-* llama.cpp

这样可以非常方便滴使用 ./llama.cpp/llama-cli 直接拉起本地大模型

图片
如何控制 CPU 和 GPU 的使用?

llama.cpp 通过一个核心参数来控制模型有多少层被“卸载”到 GPU 上运行:

  • -ngl <层数> 或 --n-gpu-layers <层数>

这个参数告诉 llama.cpp 将模型的最后 N 层放到 GPU VRAM 中进行计算。因为模型的大部分计算量都集中在这些层,所以卸载的层数越多,速度越快。

  • 纯 CPU 模式: 不加 -ngl 参数,或者设置为 -ngl 0。所有计算都在 CPU 上完成,内存占用在系统 RAM 中。
  • 完全 GPU 加速模式: 设置一个非常大的数,如 -ngl 999llama.cpp 会尝试将所有能卸载的层都放入 GPU。这是最快的模式,前提是你的 GPU VRAM 足够大,能装下所有被卸载的层。
  • 混合模式 (CPU + GPU): 当你的 VRAM 不足以容纳整个模型时,这是最佳选择。你可以设置一个具体的层数,如 -ngl 20。这样,模型的 20 层会在 GPU 上飞速计算,而其余层和计算任务则由 CPU 和系统 RAM 承担。这是一种用有限 VRAM 撬动最大性能的有效方式。

03.第三步:获取 GGUF 模型

获取模型主要有两种方式:手动下载或直接从 Hugging Face 加载。

方式一:手动下载 (推荐,更稳定)

你需要从 Hugging Face 下载 GGUF 格式的模型。搜索时加上 "GGUF" (例如 "Qwen2-7B-Instruct-GGUF"),然后在 "Files and versions" 中选择一个合适的量化版本(Q4_K_M 是平衡性最好的选择)。

将下载好的 .gguf 文件放入 llama.cpp/models 文件夹。

方式二:从 Hugging Face 直接加载 (方便快捷)

llama.cpp 支持直接从 Hugging Face Hub 下载并运行模型,无需手动下载。这需要你在命令中使用 -hf 或 --hf-repo 参数。

方式三:modelscope

也算是一种手动下载,毕竟 HF 国内网络不通,魔塔是个绝好的替代,下载速度很快

pip install modelscope 之后,即可使用 modelscope download 下载模型

下载完整模型库

modelscope download --model unsloth/gpt-oss-120b

下载单个文件到指定本地文件夹(以下载 README.md 到当前路径下“dir”目录为例)

modelscope download --model unsloth/gpt-oss-120b README.md --local_dir ./dir

图片

04.第四步:运行模型与参数深度解析

现在,我们将结合 GPU 加速参数来运行模型,并深入了解其他重要的命令行选项。

1. 基础运行示例(GPU 加速)

假设你有一块 NVIDIA 显卡,VRAM 足够,想完全使用 GPU 加速:

./build/bin/llama-cli -m ./models/Qwen2-7B-Instruct.Q4_K_M.gguf -ngl 999 --color -c 4096 -n 1024 -p "你好,请详细介绍一下光合作用的过程。" 

如果你的 VRAM 有限,可以尝试混合模式:

./build/bin/llama-cli -m ./models/Qwen2-7B-Instruct.Q4_K_M.gguf -ngl 22 --color -c 4096 -n 1024 -p "你好,请详细介绍一下光合作用的过程。" 

(Qwen-7B 大约有 32 层,-ngl 22 会卸载大部分层到 GPU)

图片

也可以多卡启动

图片
2. 更多实用示例 (来自官方 README)

计算模型困惑度 (Perplexity)困惑度是衡量语言模型好坏的指标,越低越好。你可以用 llama-cli 来测试模型在某个文本文件上的困惑度。

# -f 指定要测试的文件,-c 指定上下文长度 ./build/bin/llama-cli -m ./models/your-model.gguf -f ./path/to/your/test-file.txt -c 2048 --perplexity 

创建带“人设”的交互式对话通过组合使用 -r (reverse prompt) 和 --in-prefix,可以创建一个更自然的对话机器人。

# -i 进入交互模式 # -r "User:" 当模型生成 "User:" 时,会停止并等待你的输入 # --in-prefix " " 在你的输入前加上一个空格,防止粘连 ./build/bin/llama-cli -m ./models/your-model.gguf -i -r "User:" --in-prefix " " -p "A chat between a user and an assistant.\nUser: Hello!\nAssistant:" 

直接从 Hugging Face 运行

# llama-cli 会自动下载并运行 ggml-org/gemma-2-9b-it-GGUF 模型 ./build/bin/llama-cli -hf ggml-org/gemma-2-9b-it-GGUF -p "你好,介绍一下自己。" -n 128 
3. Web UI 与 OpenAI 兼容 API (server)

llama.cpp 的服务器功能非常强大,不仅提供了一个图形聊天界面,还暴露了与 OpenAI API 完全兼容的接口。

  1. 使用 Web UI:在浏览器中打开 http://127.0.0.1:8080,即可开始聊天。

启动服务器:

# -m 指定模型,-ngl 指定 GPU 层数,--host 0.0.0.0 允许局域网访问 ./build/bin/server -m ./models/your-model.gguf -ngl 35 -c 4096 --host 0.0.0.0 --port 3003 

图片
  1. 使用 OpenAI API:服务器启动后,它会在 http://127.0.0.1:8080/v1/chat/completions 提供一个 OpenAI 兼容的端点。这意味着,你可以将任何支持 OpenAI API 的客户端、脚本或应用(例如 curl, Python openai 库等)直接对接到你本地运行的模型上,只需将 API 的 base_url 指向你的本地服务器地址即可。

比如可以配置到 open-webui

图片
4. llama-cli 核心参数深度解析

分类

参数

解释

模型加载-m, --model <path>(必需)

 指定本地 GGUF 模型文件路径。

-hf, --hf-repo <repo>

从 Hugging Face Hub 加载模型,例如 ggml-org/gemma-2-9b-it-GGUF

硬件与性能-ngl, --n-gpu-layers <N>(最重要)

 将模型的 N 层卸载到 GPU。

-t, --threads <N>

使用的 CPU 线程数。

-b, --batch-size <N>

提示词处理的批处理大小,可以影响速度。

--mlock

将模型锁定在内存中,防止被交换到硬盘,对性能有益。

上下文管理-c, --ctx-size <N>

上下文窗口大小(单位:token)。模型能“记住”的对话长度。

--prompt-cache <file>

将处理过的提示词缓存到文件,下次加载相同提示词时会更快。

生成控制-n, --n-predict <N>

模型一次最多生成的 token 数量。设为 -1 表示无限生成。

--temp <value>温度

。控制随机性。值越低(如 0.2)回答越确定;越高(如 1.2)越有创意。

--top-k <N>Top-K 采样

。在每一步,模型只从概率最高的 K 个词中选择。

--top-p <value>Top-P (Nucleus) 采样

。从累积概率超过 P 的最小词集中选择。通常比 Top-K 效果更好。

--repeat-penalty <value>重复惩罚

。大于 1 的值会惩罚重复出现的词,有效减少复读。常用 1.1

交互与提示词-p, --prompt <text>

初始提示词。

-f, --file <path>

从文件加载初始提示词。

-i, --interactive

进入交互模式,可以持续对话。

-r, --reverse-prompt <text>

在交互模式下,指定用户的输入提示符,例如 -r "User:"

--color

让输出带上颜色,区分用户和模型的输入。


05.第五步:Python 集成(带 GPU 加速)

在 Python 中使用 llama-cpp-python 时,同样可以开启 GPU 加速。

  1. 安装库pip install llama-cpp-python

Python 代码示例:

from llama_cpp import Llama # 加载模型 llm = Llama(     model_path="./models/你的模型文件名.gguf",     n_ctx=4096,       # 上下文长度     n_threads=8,      # CPU 线程数     n_gpu_layers=-1   # -1 表示尝试将所有层都卸载到 GPU                       # 设为 0 表示纯 CPU                       # 设为正整数 N 表示卸载 N 层 ) # 创建对话 response = llm.create_chat_completion(     messages = [         {"role": "system", "content": "You are a helpful assistant."},         {             "role": "user",             "content": "你好,请介绍一下北京这座城市。"         }     ] ) print(response['choices'][0]['message']['content']) 

06.第六步:常见问题排查 (Troubleshooting)

问题:编译时提示“BLAS not found”

这是一个在编译 llama.cpp 时非常常见的情况。当您在运行 cmake 时看到 BLAS not found 的提示,这不是一个致命错误,而是一个可选的性能提示

1. 它是什么意思?

  • 核心计算是矩阵乘法:大语言模型推理过程最耗时的计算就是大量的矩阵与向量相乘。
  • BLAS 作为“外挂加速引擎”llama.cpp 允许调用系统上已安装的高性能 BLAS 库(如 OpenBLAS)来执行这些矩阵运算,以获得更好的 CPU 性能,尤其是在处理长提示词(Prompt Ingestion)的阶段。
  • BLAS not found 的含义cmake 在你的系统中搜索可用的 BLAS 库但没有找到。因此,它会回退使用 llama.cpp 自带的标准数学运算代码。你的程序依然可以编译和运行,只是可能没有达到最理想的 CPU 性能。

2. 如何解决并开启 BLAS 加速?

解决方案非常简单,就是为系统安装一个高性能的 BLAS 库。

重新编译:

cmake --build build --config Release -j 

清理并重新配置编译环境: 回到 llama.cpp 的根目录,清理掉旧的配置,然后重新运行 cmake,并明确地告诉它使用 BLAS。

# 清理旧的 build 目录 rm -rf build # 重新配置,并开启 BLAS 支持 cmake -B build -DLLAMA_BLAS=ON # 如果你同时需要 GPU 加速,可以将标志合并 # 例如,对于 NVIDIA GPU: # cmake -B build -DLLAMA_CUDA=ON -DLLAMA_BLAS=ON 

安装 OpenBLAS 开发库 (以 Debian/Ubuntu 为例):

sudo apt update sudo apt install libopenblas-dev 

完成这些步骤后,你编译出的 llama.cpp 版本就会链接到 OpenBLAS,从而在处理提示词时获得更强的 CPU 性能。

最后

源码编译其实蛮看运气的,比如我生产环境的一台 RHEL 系统的服务器,yum 源很不给力,仅仅是升级 GCC 都费老大劲,各种依赖安装到吐血。

最后还是选择了 Docker 运行 llama.cpp,确实省事。

二、AI大模型学习路线

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

这份完整版的大模型 AI 学习和面试资料已经上传ZEEKLOG,朋友们如果需要可以微信扫描下方ZEEKLOG官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!

请添加图片描述


第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

请添加图片描述

大模型全套视频教程

请添加图片描述

200本大模型PDF书籍

请添加图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

请添加图片描述

大模型产品经理资源合集

请添加图片描述

大模型项目实战合集

请添加图片描述

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

Read more

Visual C++ 6.0中文版安装包下载教程及win11安装教程

本文分享的是Visual C++ 6.0(简称VC++6.0)中文版安装包下载及安装教程,关于win11系统下安装和使用VC++6.0使用问题解答,大家在安装使用的过程中会遇到不同的问题,如遇到解决不了的问题请给我留言! 一、安装包的下载 vc6.0安装包下载连接: https://pan.quark.cn/s/710dc0efe636 二、安装vc++6.0 1.鼠标右键解压到“VC++ 6.0”安装包,解压后如图所示: 2.双击Steup.exe,进行安装; 3.点击下一步 4.更改路径,建议不要安装在C盘(默认盘符),可以选择其他的盘符,点击浏览进行更改盘符。 5.选择C盘(默认盘或系统盘)以外的盘符。

By Ne0inhk
全网最全100道C++高频经典面试题及答案解析:C++程序员面试题库分类总结

全网最全100道C++高频经典面试题及答案解析:C++程序员面试题库分类总结

前言 C++作为一门兼具高性能与灵活性的语言,持续推动着量子计算、自动驾驶、区块链、AI编译器等领域的技术革命。本题库精选100道高频面试题,涵盖从内存模型、编译器内部机制到跨学科前沿应用的深度内容,专为资深工程师、系统架构师及科研岗位设计。无论是准备顶级科技公司面试,还是探索C++在安全关键系统(如航天、医疗)与新兴领域(如脑机接口、边缘AI)的工程实践,这些题目将帮助您展现对语言本质的理解和对复杂场景的掌控力。 题库特点: 垂直深入:超越语法层面,聚焦标准演进(C++20/23)、硬件协同优化及形式化验证等高级主题。 跨领域融合:结合LLVM/MLIR编译器开发、CUDA加速、实时操作系统等场景,体现C++的系统级控制能力。 第一部分:面向对象与内存管理(1-10题) 1. 虚函数实现原理(字节跳动/腾讯) 题目:虚函数表(vtable)在C++中是如何工作的?写出示例代码说明动态多态的实现。

By Ne0inhk

3.6-Web后端基础(java操作数据库)

目录 前言 JDBC 介绍 查询数据 需求 准备工作 代码实现 代码剖析 ResultSet 预编译SQL SQL注入 SQL注入解决 性能更高 增删改数据 需求 代码实现 Mybatis 介绍 快速入门 辅助配置 配置SQL提示 配置Mybatis日志输出 JDBC VS Mybatis 数据库连接池 介绍 产品 增删改查操作 删除 新增 修改 查询 XML映射配置 XML配置文件规范 XML配置文件实现 MybatisX的使用 SpringBoot配置文件 介绍 语法 案例 前言 在前面我们学习MySQL数据库时,都是利用图形化客户端工具(如:idea、datagrip),来操作数据库的。 我们做为后端程序开发人员,

By Ne0inhk
SkyWalking - .NET / C++ / Lua 探针现状与社区支持

SkyWalking - .NET / C++ / Lua 探针现状与社区支持

👋 大家好,欢迎来到我的技术博客! 📚 在这里,我会分享学习笔记、实战经验与技术思考,力求用简单的方式讲清楚复杂的问题。 🎯 本文将围绕SkyWalking这个话题展开,希望能为你带来一些启发或实用的参考。 🌱 无论你是刚入门的新手,还是正在进阶的开发者,希望你都能有所收获! 文章目录 * SkyWalking - .NET / C++ / Lua 探针现状与社区支持 🌐 * 一、SkyWalking 多语言探针架构概览 🧩 * 二、Java 探针:成熟稳定,功能最全 ☕️ * 示例:Spring Boot 应用接入 SkyWalking * Java 探针高级特性 * 三、.NET 探针现状:渐趋成熟,生产可用 🖥️ * 技术原理 * 使用方式 * 当前支持的功能 * 局限性 * 四、C++ 探针现状:SDK 形式,适合嵌入式场景 ⚙️ * cpp2sky SDK

By Ne0inhk