1. llama.cpp:让大模型在普通电脑上跑起来
大模型通常需要几十 GB 显存。llama.cpp 是一个用 C/C++ 编写的开源项目,核心目标是用最高效的方式,在消费级硬件(如笔记本电脑 CPU)上运行大型语言模型。它更像一个'推理引擎',专注于把训练好的模型以最小的资源消耗跑起来。其优势在于纯 C/C++ 实现带来的极致性能,以及模型量化技术带来的体积与速度优化。
2. 第一步:准备 llama.cpp 工作环境
2.1 获取与编译 llama.cpp
llama.cpp 源码托管在 GitHub 上。打开终端执行以下命令克隆项目:
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
进入项目目录后,运行 make 命令进行编译。Makefile 会自动检测系统硬件架构并进行优化。编译完成后生成关键可执行文件:
main:核心推理程序。quantize:量化工具。server:HTTP API 服务端。
若编译失败,通常需安装基础构建工具(如 gcc、make)。
2.2 准备你的第一个模型
llama.cpp 支持多种模型格式,最推荐的是 GGUF 格式。这是一种专为高效推理设计的模型文件格式。
模型可从 Hugging Face Models 网站搜索获取,建议加上'GGUF'关键词过滤。例如搜索 Llama-2-7b-chat GGUF。
找到合适的模型仓库后,建议在网页上直接下载 GGUF 模型文件,避免使用 git clone 导致 Git LFS 问题。在文件列表中找到类似 llama-2-7b-chat.Q4_K_M.gguf 的文件直接下载。
下载好的 .gguf 文件建议放在项目根目录下的 models 文件夹里。

