最近在使用 llama.cpp 的开源框架,所以简单写一下安装过程以及相关的介绍。
llama.cpp 是一个高性能的开源推理框架,用于在 CPU 和 GPU 上运行 LLaMA 系列及其他兼容的 Transformer 模型。它的特点是轻量、跨平台、可在无显卡的设备上运行,同时对显卡显存利用率很高。
1. 项目介绍
llama.cpp 主要功能:
- 支持多种量化格式(Q4, Q5, Q8, Q2 等),显著减少显存占用。
- 支持 CPU、GPU(CUDA、Metal、OpenCL、Vulkan)等多种后端。
- 提供简单易用的 CLI 和 HTTP 服务接口。
- 支持大多数 Hugging Face 上的 LLaMA、Qwen、Mistral、Baichuan、ChatGLM 等模型(需转换为 GGUF 格式)。
项目地址:https://github.com/ggerganov/llama.cpp
2. 安装方法
2.1 使用预编译版本(推荐新手)
- 从 Releases 页面下载适配系统的二进制包(Windows/Linux/macOS)。
- 解压到目标目录。
测试是否可运行:
./llama-cli --help
2.2 从源代码构建(适合需要定制化)
依赖环境
- Linux / macOS / Windows WSL
cmake(>= 3.20)makegcc/clang- CUDA Toolkit(如果需要 GPU 加速)
构建步骤(Linux / macOS)
# 克隆项目
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
# 创建构建目录
mkdir build && cd build
# GPU 版本(CUDA)
cmake .. -DLLAMA_CUBLAS=ON
make -j$(nproc)
# CPU 版本
cmake ..
make -j$(nproc)
构建完成后会生成:
llama-cli:命令行推理工具llama-server:HTTP API 服务quantize:模型量化工具
3. 模型准备
3.1 下载模型
可以从 Hugging Face 下载模型权重,例如:
git lfs install
git https://huggingface.co/Qwen/Qwen2-7B

