llama.cpp 高效部署与使用指南

llama.cpp 安装与使用指南

最近尝试了 llama.cpp 这个开源框架，整理一下安装过程及核心用法，供参考。

llama.cpp 是一个高性能的推理框架，专为在 CPU 和 GPU 上运行 LLaMA 系列及其他兼容 Transformer 模型设计。它的优势在于轻量、跨平台，即便在没有独立显卡的设备上也能跑起来，同时对显存的利用率相当高。

1. 项目介绍

llama.cpp 的核心能力包括：

多格式支持：兼容 Q4、Q5、Q8、Q2 等多种量化格式，显著降低显存占用。
多后端适配：支持 CPU、GPU（CUDA、Metal、OpenCL、Vulkan）等多种计算后端。
接口丰富：提供简单易用的命令行工具（CLI）以及 HTTP 服务接口。
模型兼容：支持 Hugging Face 上的大多数主流模型（如 LLaMA、Qwen、Mistral、Baichuan、ChatGLM 等），但需转换为 GGUF 格式。

项目地址：https://github.com/ggerganov/llama.cpp

2. 安装方法

2.1 使用预编译版本（推荐新手）

对于不想折腾环境的用户，直接下载二进制包最省事。

前往 Releases 页面下载适配当前系统的压缩包（Windows/Linux/macOS）。
解压到目标目录即可。

验证安装是否成功：

./llama-cli --help

2.2 从源代码构建（适合定制化需求）

如果你需要特定功能或想深入理解底层，源码构建是更好的选择。

依赖环境

系统：Linux / macOS / Windows WSL
工具链：cmake (>= 3.20), make, gcc / clang
加速库：CUDA Toolkit（如需 GPU 加速）

构建步骤（Linux / macOS）

# 克隆项目
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

# 创建构建目录
mkdir build && cd build

# GPU 版本（CUDA）
cmake .. -DLLAMA_CUBLAS=ON
make -j$(nproc)

# CPU 版本
cmake ..
make -j$(nproc)

构建完成后会生成三个主要可执行文件：

llama-cli：命令行推理工具
llama-server：HTTP API 服务
quantize：模型量化工具

llama.cpp 高效部署与使用指南

llama.cpp 安装与使用指南

1. 项目介绍

2. 安装方法

2.1 使用预编译版本（推荐新手）

2.2 从源代码构建（适合定制化需求）

依赖环境

构建步骤（Linux / macOS）

3. 模型准备

3.1 下载模型

更多推荐文章

相关免费在线工具

3.2 转换为 GGUF 格式

3.3 量化模型（可选，减少显存）

4. 启动 HTTP 服务

5. 常见问题

Q1: CUDA 版本报错 `libcublas.so not found`

Q2: 显存不足

Q3: 端口占用

6. 总结

更多推荐文章

相关免费在线工具

llama.cpp 高效部署与使用指南

llama.cpp 安装与使用指南

1. 项目介绍

2. 安装方法

2.1 使用预编译版本（推荐新手）

2.2 从源代码构建（适合定制化需求）

依赖环境

构建步骤（Linux / macOS）

3. 模型准备

3.1 下载模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 转换为 GGUF 格式

3.3 量化模型（可选，减少显存）

4. 启动 HTTP 服务

5. 常见问题

Q1: CUDA 版本报错 libcublas.so not found

Q2: 显存不足

Q3: 端口占用

6. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Q1: CUDA 版本报错 `libcublas.so not found`