llama.cpp 安装与使用指南 | 极客日志

C++AI算法

llama.cpp 安装与使用指南

综述由AI生成llama.cpp 高性能开源推理框架的安装与使用方法。内容包括两种安装方式（预编译与源码构建）、模型 GGUF 格式转换及量化操作、HTTP 服务启动命令，并提供了 CUDA 报错、显存不足等常见问题的解决方案，适用于本地部署大模型的场景。

监控大屏发布于 2026/4/5更新于 2026/5/2336 浏览

最近在使用 llama.cpp 的开源框架，所以简单写一下安装过程以及相关的介绍。

llama.cpp 是一个高性能的开源推理框架，用于在 CPU 和 GPU 上运行 LLaMA 系列及其他兼容的 Transformer 模型。它的特点是轻量、跨平台、可在无显卡的设备上运行，同时对显卡显存利用率很高。

1. 项目介绍

llama.cpp 主要功能：

支持多种量化格式（Q4, Q5, Q8, Q2 等），显著减少显存占用。
支持 CPU、GPU（CUDA、Metal、OpenCL、Vulkan）等多种后端。
提供简单易用的 CLI 和 HTTP 服务接口。
支持大多数 Hugging Face 上的 LLaMA、Qwen、Mistral、Baichuan、ChatGLM 等模型（需转换为 GGUF 格式）。

项目地址：https://github.com/ggerganov/llama.cpp

2. 安装方法

2.1 使用预编译版本（推荐新手）

从 Releases 页面下载适配系统的二进制包（Windows/Linux/macOS）。
解压到目标目录。

测试是否可运行：

./llama-cli --help

2.2 从源代码构建（适合需要定制化）

依赖环境

Linux / macOS / Windows WSL
cmake（>= 3.20）
make
gcc / clang
CUDA Toolkit（如果需要 GPU 加速）

构建步骤（Linux / macOS）

# 克隆项目
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

# 创建构建目录
mkdir build && cd build

# GPU 版本（CUDA）
cmake .. -DLLAMA_CUBLAS=ON
make -j$(nproc)

# CPU 版本
cmake ..
make -j$(nproc)

构建完成后会生成：

llama-cli：命令行推理工具
llama-server：HTTP API 服务
quantize：模型量化工具

3. 模型准备

3.1 下载模型

可以从 Hugging Face 下载模型权重，例如：

git lfs install
git  https://huggingface.co/Qwen/Qwen2-7B

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

python3 convert.py /path/to/model --outfile model.gguf

./quantize model.gguf model-q4_0.gguf q4_0

./llama-server -m ./model-q4_0.gguf --port 9558 --gpu-layers 40

export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

sudo lsof -i:9558
sudo kill -9 <pid>

llama.cpp 安装与使用指南

1. 项目介绍

2. 安装方法

2.1 使用预编译版本（推荐新手）

2.2 从源代码构建（适合需要定制化）

依赖环境

构建步骤（Linux / macOS）

3. 模型准备

3.1 下载模型

更多推荐文章

相关免费在线工具

3.2 转换为 GGUF 格式

3.3 量化模型（可选，减少显存）

4. 启动 HTTP 服务

5. 常见问题

Q1: CUDA 版本报错 `libcublas.so not found`

Q2: 显存不足

Q3: 端口占用

6. 总结

更多推荐文章

相关免费在线工具

llama.cpp 安装与使用指南

1. 项目介绍

2. 安装方法

2.1 使用预编译版本（推荐新手）

2.2 从源代码构建（适合需要定制化）

依赖环境

构建步骤（Linux / macOS）

3. 模型准备

3.1 下载模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 转换为 GGUF 格式

3.3 量化模型（可选，减少显存）

4. 启动 HTTP 服务

5. 常见问题

Q1: CUDA 版本报错 libcublas.so not found

Q2: 显存不足

Q3: 端口占用

6. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Q1: CUDA 版本报错 `libcublas.so not found`