Ubuntu 下 llama.cpp 编译与性能调优实战

在 Ubuntu 22.04 环境下编译和优化 llama.cpp 的方法。内容包括环境准备、开发工具安装、CUDA 加速配置、源码克隆及 CMake 编译步骤。通过合理配置参数，可实现静态库构建及多线程加速，为本地运行大语言模型提供基础支持。

CryptoLab发布于 2026/4/5更新于 2026/7/2142 浏览

大型语言模型（LLM）已成为开发者工具箱中不可或缺的一部分。llama.cpp 是一款高效、轻量级的 LLM 推理框架，因其出色的性能和跨平台支持，受到开发者青睐。本文将介绍在 Ubuntu 环境下编译和优化 llama.cpp 的全过程。

开始编译前，需确保系统环境满足要求。Ubuntu 22.04 LTS 是最推荐的系统版本。

首先更新系统并安装必要的开发工具：

sudo apt update && sudo apt upgrade -y
sudo apt install -y build-essential cmake git curl libcurl4-openssl-dev

对于希望使用 CUDA 加速的用户，还需要安装 NVIDIA 驱动和 CUDA 工具包：

sudo apt install -y nvidia-driver-535 nvidia-cuda-toolkit

接下来，获取 llama.cpp 的源代码并初始化构建目录：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build

基础编译配置使用 CMake 完成。对于纯 CPU 环境，推荐以下配置：

cmake .. -DLLAMA_CURL=ON -DBUILD_SHARED_LIBS=OFF

提示：-DLLAMA_CURL=ON 启用了 HTTP 支持，-DBUILD_SHARED_LIBS=OFF 创建静态链接库，便于部署。

编译过程可以使用多线程加速：

cmake --build . --config Release -j $(nproc)

编译完成后，将生成相关可执行文件。

更多推荐文章