Ubuntu 下 llama.cpp 编译与性能调优实战

在本地部署大语言模型时，llama.cpp 凭借其高效的推理性能和跨平台能力，成为许多开发者的首选。本文将聚焦于 Ubuntu 环境下的编译流程与性能优化细节，从基础依赖到高级参数配置，提供一套可直接落地的实践方案。

编译前确保系统为 Ubuntu 22.04 LTS 或更高版本，这能提供更好的软件包兼容性。

首先更新系统并安装构建工具链：

sudo apt update && sudo apt upgrade -y
sudo apt install -y build-essential cmake git curl libcurl4-openssl-dev

若需启用 GPU 加速，还需安装 NVIDIA 驱动及 CUDA 工具包：

sudo apt install -y nvidia-driver-535 nvidia-cuda-toolkit

获取源码并初始化构建目录：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build

基础编译使用 CMake 配置。针对纯 CPU 环境，推荐以下参数：

cmake .. -DLLAMA_CURL=ON -DBUILD_SHARED_LIBS=OFF

提示：-DLLAMA_CURL=ON 开启 HTTP 支持，-DBUILD_SHARED_LIBS=OFF 生成静态库，便于后续部署。

编译过程建议利用多核加速：

cmake --build . --config Release -j $(nproc)

编译成功后，主要生成以下可执行文件：

默认编译选项通常较为保守，生产环境建议根据硬件特性调整。

CPU 指令集优化

现代 CPU 支持 AVX、AVX2 等指令集，开启后可显著提升推理速度。添加 -DLLAMA_NATIVE=ON 参数即可自动检测当前架构并启用对应指令集。

cmake .. -DLLAMA_NATIVE=ON

BLAS 加速

对于计算密集型任务，引入 BLAS 库（如 OpenBLAS）能进一步压榨 CPU 性能。需先安装 libopenblas-dev，并在 CMake 中指定路径：

cmake .. -DLLAMA_BLAS=ON -DCMAKE_PREFIX_PATH=/usr/lib/x86_64-linux-gnu/openblas-base

更多推荐文章