Ubuntu 环境下 llama.cpp 编译与性能优化实战

大型语言模型（LLM）落地时，推理效率往往是关键瓶颈。llama.cpp 凭借其对 CPU 和 GPU 的高效支持，成为本地部署的首选方案之一。在 Ubuntu 系统上完成其编译与基础调优，能显著提升运行体验。以下分享一套经过验证的实操流程。

推荐使用 Ubuntu 22.04 LTS，软件包生态稳定且兼容性好。

首先更新系统并安装构建依赖：

sudo apt update && sudo apt upgrade -y
sudo apt install -y build-essential cmake git curl libcurl4-openssl-dev

若需启用 CUDA 加速，请确保已安装 NVIDIA 驱动及 CUDA 工具包：

sudo apt install -y nvidia-driver-535 nvidia-cuda-toolkit

获取源码并初始化构建目录：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build

使用 CMake 配置编译选项。纯 CPU 环境建议如下：

cmake .. -DLLAMA_CURL=ON -DBUILD_SHARED_LIBS=OFF

提示：开启 -DLLAMA_CURL=ON 可支持 HTTP 请求，静态库链接（-DBUILD_SHARED_LIBS=OFF）则更利于后续部署分发。

编译过程利用多核并行加速：

cmake --build . --config Release -j $(nproc)

构建完成后，主要生成以下核心可执行文件：

完成编译后，建议先运行一次 ./main 加载小模型进行验证，确认环境无误后再处理正式业务数据。对于生产环境，结合 AVX2 或 AVX512 指令集参数调整，往往能获得更极致的性能表现。

更多推荐文章