Ubuntu 下 llama.cpp 编译构建与性能调优实战
llama.cpp 作为高效轻量级的 LLM 推理框架,凭借跨平台支持和出色性能备受开发者青睐。本文聚焦 Ubuntu 环境下的编译构建流程与基础优化策略,从环境搭建到 CMake 配置,提供一套可落地的实践方案。
环境准备与基础编译
在开始之前,建议采用 Ubuntu 22.04 LTS 系统,其软件包支持稳定且兼容性良好。
首先更新系统并安装必要的开发工具:
sudo apt update && sudo apt upgrade -y
sudo apt install -y build-essential cmake git curl libcurl4-openssl-dev
若计划使用 CUDA 加速,还需安装 NVIDIA 驱动及 CUDA 工具包:
sudo apt install -y nvidia-driver-535 nvidia-cuda-toolkit
获取源码并初始化构建目录:
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build
基础编译通过 CMake 完成。针对纯 CPU 环境,推荐以下配置:
cmake .. -DLLAMA_CURL=ON -DBUILD_SHARED_LIBS=OFF
提示:
-DLLAMA_CURL=ON启用 HTTP 支持,-DBUILD_SHARED_LIBS=OFF生成静态库,便于后续部署。
编译过程支持多线程加速:
cmake --build . --config Release -j $(nproc)
编译完成后,当前目录下将生成核心可执行文件及相关依赖库,即可进行后续的模型加载与推理测试。

