Ubuntu 下 llama.cpp 编译与性能调优实战

本地部署大模型时，llama.cpp 凭借其轻量级和高效率成为首选。本文将深入探讨在 Ubuntu 环境下编译和优化 llama.cpp 的全过程，从基础环境搭建到高级性能调优。

开始之前，确保系统环境满足基本要求。Ubuntu 22.04 LTS 提供了稳定的软件包支持和良好的兼容性。

先更新系统并安装必要的开发工具：

sudo apt update && sudo apt upgrade -y
sudo apt install -y build-essential cmake git curl libcurl4-openssl-dev

若需使用 CUDA 加速，还需安装 NVIDIA 驱动和 CUDA 工具包：

sudo apt install -y nvidia-driver-535 nvidia-cuda-toolkit

获取源代码并初始化构建目录：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build

基础编译配置使用 CMake 完成。对于纯 CPU 环境，推荐以下配置：

cmake .. -DLLAMA_CURL=ON -DBUILD_SHARED_LIBS=OFF

注意：-DLLAMA_CURL=ON 启用了 HTTP 支持，-DBUILD_SHARED_LIBS=OFF 创建静态链接库，便于后续部署。

编译过程可以使用多线程加速：

cmake --build . --config Release -j $(nproc)

编译完成后，主要生成以下可执行文件：

更多推荐文章