Ubuntu 下 llama.cpp 编译与性能调优实战
本地部署大模型时,llama.cpp 凭借其轻量级和高效率成为首选。本文将深入探讨在 Ubuntu 环境下编译和优化 llama.cpp 的全过程,从基础环境搭建到高级性能调优。
环境准备与基础编译
开始之前,确保系统环境满足基本要求。Ubuntu 22.04 LTS 提供了稳定的软件包支持和良好的兼容性。
先更新系统并安装必要的开发工具:
sudo apt update && sudo apt upgrade -y
sudo apt install -y build-essential cmake git curl libcurl4-openssl-dev
若需使用 CUDA 加速,还需安装 NVIDIA 驱动和 CUDA 工具包:
sudo apt install -y nvidia-driver-535 nvidia-cuda-toolkit
获取源代码并初始化构建目录:
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build
基础编译配置使用 CMake 完成。对于纯 CPU 环境,推荐以下配置:
cmake .. -DLLAMA_CURL=ON -DBUILD_SHARED_LIBS=OFF
注意:
-DLLAMA_CURL=ON启用了 HTTP 支持,-DBUILD_SHARED_LIBS=OFF创建静态链接库,便于后续部署。
编译过程可以使用多线程加速:
cmake --build . --config Release -j $(nproc)
编译完成后,主要生成以下可执行文件:
| 文件名 | 功能描述 |
|---|---|
| main | 命令行交互主程序 |
| server | HTTP 服务器端 |
| quantize | 模型量化工具 |
| ... | 其他辅助工具 |

