WSL2 Ubuntu 部署 llama.cpp
llama.cpp 是一个完全由 C 与 C++ 编写的轻量级推理框架,支持在 CPU 或 GPU 上高效运行 Meta 的 LLaMA 等大语言模型(LLM),设计上尽可能减少外部依赖,能够轻松在多种后端与平台上运行。
安装 llama.cpp
采用本地编译的方法在设备上安装 llama.cpp。
克隆 llama.cpp 仓库
在 WSL 中打开终端:
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
编译项目
编译前,先安装所需依赖项:
sudo apt update
sudo apt install -y build-essential cmake git
# llama.cpp 的某些功能依赖 libcurl,如 llama-download 的自动下载模型
sudo apt install -y libcurl4-openssl-dev
# 如果要使用 python 接口,还需要
sudo apt install -y python3 python3-pip
pip3 install numpy
CPU Backend
默认使用 CPU 版本编译:
cmake -B build
cmake --build build --config Release
# cmake --build build --config Release -j 8
# -j 8 可加速编译过程,视你的 CPU 核心数而定
GPU Backend
如果想使用 GPU(推荐支持 CUDA 的 NVIDIA 显卡),需要先安装 CUDA Toolkit。由于 WSL2 默认不会自动识别 Windows 主机上的 CUDA Toolkit,因此需要特殊处理。
- 驱动版本 ≥ 465
- 从 NVIDIA 官网 下载并安装最新版 CUDA Toolkit(但只需要驱动)。
重新编译带 CUDA 的 llama.cpp:
设置 CUDA 环境变量:
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
export CUDACXX=/usr/local/cuda/bin/nvcc
source ~/.bashrc
安装 CUDA Toolkit 的 stub(轻量化开发头文件)。虽然你已经有了 CUDA runtime(用于运行模型),但 llama.cpp 编译阶段还需要 C++ 头文件和 nvcc 编译器 —— 你需要在 WSL2 里补装开发包:
sudo apt update
# 这里直接安装了 CUDA12 的整个工具包
apt install -y cuda


