WSL2:Ubuntu部署llama.cpp
llama.cpp 是一个完全由 C 与 C++ 编写的轻量级推理框架,支持在 CPU 或 GPU 上高效运行 Meta 的 LLaMA 等大语言模型(LLM),设计上尽可能减少外部依赖,能够轻松在多种后端与平台上运行。
安装llama.cpp
下面我们采用本地编译的方法在设备上安装llama.cpp
克隆llama.cpp仓库
在wsl中打开终端:
git clone https://github.com/ggml-org/llama.cpp cd llama.cpp
编译项目
编译项目前,先安装所需依赖项:
sudoapt update sudoaptinstall -y build-essential cmake git#llama.cpp的某些功能依赖libcurl#如llama-download 的自动下载模型sudoaptinstall -y libcurl4-openssl-dev #如果要使用python接口,还需要sudoaptinstall -y python3 python3-pip pip3 install numpy
CPU Backend
默认使用CPU版本编译
cmake -B build cmake --build build --config Release # cmake --build build --config Release -j 8 # -j 8 可加速编译过程,视你的 CPU 核心数而定
GPU Backend
如果你想使用GPU(推荐支持CUDA的NVIDA显卡),需要先安装CUDA Toolkit。由于WSL2默认不会自动识别WIndows主机上的CUDA Toolkit,因此需要特殊处理。
- 驱动版本 ≥ 465
- 从 NVIDIA 官网 下载并安装最新版 CUDA Toolkit(但只需要驱动)。
- 重新编译带CUDA的llama.cpp
设置CUDA 环境变量
exportPATH=/usr/local/cuda/bin:$PATHexportLD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATHexportCUDACXX=/usr/local/cuda/bin.bashrc


