WSL2 Ubuntu 部署 llama.cpp 指南 | 极客日志

C++AI算法

WSL2 Ubuntu 部署 llama.cpp 指南

综述由AI生成在 WSL2 Ubuntu 环境下部署 llama.cpp 的完整流程。内容包括通过 Git 克隆仓库，安装编译依赖（build-essential, cmake 等），分别演示了 CPU 和 GPU（CUDA）版本的编译配置及环境变量设置。此外，还说明了如何在 Windows 主机安装 NVIDIA 驱动及 WSL CUDA Toolkit，并通过 nvidia-smi 验证 GPU 可用性。最后提供了从 Hugging Face 和 ModelScope 下载 GGUF 格式模型的方法，以及根据硬件性能选择合适量化模型的建议。

氛围发布于 2026/4/6更新于 2026/5/2025 浏览

WSL2 Ubuntu 部署 llama.cpp

llama.cpp 是一个完全由 C 与 C++ 编写的轻量级推理框架，支持在 CPU 或 GPU 上高效运行 Meta 的 LLaMA 等大语言模型（LLM），设计上尽可能减少外部依赖，能够轻松在多种后端与平台上运行。

安装 llama.cpp

采用本地编译的方法在设备上安装 llama.cpp。

克隆 llama.cpp 仓库

在 WSL 中打开终端：

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

编译项目

编译前，先安装所需依赖项：

sudo apt update
sudo apt install -y build-essential cmake git
# llama.cpp 的某些功能依赖 libcurl，如 llama-download 的自动下载模型
sudo apt install -y libcurl4-openssl-dev
# 如果要使用 python 接口，还需要
sudo apt install -y python3 python3-pip
pip3 install numpy

CPU Backend

默认使用 CPU 版本编译：

cmake -B build
cmake --build build --config Release
# cmake --build build --config Release -j 8
# -j 8 可加速编译过程，视你的 CPU 核心数而定

GPU Backend

如果想使用 GPU（推荐支持 CUDA 的 NVIDIA 显卡），需要先安装 CUDA Toolkit。由于 WSL2 默认不会自动识别 Windows 主机上的 CUDA Toolkit，因此需要特殊处理。

驱动版本 ≥ 465
从 NVIDIA 官网下载并安装最新版 CUDA Toolkit（但只需要驱动）。

重新编译带 CUDA 的 llama.cpp：

设置 CUDA 环境变量：

export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
export CUDACXX=/usr/local/cuda/bin/nvcc
source ~/.bashrc

安装 CUDA Toolkit 的 stub（轻量化开发头文件）。虽然你已经有了 CUDA runtime（用于运行模型），但 llama.cpp 编译阶段还需要 C++ 头文件和 nvcc 编译器 —— 你需要在 WSL2 里补装开发包：

sudo apt update
# 这里直接安装了 CUDA12 的整个工具包
 apt install -y cuda

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

nvidia-smi

sudo apt-key del 7fa2af80

wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin
sudo mv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/12.9.1/local_installers/cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb
sudo dpkg -i cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb
sudo cp /var/cuda-repo-wsl-ubuntu-12-9-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda-toolkit-12-9

# 如果你用 CPU 生成过编译文件，执行新的 make 指令时可能会报错
# 先使用 rm -rf build 把之前的清空
rm -rf build
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j 8
# -j 8 可加速编译过程，视你的 CPU 核心数而定
# 其实重启电脑也可以达到一样的效果

pip install modelscope

from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen3-0.6B-GGUF',
                              # 替换为你想要下载的模型名称，推荐下载 .gguf 格式的量化模型，适用于 llama.cpp
                              cache_dir='./models/qwen-0.6b-gguf',
                              # 设置本地保存路径
                              revision='master'
                              # 可指定具体版本
                              )
print(f"Model saved at {model_dir}")

WSL2 Ubuntu 部署 llama.cpp 指南

WSL2 Ubuntu 部署 llama.cpp

安装 llama.cpp

克隆 llama.cpp 仓库

编译项目

CPU Backend

GPU Backend

更多推荐文章

相关免费在线工具

从 Hugging Face 下载模型

选择合适的模型

下载方法

1. 使用 Hugging Face 下载

2. 使用 ModelScope 下载

更多推荐文章

相关免费在线工具

WSL2 Ubuntu 部署 llama.cpp 指南

WSL2 Ubuntu 部署 llama.cpp

安装 llama.cpp

克隆 llama.cpp 仓库

编译项目

CPU Backend

GPU Backend

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

从 Hugging Face 下载模型

选择合适的模型

下载方法

1. 使用 Hugging Face 下载

2. 使用 ModelScope 下载

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具