在 WSL2 Ubuntu 上部署 llama.cpp 教程 | 极客日志

C++AI算法

在 WSL2 Ubuntu 上部署 llama.cpp 教程

介绍在 WSL2 Ubuntu 环境下编译部署 llama.cpp 框架的方法。内容包括安装依赖、使用 CPU 或 GPU（CUDA）后端进行本地编译，以及从 Hugging Face 或 ModelScope 下载 GGUF 格式模型的具体步骤。通过配置环境变量和验证 GPU 可用性，实现大语言模型的本地高效推理。

云间漫步发布于 2026/4/6更新于 2026/7/2852 浏览

WSL2 Ubuntu 部署 llama.cpp

llama.cpp 是一个完全由 C 与 C++ 编写的轻量级推理框架，支持在 CPU 或 GPU 上高效运行 Meta 的 LLaMA 等大语言模型（LLM），设计上尽可能减少外部依赖，能够轻松在多种后端与平台上运行。

安装 llama.cpp

采用本地编译的方法在设备上安装 llama.cpp。

克隆 llama.cpp 仓库

在 WSL 中打开终端：

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

编译项目

编译项目前，先安装所需依赖项：

sudo apt update
sudo apt install -y build-essential cmake git
# llama.cpp 的某些功能依赖 libcurl，如 llama-download 的自动下载模型
sudo apt install -y libcurl4-openssl-dev
# 如果要使用 python 接口，还需要
sudo apt install -y python3 python3-pip
pip3 install numpy

CPU Backend

默认使用 CPU 版本编译：

cmake -B build
cmake --build build --config Release
# cmake --build build --config Release -j 8 # -j 8 可加速编译过程，视你的 CPU 核心数而定

GPU Backend

如果你想使用 GPU（推荐支持 CUDA 的 NVIDIA 显卡），需要先安装 CUDA Toolkit。由于 WSL2 默认不会自动识别 Windows 主机上的 CUDA Toolkit，因此需要特殊处理。

驱动版本 ≥ 465
从 NVIDIA 官网下载并安装最新版 CUDA Toolkit（但只需要驱动）。

重新编译带 CUDA 的 llama.cpp

设置 CUDA 环境变量：

export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
export CUDACXX=/usr/local/cuda/bin/nvcc
source ~/.bashrc

安装 CUDA Toolkit 的 stub（轻量化开发头文件）。虽然你已经有了 CUDA runtime（用于运行模型），但 llama.cpp 编译阶段还需要 C++ 头文件和 nvcc 编译器 —— 你需要在 WSL2 里补装开发包：

sudo apt update

 apt install -y cuda

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

nvidia-smi

sudo apt-key del 7fa2af80

wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin
sudo mv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/12.9.1/local_installers/cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb
sudo dpkg -i cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb
sudo cp /var/cuda-repo-wsl-ubuntu-12-9-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda-toolkit-12-9

rm -rf build
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j 8
# -j 8 可加速编译过程，视你的 CPU 核心数而定
# 其实重启电脑也可以达到一样的效果

pip install modelscope

from modelscope import snapshot_download
model_dir = snapshot_download(
    'Qwen/Qwen3-0.6B-GGUF',  # 替换为你想要下载的模型名称，推荐下载 .gguf 格式的量化模型，适用于 llama.cpp
    cache_dir='./models/qwen-0.6b-gguf',  # 设置本地保存路径
    revision='master'  # 可指定具体版本
)
print(f"Model saved at {model_dir}")

在 WSL2 Ubuntu 上部署 llama.cpp 教程

WSL2 Ubuntu 部署 llama.cpp

安装 llama.cpp

克隆 llama.cpp 仓库

编译项目

CPU Backend

GPU Backend

重新编译带 CUDA 的 llama.cpp

更多推荐文章

相关免费在线工具

从 Hugging Face 下载模型

选择合适的模型

下载方法

1. 使用 Hugging Face 下载

2. 使用 ModelScope 下载

更多推荐文章

相关免费在线工具

在 WSL2 Ubuntu 上部署 llama.cpp 教程

WSL2 Ubuntu 部署 llama.cpp

安装 llama.cpp

克隆 llama.cpp 仓库

编译项目

CPU Backend

GPU Backend

重新编译带 CUDA 的 llama.cpp

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

从 Hugging Face 下载模型

选择合适的模型

下载方法

1. 使用 Hugging Face 下载

2. 使用 ModelScope 下载

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具