【教程】如何在WSL2:Ubuntu上部署llama.cpp

优质文章学习记录

07 Apr 2026 — 5 min read

WSL2:Ubuntu部署llama.cpp

llama.cpp 是一个完全由 C 与 C++ 编写的轻量级推理框架，支持在 CPU 或 GPU 上高效运行 Meta 的 LLaMA 等大语言模型（LLM），设计上尽可能减少外部依赖，能够轻松在多种后端与平台上运行。

安装llama.cpp

下面我们采用本地编译的方法在设备上安装llama.cpp

克隆`llama.cpp`仓库

在wsl中打开终端：

git clone https://github.com/ggml-org/llama.cpp cd llama.cpp

编译项目

编译项目前，先安装所需依赖项：

sudoapt update sudoaptinstall -y build-essential cmake git#llama.cpp的某些功能依赖libcurl#如llama-download 的自动下载模型sudoaptinstall -y libcurl4-openssl-dev #如果要使用python接口，还需要sudoaptinstall -y python3 python3-pip pip3 install numpy

CPU Backend

默认使用CPU版本编译

cmake -B build cmake --build build --config Release # cmake --build build --config Release -j 8 # -j 8 可加速编译过程，视你的 CPU 核心数而定

GPU Backend

如果你想使用GPU（推荐支持CUDA的NVIDA显卡），需要先安装CUDA Toolkit。由于WSL2默认不会自动识别WIndows主机上的CUDA Toolkit，因此需要特殊处理。

驱动版本 ≥ 465
从 NVIDIA 官网下载并安装最新版 CUDA Toolkit（但只需要驱动）。

重新编译带CUDA的llama.cpp

设置CUDA 环境变量

exportPATH=/usr/local/cuda/bin:$PATHexportLD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATHexportCUDACXX=/usr/local/cuda/bin/nvcc source ~/.bashrc

安装CUDA Toolkit的stub（轻量化开发头文件）虽然你已经有了 CUDA runtime（用于运行模型），但 llama.cpp 编译阶段还需要 C++ 头文件和 nvcc 编译器 —— 你需要在 WSL2 里补装开发包：

sudoapt update #这里直接安装了CUDA12的整个工具包sudoaptinstall -y cuda #验证 nvcc --version

在子系统中验证 GPU 是否可用在 WSL2 中运行：

nvidia-smi

如果成功看到你的 GPU 显示状态（如 RTX 3060、显存使用情况等），说明 CUDA 运行库已经桥接成功，可以继续。

在 Windows 主机 上确认：1）安装了支持 WSL 的 NVIDIA 驱动（必须是 DCH 驱动）：2）安装好 WSL CUDA Toolkit（可以只装驱动和运行库，不需要开发工具）。

 如何安装WSL CUDA Toolkit

i. 下载NVIDIA GeForce Game Ready（根据自己的GPU版本进行选择），下载网址:https://www.nvidia.com/Download/index.aspx ii. 移走原先的GPG key

sudo apt-key del 7fa2af80

iii. 下载CUDA Toolkit

$ wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin $ sudomv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600 $ wget https://developer.download.nvidia.com/compute/cuda/12.9.1/local_installers/cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudo dpkg -i cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudocp /var/cuda-repo-wsl-ubuntu-12-9-local/cuda-*-keyring.gpg /usr/share/keyrings/ $ sudoapt-get update $ sudoapt-get -y install cuda-toolkit-12-9

#如果你用CPU生成过编译文件，执行新的make指令时可能会报错#先使用 rm -rf build 把之前的清空rm -rf build cmake -B build -DGGML_CUDA=ON cmake --build build --config Release -j 8# -j 8 可加速编译过程，视你的 CPU 核心数而定# 其实重启电脑也可以达到一样的效果

从Hugging Face下载模型

选择合适的模型

进入网站查看 llama.cpp 支持的所有模型列表。

我们推荐首先尝试较为主流的 LLaMA 2、LLaMA 3、 Mistral、Qwen、ChatGLM 等系列模型。常见的 LLM 模型大小有 1B、7B、13B 等，一般来说，模型规模越大，生成的质量越好，但是运行时内存（推理时所需内存）也会随之增长。为避免频繁出现 OOM (Out of the memory) 的现象，我们推荐从较小的 LLM 开始调试。

注册Hugging Face账号后，可以添加自己的硬件设备信息，如下

之后Hugging Face会对你的硬件能力做出评估

此时再选择相应的模型，右侧Hardware Compatibility面板用于帮助用户根据自己设备的性能，选择合适的量化模型文件（GGUF 格式）

以第一行为例，Q4_K_M是模型的量化精度，数字越大精度越高，越接近原始模型，但也更占内存；2.5GB下载后模型文件所占空间，也是运行所需的最低内存估算

下载方法

1.使用Hugging Face下载

这里使用手动从 Hugging Face 官网下载的方法，打开你想下载的模型主页，如：
https://huggingface.co/Qwen/Qwen3-0.6B-GGUF

然后在 Files and versions 中找到对应的 .gguf文件下载并保存到你希望的目录即可。

2. 使用ModelScope下载

ModelScope 是阿里云提供的 AI 模型平台，也支持中文大模型。如果你无法访问 Hugging Face 或下载速度慢，推荐使用 ModelScope 下载

首先安装 ModelScope 所需库（推荐使用虚拟环境）：

pip install modelscope

然后运行以下 python 脚本

from modelscope import snapshot_download model_dir = snapshot_download('Qwen/Qwen3-0.6B-GGUF',#替换为你想要下载的模型名称，推荐下载 .gguf 格式的量化模型，适用于 llama.cpp cache_dir='./models/qwen-0.6b-gguf',#设置本地保存路径 revision='master',#可指定具体版本)print(f"Model saved at {model_dir}")

最后耐心等待即可。

ssm366基于Web的在线投稿系统的设计与实现+vue(文档+源码)_kaic

摘要现代经济快节奏发展以及不断完善升级的信息化技术，让传统数据信息的管理升级为软件存储，归纳，集中处理数据信息的管理方式。本在线投稿系统就是在这样的大环境下诞生，其可以帮助管理者在短时间内处理完毕庞大的数据信息，使用这种软件工具可以帮助管理人员提高事务处理效率，达到事半功倍的效果。此在线投稿系统利用当下成熟完善的SSM框架，使用跨平台的可开发大型商业网站的Java语言，以及最受欢迎的RDBMS应用软件之一的Mysql数据库进行程序开发.在线投稿系统的开发根据操作人员需要设计的界面简洁美观，在功能模块布局上跟同类型网站保持一致，程序在实现基本要求功能时，也为数据信息面临的安全问题提供了一些实用的解决方案。可以说该程序在帮助管理者高效率地处理工作事务的同时，也实现了数据信息的整体化，规范化与自动化。关键词：在线投稿系统；SSM框架；Mysql；自动化 Abstract The fast-paced development of the modern economy and the continuous improvement and upgrading of in

33岁失业女前端程序员，可以转行干什么啊？

33岁失业，既没有20+的精力无限，也还没到40+的稳定沉淀，加上前端行业技术迭代快、年轻化竞争激烈的现状，焦虑感扑面而来太正常了。但作为一名深耕行业多年的观察者，我想先给各位姐妹吃颗定心丸：33岁的前端经验不是“包袱”，而是“宝藏”。咱们多年积累的逻辑思维、用户感知、跨团队沟通能力，以及对技术实现边界的把控，都是转行的核心优势。与其纠结“年龄大了怎么办”，不如聚焦“我的优势能迁移到哪里”。结合行业趋势和女性从业者的特质，整理了6个高适配、易落地的转行方向，供大家参考。一、技术相关赛道：发挥积累，平稳过渡如果对技术还有热情，不想彻底脱离IT圈，这类方向能最大化利用前端基础，转型成本最低，也是最容易快速上手的选择。 1. 测试开发工程师：细节控的“降维打击” 前端开发天天和界面打交道，最清楚用户会怎么操作、哪里容易出bug，这种对用户行为的敏感度，是测试开发的核心竞争力。而且咱们懂代码、懂开发流程，从“找bug”升级为“

【前端小站】HTML 标签：网页骨架，从空白到惊艳，全靠这些 HTML 标签搞事情

半桔：个人主页 🔥 个人专栏: 《前端扫盲》《手撕面试算法》《C++从入门到入土》 🔖为什么有人总是赞美生活的丰富多彩？我想这是因为他们善于品尝生活中随时出现的意外。 -余华- 文章目录 * 前言 * 一. HTML结构 * 1.1 初始HTML标签 * 1.2 标签的层次 * 二. HTML文本标签 * 2.1 标题标签 * 2.2 段落标签 * 2.3 强调标签 * 2.3.1 加粗 * 2.3.2 倾斜 * 2.3.3 删除线 * 2.3.4 下划线 * 三. 媒体与交互标签 * 3.

Web虚拟卡销售店铺实现方案

文章目录 * 1. 项目概述 * 1.1 项目背景 * 1.2 系统架构 * 2. 技术选型与环境搭建 * 2.1 后端技术栈 * 2.2 前端技术栈 * 2.3 开发环境配置 * 3. 数据库设计 * 3.1 数据库ER图 * 3.2 数据表设计 * 4. 后端实现 * 4.1 Spring Boot项目结构 * 4.2 核心功能实现 * 4.2.1 用户认证与授权 * 4.2.2 虚拟卡管理 * 4.2.3 订单服务 * 4.