【教程】如何在WSL2:Ubuntu上部署llama.cpp

优质文章学习记录

07 Apr 2026 — 5 min read

WSL2:Ubuntu部署llama.cpp

llama.cpp 是一个完全由 C 与 C++ 编写的轻量级推理框架，支持在 CPU 或 GPU 上高效运行 Meta 的 LLaMA 等大语言模型（LLM），设计上尽可能减少外部依赖，能够轻松在多种后端与平台上运行。

安装llama.cpp

下面我们采用本地编译的方法在设备上安装llama.cpp

克隆`llama.cpp`仓库

在wsl中打开终端：

git clone https://github.com/ggml-org/llama.cpp cd llama.cpp

编译项目

编译项目前，先安装所需依赖项：

sudoapt update sudoaptinstall -y build-essential cmake git#llama.cpp的某些功能依赖libcurl#如llama-download 的自动下载模型sudoaptinstall -y libcurl4-openssl-dev #如果要使用python接口，还需要sudoaptinstall -y python3 python3-pip pip3 install numpy

CPU Backend

默认使用CPU版本编译

cmake -B build cmake --build build --config Release # cmake --build build --config Release -j 8 # -j 8 可加速编译过程，视你的 CPU 核心数而定

GPU Backend

如果你想使用GPU（推荐支持CUDA的NVIDA显卡），需要先安装CUDA Toolkit。由于WSL2默认不会自动识别WIndows主机上的CUDA Toolkit，因此需要特殊处理。

驱动版本 ≥ 465
从 NVIDIA 官网下载并安装最新版 CUDA Toolkit（但只需要驱动）。

重新编译带CUDA的llama.cpp

设置CUDA 环境变量

exportPATH=/usr/local/cuda/bin:$PATHexportLD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATHexportCUDACXX=/usr/local/cuda/bin/nvcc source ~/.bashrc

安装CUDA Toolkit的stub（轻量化开发头文件）虽然你已经有了 CUDA runtime（用于运行模型），但 llama.cpp 编译阶段还需要 C++ 头文件和 nvcc 编译器 —— 你需要在 WSL2 里补装开发包：

sudoapt update #这里直接安装了CUDA12的整个工具包sudoaptinstall -y cuda #验证 nvcc --version

在子系统中验证 GPU 是否可用在 WSL2 中运行：

nvidia-smi

如果成功看到你的 GPU 显示状态（如 RTX 3060、显存使用情况等），说明 CUDA 运行库已经桥接成功，可以继续。

在 Windows 主机 上确认：1）安装了支持 WSL 的 NVIDIA 驱动（必须是 DCH 驱动）：2）安装好 WSL CUDA Toolkit（可以只装驱动和运行库，不需要开发工具）。

 如何安装WSL CUDA Toolkit

i. 下载NVIDIA GeForce Game Ready（根据自己的GPU版本进行选择），下载网址:https://www.nvidia.com/Download/index.aspx ii. 移走原先的GPG key

sudo apt-key del 7fa2af80

iii. 下载CUDA Toolkit

$ wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin $ sudomv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600 $ wget https://developer.download.nvidia.com/compute/cuda/12.9.1/local_installers/cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudo dpkg -i cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudocp /var/cuda-repo-wsl-ubuntu-12-9-local/cuda-*-keyring.gpg /usr/share/keyrings/ $ sudoapt-get update $ sudoapt-get -y install cuda-toolkit-12-9

#如果你用CPU生成过编译文件，执行新的make指令时可能会报错#先使用 rm -rf build 把之前的清空rm -rf build cmake -B build -DGGML_CUDA=ON cmake --build build --config Release -j 8# -j 8 可加速编译过程，视你的 CPU 核心数而定# 其实重启电脑也可以达到一样的效果

从Hugging Face下载模型

选择合适的模型

进入网站查看 llama.cpp 支持的所有模型列表。

我们推荐首先尝试较为主流的 LLaMA 2、LLaMA 3、 Mistral、Qwen、ChatGLM 等系列模型。常见的 LLM 模型大小有 1B、7B、13B 等，一般来说，模型规模越大，生成的质量越好，但是运行时内存（推理时所需内存）也会随之增长。为避免频繁出现 OOM (Out of the memory) 的现象，我们推荐从较小的 LLM 开始调试。

注册Hugging Face账号后，可以添加自己的硬件设备信息，如下

之后Hugging Face会对你的硬件能力做出评估

此时再选择相应的模型，右侧Hardware Compatibility面板用于帮助用户根据自己设备的性能，选择合适的量化模型文件（GGUF 格式）

以第一行为例，Q4_K_M是模型的量化精度，数字越大精度越高，越接近原始模型，但也更占内存；2.5GB下载后模型文件所占空间，也是运行所需的最低内存估算

下载方法

1.使用Hugging Face下载

这里使用手动从 Hugging Face 官网下载的方法，打开你想下载的模型主页，如：
https://huggingface.co/Qwen/Qwen3-0.6B-GGUF

然后在 Files and versions 中找到对应的 .gguf文件下载并保存到你希望的目录即可。

2. 使用ModelScope下载

ModelScope 是阿里云提供的 AI 模型平台，也支持中文大模型。如果你无法访问 Hugging Face 或下载速度慢，推荐使用 ModelScope 下载

首先安装 ModelScope 所需库（推荐使用虚拟环境）：

pip install modelscope

然后运行以下 python 脚本

from modelscope import snapshot_download model_dir = snapshot_download('Qwen/Qwen3-0.6B-GGUF',#替换为你想要下载的模型名称，推荐下载 .gguf 格式的量化模型，适用于 llama.cpp cache_dir='./models/qwen-0.6b-gguf',#设置本地保存路径 revision='master',#可指定具体版本)print(f"Model saved at {model_dir}")

最后耐心等待即可。

Qwen3-VL-WEBUI在线教育：作业批改自动化部署解决方案

Qwen3-VL-WEBUI在线教育：作业批改自动化部署解决方案 1. 引言：在线教育中的作业批改痛点与技术革新在当前快速发展的在线教育生态中，教师面临海量学生作业的批改任务，尤其是涉及图像、图表、手写公式甚至视频类内容时，传统文本型大模型难以胜任。人工批改耗时耗力，而现有自动化工具在多模态理解能力、复杂逻辑推理和跨模态对齐精度上存在明显短板。阿里云最新开源的 Qwen3-VL-WEBUI 正是为解决这一核心痛点而生。它不仅集成了迄今为止最强大的视觉-语言模型 Qwen3-VL-4B-Instruct，还通过 WebUI 界面实现了“开箱即用”的本地化部署，特别适用于教育机构实现作业自动批改系统的轻量化落地。本文将围绕 Qwen3-VL-WEBUI 在在线教育场景下的作业批改自动化部署方案展开，涵盖其技术优势、部署流程、实际应用案例及优化建议，帮助开发者和教育科技团队快速构建高效、精准的智能批改系统。 2. 技术背景：Qwen3-VL 的核心能力解析 2.1 Qwen3-VL 模型架构升级详解作为 Qwen 系列的最新一代视觉语言模型，Qwen3-VL 在多个

DAMO-YOLO-S WebUI无障碍适配：屏幕阅读器支持与键盘导航优化

DAMO-YOLO-S WebUI无障碍适配：屏幕阅读器支持与键盘导航优化 1. 项目背景与意义在现代Web应用开发中，无障碍访问（Accessibility）已经成为一个不可忽视的重要议题。DAMO-YOLO-S作为一个基于先进目标检测技术的手机检测系统，其Web界面的无障碍适配对于确保所有用户都能平等使用这一技术具有重要意义。传统的计算机视觉应用往往忽视了视障用户和行动不便用户的需求。通过为DAMO-YOLO-S WebUI添加屏幕阅读器支持和键盘导航优化，我们不仅提升了产品的包容性，也为更多用户群体打开了使用先进AI技术的大门。这项改进工作的核心价值在于： * 平等访问：确保视障用户能够通过屏幕阅读器理解界面内容和操作流程 * 操作便利：为无法使用鼠标的用户提供完整的键盘操作支持 * 合规性：符合Web内容无障碍指南（WCAG）标准要求 * 用户体验：为所有用户提供更加友好和高效的操作体验 2. 屏幕阅读器支持实现 2.1 ARIA标签优化为DAMO-YOLO-S WebUI中的关键元素添加适当的ARIA（Accessible Rich Int

用 ASCII 草图 + AI 快速生成前端代码

引言从想法到代码，中间往往要经历画原型、出设计稿等环节。用 ASCII 草图，可以跳过大量原型绘制、结构拆解和手动搭骨架的中间步骤。这种表达方式其实一直存在，但真正让它进入工程流程的，是 AI 的能力提升。大语言模型对结构化文本具有很强的解析能力，能够识别文本中的层级、对齐关系与空间划分，并将这些结构信息稳定地映射为组件树和页面布局。因此，ASCII 不再只是沟通草稿，而成为一种可执行的结构描述。什么是 “ASCII 草图” 提到 ASCII，很多人的第一反应可能是那个年代久远的“字符画”。没错，ASCII 草图就是用字符来构建页面布局。在 AI 时代，这种看似简陋的草图，其实蕴含着巨大的能量。大语言模型（LLM）对结构化文本的理解能力极强。相比于模糊的自然语言描述（“我要一个左边宽右边窄的布局”），ASCII 草图提供了一种所见即所得的结构化 Prompt。简单来说，ASCII 草图充当了视觉蓝图的角色，AI 根据这个结构生成代码。

WebGIS + 无人机 + AI：下一代智能巡检系统?

WebGIS 遇上无人机，再叠加 AI 能力，巡检不再只是“看画面”，而是变成“智能决策系统”。一、为什么 WebGIS + 无人机 + AI 是趋势？在传统巡检场景中： * 电力巡检 → 人工拍照 * 工地巡查 → 人工记录 * 农业监测 → 靠经验判断 * 安防巡逻 → 事后回放问题： * 数据无法实时分析 * 缺乏空间关联 * 没有智能预警能力 * 无法形成可视化决策系统而结合： * WebGIS（三维可视化） * 无人机（数据采集） * AI（智能识别与分析）我们可以构建：一个真正的“空天地一体化智能巡检系统” 二、整体技术架构设计 1、系统分层架构 ┌──────────────────────────────┐ │ 前端可视化层 │ │ Cesium + Three.js + WebGL │ └──────────────┬───────────────┘ │ ┌──────────────▼───────────────┐ │ 业务中台层 │ │ AI推理