【教程】如何在WSL2:Ubuntu上部署llama.cpp

优质文章学习记录

07 Apr 2026 — 5 min read

WSL2:Ubuntu部署llama.cpp

llama.cpp 是一个完全由 C 与 C++ 编写的轻量级推理框架，支持在 CPU 或 GPU 上高效运行 Meta 的 LLaMA 等大语言模型（LLM），设计上尽可能减少外部依赖，能够轻松在多种后端与平台上运行。

安装llama.cpp

下面我们采用本地编译的方法在设备上安装llama.cpp

克隆`llama.cpp`仓库

在wsl中打开终端：

git clone https://github.com/ggml-org/llama.cpp cd llama.cpp

编译项目

编译项目前，先安装所需依赖项：

sudoapt update sudoaptinstall -y build-essential cmake git#llama.cpp的某些功能依赖libcurl#如llama-download 的自动下载模型sudoaptinstall -y libcurl4-openssl-dev #如果要使用python接口，还需要sudoaptinstall -y python3 python3-pip pip3 install numpy

CPU Backend

默认使用CPU版本编译

cmake -B build cmake --build build --config Release # cmake --build build --config Release -j 8 # -j 8 可加速编译过程，视你的 CPU 核心数而定

GPU Backend

如果你想使用GPU（推荐支持CUDA的NVIDA显卡），需要先安装CUDA Toolkit。由于WSL2默认不会自动识别WIndows主机上的CUDA Toolkit，因此需要特殊处理。

驱动版本 ≥ 465
从 NVIDIA 官网下载并安装最新版 CUDA Toolkit（但只需要驱动）。

重新编译带CUDA的llama.cpp

设置CUDA 环境变量

exportPATH=/usr/local/cuda/bin:$PATHexportLD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATHexportCUDACXX=/usr/local/cuda/bin/nvcc source ~/.bashrc

安装CUDA Toolkit的stub（轻量化开发头文件）虽然你已经有了 CUDA runtime（用于运行模型），但 llama.cpp 编译阶段还需要 C++ 头文件和 nvcc 编译器 —— 你需要在 WSL2 里补装开发包：

sudoapt update #这里直接安装了CUDA12的整个工具包sudoaptinstall -y cuda #验证 nvcc --version

在子系统中验证 GPU 是否可用在 WSL2 中运行：

nvidia-smi

如果成功看到你的 GPU 显示状态（如 RTX 3060、显存使用情况等），说明 CUDA 运行库已经桥接成功，可以继续。

在 Windows 主机 上确认：1）安装了支持 WSL 的 NVIDIA 驱动（必须是 DCH 驱动）：2）安装好 WSL CUDA Toolkit（可以只装驱动和运行库，不需要开发工具）。

 如何安装WSL CUDA Toolkit

i. 下载NVIDIA GeForce Game Ready（根据自己的GPU版本进行选择），下载网址:https://www.nvidia.com/Download/index.aspx ii. 移走原先的GPG key

sudo apt-key del 7fa2af80

iii. 下载CUDA Toolkit

$ wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin $ sudomv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600 $ wget https://developer.download.nvidia.com/compute/cuda/12.9.1/local_installers/cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudo dpkg -i cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudocp /var/cuda-repo-wsl-ubuntu-12-9-local/cuda-*-keyring.gpg /usr/share/keyrings/ $ sudoapt-get update $ sudoapt-get -y install cuda-toolkit-12-9

#如果你用CPU生成过编译文件，执行新的make指令时可能会报错#先使用 rm -rf build 把之前的清空rm -rf build cmake -B build -DGGML_CUDA=ON cmake --build build --config Release -j 8# -j 8 可加速编译过程，视你的 CPU 核心数而定# 其实重启电脑也可以达到一样的效果

从Hugging Face下载模型

选择合适的模型

进入网站查看 llama.cpp 支持的所有模型列表。

我们推荐首先尝试较为主流的 LLaMA 2、LLaMA 3、 Mistral、Qwen、ChatGLM 等系列模型。常见的 LLM 模型大小有 1B、7B、13B 等，一般来说，模型规模越大，生成的质量越好，但是运行时内存（推理时所需内存）也会随之增长。为避免频繁出现 OOM (Out of the memory) 的现象，我们推荐从较小的 LLM 开始调试。

注册Hugging Face账号后，可以添加自己的硬件设备信息，如下

之后Hugging Face会对你的硬件能力做出评估

此时再选择相应的模型，右侧Hardware Compatibility面板用于帮助用户根据自己设备的性能，选择合适的量化模型文件（GGUF 格式）

以第一行为例，Q4_K_M是模型的量化精度，数字越大精度越高，越接近原始模型，但也更占内存；2.5GB下载后模型文件所占空间，也是运行所需的最低内存估算

下载方法

1.使用Hugging Face下载

这里使用手动从 Hugging Face 官网下载的方法，打开你想下载的模型主页，如：
https://huggingface.co/Qwen/Qwen3-0.6B-GGUF

然后在 Files and versions 中找到对应的 .gguf文件下载并保存到你希望的目录即可。

2. 使用ModelScope下载

ModelScope 是阿里云提供的 AI 模型平台，也支持中文大模型。如果你无法访问 Hugging Face 或下载速度慢，推荐使用 ModelScope 下载

首先安装 ModelScope 所需库（推荐使用虚拟环境）：

pip install modelscope

然后运行以下 python 脚本

from modelscope import snapshot_download model_dir = snapshot_download('Qwen/Qwen3-0.6B-GGUF',#替换为你想要下载的模型名称，推荐下载 .gguf 格式的量化模型，适用于 llama.cpp cache_dir='./models/qwen-0.6b-gguf',#设置本地保存路径 revision='master',#可指定具体版本)print(f"Model saved at {model_dir}")

最后耐心等待即可。

*ARINC 825，一种航电通信总线标准

1. 它是什么 ARINC 825 是一个航空电子领域的技术标准，主要规范了在航空器内部如何使用一种名为“控制器局域网”（CAN）的数据总线进行通信。可以把它理解为航空界为CAN总线制定的一套精细的“交通规则”和“车辆制造标准”。在生活中，CAN总线类似于小区或办公楼里的内部电话网络，各个房间（设备）可以通过这个网络互相通话。而ARINC 825 则详细规定了在这个高端、高安全要求的“航空大厦”里，这个内部电话应该用什么线路、怎么拨号、说什么语言、通话的优先级如何安排，以确保沟通绝对可靠、有序。 2. 它能做什么它的核心作用是实现航空器上不同电子设备之间稳定、高效、可预测的数据交换。这些设备包括飞行控制系统、发动机指示系统、舱内压力控制系统等。例如，想象一架飞机的机翼上有多个传感器，监测结冰情况。这些传感器需要将“探测到冰”这个消息快速、可靠地告知除冰系统和飞行员显示面板。ARINC 825 确保了这条关键消息能在复杂的电子环境中，像消防通道一样，拥有最高优先级，

FPGA自学笔记--VIVADO RAM IP核控制和使用

本文主要学习在VIVADO软件中如何生成所需要的RAM IP核，以及相关的配置定义，并搭建tb对生成的IP读写控制时序进行仿真和测试。一、sram ip生成与配置 1.1 ram ip创建方法 1. 新建工程：打开 Vivado，创建一个新的工程项目。 2. 打开 IP Catalog：在 Vivado 主界面中，单击 IP Catalog。 3. 搜索 RAM：在右侧窗口的 Search 框中输入 ram，会出现相关 IP 条目。 4. RAM IP 类型：在 Memories & Storage Elements 分类下，可以看到两种主要的 RAM 创建入口： * Distributed

一文吃透SBUS协议：从原理到实战（无人机/航模/机器人适用）

在无人机、航模、机器人等精密控制领域，“稳定、快速、可靠”是控制信号传输的核心诉求。传统的PWM信号虽然简单直观，但存在通道数有限、抗干扰能力弱、布线复杂等痛点。而SBUS（Serial Bus）协议——由FUTABA公司专为遥控设备设计的串行数字通信协议，凭借单线传输多通道数据、抗干扰强、延迟低的核心优势，逐渐成为行业主流。本文将从“是什么-怎么工作-协议细节-厂家产品-接口设计-代码实现-实战技巧-常见问题”八个维度，用最通俗的语言+大量对比表格，全面拆解SBUS协议。无论你是刚入门的电子爱好者，还是需要落地项目的工程师，都能从本文中找到所需的实用信息。一、SBUS协议基础认知：核心定位与优势对比在深入技术细节前，我们先通过对比和基础定义，快速建立对SBUS的认知。很多人会把SBUS和常见的UART、PWM等混淆，这里先明确其核心定位：SBUS是基于反向电平UART的“应用层控制协议”，专门用于遥控器与接收机、接收机与飞控/执行器之间的控制信号传输。 1.1 为什么需要SBUS？传统方案的痛点在SBUS出现之前，航模和早期无人机主要使用PWM或PPM协议传输控

智元机器人三大产线

执行摘要 2025 年 12 月 8 日，智元机器人迎来了具有里程碑意义的时刻 —— 第 5000 台通用具身机器人在上海临港工厂正式量产下线。这一成就标志着中国具身智能产业从技术验证阶段全面迈入规模商用时代。智元机器人通过三年的快速发展，已建立起远征、灵犀、精灵三大产品矩阵，累计出货 5000 台，其中远征 A1/A2 下线 1742 台，灵犀 X1/X2 下线 1846 台，精灵 G1/G2 下线 1412 台(3)。在技术层面，智元机器人实现了多项重大突破。其自主研发的 PowerFlow 关节电机峰值扭矩超过 350N・m，重量仅 1.6kg，采用准直驱技术方案，相较传统谐波减速器方案成本降低