【教程】如何在WSL2:Ubuntu上部署llama.cpp

Ne0inhk

22 Mar 2026 — 5 min read

WSL2:Ubuntu部署llama.cpp

llama.cpp 是一个完全由 C 与 C++ 编写的轻量级推理框架，支持在 CPU 或 GPU 上高效运行 Meta 的 LLaMA 等大语言模型（LLM），设计上尽可能减少外部依赖，能够轻松在多种后端与平台上运行。

安装llama.cpp

下面我们采用本地编译的方法在设备上安装llama.cpp

克隆`llama.cpp`仓库

在wsl中打开终端：

git clone https://github.com/ggml-org/llama.cpp cd llama.cpp

编译项目

编译项目前，先安装所需依赖项：

sudoapt update sudoaptinstall -y build-essential cmake git#llama.cpp的某些功能依赖libcurl#如llama-download 的自动下载模型sudoaptinstall -y libcurl4-openssl-dev #如果要使用python接口，还需要sudoaptinstall -y python3 python3-pip pip3 install numpy

CPU Backend

默认使用CPU版本编译

cmake -B build cmake --build build --config Release # cmake --build build --config Release -j 8 # -j 8 可加速编译过程，视你的 CPU 核心数而定

GPU Backend

如果你想使用GPU（推荐支持CUDA的NVIDA显卡），需要先安装CUDA Toolkit。由于WSL2默认不会自动识别WIndows主机上的CUDA Toolkit，因此需要特殊处理。

驱动版本 ≥ 465
从 NVIDIA 官网下载并安装最新版 CUDA Toolkit（但只需要驱动）。

重新编译带CUDA的llama.cpp

设置CUDA 环境变量

exportPATH=/usr/local/cuda/bin:$PATHexportLD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATHexportCUDACXX=/usr/local/cuda/bin/nvcc source ~/.bashrc

安装CUDA Toolkit的stub（轻量化开发头文件）虽然你已经有了 CUDA runtime（用于运行模型），但 llama.cpp 编译阶段还需要 C++ 头文件和 nvcc 编译器 —— 你需要在 WSL2 里补装开发包：

sudoapt update #这里直接安装了CUDA12的整个工具包sudoaptinstall -y cuda #验证 nvcc --version

在子系统中验证 GPU 是否可用在 WSL2 中运行：

nvidia-smi

如果成功看到你的 GPU 显示状态（如 RTX 3060、显存使用情况等），说明 CUDA 运行库已经桥接成功，可以继续。

在 Windows 主机 上确认：1）安装了支持 WSL 的 NVIDIA 驱动（必须是 DCH 驱动）：2）安装好 WSL CUDA Toolkit（可以只装驱动和运行库，不需要开发工具）。

 如何安装WSL CUDA Toolkit

i. 下载NVIDIA GeForce Game Ready（根据自己的GPU版本进行选择），下载网址:https://www.nvidia.com/Download/index.aspx ii. 移走原先的GPG key

sudo apt-key del 7fa2af80

iii. 下载CUDA Toolkit

$ wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin $ sudomv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600 $ wget https://developer.download.nvidia.com/compute/cuda/12.9.1/local_installers/cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudo dpkg -i cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudocp /var/cuda-repo-wsl-ubuntu-12-9-local/cuda-*-keyring.gpg /usr/share/keyrings/ $ sudoapt-get update $ sudoapt-get -y install cuda-toolkit-12-9

#如果你用CPU生成过编译文件，执行新的make指令时可能会报错#先使用 rm -rf build 把之前的清空rm -rf build cmake -B build -DGGML_CUDA=ON cmake --build build --config Release -j 8# -j 8 可加速编译过程，视你的 CPU 核心数而定# 其实重启电脑也可以达到一样的效果

从Hugging Face下载模型

选择合适的模型

进入网站查看 llama.cpp 支持的所有模型列表。

我们推荐首先尝试较为主流的 LLaMA 2、LLaMA 3、 Mistral、Qwen、ChatGLM 等系列模型。常见的 LLM 模型大小有 1B、7B、13B 等，一般来说，模型规模越大，生成的质量越好，但是运行时内存（推理时所需内存）也会随之增长。为避免频繁出现 OOM (Out of the memory) 的现象，我们推荐从较小的 LLM 开始调试。

注册Hugging Face账号后，可以添加自己的硬件设备信息，如下

之后Hugging Face会对你的硬件能力做出评估

此时再选择相应的模型，右侧Hardware Compatibility面板用于帮助用户根据自己设备的性能，选择合适的量化模型文件（GGUF 格式）

以第一行为例，Q4_K_M是模型的量化精度，数字越大精度越高，越接近原始模型，但也更占内存；2.5GB下载后模型文件所占空间，也是运行所需的最低内存估算

下载方法

1.使用Hugging Face下载

这里使用手动从 Hugging Face 官网下载的方法，打开你想下载的模型主页，如：
https://huggingface.co/Qwen/Qwen3-0.6B-GGUF

然后在 Files and versions 中找到对应的 .gguf文件下载并保存到你希望的目录即可。

2. 使用ModelScope下载

ModelScope 是阿里云提供的 AI 模型平台，也支持中文大模型。如果你无法访问 Hugging Face 或下载速度慢，推荐使用 ModelScope 下载

首先安装 ModelScope 所需库（推荐使用虚拟环境）：

pip install modelscope

然后运行以下 python 脚本

from modelscope import snapshot_download model_dir = snapshot_download('Qwen/Qwen3-0.6B-GGUF',#替换为你想要下载的模型名称，推荐下载 .gguf 格式的量化模型，适用于 llama.cpp cache_dir='./models/qwen-0.6b-gguf',#设置本地保存路径 revision='master',#可指定具体版本)print(f"Model saved at {model_dir}")

最后耐心等待即可。

人工智能：自然语言处理在金融领域的应用与实战

人工智能：自然语言处理在金融领域的应用与实战学习目标 💡 理解自然语言处理（NLP）在金融领域的应用场景和重要性 💡 掌握金融领域NLP应用的核心技术（如新闻分析、风险管理、欺诈检测） 💡 学会使用前沿模型（如FinBERT、BERT-base）进行金融文本分析 💡 理解金融领域的特殊挑战（如专业术语、实时性要求、数据安全） 💡 通过实战项目，开发一个金融新闻情感分析应用重点内容 * 金融领域NLP应用的主要场景 * 核心技术（新闻分析、风险管理、欺诈检测） * 前沿模型（FinBERT、BERT-base）在金融领域的使用 * 金融领域的特殊挑战 * 实战项目：金融新闻情感分析应用开发一、金融领域NLP应用的主要场景 1.1 金融新闻分析 1.1.1 金融新闻分析的基本概念金融新闻分析是分析金融新闻文本的过程。在金融领域，金融新闻分析的主要应用场景包括： * 情感分析：分析新闻的情感倾向（如正面、中性、负面）

[Linux]从零开始的hailo8加速卡推理YOLO教程

一、前言最近接触到了hailo边缘计算加速芯片。我目前调试的这一款型号为hailo8，具有26Tops的算力，已经相当于3个3588的算力了。整体用下来感觉算力方面没得说，但是生态还差点意思，对于这个系列的芯片国内资料非常少，官方也只发布了针对某些开发板的demo程序，这也就间接导致了我们调试这款芯片非常困难，常常因为找不到demo程序，我们需要自己去翻官方文档。hailo融合的概念非常多，比如hailoRT，hailo_model_zoo，pyhailort等等。概念太复杂了，非常不适合新手。调试hailo在感觉上比我调试RK芯片更为困难。所以现在有了这篇文章，我会将我调试hailo的经历分享出来，当然，也只是作为一个参考，对于不同的开发板，不同的内核，以至于不同的hailo计算卡，不同的pcie驱动版本，这些步骤都不可能完全一样。如果你准备好了，就让我们开始吧！二、谁适合本次教程在本次教程中，涉及到了YOLO，Linux，python等诸多概念，已经不是面向纯小白的了，所以，在开始之前，请你一定要确保自己具备上述基础。在教程中，一些简单

零基础学AI大模型之LLM存储记忆功能之BaseChatMemory

大家好，我是工藤学编程 🦉一个正在努力学习的小博主，期待你的关注实战代码系列最新文章😉C++实现图书管理系统（Qt C++ GUI界面版）SpringBoot实战系列🐷【SpringBoot实战系列】SpringBoot3.X 整合 MinIO 存储原生方案分库分表分库分表之实战-sharding-JDBC分库分表执行流程原理剖析消息队列深入浅出 RabbitMQ-RabbitMQ消息确认机制（ACK）AI大模型零基础学AI大模型之LLM大模型存储记忆功能前情摘要 1、零基础学AI大模型之读懂AI大模型 2、零基础学AI大模型之从0到1调用大模型API 3、零基础学AI大模型之SpringAI 4、零基础学AI大模型之AI大模型常见概念 5、零基础学AI大模型之大模型私有化部署全指南 6、零基础学AI大模型之AI大模型可视化界面 7、零基础学AI大模型之LangChain 8、零基础学AI大模型之LangChain六大核心模块与大模型IO交互链路 9、零基础学AI大模型之Prompt提示词工程 10、零基础学AI大模型之LangChain-PromptTemp

别再贴字幕了！Naiz AI：从语义到像素，全链路重构你的“数字孪生”

Naiz AI：打破语言边界，正在重新定义“全球视频内容”的表达主权当传统翻译还在为对齐字幕发愁时，Naiz AI 已经让你的视频在 100 种语言里不仅“说得溜”，还实现了“口型完美同步”：你的声音，在全球任何角落听起来都像母语。一、一场让内容创作边界消失的“技术海啸” 2026 年，视频创作领域迎来了一场前所未有的范式转移。如果说过去的视频出海是“戴着枷锁起舞”，那么 Naiz AI 的出现就是彻底打碎了那把名为“语言”的锁。这不是简单的翻译工具，这是一个现象级的全球表达引擎： * 📈 爆发式增长：仅仅数月，Naiz AI 处理的视频时长已跨越百万小时，将原本昂贵的专业人工配音周期从“周”缩短到了“分钟”。 * 🌟 顶级创作者的共同选择：无论是追求极致音质的 YouTube 科技博主，还是需要跨国协作的顶级智库，Naiz AI 的