【教程】如何在WSL2:Ubuntu上部署llama.cpp

优质文章学习记录

07 Apr 2026 — 5 min read

WSL2:Ubuntu部署llama.cpp

llama.cpp 是一个完全由 C 与 C++ 编写的轻量级推理框架，支持在 CPU 或 GPU 上高效运行 Meta 的 LLaMA 等大语言模型（LLM），设计上尽可能减少外部依赖，能够轻松在多种后端与平台上运行。

安装llama.cpp

下面我们采用本地编译的方法在设备上安装llama.cpp

克隆`llama.cpp`仓库

在wsl中打开终端：

git clone https://github.com/ggml-org/llama.cpp cd llama.cpp

编译项目

编译项目前，先安装所需依赖项：

sudoapt update sudoaptinstall -y build-essential cmake git#llama.cpp的某些功能依赖libcurl#如llama-download 的自动下载模型sudoaptinstall -y libcurl4-openssl-dev #如果要使用python接口，还需要sudoaptinstall -y python3 python3-pip pip3 install numpy

CPU Backend

默认使用CPU版本编译

cmake -B build cmake --build build --config Release # cmake --build build --config Release -j 8 # -j 8 可加速编译过程，视你的 CPU 核心数而定

GPU Backend

如果你想使用GPU（推荐支持CUDA的NVIDA显卡），需要先安装CUDA Toolkit。由于WSL2默认不会自动识别WIndows主机上的CUDA Toolkit，因此需要特殊处理。

驱动版本 ≥ 465
从 NVIDIA 官网下载并安装最新版 CUDA Toolkit（但只需要驱动）。

重新编译带CUDA的llama.cpp

设置CUDA 环境变量

exportPATH=/usr/local/cuda/bin:$PATHexportLD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATHexportCUDACXX=/usr/local/cuda/bin/nvcc source ~/.bashrc

安装CUDA Toolkit的stub（轻量化开发头文件）虽然你已经有了 CUDA runtime（用于运行模型），但 llama.cpp 编译阶段还需要 C++ 头文件和 nvcc 编译器 —— 你需要在 WSL2 里补装开发包：

sudoapt update #这里直接安装了CUDA12的整个工具包sudoaptinstall -y cuda #验证 nvcc --version

在子系统中验证 GPU 是否可用在 WSL2 中运行：

nvidia-smi

如果成功看到你的 GPU 显示状态（如 RTX 3060、显存使用情况等），说明 CUDA 运行库已经桥接成功，可以继续。

在 Windows 主机 上确认：1）安装了支持 WSL 的 NVIDIA 驱动（必须是 DCH 驱动）：2）安装好 WSL CUDA Toolkit（可以只装驱动和运行库，不需要开发工具）。

 如何安装WSL CUDA Toolkit

i. 下载NVIDIA GeForce Game Ready（根据自己的GPU版本进行选择），下载网址:https://www.nvidia.com/Download/index.aspx ii. 移走原先的GPG key

sudo apt-key del 7fa2af80

iii. 下载CUDA Toolkit

$ wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin $ sudomv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600 $ wget https://developer.download.nvidia.com/compute/cuda/12.9.1/local_installers/cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudo dpkg -i cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudocp /var/cuda-repo-wsl-ubuntu-12-9-local/cuda-*-keyring.gpg /usr/share/keyrings/ $ sudoapt-get update $ sudoapt-get -y install cuda-toolkit-12-9

#如果你用CPU生成过编译文件，执行新的make指令时可能会报错#先使用 rm -rf build 把之前的清空rm -rf build cmake -B build -DGGML_CUDA=ON cmake --build build --config Release -j 8# -j 8 可加速编译过程，视你的 CPU 核心数而定# 其实重启电脑也可以达到一样的效果

从Hugging Face下载模型

选择合适的模型

进入网站查看 llama.cpp 支持的所有模型列表。

我们推荐首先尝试较为主流的 LLaMA 2、LLaMA 3、 Mistral、Qwen、ChatGLM 等系列模型。常见的 LLM 模型大小有 1B、7B、13B 等，一般来说，模型规模越大，生成的质量越好，但是运行时内存（推理时所需内存）也会随之增长。为避免频繁出现 OOM (Out of the memory) 的现象，我们推荐从较小的 LLM 开始调试。

注册Hugging Face账号后，可以添加自己的硬件设备信息，如下

之后Hugging Face会对你的硬件能力做出评估

此时再选择相应的模型，右侧Hardware Compatibility面板用于帮助用户根据自己设备的性能，选择合适的量化模型文件（GGUF 格式）

以第一行为例，Q4_K_M是模型的量化精度，数字越大精度越高，越接近原始模型，但也更占内存；2.5GB下载后模型文件所占空间，也是运行所需的最低内存估算

下载方法

1.使用Hugging Face下载

这里使用手动从 Hugging Face 官网下载的方法，打开你想下载的模型主页，如：
https://huggingface.co/Qwen/Qwen3-0.6B-GGUF

然后在 Files and versions 中找到对应的 .gguf文件下载并保存到你希望的目录即可。

2. 使用ModelScope下载

ModelScope 是阿里云提供的 AI 模型平台，也支持中文大模型。如果你无法访问 Hugging Face 或下载速度慢，推荐使用 ModelScope 下载

首先安装 ModelScope 所需库（推荐使用虚拟环境）：

pip install modelscope

然后运行以下 python 脚本

from modelscope import snapshot_download model_dir = snapshot_download('Qwen/Qwen3-0.6B-GGUF',#替换为你想要下载的模型名称，推荐下载 .gguf 格式的量化模型，适用于 llama.cpp cache_dir='./models/qwen-0.6b-gguf',#设置本地保存路径 revision='master',#可指定具体版本)print(f"Model saved at {model_dir}")

最后耐心等待即可。

与AI沟通的正确方式——AI提示词：原理、策略与精通之道

文章目录 * 第一章：提示词革命——AI时代的新语言 * 1.1 从命令行到自然语言：人机交互的范式转变 * 1.1.1 历史脉络中的交互演进 * 1.1.2 提示词的本质：思维的结构化投射 * 1.2 提示词为何如此重要：放大人类智能的杠杆 * 1.2.1 提示词作为“思维乘数” * 1.2.2 经济性价值：降低AI使用成本 * 1.2.3 协作性价值：标准化智能协作协议 * 1.3 提示词的认知科学基础：人类如何思考AI如何“思考” * 1.3.1 人类思维的特点与提示词设计 * 1.3.2 AI的“思维”

2026年3月18日人工智能早间新闻

各位读者，早上好。今天是2026年3月18日，星期三。欢迎收看人工智能早间新闻。昨日，从英伟达GTC大会到国内产业一线，人工智能领域释放出密集信号——算力竞赛正从地面延伸至太空，智能体加速从概念走向实干，而AI与实体经济的深度融合正在催生“超级团队”与“一人公司”的新范式。一、国内产业纵深：“人工智能+”催生“超级团队”，智能体从概念走向实干今年的政府工作报告首次提出打造智能经济新形态，并提出“促进新一代智能终端和智能体加快推广”“支持人工智能开源社区建设”等具体路径。在3月6日举行的经济主题记者会上，国家发改委主任郑栅洁表示，将深化“人工智能+”行动，“十五五”末人工智能相关产业规模将增长到10万亿元以上。 1. AI正从根本上释放个体能力：科大讯飞董事长刘庆峰代表指出，AI正从根本上释放个体能力，带来生产力的跃升。科大讯飞内部已涌现出一批“超级团队”，团队仅凭1名产品经理加2名前端开发人员，就完成了专家评估需15人开发3个月的任务，日产10万行高质量代码。“AI能够让一个人完成过去一个团队才能做到的事。” 刘庆峰认为，未来3至5年，AI将在数字内容、科研创新等领域持续催

AI安全工具：AI供应链安全检测工具的使用

AI安全工具：AI供应链安全检测工具的使用 📝 本章学习目标：本章介绍实用工具，帮助读者掌握AI安全合规治理的工具使用。通过本章学习，你将全面掌握"AI安全工具：AI供应链安全检测工具的使用"这一核心主题。一、引言：为什么这个话题如此重要在AI技术快速发展的今天，AI安全工具：AI供应链安全检测工具的使用已经成为每个AI从业者和企业管理者必须了解的核心知识。随着AI应用的深入，安全风险、合规要求、治理挑战日益凸显，掌握这些知识已成为AI时代的基本素养。 1.1 背景与意义 💡 核心认知：AI安全、合规与治理是AI健康发展的三大基石。安全是底线，合规是保障，治理是方向。三者相辅相成，缺一不可。近年来，AI安全事件频发，合规要求日益严格，治理挑战不断升级。从数据泄露到算法歧视，从隐私侵犯到伦理争议，AI发展面临前所未有的挑战。据统计，超过60%的企业在AI应用中遇到过安全或合规问题，造成的经济损失高达数十亿美元。 1.2 本章结构概览为了帮助读者系统性地掌握本章内容，我将从以下几个维度展开：

LLaMA-Factory 推理全攻略：从配置到实战

LLaMA-Factory 推理实战：从配置到生产部署的全流程指南在大模型落地越来越依赖“微调+推理”闭环的今天，一个真正高效、灵活且工程友好的工具链显得尤为重要。LLaMA-Factory 正是这样一个被低估却极具生产力的开源框架——它不只解决了微调难题，更打通了从本地测试到生产服务的最后一环。与其说它是某个模型的配套工具，不如说它是一个标准化的大语言模型运行时平台。无论你用的是通义千问、百川、ChatGLM 还是 Llama 3，只要配置得当，都能以统一的方式加载、对话、批量生成甚至发布为 API。这种“一次配置、多端运行”的能力，正是现代 AI 工程化的理想形态。我们不妨从一个实际场景切入：假设你已经完成了一个医疗领域 LoRA 微调模型，现在需要验证效果、批量生成知识问答，并最终部署成内部系统可用的服务接口。这个过程会涉及哪些关键步骤？又有哪些坑值得警惕？整个流程可以归结为三个阶段：准备 → 执行 → 优化。首先，环境必须干净可控。推荐使用 Python