【教程】如何在WSL2:Ubuntu上部署llama.cpp

【教程】如何在WSL2:Ubuntu上部署llama.cpp

WSL2:Ubuntu部署llama.cpp

llama.cpp 是一个完全由 C 与 C++ 编写的轻量级推理框架,支持在 CPU 或 GPU 上高效运行 Meta 的 LLaMA 等大语言模型(LLM),设计上尽可能减少外部依赖,能够轻松在多种后端与平台上运行。

安装llama.cpp

下面我们采用本地编译的方法在设备上安装llama.cpp

克隆llama.cpp仓库

在wsl中打开终端:

git clone https://github.com/ggml-org/llama.cpp cd llama.cpp 

编译项目

编译项目前,先安装所需依赖项:

sudoapt update sudoaptinstall -y build-essential cmake git#llama.cpp的某些功能依赖libcurl#如llama-download 的自动下载模型sudoaptinstall -y libcurl4-openssl-dev #如果要使用python接口,还需要sudoaptinstall -y python3 python3-pip pip3 install numpy 
CPU Backend

默认使用CPU版本编译

cmake -B build cmake --build build --config Release # cmake --build build --config Release -j 8 # -j 8 可加速编译过程,视你的 CPU 核心数而定
GPU Backend

如果你想使用GPU(推荐支持CUDA的NVIDA显卡),需要先安装CUDA Toolkit。由于WSL2默认不会自动识别WIndows主机上的CUDA Toolkit,因此需要特殊处理。

    • 驱动版本 ≥ 465
    • NVIDIA 官网 下载并安装最新版 CUDA Toolkit(但只需要驱动)。
  1. 重新编译带CUDA的llama.cpp

设置CUDA 环境变量

exportPATH=/usr/local/cuda/bin:$PATHexportLD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATHexportCUDACXX=/usr/local/cuda/bin/nvcc source ~/.bashrc 

安装CUDA Toolkit的stub(轻量化开发头文件)虽然你已经有了 CUDA runtime(用于运行模型),但 llama.cpp 编译阶段还需要 C++ 头文件和 nvcc 编译器 —— 你需要在 WSL2 里补装开发包:

sudoapt update #这里直接安装了CUDA12的整个工具包sudoaptinstall -y cuda #验证 nvcc --version 

在 子系统中验证 GPU 是否可用在 WSL2 中运行:

nvidia-smi 

如果成功看到你的 GPU 显示状态(如 RTX 3060、显存使用情况等),说明 CUDA 运行库已经桥接成功,可以继续。

Windows 主机 上确认:1)安装了支持 WSL 的 NVIDIA 驱动(必须是 DCH 驱动):2)安装好 WSL CUDA Toolkit(可以只装驱动和运行库,不需要开发工具)。

 如何安装WSL CUDA Toolkit 

​ i. 下载NVIDIA GeForce Game Ready(根据自己的GPU版本进行选择),下载网址:https://www.nvidia.com/Download/index.aspx​ ii. 移走原先的GPG key

sudo apt-key del 7fa2af80 

​ iii. 下载CUDA Toolkit

$ wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin $ sudomv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600 $ wget https://developer.download.nvidia.com/compute/cuda/12.9.1/local_installers/cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudo dpkg -i cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudocp /var/cuda-repo-wsl-ubuntu-12-9-local/cuda-*-keyring.gpg /usr/share/keyrings/ $ sudoapt-get update $ sudoapt-get -y install cuda-toolkit-12-9 
#如果你用CPU生成过编译文件,执行新的make指令时可能会报错#先使用 rm -rf build 把之前的清空rm -rf build cmake -B build -DGGML_CUDA=ON cmake --build build --config Release -j 8# -j 8 可加速编译过程,视你的 CPU 核心数而定# 其实重启电脑也可以达到一样的效果

从Hugging Face下载模型

选择合适的模型

进入网站查看 llama.cpp 支持的所有模型列表

我们推荐首先尝试较为主流的 LLaMA 2、LLaMA 3、 Mistral、Qwen、ChatGLM 等系列模型。常见的 LLM 模型大小有 1B、7B、13B 等,一般来说,模型规模越大,生成的质量越好,但是运行时内存(推理时所需内存)也会随之增长。为避免频繁出现 OOM (Out of the memory) 的现象,我们推荐从较小的 LLM 开始调试。

注册Hugging Face账号后,可以添加自己的硬件设备信息,如下

用户主页

之后Hugging Face会对你的硬件能力做出评估

用户硬件性能评估

此时再选择相应的模型,右侧Hardware Compatibility面板 用于帮助用户根据自己设备的性能,选择合适的量化模型文件(GGUF 格式)

以第一行为例,Q4_K_M是模型的量化精度,数字越大精度越高,越接近原始模型,但也更占内存;2.5GB下载后模型文件所占空间,也是运行所需的最低内存估算

模型量化精度推荐

下载方法

1.使用Hugging Face下载

这里使用手动从 Hugging Face 官网下载的方法,打开你想下载的模型主页,如:
https://huggingface.co/Qwen/Qwen3-0.6B-GGUF

然后在 Files and versions 中找到对应的 .gguf文件下载并保存到你希望的目录即可。

2. 使用ModelScope下载

ModelScope 是阿里云提供的 AI 模型平台,也支持中文大模型。如果你无法访问 Hugging Face 或下载速度慢,推荐使用 ModelScope 下载

首先安装 ModelScope 所需库(推荐使用虚拟环境):

pip install modelscope 

然后运行以下 python 脚本

from modelscope import snapshot_download model_dir = snapshot_download('Qwen/Qwen3-0.6B-GGUF',#替换为你想要下载的模型名称,推荐下载 .gguf 格式的量化模型,适用于 llama.cpp cache_dir='./models/qwen-0.6b-gguf',#设置本地保存路径 revision='master',#可指定具体版本)print(f"Model saved at {model_dir}")

最后耐心等待即可。

Read more

Obsidian接入AI完整配置指南

Obsidian接入AI完整配置指南

🚀 Obsidian接入AI完整配置指南 📋 目录导航 * 核心工具介绍 * 免费接入方案 * 详细配置步骤 * 模型选择建议 * 实用功能配置 * 使用场景示例 * 常见问题解决 * 高级技巧 🎯 核心工具:Copilot插件 Copilot是Obsidian中最强大的AI助手插件,让你的笔记体验智能化升级! 安装步骤(3步搞定) 1. 打开设置:Obsidian → 设置 → 社区插件 2. 搜索安装:搜索"Copilot"并点击安装 3. 启用重启:启用插件并重启Obsidian 💰 免费AI接入方案:OpenRouter OpenRouter提供多个免费AI模型,是性价比最高的选择! 第一步:注册账号 * 🌐 访问:https://openrouter.ai/ * 🔗 使用GitHub或Google快速注册 * 🔑 在Keys页面生成API密钥 第二步:添加模型配置 模型添加方法: 1. ✅ 模型名称必须正确 2. 🌐 URL同图片地址

2026年AI Agent发展趋势与挑战:从理论到实践的跨越

2026年AI Agent发展趋势与挑战:从理论到实践的跨越 作者:Javis | 发布日期:2026年3月21日 引言 随着人工智能技术的快速发展,AI Agent已经从实验室概念逐渐走向实际应用。2026年,我们正见证着AI Agent技术从"能做什么"向"做得有多好"的转变。本文将探讨当前AI Agent领域的发展趋势、关键技术突破以及面临的挑战。 一、当前AI Agent发展的三大趋势 1. 从单一任务到多任务协同 早期的AI Agent往往专注于特定任务,如文本生成、图像识别或数据分析。2026年的趋势是多任务协同Agent,它们能够: * 同时处理文本、图像、音频等多种模态信息 * 在不同任务间无缝切换,保持上下文一致性 * 自主规划任务执行顺序,优化资源分配 2. 从云端到边缘的部署迁移 随着计算能力的提升和模型压缩技术的发展,AI Agent正逐步从云端向边缘设备迁移: * 端侧AI Agent:

轻量 Windows 桌面金价监控工具 AnyGold 更新|走势图 + AI 研判 + 声音提醒上线

轻量 Windows 桌面金价监控工具 AnyGold 更新|走势图 + AI 研判 + 声音提醒上线

⚠️ 重要免责声明:本工具仅做互联网公开可查数据的桌面展示,所有内容仅供参考,不构成任何投资建议、交易指导或买卖推荐,相关决策需用户自行判断,风险自担。 图注:AnyGold 桌面悬浮窗实拍,办公场景不挡屏 关注黄金行情的开发者朋友,应该都有过这种困扰:盯金价要常驻浏览器标签页,或是打开臃肿的财经 APP,不仅占内存、挡办公界面,还经常因为没及时看到行情错过关键点位,想找一款纯粹、轻量的桌面金价工具,一直没找到合心意的。 之前自己动手做了一款 Windows 桌面黄金价格监控工具「AnyGold」,上线以来收到了很多朋友的反馈和优化建议,这次针对大家呼声最高的需求,做了一波重磅更新,把大家最想要的功能都安排上了。 先说说这款工具的核心底子,永久免费的基础功能,完全能覆盖日常盯盘需求: * 多数据源实时同步:支持浙商银行、民生银行、伦敦金报价一键切换,国内国际行情全覆盖 * 桌面悬浮小窗:置顶不挡办公界面,滚轮可自由缩放窗口大小,贴任务栏也不会被顶起 * 自动涨跌提醒:价格波动超阈值自动弹窗提醒,自动对标昨日收盘价,涨跌金额、百分比一眼看清 * 多主题随心换:支持黑

AI 也能操控浏览器了?OpenClaw Browser Relay 接入指南

AI 也能操控浏览器了?OpenClaw Browser Relay 接入指南

目录 * 为什么需要 Browser Relay? * 浏览器模式 * 扩展中继模式(Extension Relay) * 踩坑记录 * 实战案例:AI 帮你干活 * 案例一:自动查资料 + 总结 为什么需要 Browser Relay? 兄弟姐妹们,有没有这些痛点: 😭 想自动化操作浏览器,但工具配置复杂、代码一大串还容易报错 😭 页面稍微变一下,脚本就失效,维护到头秃 😭 遇到登录态、Cookie、JavaScript 渲染的页面,直接歇菜 好消息来了! 🎉 OpenClaw Browser Relay 直接用 AI 控制浏览器!不用记 API、不用写复杂脚本,只要会说话(打字)就行!从此以后: 从此以后: ✅ “帮我去某某网站查个数据” —— AI 自动打开浏览器、登录、