llama.cpp是什么?

优质文章学习记录

10 Apr 2026 — 2 min read

lama.cpp 是一个基于 C/C++ 的高性能推理框架，专门用于在本地设备上高效运行 Meta（原 Facebook）开源的 LLaMA 系列大语言模型（如 LLaMA-1/2、Alpaca 等）。它通过优化计算和内存管理，使得即使在没有高端 GPU 的普通电脑（甚至树莓派、手机等嵌入式设备）上也能运行大模型。

核心特点

轻量与高效：
- 纯 C/C++ 实现，无第三方依赖，对 CPU 架构（如 x86、ARM）优化。
- 支持 4-bit 量化（如 GGUF 格式），显著降低模型体积和内存占用（例如 7B 模型可压缩到 ~4GB）。
- 支持多核 CPU、部分 GPU（通过 CUDA、Metal 或 Vulkan 后端）加速。
跨平台支持：
- 可运行于 Linux、macOS、Windows、Android、iOS 等系统。
- 甚至能在树莓派、Steam Deck 等嵌入式设备上使用。
开源与生态：
- 完全开源（GitHub: ggerganov/llama.cpp），社区活跃，衍生出许多工具（如 Web 界面、绑定库等）。
- 支持多种 LLaMA 衍生模型（如 Alpaca、Vicuna、WizardLM 等）。
无联网需求：
- 完全离线运行，保护隐私，适合对数据敏感的场景。

典型用途

本地对话：通过命令行或 Web 界面与模型交互。
开发集成：作为后端服务供其他应用调用（如聊天机器人、文本生成）。
研究实验：低成本测试大模型在边缘设备上的表现。

简单使用示例

下载模型：
从 Hugging Face 等平台获取量化后的 LLaMA 模型（如 ggml-model-q4_0.bin）。

编译运行：

git clone https://github.com/ggerganov/llama.cpp cd llama.cpp && make ./main -m /path/to/model.bin -p "你的提问"

与其他工具对比

工具	优势	局限性
llama.cpp	极致轻量，跨平台，低硬件需求	功能较基础，依赖社区扩展
Ollama	易用，自动下载模型，支持更多框架	需要更多资源
TextGen UI	图形界面，插件丰富	依赖 Python 和 GPU

如果你需要在资源有限的设备上本地运行大模型，llama.cpp 是目前最流行的选择之一。它的量化技术大幅降低了硬件门槛，让更多人能体验大语言模型的能力。

Rokid 手势识别技术深度解析：解锁 AR 无接触交互的核心秘密

引言在聊手势识别前，咱们先搞清楚：Rokid是谁？它为啥能把AR手势做得这么自然？ Rokid是国内AR（增强现实）领域的“老兵”了，从2014年成立就盯着一个目标——让AR走进日常。你可能见过它的产品：能戴在脸上的“AR眼镜”Max Pro、能揣在兜里的“AR主机”Station 2、适合专业场景的“Station Pro”，这些设备不是用来“炫技”的，而是想让咱们摆脱手机、手柄的束缚，直接用手“摸”虚拟东西。而手势识别，就是Rokid给AR设备装的“最自然的遥控器”——比如调大虚拟屏幕像捏橡皮一样捏合手指，翻页像翻书一样挥手。但不同设备、不同开发需求，需要搭配不同版本的SDK（软件开发工具包），这就像“不同型号的手机要装对应版本的APP”。一、基础认知：先选对版本，避免开发走弯路 Rokid手势识别技术随SDK版本迭代持续优化，不同版本适配的Unity（开发工具）

AI绘画报错

提示输出验证失败：CheckpointLoaderSimple: - 值不在列表中：ckpt_name: 'v1-5-pruned-emaonly-fp16.safetensors' 不在 ['anything-v5-PrtRE.safetensors'] 中模型文件夹里面没模型这是官方链接：v1-5-pruned-emaonly.safetensors https://huggingface.co/runwayml/stable-diffusion-v1-5/tree/main 点击同一行的小下载箭头。然后把文件放在：models/checkpoints文件夹里你还需要标准的VAE文件，也就是：vae-ft-mse-840000-ema-pruned.safetensors https://huggingface.co/stabilityai/sd-vae-ft-mse-original/tree/main 这个文件放在：models/vae文件夹里现在你已经拥有运行所需的一切了。慢慢来。你最初生成的图片会很糟糕。但是继续尝试，很快你就能得到很棒的结果。

【机器人】复现 StreamVLN 具身导航 | 流式VLN | 连续导航

StreamVLN 通过在线、多轮对话的方式，输入连续视频，输出动作序列。通过结合语言指令、视觉观测和空间位姿信息，驱动模型生成导航动作（前进、左转、右转、停止）。论文地址：StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling 代码地址：https://github.com/OpenRobotLab/StreamVLN 本文分享StreamVLN 复现和模型推理的过程～下面是示例效果： 1、创建Conda环境首先创建一个Conda环境，名字为streamvln，python版本为3.9；然后进入streamvln环境，执行下面命令： conda create -n streamvln python=3.9 conda activate streamvln 2、安装habitat仿真环境

Spatial Joy 2025 全球 AR&AI 赛事：开发者要的资源、玩法、避坑攻略都在这

Spatial Joy 2025 全球 AR&AI 赛事：开发者要的资源、玩法、避坑攻略都在这 * 引言： * 正文： * 一、赛事核心价值：资源、履历、落地全具备 * 1.1 硬核资源支持 * 1.2 行业背书与机遇 * 1.3 低门槛试错 * 二、赛道核心玩法：AI 和 AR 创作方向解析 * 2.1 AI 赛道：拼的是 "空间认知协作" 能力 * 2.1.1 应用示例 * 2.2 AR 赛道：