工具简介
Llama.cpp 是一个基于 C/C++ 开发的高效大语言模型推理工具,核心优势在于能在有限的计算资源下实现本地部署。它支持跨平台运行,提供 Docker 快速启动方案,并兼容多种量化模型格式(如 GGUF)。该工具对硬件要求相对友好,CPU 或 GPU 设备均可流畅运行,同时支持 Apple Silicon、NVIDIA CUDA、AMD HIP 及 Vulkan 等后端。
主要特性包括:
- 纯 C/C++ 实现:无额外依赖,轻量级。
- 多架构支持:涵盖 x86 (AVX/AVX512)、ARM (NEON/Metal) 等指令集优化。
- 混合推理:支持 CPU+GPU 混合模式,可处理超过总 VRAM 容量的模型。
- 开源生态:支持 Llama、Qwen、Gemma、Mistral 等多种主流模型系列。
开源地址:https://github.com/ggml-org/llama.cpp
模型下载
本文以 Qwen3-VL-8B-Instruct-GGUF 为例演示模型获取流程。虽然 HuggingFace 是常用源,但考虑到网络环境稳定性,推荐使用 ModelScope(魔塔社区)。
前置准备
确保已安装 Python 环境。在命令行中执行以下命令安装 modelscope 库:
pip install modelscope
下载步骤
使用 modelscope 命令下载模型文件到指定目录:
modelscope download --model Qwen/Qwen3-VL-8B-Instruct-GGUF --local_dir qwen
--local_dir 参数用于指定本地存储路径。执行后等待下载完成即可。若需仅下载部分文件,可参考官方文档调整参数。

运行推理
直接使用编译版
Llama.cpp 提供了预编译的可执行程序。访问 GitHub Releases 页面下载对应平台的版本:
https://github.com/ggml-org/llama.cpp/releases
下载完成后,进入目录运行 llama-cli 加载模型:
./llama-cli -m qwen.gguf -p "你好" -n 128
运行成功后,终端将显示模型交互界面,可直接输入提示词进行对话。

源码编译
如需自定义构建或启用特定后端,可从源码编译。
环境要求
- 安装 CMake:

