摘要
llama.cpp 是一个基于 C/C++ 开发的高效大语言模型推理工具,支持跨平台部署和 Docker 快速启动。本文介绍了通过命令行方式部署 llama.cpp 的步骤,包括如何下载模型、CPU/GPU 配置及启动参数说明。llama.cpp 提供 Web UI 界面和 OpenAI 兼容 API,支持文本和多模态对话,对电脑配置要求不高,完全免费且私密。
Llama.cpp 简介
- llama.cpp 是一个在 C/C++ 中实现大型语言模型(LLM)推理的工具。
- 支持跨平台部署,也支持使用 Docker 快速启动。
- 可以运行多种量化模型,对电脑要求不高,CPU/GPU 设备均可流畅运行。 支持模型包含:llama 系列,qwen 系列,gemma 系列,Falcon、Alpaca、GPT4All、Chinese LLaMA、Vigogne、Vicuna、Koala、OpenBuddy、Pygmalion、Metharme、WizardLM、Baichuan、Aquila、Starcoder、Mistral AI、Refact、Persimmon、MPT、Bloom、StableLM-3b-4e1t 等。
- 开源地址参考:https://github.com/ggml-org/llama.cpp
- 支持模型格式:GGUF(llama 提供了转换成 GGUF 格式的工具)。
- 纯 C/C++ 实现,没有任何依赖。
- 对 Apple Silicon(如 M1/M2/M3 芯片)提供一流支持 - 通过 ARM NEON、Accelerate 和 Metal 框架优化。
- 支持 x86 架构的 AVX、AVX2、AVX512 和 AMX 指令集。
- 支持 1.5 位、2 位、3 位、4 位、5 位、6 位和 8 位整数量化,实现更快的推理和更低的内存使用。
- 为 NVIDIA GPU 提供自定义 CUDA 内核(通过 HIP 支持 AMD GPU,通过 MUSA 支持摩尔线程 MTT GPU)。
- 支持 Vulkan 和 SYCL 后端。
- CPU+GPU 混合推理,可部分加速大于总 VRAM 容量的模型。
大模型下载
本文以 Qwen3-VL-8B-Instruct-GGUF 为例演示如何下载大模型。
- HuggingFace 官网下载:https://huggingface.co/models
- ModelScope(魔塔)下载
由于访问限制,这里选择 ModelScope 下载。
第一,需要安装 Python,这是基础环境;
第二,安装 modelscope,打开 CMD 命令行,输入 pip install modelscope;
第三,在命令行中输入以下命令:
modelscope download --model Qwen/Qwen3-VL-8B-Instruct-GGUF --local_dir qwen
加 --local_dir 参数是为了指定下载到的地址。
示例命令如下:
通过以上命令可以将 Qwen3-VL-8B-Instruct-GGUF 中的所有文件下载到 d:/llm-models/qwen 文件夹中,等待下载完成即可。如果只是下载部分文件也可以自己指定,具体操作可查阅 ModelScope 文档说明:Qwen3-VL-8B-Instruct-GGUF · 模型库
下载 llama.cpp
llama.cpp 有已经编译好的可直接执行的程序,如果仅仅是部署使用,可直接下载对应版本,下载地址: llama.cpp 编译版本下载连接
运行大模型 llama-cli
使用 llama-cli 运行指定的大模型。
这是运行成功后的界面:
然后就可以直接在上面输入信息与大模型对话了:
编译 llama.cpp 源码
需要的环境如下:
- 下载 CMake:Download CMake
- 带有 "使用 C++ 的桌面开发" 工作负载的 Visual Studio Community Edition
- 下载 llama.cpp 源码(也可以使用 git 下载),https://github.com/ggerganov/llama.cpp
使用 cmd 进入 llama.cpp 的源码目录:
先运行:
cmake -B build
如果没有安装 CURL,会出现如下提示:
禁用 CURL 即可,即使用下面的命令:
cmake -B build -DLLAMA_CURL=OFF
会出现如下的警告,不用管。
然后再运行:
cmake --build build --config Release
编译过程约需 10 分钟,编译好的 dll 和可执行文件即可生成。
注意事项
若模型太大,导入时可能会提示缓存不够,建议更换较小版本的模型。

