Llama.cpp 本地部署大模型实战

如何使用 llama.cpp 在本地部署大语言模型。llama.cpp 是基于 C/C++ 的高效推理工具，支持跨平台、Docker 启动及多种量化模型。文章详细说明了通过 ModelScope 下载 Qwen3-VL-8B-Instruct-GGUF 模型的步骤，包括环境准备与命令行操作。同时涵盖了 llama-cli 的运行方法以及从源码编译的过程，涉及 CMake 配置与 Visual Studio 环境搭建。该方案无需联网，数据私密，适合普通用户在本地运行大模型。

数字游民发布于 2026/4/6更新于 2026/7/2061 浏览

摘要

llama.cpp 是一个基于 C/C++ 开发的高效大语言模型推理工具，支持跨平台部署和 Docker 快速启动。本文介绍了通过命令行方式部署 llama.cpp 的步骤，包括如何下载模型、CPU/GPU 配置及启动参数说明。llama.cpp 提供 Web UI 界面和 OpenAI 兼容 API，支持文本和多模态对话，对电脑配置要求不高，完全免费且私密。

Llama.cpp 简介

llama.cpp 是一个在 C/C++ 中实现大型语言模型（LLM）推理的工具。
支持跨平台部署，也支持使用 Docker 快速启动。
可以运行多种量化模型，对电脑要求不高，CPU/GPU 设备均可流畅运行。支持模型包含：llama 系列，qwen 系列，gemma 系列，Falcon、Alpaca、GPT4All、Chinese LLaMA、Vigogne、Vicuna、Koala、OpenBuddy、Pygmalion、Metharme、WizardLM、Baichuan、Aquila、Starcoder、Mistral AI、Refact、Persimmon、MPT、Bloom、StableLM-3b-4e1t 等。
开源地址参考：https://github.com/ggml-org/llama.cpp
支持模型格式：GGUF（llama 提供了转换成 GGUF 格式的工具）。
纯 C/C++ 实现，没有任何依赖。
对 Apple Silicon（如 M1/M2/M3 芯片）提供一流支持 - 通过 ARM NEON、Accelerate 和 Metal 框架优化。
支持 x86 架构的 AVX、AVX2、AVX512 和 AMX 指令集。
支持 1.5 位、2 位、3 位、4 位、5 位、6 位和 8 位整数量化，实现更快的推理和更低的内存使用。
为 NVIDIA GPU 提供自定义 CUDA 内核（通过 HIP 支持 AMD GPU，通过 MUSA 支持摩尔线程 MTT GPU）。
支持 Vulkan 和 SYCL 后端。
CPU+GPU 混合推理，可部分加速大于总 VRAM 容量的模型。

大模型下载

本文以 Qwen3-VL-8B-Instruct-GGUF 为例演示如何下载大模型。

HuggingFace 官网下载：https://huggingface.co/models
ModelScope（魔塔）下载

由于访问限制，这里选择 ModelScope 下载。

第一，需要安装 Python，这是基础环境；第二，安装 modelscope，打开 CMD 命令行，输入 pip install modelscope；第三，在命令行中输入以下命令：

modelscope download --model Qwen/Qwen3-VL-8B-Instruct-GGUF --local_dir qwen

加 --local_dir 参数是为了指定下载到的地址。

示例命令如下：

通过以上命令可以将 Qwen3-VL-8B-Instruct-GGUF 中的所有文件下载到 d:/llm-models/qwen 文件夹中，等待下载完成即可。如果只是下载部分文件也可以自己指定，具体操作可查阅 ModelScope 文档说明：Qwen3-VL-8B-Instruct-GGUF · 模型库

下载 llama.cpp

llama.cpp 有已经编译好的可直接执行的程序，如果仅仅是部署使用，可直接下载对应版本，下载地址： llama.cpp 编译版本下载连接

摘要

Llama.cpp 简介

llama.cpp 是一个在 C/C++ 中实现大型语言模型（LLM）推理的工具。
支持跨平台部署，也支持使用 Docker 快速启动。
可以运行多种量化模型，对电脑要求不高，CPU/GPU 设备均可流畅运行。支持模型包含：llama 系列，qwen 系列，gemma 系列，Falcon、Alpaca、GPT4All、Chinese LLaMA、Vigogne、Vicuna、Koala、OpenBuddy、Pygmalion、Metharme、WizardLM、Baichuan、Aquila、Starcoder、Mistral AI、Refact、Persimmon、MPT、Bloom、StableLM-3b-4e1t 等。
开源地址参考：https://github.com/ggml-org/llama.cpp
支持模型格式：GGUF（llama 提供了转换成 GGUF 格式的工具）。
纯 C/C++ 实现，没有任何依赖。
对 Apple Silicon（如 M1/M2/M3 芯片）提供一流支持 - 通过 ARM NEON、Accelerate 和 Metal 框架优化。
支持 x86 架构的 AVX、AVX2、AVX512 和 AMX 指令集。
支持 1.5 位、2 位、3 位、4 位、5 位、6 位和 8 位整数量化，实现更快的推理和更低的内存使用。
为 NVIDIA GPU 提供自定义 CUDA 内核（通过 HIP 支持 AMD GPU，通过 MUSA 支持摩尔线程 MTT GPU）。
支持 Vulkan 和 SYCL 后端。
CPU+GPU 混合推理，可部分加速大于总 VRAM 容量的模型。

大模型下载

本文以 Qwen3-VL-8B-Instruct-GGUF 为例演示如何下载大模型。

HuggingFace 官网下载：https://huggingface.co/models
ModelScope（魔塔）下载

由于访问限制，这里选择 ModelScope 下载。

第一，需要安装 Python，这是基础环境；第二，安装 modelscope，打开 CMD 命令行，输入 pip install modelscope；第三，在命令行中输入以下命令：

modelscope download --model Qwen/Qwen3-VL-8B-Instruct-GGUF --local_dir qwen

加 --local_dir 参数是为了指定下载到的地址。

示例命令如下：

下载 llama.cpp

llama.cpp 有已经编译好的可直接执行的程序，如果仅仅是部署使用，可直接下载对应版本，下载地址： llama.cpp 编译版本下载连接

Llama.cpp 本地部署大模型实战

摘要

Llama.cpp 简介

大模型下载

下载 llama.cpp

Llama.cpp 本地部署大模型实战

摘要

Llama.cpp 简介

大模型下载

下载 llama.cpp

更多推荐文章

相关免费在线工具

运行大模型 llama-cli

编译 llama.cpp 源码

注意事项

更多推荐文章

相关免费在线工具

Llama.cpp 本地部署大模型实战

摘要

Llama.cpp 简介

大模型下载

下载 llama.cpp

Llama.cpp 本地部署大模型实战

摘要

Llama.cpp 简介

大模型下载

下载 llama.cpp

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

运行大模型 llama-cli

编译 llama.cpp 源码

注意事项

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具