使用LLama.cpp本地部署大模型

优质文章学习记录

07 Apr 2026 — 5 min read

摘要

llama.cpp是一个基于C/C++开发的高效大语言模型推理工具，支持跨平台部署和Docker快速启动，核心功能是在有限的计算资源情况下本地部署使用大模型。本文介绍了通过Docker方式部署llama.cpp的步骤，包括如何下载模型、CPU/GPU配置及启动参数说明。llama.cpp提供Web UI界面和OpenAI兼容API，支持文本和多模态对话，对电脑配置要求不高，完全免费且私密，让普通用户也能轻松在本地运行大语言模型。

LLama.cpp简介

1. llama.cpp 是一个在 C/C++ 中实现大型语言模型（LLM）推理的工具

2.支持跨平台部署，也支持使用 Docker 快速启动

3.可以运行多种量化模型，对电脑要求不高，CPU/GPU设备均可流畅运行。

支持模型包含：llama系列，qwen系列，gemma系列，Falcon、Alpaca、GPT4All、Chinese LLaMA、Vigogne、Vicuna、Koala、OpenBuddy、Pygmalion、Metharme、WizardLM、Baichuan、Aquila、Starcoder、Mistral AI、Refact、Persimmon、MPT、Bloom、StableLM-3b-4e1t等。

4.开源地址参考：https://github.com/ggml-org/llama.cpp

5.支持模型格式：GUFF（llama提供了转换成GUFF格式的工具）

6.纯C/C++实现，没有任何依赖

7.对Apple Silicon（如M1/M2/M3芯片）提供一流支持 - 通过ARM NEON、Accelerate和Metal框架优化

8.支持x86架构的AVX、AVX2、AVX512和AMX指令集

9.支持1.5位、2位、3位、4位、5位、6位和8位整数量化，实现更快的推理和更低的内存使用

为NVIDIA GPU提供自定义CUDA内核（通过HIP支持AMD GPU，通过MUSA支持摩尔线程MTT GPU）

10.支持Vulkan和SYCL后端

11.CPU+GPU混合推理，可部分加速大于总VRAM容量的模型

12.工作流程图：

大模型下载

本文以Qwen3-VL-8B-Instruct-GGUF为列演示如何下载大模型。

1.huggingface官网官网下载，https://huggingface.co/models

2.modelscope（魔塔）下载

登录huggingface需要科学上网，所以这里选择modelscope下载。

第一，需要安装python，这个是基础，如果不会的话自己去搜索；

第二，安装modelscope，打开CMD命令行，输入pip install modelscope；

第三，在命令行中输入：

modelscope download --model Qwen/Qwen3-VL-8B-Instruct-GGUF --local_dir qwen

加--local_dir参数是为了指定到的地址。

下面是我的命令行：

通过以上命令可以将Qwen3-VL-8B-Instruct-GGUF中的所有文件下载到d:/llm-models/qwen文件夹中，等待下载完成即可。如果只是下载部分文件也可以自己指定，具体怎么操作可以去查看modelscope中的文档说明：Qwen3-VL-8B-Instruct-GGUF · 模型库

下载llama.cpp

llama.cpp有已经编译好的可直接执行的程序，如果仅仅是部署使用，可直接下载对应版本，下载地址：

llama.cpp编译版本下载连接

运行大模型Llama-cli

使用llama-cli运行指定的大模型

这是运行成功后的界面：

然后就可以直接在上面输入信息与大模型对话了：

编译llama.cpp源码

需要的环境如下：

1.下载cmake,Download CMake

2.带有 "使用 C++ 的桌面开发" 工作负载的 Visual Studio Community Edition

3.下载llama.cpp源码（也可以使用git下载），https://github.com/ggerganov/llama.cpp

使用cmd进入llama.cpp的源码目录：

先运行：cmake -B build

如果没有安装CURL，会出现如下提示：

禁用CURL即可，即使用下面的命令：

cmake -B build -DLLAMA_CURL=OFF

会出现如下的警告，不用管。

然后再运行：cmake --build build --config Release

大概10分钟左右，编译好的dll和可执行文件就好了，基本不会出现其他问题。

后记

如果大模型太大，导入时可能会提示缓存不够，那就换个小点的模型。

在 Mac Mini M4 上本地跑大模型（Ollama + Llama + ComfyUI + Stable Diffusion ｜ Flux）

Mac Mini M4 配备了苹果自家研发的 M1/M2/M4 芯片，具有强大的处理能力，能够支持本地跑一些大模型，尤其是在使用如 Ollama、Llama、ComfyUI 和 Stable Diffusion 这类 AI 相关工具时，性能表现非常好。本教程将指导你如何在 Mac Mini M4 上本地部署并运行这些大模型，涵盖从环境搭建到使用的全流程。一、准备工作 1. 确保系统更新确保你的 macOS 版本已更新到最新的版本（例如 macOS 13.0 以上），这将确保兼容性和性能。安装 Homebrew（macOS 包管理工具） Homebrew 是 macOS 上非常流行的包管理工具，它帮助你方便地安装各种软件。在终端中输入以下命令来安装

大模型与AIGC概述：从技术原理到产业爆发

大模型与AIGC概述：从技术原理到产业爆发在人工智能发展的浪潮中，大模型与AIGC（人工智能生成内容）正以前所未有的速度重塑我们的工作方式、内容创作模式乃至整个社会结构。本文基于张敏老师《大模型与AIGC概述》的系统性讲解，全面梳理大模型的定义、发展历程、核心技术原理以及AIGC的内涵与前景，帮助读者建立对这一前沿领域的体系化认知。一、大模型是什么？ 2022年11月底，OpenAI发布ChatGPT，仅用一个月时间就突破1亿活跃用户，引爆全球AI热潮。自此，“万模大战”拉开序幕——全球科技巨头纷纷推出自己的大模型。 1. 定义大模型通常指： * 参数规模超百亿的深度神经网络语言模型； * 在海量无标注文本上通过自监督学习进行预训练； * 能够通过微调或提示（Prompt）适配广泛下游任务。更广义地，它也被称为“基础模型”（Foundation Models），不仅限于自然语言，还能处理图像、音频等多模态数据。 2. 核心特性 * 大规模参数与数据：如GPT-3拥有1750亿参数； * 涌现能力：展现出上下文学习、思维链（Chain-of-Thou

Unity语音识别技术终极突破：本地化Whisper解决方案深度解析

Unity语音识别技术终极突破：本地化Whisper解决方案深度解析【免费下载链接】whisper.unityRunning speech to text model (whisper.cpp) in Unity3d on your local machine. 项目地址: https://gitcode.com/gh_mirrors/wh/whisper.unity 在当今语音交互需求日益增长的背景下，Unity开发者面临着如何在游戏和应用中实现高质量语音识别的挑战。传统的云端语音识别方案存在延迟高、隐私泄露风险、网络依赖性强等痛点。Whisper.unity项目的出现，为这一难题提供了革命性的本地化解决方案。技术原理深度剖析 Whisper.unity基于OpenAI开源的Whisper语音识别模型，通过C++原生库集成到Unity引擎中。该项目采用ggml量化技术，将原本需要数GB存储空间的模型压缩到几百MB，同时保持出色的识别精度。核心技术创新点： * 完全本地化运行，无需网络连接 * 支持60多种语言的语音识别和翻译 * 跨平台兼容性，覆盖主流操作系

大模型本地部署神器：llama.cpp使用介绍

介绍llama.cpp 本节主要介绍什么是llama.cpp，以及llama.cpp、llama、ollama的区别。同时说明一下GGUF这种模型文件格式。什么是llama.cpp llama.cpp是一个由Georgi Gerganov开发的高性能C++库，主要目标是在各种硬件上（本地和云端）以最少的设置和最先进的性能实现大型语言模型推理。主要特点： * 纯C/C++实现，没有任何依赖 * 对Apple Silicon（如M1/M2/M3芯片）提供一流支持 - 通过ARM NEON、Accelerate和Metal框架优化 * 支持x86架构的AVX、AVX2、AVX512和AMX指令集 * 支持1.5位、2位、3位、4位、5位、6位和8位整数量化，实现更快的推理和更低的内存使用 * 为NVIDIA GPU提供自定义CUDA内核（通过HIP支持AMD GPU，通过MUSA支持摩尔线程MTT GPU）

摘要