使用LLama.cpp本地部署大模型

优质文章学习记录

11 Apr 2026 — 5 min read

摘要

llama.cpp是一个基于C/C++开发的高效大语言模型推理工具，支持跨平台部署和Docker快速启动，核心功能是在有限的计算资源情况下本地部署使用大模型。本文介绍了通过Docker方式部署llama.cpp的步骤，包括如何下载模型、CPU/GPU配置及启动参数说明。llama.cpp提供Web UI界面和OpenAI兼容API，支持文本和多模态对话，对电脑配置要求不高，完全免费且私密，让普通用户也能轻松在本地运行大语言模型。

LLama.cpp简介

1. llama.cpp 是一个在 C/C++ 中实现大型语言模型（LLM）推理的工具

2.支持跨平台部署，也支持使用 Docker 快速启动

3.可以运行多种量化模型，对电脑要求不高，CPU/GPU设备均可流畅运行。

支持模型包含：llama系列，qwen系列，gemma系列，Falcon、Alpaca、GPT4All、Chinese LLaMA、Vigogne、Vicuna、Koala、OpenBuddy、Pygmalion、Metharme、WizardLM、Baichuan、Aquila、Starcoder、Mistral AI、Refact、Persimmon、MPT、Bloom、StableLM-3b-4e1t等。

4.开源地址参考：https://github.com/ggml-org/llama.cpp

5.支持模型格式：GUFF（llama提供了转换成GUFF格式的工具）

6.纯C/C++实现，没有任何依赖

7.对Apple Silicon（如M1/M2/M3芯片）提供一流支持 - 通过ARM NEON、Accelerate和Metal框架优化

8.支持x86架构的AVX、AVX2、AVX512和AMX指令集

9.支持1.5位、2位、3位、4位、5位、6位和8位整数量化，实现更快的推理和更低的内存使用

为NVIDIA GPU提供自定义CUDA内核（通过HIP支持AMD GPU，通过MUSA支持摩尔线程MTT GPU）

10.支持Vulkan和SYCL后端

11.CPU+GPU混合推理，可部分加速大于总VRAM容量的模型

12.工作流程图：

大模型下载

本文以Qwen3-VL-8B-Instruct-GGUF为列演示如何下载大模型。

1.huggingface官网官网下载，https://huggingface.co/models

2.modelscope（魔塔）下载

登录huggingface需要科学上网，所以这里选择modelscope下载。

第一，需要安装python，这个是基础，如果不会的话自己去搜索；

第二，安装modelscope，打开CMD命令行，输入pip install modelscope；

第三，在命令行中输入：

modelscope download --model Qwen/Qwen3-VL-8B-Instruct-GGUF --local_dir qwen

加--local_dir参数是为了指定到的地址。

下面是我的命令行：

通过以上命令可以将Qwen3-VL-8B-Instruct-GGUF中的所有文件下载到d:/llm-models/qwen文件夹中，等待下载完成即可。如果只是下载部分文件也可以自己指定，具体怎么操作可以去查看modelscope中的文档说明：Qwen3-VL-8B-Instruct-GGUF · 模型库

下载llama.cpp

llama.cpp有已经编译好的可直接执行的程序，如果仅仅是部署使用，可直接下载对应版本，下载地址：

llama.cpp编译版本下载连接

运行大模型Llama-cli

使用llama-cli运行指定的大模型

这是运行成功后的界面：

然后就可以直接在上面输入信息与大模型对话了：

编译llama.cpp源码

需要的环境如下：

1.下载cmake,Download CMake

2.带有 "使用 C++ 的桌面开发" 工作负载的 Visual Studio Community Edition

3.下载llama.cpp源码（也可以使用git下载），https://github.com/ggerganov/llama.cpp

使用cmd进入llama.cpp的源码目录：

先运行：cmake -B build

如果没有安装CURL，会出现如下提示：

禁用CURL即可，即使用下面的命令：

cmake -B build -DLLAMA_CURL=OFF

会出现如下的警告，不用管。

然后再运行：cmake --build build --config Release

大概10分钟左右，编译好的dll和可执行文件就好了，基本不会出现其他问题。

后记

如果大模型太大，导入时可能会提示缓存不够，那就换个小点的模型。

告别复杂操作：灵感画廊极简AI绘画体验

告别复杂操作：灵感画廊极简AI绘画体验 "见微知著，凝光成影。将梦境的碎片，凝结为永恒的视觉诗篇。" 你是否曾经被复杂的AI绘画工具劝退？参数太多、界面太乱、学习成本太高...现在，这一切都将成为过去。灵感画廊（Atelier of Light and Shadow）基于Stable Diffusion XL 1.0打造，却彻底摒弃了工业化的复杂界面，为你提供一个如艺术沙龙般恬静的创作空间。 1. 为什么选择灵感画廊？传统的AI绘画工具往往让人望而生畏。密密麻麻的参数滑块、晦涩难懂的技术术语、需要反复调试的复杂设置...这些都不是创作者想要的。灵感画廊完全不同。它相信：真正的创作应该专注于灵感本身，而不是技术细节。这里没有"提示词"，只有"梦境描述"；没有"反向词"

【旋转框】基于YOLO26深度学习的无人机视角车辆检测系统【python源码+Pyqt5界面+数据集+训练代码】

《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体检测系统开发】5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】7.【YOLOv8多目标识别与自动标注软件开发】8.【基于YOLOv8深度学习的行人跌倒检测系统】9.【基于YOLOv8深度学习的PCB板缺陷检测系统】10.【基于YOLOv8深度学习的生活垃圾分类目标检测系统】11.【基于YOLOv8深度学习的安全帽目标检测系统】12.【基于YOLOv8深度学习的120种犬类检测与识别系统】13.【基于YOLOv8深度学习的路面坑洞检测系统】14.【基于YOLOv8深度学习的火焰烟雾检测系统】15.【基于YOLOv8深度学习的钢材表面缺陷检测系统】16.【基于YOLOv8深度学习的舰船目标分类检测系统】17.【基于YOLOv8深度学习的西红柿成熟度检测系统】18.【基于YOLOv8深度学习的血细胞检测与计数系统】19.【基于YOLOv8深度学习的吸烟/抽烟行为检测系统】

VHDL数字时钟在FPGA上的系统学习路径

从零开始打造一个VHDL数字时钟：FPGA上的系统性学习实践你有没有试过，在FPGA开发板上点亮第一个LED的那一刻，心里涌起一股“我正在操控硬件”的兴奋？但很快就会发现——让灯亮只是起点。真正让人着迷的是：如何用代码‘画’出电路，让时间在芯片里流淌。今天我们就来干一件“小而完整”的事：用VHDL语言，在FPGA上从头构建一个数字时钟。它不只是“显示时间”这么简单，而是一个涵盖时序逻辑、状态控制、人机交互和物理驱动的微型系统工程。通过这个项目，你会真正理解什么叫“写代码就是在设计电路”。为什么选“数字时钟”作为入门项目？很多初学者一上来就想做图像处理、通信协议或者神经网络加速器，结果被复杂的接口和算法压得喘不过气。其实，最好的入门项目是那种“看得见、摸得着、改了立刻有反馈”的系统。数字时钟恰恰满足这一点： * 它有明确的时间行为（每秒走一次） * 有人机交互（按键调时间） * 有输出设备（数码管闪烁可见） * 所有模块都可以逐步搭建、单独验证更重要的是，

深度解析英伟达最新“瓦力”机器人：物理AI时代的开发者红利与技术突破

2026年CES展会上，黄仁勋牵着那款酷似《机器人总动员》“瓦力”的Reachy Mini机器人完成流畅互动时，全场的欢呼不仅是对萌系设计的认可，更是对一个新时代的致敬——英伟达用这套全新机器人系统，正式宣告物理AI从实验室走向产业化。对于咱们ZEEKLOG的开发者而言，这波技术浪潮带来的不只是视觉震撼，更是可落地的开发工具、开源生态和商业机遇。今天就从技术内核、开发价值、行业对比三个维度，深度拆解英伟达最新机器人的核心竞争力，帮大家找准入局切入点。一、不止“萌出圈”：英伟达新机器人的技术内核拆解很多人被“瓦力”的外形圈粉，但真正让行业震动的是其背后的全栈技术体系。不同于传统机器人“硬件堆砌+单一功能编程”的模式，英伟达这套系统是“大脑-身体-训练场”的全链路协同，每一个环节都为开发者预留了创新空间。 1. 核心大脑：GR00T N1.6模型的双系统突破作为全球首个开源人形机器人基础模型，最新的Isaac GR00T N1.6堪称“机器人界的GPT-4o”，其最核心的创新是双系统架构设计，完美复刻了人类“本能反应+深度思考”

摘要