使用LLama.cpp本地部署大模型

Ne0inhk

24 Mar 2026 — 5 min read

摘要

llama.cpp是一个基于C/C++开发的高效大语言模型推理工具，支持跨平台部署和Docker快速启动，核心功能是在有限的计算资源情况下本地部署使用大模型。本文介绍了通过Docker方式部署llama.cpp的步骤，包括如何下载模型、CPU/GPU配置及启动参数说明。llama.cpp提供Web UI界面和OpenAI兼容API，支持文本和多模态对话，对电脑配置要求不高，完全免费且私密，让普通用户也能轻松在本地运行大语言模型。

LLama.cpp简介

1. llama.cpp 是一个在 C/C++ 中实现大型语言模型（LLM）推理的工具

2.支持跨平台部署，也支持使用 Docker 快速启动

3.可以运行多种量化模型，对电脑要求不高，CPU/GPU设备均可流畅运行。

支持模型包含：llama系列，qwen系列，gemma系列，Falcon、Alpaca、GPT4All、Chinese LLaMA、Vigogne、Vicuna、Koala、OpenBuddy、Pygmalion、Metharme、WizardLM、Baichuan、Aquila、Starcoder、Mistral AI、Refact、Persimmon、MPT、Bloom、StableLM-3b-4e1t等。

4.开源地址参考：https://github.com/ggml-org/llama.cpp

5.支持模型格式：GUFF（llama提供了转换成GUFF格式的工具）

6.纯C/C++实现，没有任何依赖

7.对Apple Silicon（如M1/M2/M3芯片）提供一流支持 - 通过ARM NEON、Accelerate和Metal框架优化

8.支持x86架构的AVX、AVX2、AVX512和AMX指令集

9.支持1.5位、2位、3位、4位、5位、6位和8位整数量化，实现更快的推理和更低的内存使用

为NVIDIA GPU提供自定义CUDA内核（通过HIP支持AMD GPU，通过MUSA支持摩尔线程MTT GPU）

10.支持Vulkan和SYCL后端

11.CPU+GPU混合推理，可部分加速大于总VRAM容量的模型

12.工作流程图：

大模型下载

本文以Qwen3-VL-8B-Instruct-GGUF为列演示如何下载大模型。

1.huggingface官网官网下载，https://huggingface.co/models

2.modelscope（魔塔）下载

登录huggingface需要科学上网，所以这里选择modelscope下载。

第一，需要安装python，这个是基础，如果不会的话自己去搜索；

第二，安装modelscope，打开CMD命令行，输入pip install modelscope；

第三，在命令行中输入：

modelscope download --model Qwen/Qwen3-VL-8B-Instruct-GGUF --local_dir qwen

加--local_dir参数是为了指定到的地址。

下面是我的命令行：

通过以上命令可以将Qwen3-VL-8B-Instruct-GGUF中的所有文件下载到d:/llm-models/qwen文件夹中，等待下载完成即可。如果只是下载部分文件也可以自己指定，具体怎么操作可以去查看modelscope中的文档说明：Qwen3-VL-8B-Instruct-GGUF · 模型库

下载llama.cpp

llama.cpp有已经编译好的可直接执行的程序，如果仅仅是部署使用，可直接下载对应版本，下载地址：

llama.cpp编译版本下载连接

运行大模型Llama-cli

使用llama-cli运行指定的大模型

这是运行成功后的界面：

然后就可以直接在上面输入信息与大模型对话了：

编译llama.cpp源码

需要的环境如下：

1.下载cmake,Download CMake

2.带有 "使用 C++ 的桌面开发" 工作负载的 Visual Studio Community Edition

3.下载llama.cpp源码（也可以使用git下载），https://github.com/ggerganov/llama.cpp

使用cmd进入llama.cpp的源码目录：

先运行：cmake -B build

如果没有安装CURL，会出现如下提示：

禁用CURL即可，即使用下面的命令：

cmake -B build -DLLAMA_CURL=OFF

会出现如下的警告，不用管。

然后再运行：cmake --build build --config Release

大概10分钟左右，编译好的dll和可执行文件就好了，基本不会出现其他问题。

后记

如果大模型太大，导入时可能会提示缓存不够，那就换个小点的模型。

OpenClaw 完整部署指南：安装 + 三大 Coding Plan 配置 + CC Switch + 飞书机器人

OpenClaw 完整部署指南：安装 + 三大 Coding Plan 配置 + CC Switch + 飞书机器人 * 📋 文章目录结构 * 1.3 一键安装 OpenClaw（推荐） * 1.4 通过 npm 手动安装 * 1.5 运行 Onboard 向导 * 1.6 验证安装 * 步骤二：配置 Coding Plan 模型 * 🅰️ 选项 A：阿里百炼 Coding Plan * A.1 订阅与获取凭证 * A.2 在 OpenClaw 中配置 * A.3 可用模型列表

本地部署中文OpenClaw 飞书机器人部署指南

适用场景：在 Windows 本地（PowerShell）一键部署 OpenClaw，使用阿里云百炼作为大模型后端，通过飞书长连接模式实现 AI 机器人。安装skills工具参考：OpenClaw 最新必安装 10 个 Skills-ZEEKLOG博客自动化发布小红书：OpenClaw 实现小红书自动化发文：操作指南步骤 1：安装 OpenClaw（openclaw中文社区） 1. 打开 PowerShell。 2. 执行以下命令一键安装： # 在 PowerShell 中运行 iwr -useb https://clawd.org.cn/install.ps1 | iex * 安装过程会自动下载 Node.js、依赖等，耗时几分钟。 * 安装完成后会自动进入配置向导，或提示你继续下一步。

跨越天堑：机器人脑部药物递送三大技术路径的可转化性分析研究

摘要血脑屏障是中枢神经系统药物研发最核心的瓶颈。尽管相关基础研究层出不穷，但“论文成果显著、临床转化缓慢”的悖论依然存在。本文认为，突破这一瓶颈的关键在于，将研究重心从“单点机制”转向构建一条“可验证、可复现、可监管”的全链条递送系统。为此，本文提出了一个衡量脑部递送技术可转化性的四维评价标尺：剂量可定义、闭环可监测、质控可标准化、可回退。基于此标尺，本文深度剖析了当前最具潜力的三条技术路径：（1）FUS/低强度聚焦超声联合微泡；（2）血管内可导航载体/机器人；（3）针对胶质母细胞瘤（GBM）的多功能纳米系统。通过精读关键临床试验、前沿工程研究和系统综述，我们抽离出可直接写入临床或产品方案的核心变量，识别了各自面临的最大转化风险，并提出了差异化的“押注”策略。分析表明，FUS+MB路径因其在“工程控制”上的成熟度，在近期（12-24个月）的转化确定性最高；血管内机器人代表了精准制导的未来趋势，

Stack-Chan机器人完整入门指南：从零开始构建你的可爱机器人伙伴

Stack-Chan机器人完整入门指南：从零开始构建你的可爱机器人伙伴【免费下载链接】stack-chanA JavaScript-driven M5Stack-embedded super-kawaii robot. 项目地址: https://gitcode.com/gh_mirrors/sta/stack-chan Stack-Chan是一个基于JavaScript驱动的M5Stack嵌入式超级可爱的机器人项目。这个开源项目让你能够轻松构建一个会眨眼、会转头、会说话的智能机器人伙伴。无论你是嵌入式开发新手还是经验丰富的开发者，都能快速上手这个充满乐趣的项目。 🎯 项目核心亮点超强可爱属性：Stack-Chan拥有多种可爱的面部表情，能够进行眼神交流，让你的机器人充满个性魅力。模块化设计：项目采用高度模块化的架构，支持多种舵机驱动、面部渲染器和功能扩展，让你的定制变得简单而灵活。丰富功能生态：支持人脸追踪、语音对话、表情模仿等智能功能，为你的机器人注入灵魂。 📦 项目快速入门环境准备与代码获取首先克隆项目仓库到本地： git clone ht

摘要