使用LLama.cpp本地部署大模型

优质文章学习记录

07 Apr 2026 — 5 min read

摘要

llama.cpp是一个基于C/C++开发的高效大语言模型推理工具，支持跨平台部署和Docker快速启动，核心功能是在有限的计算资源情况下本地部署使用大模型。本文介绍了通过Docker方式部署llama.cpp的步骤，包括如何下载模型、CPU/GPU配置及启动参数说明。llama.cpp提供Web UI界面和OpenAI兼容API，支持文本和多模态对话，对电脑配置要求不高，完全免费且私密，让普通用户也能轻松在本地运行大语言模型。

LLama.cpp简介

1. llama.cpp 是一个在 C/C++ 中实现大型语言模型（LLM）推理的工具

2.支持跨平台部署，也支持使用 Docker 快速启动

3.可以运行多种量化模型，对电脑要求不高，CPU/GPU设备均可流畅运行。

支持模型包含：llama系列，qwen系列，gemma系列，Falcon、Alpaca、GPT4All、Chinese LLaMA、Vigogne、Vicuna、Koala、OpenBuddy、Pygmalion、Metharme、WizardLM、Baichuan、Aquila、Starcoder、Mistral AI、Refact、Persimmon、MPT、Bloom、StableLM-3b-4e1t等。

4.开源地址参考：https://github.com/ggml-org/llama.cpp

5.支持模型格式：GUFF（llama提供了转换成GUFF格式的工具）

6.纯C/C++实现，没有任何依赖

7.对Apple Silicon（如M1/M2/M3芯片）提供一流支持 - 通过ARM NEON、Accelerate和Metal框架优化

8.支持x86架构的AVX、AVX2、AVX512和AMX指令集

9.支持1.5位、2位、3位、4位、5位、6位和8位整数量化，实现更快的推理和更低的内存使用

为NVIDIA GPU提供自定义CUDA内核（通过HIP支持AMD GPU，通过MUSA支持摩尔线程MTT GPU）

10.支持Vulkan和SYCL后端

11.CPU+GPU混合推理，可部分加速大于总VRAM容量的模型

12.工作流程图：

大模型下载

本文以Qwen3-VL-8B-Instruct-GGUF为列演示如何下载大模型。

1.huggingface官网官网下载，https://huggingface.co/models

2.modelscope（魔塔）下载

登录huggingface需要科学上网，所以这里选择modelscope下载。

第一，需要安装python，这个是基础，如果不会的话自己去搜索；

第二，安装modelscope，打开CMD命令行，输入pip install modelscope；

第三，在命令行中输入：

modelscope download --model Qwen/Qwen3-VL-8B-Instruct-GGUF --local_dir qwen

加--local_dir参数是为了指定到的地址。

下面是我的命令行：

通过以上命令可以将Qwen3-VL-8B-Instruct-GGUF中的所有文件下载到d:/llm-models/qwen文件夹中，等待下载完成即可。如果只是下载部分文件也可以自己指定，具体怎么操作可以去查看modelscope中的文档说明：Qwen3-VL-8B-Instruct-GGUF · 模型库

下载llama.cpp

llama.cpp有已经编译好的可直接执行的程序，如果仅仅是部署使用，可直接下载对应版本，下载地址：

llama.cpp编译版本下载连接

运行大模型Llama-cli

使用llama-cli运行指定的大模型

这是运行成功后的界面：

然后就可以直接在上面输入信息与大模型对话了：

编译llama.cpp源码

需要的环境如下：

1.下载cmake,Download CMake

2.带有 "使用 C++ 的桌面开发" 工作负载的 Visual Studio Community Edition

3.下载llama.cpp源码（也可以使用git下载），https://github.com/ggerganov/llama.cpp

使用cmd进入llama.cpp的源码目录：

先运行：cmake -B build

如果没有安装CURL，会出现如下提示：

禁用CURL即可，即使用下面的命令：

cmake -B build -DLLAMA_CURL=OFF

会出现如下的警告，不用管。

然后再运行：cmake --build build --config Release

大概10分钟左右，编译好的dll和可执行文件就好了，基本不会出现其他问题。

后记

如果大模型太大，导入时可能会提示缓存不够，那就换个小点的模型。

CoPaw完整部署指南：打造专属AI智能助理，附雨云积分兑换福利

CoPaw完整部署指南：打造专属AI智能助理，附雨云积分兑换福利 CoPaw是阿里云通义实验室推出的开源桌面端AI助手框架，聚焦协同个人智能体工作站能力，能轻松实现文档处理、定时任务、多平台联动等办公自动化操作，且部署门槛友好，无论是零基础新手还是技术开发者，都能快速上手搭建专属AI助理。本文将详细拆解CoPaw的多种部署方式，兼顾本地测试与云端部署需求，文末还为大家带来雨云云服务器专属积分兑换活动，低成本玩转云端AI部署！一、部署前的基础准备 CoPaw对运行环境要求较低，主流操作系统均可适配，提前做好以下准备，让部署过程更顺畅： 1. 系统要求：Windows 10/11（64位）、macOS 12+、Linux（含统信UOS、麒麟等国产系统），内存≥4GB，磁盘可用空间≥500MB； 2. 环境配置：Pip安装方式需提前配置Python 3.10~3.13版本（兼容性最优），一键安装和Docker部署无需手动配置Python； 3. 核心密钥：CoPaw为框架型工具，需接入外部大模型（阿里云百炼、

【OpenClaw从入门到精通】第01篇：保姆级教程——从零开始搭建你的第一个本地AI助理（2026实测版）

摘要：本文聚焦2026年开源AI代理工具OpenClaw的本地部署与实操，从核心概念拆解入手，先厘清OpenClaw、Gateway、Skills、ClawHub的关联，再明确硬件系统要求与大模型API-Key准备要点，通过官方一键安装脚本完成本地部署，并配置阿里云百炼API实现大模型对接。以“让AI助理抓取开源中国热门项目”的虚拟实战案例，详细演示Skills调用流程，同时梳理部署中“命令找不到”“API-Key配置失败”等高频问题的解决方法。内容兼顾新手友好性与实操参考性，所有步骤均基于公开技术文档验证，案例为虚拟构建，代码仅作示例未上传GitHub，可指导读者快速搭建本地AI助理并验证核心功能。优质专栏欢迎订阅！【DeepSeek深度应用】【Python高阶开发：AI自动化与数据工程实战】【YOLOv11工业级实战】【机器视觉：C# + HALCON】【大模型微调实战：平民级微调技术全解】【人工智能之深度学习】【AI 赋能：Python 人工智能应用实战】【数字孪生与仿真技术实战指南】【AI工程化落地与YOLOv8/v9实战】【C#工业上位机高级应用：高并发通信+性

【人工智能】OpenClaw（一）：MacOS极简安装OpenClaw之Docker版

目录一、背景二、安装教程 2.1 MacOS安装Docker 编辑 2.2 下载OpenClaw镜像 2.3 启动OpenClaw镜像+安装引导 2.4 自己购买的大模型API配置 2.5 飞书配置 2.5.1 打开飞书开放平台 2.5.2 创建应用 2.5.3 创建机器人 2.5.4 权限管理 2.5.5 事件与回调 2.5.6 新建版本 2.6 Skills及其他配置 2.

AI Agent 面试八股文100问：大模型智能体高频考点全解析（附分类指南和简历模板）

AI Agent 面试八股文100问：大模型智能体高频考点全解析（附分类指南和简历模板）如果你对学成归来的简历没有概念，可以看看以下的模板先，毕竟先看清眼前的路，比奔跑更重要：最终的AI Agent简历模板，点我跳转！适用人群：LLM Agent、RAG、AutoGPT、LangChain、Function Calling 等方向的求职者与开发者随着大模型技术的飞速演进，AI Agent（智能体）已成为工业界和学术界共同关注的焦点。无论是 AutoGPT、LangChain 还是 LlamaIndex，背后都离不开对 Agent 架构、推理机制、工具调用等核心能力的深入理解。本文系统整理了 AI Agent 方向的 100 道高频面试问题，覆盖基础概念、架构设计、推理决策、工具调用、记忆管理、评估方法、安全对齐、

摘要