使用LLama.cpp本地部署大模型

优质文章学习记录

10 Apr 2026 — 5 min read

摘要

llama.cpp是一个基于C/C++开发的高效大语言模型推理工具，支持跨平台部署和Docker快速启动，核心功能是在有限的计算资源情况下本地部署使用大模型。本文介绍了通过Docker方式部署llama.cpp的步骤，包括如何下载模型、CPU/GPU配置及启动参数说明。llama.cpp提供Web UI界面和OpenAI兼容API，支持文本和多模态对话，对电脑配置要求不高，完全免费且私密，让普通用户也能轻松在本地运行大语言模型。

LLama.cpp简介

1. llama.cpp 是一个在 C/C++ 中实现大型语言模型（LLM）推理的工具

2.支持跨平台部署，也支持使用 Docker 快速启动

3.可以运行多种量化模型，对电脑要求不高，CPU/GPU设备均可流畅运行。

支持模型包含：llama系列，qwen系列，gemma系列，Falcon、Alpaca、GPT4All、Chinese LLaMA、Vigogne、Vicuna、Koala、OpenBuddy、Pygmalion、Metharme、WizardLM、Baichuan、Aquila、Starcoder、Mistral AI、Refact、Persimmon、MPT、Bloom、StableLM-3b-4e1t等。

4.开源地址参考：https://github.com/ggml-org/llama.cpp

5.支持模型格式：GUFF（llama提供了转换成GUFF格式的工具）

6.纯C/C++实现，没有任何依赖

7.对Apple Silicon（如M1/M2/M3芯片）提供一流支持 - 通过ARM NEON、Accelerate和Metal框架优化

8.支持x86架构的AVX、AVX2、AVX512和AMX指令集

9.支持1.5位、2位、3位、4位、5位、6位和8位整数量化，实现更快的推理和更低的内存使用

为NVIDIA GPU提供自定义CUDA内核（通过HIP支持AMD GPU，通过MUSA支持摩尔线程MTT GPU）

10.支持Vulkan和SYCL后端

11.CPU+GPU混合推理，可部分加速大于总VRAM容量的模型

12.工作流程图：

大模型下载

本文以Qwen3-VL-8B-Instruct-GGUF为列演示如何下载大模型。

1.huggingface官网官网下载，https://huggingface.co/models

2.modelscope（魔塔）下载

登录huggingface需要科学上网，所以这里选择modelscope下载。

第一，需要安装python，这个是基础，如果不会的话自己去搜索；

第二，安装modelscope，打开CMD命令行，输入pip install modelscope；

第三，在命令行中输入：

modelscope download --model Qwen/Qwen3-VL-8B-Instruct-GGUF --local_dir qwen

加--local_dir参数是为了指定到的地址。

下面是我的命令行：

通过以上命令可以将Qwen3-VL-8B-Instruct-GGUF中的所有文件下载到d:/llm-models/qwen文件夹中，等待下载完成即可。如果只是下载部分文件也可以自己指定，具体怎么操作可以去查看modelscope中的文档说明：Qwen3-VL-8B-Instruct-GGUF · 模型库

下载llama.cpp

llama.cpp有已经编译好的可直接执行的程序，如果仅仅是部署使用，可直接下载对应版本，下载地址：

llama.cpp编译版本下载连接

运行大模型Llama-cli

使用llama-cli运行指定的大模型

这是运行成功后的界面：

然后就可以直接在上面输入信息与大模型对话了：

编译llama.cpp源码

需要的环境如下：

1.下载cmake,Download CMake

2.带有 "使用 C++ 的桌面开发" 工作负载的 Visual Studio Community Edition

3.下载llama.cpp源码（也可以使用git下载），https://github.com/ggerganov/llama.cpp

使用cmd进入llama.cpp的源码目录：

先运行：cmake -B build

如果没有安装CURL，会出现如下提示：

禁用CURL即可，即使用下面的命令：

cmake -B build -DLLAMA_CURL=OFF

会出现如下的警告，不用管。

然后再运行：cmake --build build --config Release

大概10分钟左右，编译好的dll和可执行文件就好了，基本不会出现其他问题。

后记

如果大模型太大，导入时可能会提示缓存不够，那就换个小点的模型。

AI赋能智慧客服与人工客服融合系统企业级方案

文章目录 * 1. 项目概述与架构设计 * 1.1 系统核心设计理念 * 1.2 整体架构图 * 1.3 技术栈选择 * 2. 环境搭建与项目初始化 * 2.1 开发环境配置 * 2.2 配置文件设计 * 3. 核心数据模型设计 * 3.1 数据库模型定义 * 3.2 数据库初始化脚本 * 4. AI核心组件实现 * 4.1 NLP处理器（意图识别与情感分析） * 4.2 知识检索系统 * 5. 对话管理系统 * 5.1 对话状态管理 * 6. API服务实现 * 6.1 主API服务 * 6.2 对话API端点

【AI 学习】深度解析Transformer核心：注意力机制的原理、实现与应用

文章目录 * 一、引言：注意力机制——Transformer的“灵魂” * 1.1 背景：从RNN到Transformer的范式跃迁 * 1.2 本文核心内容框架 * 二、注意力机制基础：概念与发展历程 * 2.1 注意力机制的核心定义 * 2.2 注意力机制的发展历程 * 2.2.1 早期注意力机制：从机器翻译到图像识别 * 2.2.2 Transformer中的自注意力机制：革命性突破 * 三、Transformer核心：自注意力机制原理深度解析 * 3.1 自注意力机制的核心逻辑 * 3.2 Scaled Dot-Product Attention：自注意力的计算核心 * 3.2.1 步骤1：生成Query、Key、

用快马ai快速原型一个永久在线crm网站，验证你的产品思路

最近在验证一个CRM产品的市场可行性，需要快速搭建一个能永久在线的基础原型。传统开发流程从环境搭建到功能实现至少需要一周，而通过InsCode(快马)平台的AI辅助，我用不到半天就完成了核心功能验证。以下是具体实践过程： 1. 明确最小可行功能集原型系统聚焦四个核心模块：客户信息管理（基础CRUD）、销售机会跟踪（状态流转）、数据仪表盘（关键指标可视化）、基础权限控制（管理员/用户视图）。这种设计能覆盖80%的CRM基础使用场景，避免陷入细节开发。 2. AI生成基础框架在平台输入"React+Node.js的CRM系统，包含客户管理、跟进记录和仪表盘"，AI在10秒内生成了包含路由配置、API接口定义和基础组件的脚手架代码。特别惊喜的是自动配置好了MongoDB连接模块，省去了手动安装驱动和写连接池代码的时间。 3. 客户模块快速迭代 * 客户信息表单通过AI生成的React Hook自动绑定数据 * 地址字段智能识别省市区三级联动需求，自动补全地区选择器组件 * 联系方式验证逻辑直接内置了手机号/邮箱的正则校验 4. 销售跟踪状

AI 驱动游戏：鸿蒙生态的机会在哪里？

子玥酱（掘金 / 知乎 / ZEEKLOG / 简书同名）大家好，我是子玥酱，一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂，目前在某国企负责前端软件研发相关工作，主要聚焦于业务型系统的工程化建设与长期维护。我持续输出和沉淀前端领域的实战经验，日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案，在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。技术方向：前端 / 跨端 / 小程序 / 移动端工程化内容平台：掘金、知乎、ZEEKLOG、简书创作特点：实战导向、源码拆解、少空谈多落地文章状态：长期稳定更新，大量原创输出我的内容主要围绕前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读展开。文章不会停留在“API 怎么用”，而是更关注为什么这么设计、在什么场景下容易踩坑、

摘要