使用LLama.cpp本地部署大模型

优质文章学习记录

10 Apr 2026 — 5 min read

摘要

llama.cpp是一个基于C/C++开发的高效大语言模型推理工具，支持跨平台部署和Docker快速启动，核心功能是在有限的计算资源情况下本地部署使用大模型。本文介绍了通过Docker方式部署llama.cpp的步骤，包括如何下载模型、CPU/GPU配置及启动参数说明。llama.cpp提供Web UI界面和OpenAI兼容API，支持文本和多模态对话，对电脑配置要求不高，完全免费且私密，让普通用户也能轻松在本地运行大语言模型。

LLama.cpp简介

1. llama.cpp 是一个在 C/C++ 中实现大型语言模型（LLM）推理的工具

2.支持跨平台部署，也支持使用 Docker 快速启动

3.可以运行多种量化模型，对电脑要求不高，CPU/GPU设备均可流畅运行。

支持模型包含：llama系列，qwen系列，gemma系列，Falcon、Alpaca、GPT4All、Chinese LLaMA、Vigogne、Vicuna、Koala、OpenBuddy、Pygmalion、Metharme、WizardLM、Baichuan、Aquila、Starcoder、Mistral AI、Refact、Persimmon、MPT、Bloom、StableLM-3b-4e1t等。

4.开源地址参考：https://github.com/ggml-org/llama.cpp

5.支持模型格式：GUFF（llama提供了转换成GUFF格式的工具）

6.纯C/C++实现，没有任何依赖

7.对Apple Silicon（如M1/M2/M3芯片）提供一流支持 - 通过ARM NEON、Accelerate和Metal框架优化

8.支持x86架构的AVX、AVX2、AVX512和AMX指令集

9.支持1.5位、2位、3位、4位、5位、6位和8位整数量化，实现更快的推理和更低的内存使用

为NVIDIA GPU提供自定义CUDA内核（通过HIP支持AMD GPU，通过MUSA支持摩尔线程MTT GPU）

10.支持Vulkan和SYCL后端

11.CPU+GPU混合推理，可部分加速大于总VRAM容量的模型

12.工作流程图：

大模型下载

本文以Qwen3-VL-8B-Instruct-GGUF为列演示如何下载大模型。

1.huggingface官网官网下载，https://huggingface.co/models

2.modelscope（魔塔）下载

登录huggingface需要科学上网，所以这里选择modelscope下载。

第一，需要安装python，这个是基础，如果不会的话自己去搜索；

第二，安装modelscope，打开CMD命令行，输入pip install modelscope；

第三，在命令行中输入：

modelscope download --model Qwen/Qwen3-VL-8B-Instruct-GGUF --local_dir qwen

加--local_dir参数是为了指定到的地址。

下面是我的命令行：

通过以上命令可以将Qwen3-VL-8B-Instruct-GGUF中的所有文件下载到d:/llm-models/qwen文件夹中，等待下载完成即可。如果只是下载部分文件也可以自己指定，具体怎么操作可以去查看modelscope中的文档说明：Qwen3-VL-8B-Instruct-GGUF · 模型库

下载llama.cpp

llama.cpp有已经编译好的可直接执行的程序，如果仅仅是部署使用，可直接下载对应版本，下载地址：

llama.cpp编译版本下载连接

运行大模型Llama-cli

使用llama-cli运行指定的大模型

这是运行成功后的界面：

然后就可以直接在上面输入信息与大模型对话了：

编译llama.cpp源码

需要的环境如下：

1.下载cmake,Download CMake

2.带有 "使用 C++ 的桌面开发" 工作负载的 Visual Studio Community Edition

3.下载llama.cpp源码（也可以使用git下载），https://github.com/ggerganov/llama.cpp

使用cmd进入llama.cpp的源码目录：

先运行：cmake -B build

如果没有安装CURL，会出现如下提示：

禁用CURL即可，即使用下面的命令：

cmake -B build -DLLAMA_CURL=OFF

会出现如下的警告，不用管。

然后再运行：cmake --build build --config Release

大概10分钟左右，编译好的dll和可执行文件就好了，基本不会出现其他问题。

后记

如果大模型太大，导入时可能会提示缓存不够，那就换个小点的模型。

从MVP到千万级并发 AI在前后端开发中的差异化落地指南

文章目录 * 前言 * 一、技术原理解析 * 1. 核心差异维度对比 * 2. AI 辅助开发的技术架构模型 * 二、按 DAU 规模分层的实战策略与代码实证 * 1. 低 DAU 项目（<1万）：MVP 验证期 * 后端实战：从需求到接口的秒级响应 * 前端实战：快速但粗糙的 UI * 2. 中 DAU 项目（1万–100万）：业务增长期 * 后端：复杂业务逻辑的精准生成 * 前端：C端体验的“陷阱” * 3. 高 DAU 项目（>100万）：高并发架构期 * 后端进阶：AI 驱动的性能优化 * 高并发流程架构图 * 三、

【前沿解析】2026年3月2日AI双重突破：MWC IQ时代与DeepSeek V4多模态革命

摘要：本文深入解析2026年3月2日AI领域两大标志性突破：巴塞罗那MWC 2026大会开启的"IQ时代"与DeepSeek V4多模态大模型的发布。文章涵盖技术原理、架构设计、Go/Python代码实现及产业影响分析，为开发者提供全面的前沿技术参考。关键词：MWC 2026, DeepSeek V4, 多模态大模型, Agentic AI, 端侧AI代理, 国产算力适配, 100万Token上下文, mHC架构, Engram记忆一、引言：AI技术演进的双重里程碑 2026年3月2日，将成为人工智能发展史上的重要坐标。这一天，两大突破性事件同步发生：在西班牙巴塞罗那，世界移动通信大会（MWC 2026）正式开幕，主题定为"IQ时代"（The IQ Era），标志着智能终端从被动响应向主动服务的范式转移；与此同时，深度求索（DeepSeek）

人工智能：大模型高效推理与部署技术实战

人工智能：大模型高效推理与部署技术实战 1.1 本章学习目标与重点 💡 学习目标：掌握大语言模型推理与部署的核心技术，理解模型量化、推理加速、服务化部署的原理，能够完成开源大模型的高性能生产级部署。 💡 学习重点：精通INT4/INT8量化技术的应用，掌握vLLM等高性能推理框架的使用方法，学会搭建高并发的大模型API服务。 1.2 大模型推理部署的核心挑战 1.2.1 大模型推理的痛点分析 💡 预训练大模型通常具备数十亿甚至上百亿的参数量，直接进行推理会面临显存占用高、推理速度慢、并发能力弱三大核心问题。 * 显存占用高：以LLaMA-2-7B模型为例，FP16精度下显存占用约14GB，单张消费级显卡难以承载；而70B模型FP16精度显存占用更是超过140GB，普通硬件完全无法运行。 * 推理速度慢：自回归生成的特性导致模型需要逐token计算，单条长文本生成可能需要数十秒，无法满足实时应用需求。 * 并发能力弱：传统推理方式下，单卡同时处理的请求数极少，高并发场景下会出现严重的排队和延迟问题。这些问题直接制约了大模型从实验室走向实际生产环境，因此高效

【嵌入式开发者的终极武器】：VSCode + AI编译引擎的7个核心应用场景

第一章：嵌入式开发新范式：VSCode与AI编译引擎的融合随着嵌入式系统复杂度持续攀升，传统开发工具链在效率与智能化方面逐渐显露瓶颈。Visual Studio Code 凭借其轻量级架构、丰富插件生态和跨平台支持，正成为嵌入式开发者的新宠。当 VSCode 与基于 AI 的智能编译引擎深度融合，开发流程被重新定义——从代码生成到编译优化，全程实现自动化辅助决策。开发环境的智能重构现代嵌入式项目依赖多工具协同，VSCode 通过扩展插件如 C/C++、Cortex-Debug 和 PlatformIO 实现一体化配置。结合 AI 编译引擎，系统可动态分析代码上下文，实时推荐最优编译参数。例如，在资源受限的 MCU 上，AI 引擎自动启用 -Os 而非默认的 -O2，提升代码密度。 AI驱动的代码生成与优化开发者可通过自然语言指令生成初始化代码片段。例如，在注释中输入“初始化STM32的USART2，波特率115200”

摘要