跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
C++AI算法

Llama.cpp 本地部署大模型实战

综述由AI生成如何使用 llama.cpp 在本地部署大语言模型。llama.cpp 是基于 C/C++ 的高效推理工具,支持跨平台、Docker 启动及多种量化模型。文章详细说明了通过 ModelScope 下载 Qwen3-VL-8B-Instruct-GGUF 模型的步骤,包括环境准备与命令行操作。同时涵盖了 llama-cli 的运行方法以及从源码编译的过程,涉及 CMake 配置与 Visual Studio 环境搭建。该方案无需联网,数据私密,适合普通用户在本地运行大模型。

数字游民发布于 2026/4/6更新于 2026/5/2234 浏览

摘要

llama.cpp 是一个基于 C/C++ 开发的高效大语言模型推理工具,支持跨平台部署和 Docker 快速启动。本文介绍了通过命令行方式部署 llama.cpp 的步骤,包括如何下载模型、CPU/GPU 配置及启动参数说明。llama.cpp 提供 Web UI 界面和 OpenAI 兼容 API,支持文本和多模态对话,对电脑配置要求不高,完全免费且私密。

Llama.cpp 简介

  1. llama.cpp 是一个在 C/C++ 中实现大型语言模型(LLM)推理的工具。
  2. 支持跨平台部署,也支持使用 Docker 快速启动。
  3. 可以运行多种量化模型,对电脑要求不高,CPU/GPU 设备均可流畅运行。 支持模型包含:llama 系列,qwen 系列,gemma 系列,Falcon、Alpaca、GPT4All、Chinese LLaMA、Vigogne、Vicuna、Koala、OpenBuddy、Pygmalion、Metharme、WizardLM、Baichuan、Aquila、Starcoder、Mistral AI、Refact、Persimmon、MPT、Bloom、StableLM-3b-4e1t 等。
  4. 开源地址参考:https://github.com/ggml-org/llama.cpp
  5. 支持模型格式:GGUF(llama 提供了转换成 GGUF 格式的工具)。
  6. 纯 C/C++ 实现,没有任何依赖。
  7. 对 Apple Silicon(如 M1/M2/M3 芯片)提供一流支持 - 通过 ARM NEON、Accelerate 和 Metal 框架优化。
  8. 支持 x86 架构的 AVX、AVX2、AVX512 和 AMX 指令集。
  9. 支持 1.5 位、2 位、3 位、4 位、5 位、6 位和 8 位整数量化,实现更快的推理和更低的内存使用。
  10. 为 NVIDIA GPU 提供自定义 CUDA 内核(通过 HIP 支持 AMD GPU,通过 MUSA 支持摩尔线程 MTT GPU)。
  11. 支持 Vulkan 和 SYCL 后端。
  12. CPU+GPU 混合推理,可部分加速大于总 VRAM 容量的模型。

大模型下载

本文以 Qwen3-VL-8B-Instruct-GGUF 为例演示如何下载大模型。

  1. HuggingFace 官网下载:https://huggingface.co/models
  2. ModelScope(魔塔)下载

由于访问限制,这里选择 ModelScope 下载。

第一,需要安装 Python,这是基础环境; 第二,安装 modelscope,打开 CMD 命令行,输入 pip install modelscope; 第三,在命令行中输入以下命令:

modelscope download --model Qwen/Qwen3-VL-8B-Instruct-GGUF --local_dir qwen

加 --local_dir 参数是为了指定下载到的地址。

示例命令如下: 图片

通过以上命令可以将 Qwen3-VL-8B-Instruct-GGUF 中的所有文件下载到 d:/llm-models/qwen 文件夹中,等待下载完成即可。如果只是下载部分文件也可以自己指定,具体操作可查阅 ModelScope 文档说明:Qwen3-VL-8B-Instruct-GGUF · 模型库

图片

下载 llama.cpp

llama.cpp 有已经编译好的可直接执行的程序,如果仅仅是部署使用,可直接下载对应版本,下载地址: llama.cpp 编译版本下载连接

运行大模型 llama-cli

使用 llama-cli 运行指定的大模型。

图片

这是运行成功后的界面:

图片

然后就可以直接在上面输入信息与大模型对话了:

图片

编译 llama.cpp 源码

需要的环境如下:

  1. 下载 CMake:Download CMake
  2. 带有 "使用 C++ 的桌面开发" 工作负载的 Visual Studio Community Edition
  3. 下载 llama.cpp 源码(也可以使用 git 下载),https://github.com/ggerganov/llama.cpp

使用 cmd 进入 llama.cpp 的源码目录:

先运行:

cmake -B build

如果没有安装 CURL,会出现如下提示:

图片

禁用 CURL 即可,即使用下面的命令:

cmake -B build -DLLAMA_CURL=OFF

会出现如下的警告,不用管。

图片

然后再运行:

cmake --build build --config Release

编译过程约需 10 分钟,编译好的 dll 和可执行文件即可生成。

注意事项

若模型太大,导入时可能会提示缓存不够,建议更换较小版本的模型。

目录

  1. 摘要
  2. Llama.cpp 简介
  3. 大模型下载
  4. 下载 llama.cpp
  5. 运行大模型 llama-cli
  6. 编译 llama.cpp 源码
  7. 注意事项
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Stable Diffusion WebUI 云服务器部署实战
  • WebStorm 安装配置与常用插件实战指南
  • OpenClaw 推动低代码 AI 变革:从工具赋能到生态重构
  • 前后端分离架构核心设计与实战落地
  • 10 款 AI PPT 生成工具实测:从答辩到汇报的选型指南
  • HTML Popover API:原生浮层交互的零 JS 解决方案
  • 基于 OpenClaw 搭建 QQ AI 办公机器人并配置邮件发送
  • 零基础转行AI产品经理:核心能力与职业发展指南
  • 低延迟直播方案:WebRTC + MediaMTX,延迟低于 500ms
  • Llama-3.2-3B 部署优化:Ollama 量化与 GPU 适配实践
  • DeepSeek 爆发期,前端工程师的转型路径与核心价值
  • Java 动态代理详解:JDK 与 CGLIB 实现对比
  • 前端首屏加载优化方案
  • 基于 FastGPT 与 MCP 协议构建工具增强型智能体
  • 数据结构:单向链表的基本操作
  • 大模型 LLM 合成训练样本的数据分布问题
  • ECG 信号处理:Pan-Tompkins 算法与 R 峰检测
  • ESP32 + 大功率双向 ESC 机器人底盘动力控制方案
  • 腾讯云服务器部署 OpenClaw 对接飞书实战
  • Python 开发 MCP Server 集成数据库实战

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online