【保姆级教程】llama.cpp大模型部署全攻略：CPU/GPU全兼容，小白也能轻松上手！

Ne0inhk

23 Mar 2026 — 8 min read

一、简介

• llama.cpp 是一个在 C/C++ 中实现大型语言模型（LLM）推理的工具
• 支持跨平台部署，也支持使用 Docker 快速启动
• 可以运行多种量化模型，对电脑要求不高，CPU/GPU设备均可流畅运行
• 开源地址参考：https://github.com/ggml-org/llama.cpp

• 核心工作流程参考：

二、安装与下载模型（Docker方式）

1. 搜索可用模型

• 这里以 qwen3-vl 模型为例，提供了多种量化版本，每种版本的大小不一样，根据自己的电脑性能做选择，如选择（模型+量化标签）：Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0

• 可以在huggingface官网中搜索可用的量化模型：https://huggingface.co/models?search=gguf

2. 使用 docker-compose 安装启动 llama.cpp

• 提前安装好Docker、docker-compose软件环境
• （可选）如果有GPU，需要安装好 NVIDIA 驱动程序、NVIDIA Container Toolkit
英伟达驱动安装参考文档： https://developer.nvidia.com/cuda-toolkit-archive
NVIDIA Container Toolkit安装参考：https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

//运行下面命令，如果输出显卡信息即Docker内可以正常使用GPUdocker run --rm --gpus all nvidia/cuda:12.5.0-runtime-ubuntu22.04 nvidia-smi

• 新建docker-compose.yml配置文件，参考下面内容：
CPU运行版本

services: llama-cpp-server: image: ghcr.io/ggml-org/llama.cpp:server ports: - "8000:8000" volumes: - ./cache:/root/.cache command: > -hf Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0 --jinja -c 65535 --port "8000" --host 0.0.0.0 restart: unless-stopped

GPU运行版本

services: llama-cpp-server: image: ghcr.io/ggml-org/llama.cpp:server-cuda ports: - "8000:8000" volumes: - ./cache:/root/.cache command: > -hf Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0 --jinja -c 65535 --port "8000" --host 0.0.0.0 --n-gpu-layers 99 restart: unless-stopped deploy: #使用GPU主要增加这个配置 resources: reservations: devices: - driver: nvidia count: all #使用所有GPU，可以指定数量和特定GPU capabilities: [gpu]

关键参数注解，参考如下

-hf # 从 HuggingFace 自动下载模型--jinja # 启用聊天格式模板（多轮对话必需）-c 65535 # 上下文窗口大小（tokens数量，越大占用越多显存）--port "8000" # 容器内监听端口--host 0.0.0.0 # 监听所有网络接口（Docker 容器必需）--n-gpu-layers 99 # GPU 加载层数（99=全部层，0=纯CPU）更多参数用法参考：https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md

• 配置完，直接一键启动即可

docker-compose up -d
初次启动会自动从huggingface下载模型可能比较耗时（网络不好的话请自行配置加速代理），成功下载并启动截图如下：

三、使用

1. llama.cpp 默认提供的 Web Ui中使用

• 启动后，可直接访问：http://ip:8000/，进入对话页面

• 在对话界面，可以输入文本、文件、图片等直接和启动的模型进行对话
文本对话

多模态对话

2. 使用 llama.cpp 提供的 Openai 接口兼容 API

• 多模态对话示例
上面启动的 Qwen/Qwen3-VL 是非常强大的多模态模型，可以进行图片对话，输入下面手写文本图片

postman请求示例截图如下：

• 文本对话API，适合通用问题回答
postman请求示例截图如下：

四、总结

• llama.cpp 是个非常强大大语言模型启动工具，让普通电脑也能快速运行大语言模型，基于C/C++开发，性能比 Ollama 更优
• 安装依赖较少，兼容CPU/GPU，可跨平台部署，可Docker一键部署
• 提供Web Ui在线访问，也提供 Openai 接口兼容的 Api ，方便快速接入各种客户端
• 私有部署，完全免费且私密，可以满足各种应用场景，如询问一下私密问题、搭建本地AI笔记、搭建本地AI数据库应用、识别自己的图片内容等

五、AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

04.大模型面试题目详解

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

【SpringAI】第四弹：深入解析 Rag 检索增强工作流程、最佳实践和调优

本节重点以 Spri‏ng AI 框架为例，‏学习 RAG 知识库应‏用开发的核心特性和高级‏知识点，并且掌握 RA‌G 最佳实践和调优技巧。具体内容包括： * RAG 核心特性 * 文档收集和切割（ETL） * 向量转换和存储（向量数据库） * 文档过滤和检索（文档检索器） * 查询增强和关联（上下文查询增强器） * RAG 最佳实践和调优 * RAG 高级知识 * 检索策略 * 大模型幻觉 * 高级 RAG 架构一、RAG 核心特性 Rag 检索增强工作流程一、建立索引 (1) 文档预处理和切割 ETL 首先对文档进行结构优化，内容清洗，也就是让文档的每一个部分的内容，都有一个标题，来划分每个部分的内容，

别再手动调优了！KingbaseES连接条件下推自动拯救慢 SQL

告别SQL性能焦虑：金仓数据库“连接条件下推”的性能魔法你是否遇到过这样的场景：一个看似复杂的SQL，在测试环境运行飞快，一到生产环境就“卡死”，一查执行计划，发现子查询生成了一个巨大的中间结果集，导致后续操作全部陷入性能泥潭？如果你正被此类场景困扰，那么，是时候认识一项改变游戏规则的技术：金仓数据库（KingbaseES）「基于代价的连接条件下推」。它不仅是技术优化，更是应对复杂业务查询的“性能终结者”。一、为什么你的复杂SQL会“爆内存”？在金融、政务等复杂业务系统中，为了逻辑清晰，SQL常常被写成这样： SELECT * FROM (SELECT DISTINCT * FROM 巨表_A) AS 子查询结果, 筛选表_B WHERE 子查询结果.关键ID = 筛选表_B.关键ID AND 筛选表_B.过滤字段 = '

LangChain: 从 LLM 调用到 Agent 架构

一、为什么要用 LangChain？自从 OpenAI 推出 ChatGPT 之后，大模型能力迅速普及。越来越多的开发者开始将 LLM 接入业务系统，但很快会遇到三个现实问题： 1、模型接口不统一 —— 今天用 OpenAI，明天换国内模型，代码要大改 2、Prompt 难管理 —— 提示词到处拼字符串，无法版本控制 3、业务流程复杂 —— RAG、Agent、多工具调用，全是胶水代码这时候，LangChain 就登场了。 LangChain 本质是一套 “面向大模型应用开发的工程化框架”，它把模型调用、Prompt 管理、知识检索、流程编排、Agent 调度全部抽象成可组合模块，让你像搭积木一样构建 AI 应用。二、LangChain 架构全景 LangChain

Flutter 组件 short_uuids 适配鸿蒙 HarmonyOS 实战：唯一标识微缩技术，构建高性能短 ID 生成与分布式索引架构

欢迎加入开源鸿蒙跨平台社区：https://openharmonycrossplatform.ZEEKLOG.net Flutter 组件 short_uuids 适配鸿蒙 HarmonyOS 实战：唯一标识微缩技术，构建高性能短 ID 生成与分布式索引架构前言在鸿蒙（OpenHarmony）生态迈向万物互联、涉及海量离线资源标识、蓝牙广播载荷（BLE Payload）及二维码数据极限压缩的背景下，如何生成既能保留 UUID 强随机性、又能极大缩减字符长度的唯一标识符，已成为优化存储与通讯效率的“空间必修课”。在鸿蒙设备这类强调分布式软总线传输与每一字节功耗敏感的环境下，如果应用依然直接传输长度达 36 字符的标准 UUID，由于由于有效载荷溢出，极易由于由于传输协议限制导致数据截断或多次分包带来的延迟。我们需要一种能够实现高进制转换、支持双向编解码且具备低碰撞概率的短 ID 生成方案。 short_uuids 为 Flutter 开发者引入了将标准 UUID 转化为短格式字符串的高性能算法。它利用