【保姆级教程】llama.cpp大模型部署全攻略：CPU/GPU全兼容，小白也能轻松上手！

优质文章学习记录

09 Apr 2026 — 8 min read

一、简介

• llama.cpp 是一个在 C/C++ 中实现大型语言模型（LLM）推理的工具
• 支持跨平台部署，也支持使用 Docker 快速启动
• 可以运行多种量化模型，对电脑要求不高，CPU/GPU设备均可流畅运行
• 开源地址参考：https://github.com/ggml-org/llama.cpp

• 核心工作流程参考：

二、安装与下载模型（Docker方式）

1. 搜索可用模型

• 这里以 qwen3-vl 模型为例，提供了多种量化版本，每种版本的大小不一样，根据自己的电脑性能做选择，如选择（模型+量化标签）：Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0

• 可以在huggingface官网中搜索可用的量化模型：https://huggingface.co/models?search=gguf

2. 使用 docker-compose 安装启动 llama.cpp

• 提前安装好Docker、docker-compose软件环境
• （可选）如果有GPU，需要安装好 NVIDIA 驱动程序、NVIDIA Container Toolkit
英伟达驱动安装参考文档： https://developer.nvidia.com/cuda-toolkit-archive
NVIDIA Container Toolkit安装参考：https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

//运行下面命令，如果输出显卡信息即Docker内可以正常使用GPUdocker run --rm --gpus all nvidia/cuda:12.5.0-runtime-ubuntu22.04 nvidia-smi

• 新建docker-compose.yml配置文件，参考下面内容：
CPU运行版本

services: llama-cpp-server: image: ghcr.io/ggml-org/llama.cpp:server ports: - "8000:8000" volumes: - ./cache:/root/.cache command: > -hf Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0 --jinja -c 65535 --port "8000" --host 0.0.0.0 restart: unless-stopped

GPU运行版本

services: llama-cpp-server: image: ghcr.io/ggml-org/llama.cpp:server-cuda ports: - "8000:8000" volumes: - ./cache:/root/.cache command: > -hf Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0 --jinja -c 65535 --port "8000" --host 0.0.0.0 --n-gpu-layers 99 restart: unless-stopped deploy: #使用GPU主要增加这个配置 resources: reservations: devices: - driver: nvidia count: all #使用所有GPU，可以指定数量和特定GPU capabilities: [gpu]

关键参数注解，参考如下

-hf # 从 HuggingFace 自动下载模型--jinja # 启用聊天格式模板（多轮对话必需）-c 65535 # 上下文窗口大小（tokens数量，越大占用越多显存）--port "8000" # 容器内监听端口--host 0.0.0.0 # 监听所有网络接口（Docker 容器必需）--n-gpu-layers 99 # GPU 加载层数（99=全部层，0=纯CPU）更多参数用法参考：https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md

• 配置完，直接一键启动即可

docker-compose up -d
初次启动会自动从huggingface下载模型可能比较耗时（网络不好的话请自行配置加速代理），成功下载并启动截图如下：

三、使用

1. llama.cpp 默认提供的 Web Ui中使用

• 启动后，可直接访问：http://ip:8000/，进入对话页面

• 在对话界面，可以输入文本、文件、图片等直接和启动的模型进行对话
文本对话

多模态对话

2. 使用 llama.cpp 提供的 Openai 接口兼容 API

• 多模态对话示例
上面启动的 Qwen/Qwen3-VL 是非常强大的多模态模型，可以进行图片对话，输入下面手写文本图片

postman请求示例截图如下：

• 文本对话API，适合通用问题回答
postman请求示例截图如下：

四、总结

• llama.cpp 是个非常强大大语言模型启动工具，让普通电脑也能快速运行大语言模型，基于C/C++开发，性能比 Ollama 更优
• 安装依赖较少，兼容CPU/GPU，可跨平台部署，可Docker一键部署
• 提供Web Ui在线访问，也提供 Openai 接口兼容的 Api ，方便快速接入各种客户端
• 私有部署，完全免费且私密，可以满足各种应用场景，如询问一下私密问题、搭建本地AI笔记、搭建本地AI数据库应用、识别自己的图片内容等

五、AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

04.大模型面试题目详解

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

AI绘画新选择：Janus-Pro-7B一键部署与使用指南

AI绘画新选择：Janus-Pro-7B一键部署与使用指南 1. 为什么Janus-Pro-7B值得你关注最近AI绘画领域又迎来一位实力派选手——Janus-Pro-7B。它不是另一个微调版Stable Diffusion，也不是简单套壳的多模态模型，而是DeepSeek团队推出的真正统一架构的多模态理解与生成模型。它的特别之处在于：既能看懂图片，又能根据文字画出高质量图像，且两者共享同一套核心逻辑。很多用户反馈，用传统文生图模型时，经常遇到“提示词写得再细，画面也跑偏”的问题；而用图文理解模型时，又发现它只能回答“这是什么”，却无法进一步生成新内容。Janus-Pro-7B恰恰解决了这个割裂——它把视觉理解和图像生成放在同一个框架里协同优化，不是拼凑，而是融合。更实际的好处是：你不需要分别部署两个模型、切换两套界面、学习两套操作逻辑。一个模型，两种能力，一次部署，即刻可用。尤其适合想快速验证创意、做轻量级内容生产的个人开发者、设计师和内容创作者。它不追求参数堆砌，7B规模在本地或云上都能流畅运行；也不依赖复杂工作流，没有ComfyUI节点连线的门槛，打开就能用。如

AIGC产品经理面试题汇总｜从 0 到 1 做 AIGC 产品，核心能力与面试考点全拆解

2026年，生成式AI已经彻底走完了从技术爆发到产业落地的关键周期。当通用大模型的格局逐步固化，垂直行业的AIGC应用遍地开花，AI产品经理早已从互联网行业的“加分岗”，变成了科技企业、传统产业数字化转型的核心刚需岗。但市场始终存在严重的人才供需错配：传统产品经理懂用户、懂流程，却摸不透AIGC的技术边界与产品逻辑；技术背景的从业者懂模型、懂算法，却无法把技术能力转化为可落地的用户价值与商业闭环。这也导致了AIGC产品岗的面试呈现出极强的两极分化——背概念的候选人一抓一大把，能真正讲清“从0到1做一款AIGC产品”的人寥寥无几。这篇文章，我们不止于罗列面试题，更要拆解AIGC产品经理的核心能力模型，还原从0到1操盘AIGC产品的全链路流程，深挖大厂高频面试题背后的考察逻辑，同时结合产业趋势给出前瞻性判断。无论是想入行AIGC领域的产品新人，还是想突破职业瓶颈的资深产品人，都能从中找到可复用的方法论与可落地的行动指南。第一章认知破界：AIGC产品经理的核心定位与底层认知这是所有面试的开篇考点，也是做AIGC产品的底层逻辑。面试官问基础认知题，从来不是想听你背大模型的定

AI 智能编码工具：重塑开发效率的革命，从 GitHub Copilot 到国产新秀的全面解析

目录引言一、主流智能编码工具深度测评：从功能到实战 1. GitHub Copilot：AI 编码的 “开山鼻祖” 核心特性与实战代码优缺点总结 2. Baidu Comate：文心大模型加持的 “国产之光” 核心特性与实战代码优缺点总结 3. 通义灵码：阿里云的 “企业级编码助手” 核心特性与实战代码优缺点总结引言作为一名拥有 8 年开发经验的程序员，我曾无数次在深夜对着屏幕反复调试重复代码，也因记不清框架语法而频繁切换浏览器查询文档。直到 2021 年 GitHub Copilot 问世，我才第一次感受到：AI 不仅能辅助编码，更能彻底改变开发模式。如今，智能编码工具已从 “尝鲜选项” 变为 “必备工具”，它们像经验丰富的结对编程伙伴，能精准补全代码、生成测试用例、

开箱即用！Whisper多语言语音识别Web服务实战体验

开箱即用！Whisper多语言语音识别Web服务实战体验 1. 引言：为什么我们需要一个开箱即用的语音识别服务？你有没有遇到过这样的场景：一段会议录音、一节网课视频、一段采访音频，你想快速把里面的内容转成文字，但手动听写太费时间？更别提这些内容还可能是英文、日文甚至阿拉伯语。这时候，你就需要一个强大、准确、支持多语言的语音识别工具。而今天我们要体验的这个镜像——“Whisper语音识别-多语言-large-v3语音识别模型”，正是为此而生。它基于 OpenAI 的 Whisper large-v3 模型，拥有 1.5B 参数规模，在多种语言上都表现出色。更重要的是，它已经被封装成一个 Web 服务，通过 Gradio 提供了直观的界面，无需编程也能轻松使用。本文将带你从零开始部署并深度体验这款语音识别神器，看看它是如何做到“上传即识别、说话就出字”的。 2. 镜像概览：功能亮点与技术栈解析 2.1 核心能力一览