【保姆级教程】llama.cpp大模型部署全攻略:CPU/GPU全兼容,小白也能轻松上手!

【保姆级教程】llama.cpp大模型部署全攻略:CPU/GPU全兼容,小白也能轻松上手!

一、简介

  • • llama.cpp 是一个在 C/C++ 中实现大型语言模型(LLM)推理的工具
  • • 支持跨平台部署,也支持使用 Docker 快速启动
  • • 可以运行多种量化模型,对电脑要求不高,CPU/GPU设备均可流畅运行
  • • 开源地址参考:https://github.com/ggml-org/llama.cpp

• 核心工作流程参考:

二、安装与下载模型(Docker方式)

1. 搜索可用模型

• 这里以 qwen3-vl 模型为例,提供了多种量化版本,每种版本的大小不一样,根据自己的电脑性能做选择,如选择(模型+量化标签):Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0

• 可以在huggingface官网中搜索可用的量化模型:https://huggingface.co/models?search=gguf

2. 使用 docker-compose 安装启动 llama.cpp

  • • 提前安装好Docker、docker-compose软件环境
  • • (可选)如果有GPU,需要安装好 NVIDIA 驱动程序、NVIDIA Container Toolkit
    英伟达驱动安装参考文档: https://developer.nvidia.com/cuda-toolkit-archive
    NVIDIA Container Toolkit安装参考:https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html
//运行下面命令,如果输出显卡信息即Docker内可以正常使用GPUdocker run --rm --gpus all nvidia/cuda:12.5.0-runtime-ubuntu22.04 nvidia-smi 
  • • 新建docker-compose.yml配置文件,参考下面内容:
    CPU运行版本
services: llama-cpp-server: image: ghcr.io/ggml-org/llama.cpp:server ports: - "8000:8000" volumes: - ./cache:/root/.cache command: > -hf Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0 --jinja -c 65535 --port "8000" --host 0.0.0.0 restart: unless-stopped 

GPU运行版本

services: llama-cpp-server: image: ghcr.io/ggml-org/llama.cpp:server-cuda ports: - "8000:8000" volumes: - ./cache:/root/.cache command: > -hf Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0 --jinja -c 65535 --port "8000" --host 0.0.0.0 --n-gpu-layers 99 restart: unless-stopped deploy: #使用GPU主要增加这个配置 resources: reservations: devices: - driver: nvidia count: all #使用所有GPU,可以指定数量和特定GPU capabilities: [gpu] 

关键参数注解,参考如下

-hf # 从 HuggingFace 自动下载模型--jinja # 启用聊天格式模板(多轮对话必需)-c 65535 # 上下文窗口大小(tokens数量,越大占用越多显存)--port "8000" # 容器内监听端口--host 0.0.0.0 # 监听所有网络接口(Docker 容器必需)--n-gpu-layers 99 # GPU 加载层数(99=全部层,0=纯CPU)更多参数用法参考:https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md 
  • • 配置完,直接一键启动即可

docker-compose up -d
初次启动会自动从huggingface下载模型可能比较耗时(网络不好的话请自行配置加速代理),成功下载并启动截图如下:

三、使用

1. llama.cpp 默认提供的 Web Ui中使用

  • • 启动后,可直接访问:http://ip:8000/,进入对话页面

• 在对话界面,可以输入文本、文件、图片等直接和启动的模型进行对话
文本对话

多模态对话

2. 使用 llama.cpp 提供的 Openai 接口兼容 API

• 多模态对话示例
上面启动的 Qwen/Qwen3-VL 是非常强大的多模态模型,可以进行图片对话,输入下面手写文本图片

postman请求示例截图如下:

• 文本对话API,适合通用问题回答
postman请求示例截图如下:

四、总结

  • • llama.cpp 是个非常强大大语言模型启动工具,让普通电脑也能快速运行大语言模型,基于C/C++开发,性能比 Ollama 更优
  • • 安装依赖较少,兼容CPU/GPU,可跨平台部署,可Docker一键部署
  • • 提供Web Ui在线访问,也提供 Openai 接口兼容的 Api ,方便快速接入各种客户端
  • • 私有部署,完全免费且私密,可以满足各种应用场景,如询问一下私密问题、搭建本地AI笔记、搭建本地AI数据库应用、识别自己的图片内容等

五、AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

如果你也想通过学大模型技术去帮助就业和转行,可以扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

在这里插入图片描述


02.AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述


在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述


在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述
在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述


在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

在这里插入图片描述


如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

Read more

开发者实操手册:Qwen3-Embedding-4B + llama.cpp部署教程

开发者实操手册:Qwen3-Embedding-4B + llama.cpp部署教程 1. 引言 随着大模型在语义理解、信息检索和知识管理等场景的广泛应用,高质量的文本向量化能力成为构建智能系统的核心基础。通义千问团队于2025年8月开源了 Qwen3-Embedding-4B ——一款专为高效文本嵌入设计的中等规模双塔模型。该模型以4B参数量实现了对32k长文本的支持,输出2560维高精度向量,并在MTEB多项基准测试中超越同尺寸模型。 本文将围绕 Qwen3-Embedding-4B 的本地化部署实践展开,重点介绍如何结合 llama.cpp 和 vLLM + Open WebUI 构建一个可交互、高性能的知识库服务系统。无论你是想在消费级显卡(如RTX 3060)上运行语义搜索,还是希望搭建支持多语言、长文档的企业级知识引擎,本教程都能提供完整可落地的技术路径。 2. Qwen3-Embedding-4B 模型特性解析 2.1 核心架构与技术亮点 Qwen3-Embedding-4B 是阿里云 Qwen3 系列中专注于「文本向量化」任务的专用模型,采用标准的 De

大模型微调新姿势:用Llama Factory一键搞定LlaMA 3定制

大模型微调新姿势:用Llama Factory一键搞定LlaMA 3定制 如果你正在寻找一种快速、高效的方式来微调LlaMA 3模型,那么Llama Factory可能是你的理想选择。作为一个开源的低代码大模型微调框架,Llama Factory集成了业界广泛使用的微调技术,支持通过Web UI界面零代码微调大模型。这类任务通常需要GPU环境,目前ZEEKLOG算力平台提供了包含该镜像的预置环境,可快速部署验证。 为什么选择Llama Factory进行LlaMA 3微调 Llama Factory之所以成为AI创业团队的首选工具,主要因为它解决了以下几个痛点: * 环境搭建复杂:传统微调需要手动安装CUDA、PyTorch等依赖,耗时且容易出错 * 学习曲线陡峭:需要掌握大量命令行操作和参数配置 * 资源消耗大:本地部署需要高性能GPU,成本高昂 * 方法选择困难:不同微调方法效果差异大,难以快速对比 Llama Factory预装了所有必要组件,包括: * 主流微调方法:LoRA、全参数微调、增量预训练等 * 多种模型支持:LlaMA 3、Qwen、Cha

MS-SWIFT多模态实战:10分钟云端出图,小白也能玩转AI绘画

MS-SWIFT多模态实战:10分钟云端出图,小白也能玩转AI绘画 你是不是也和我一样,是个热爱设计但被硬件卡住的创作者?最近我在做视觉项目时,特别想试试最新的AI绘画模型,结果一查才发现——RTX 4070显卡要六千多,而我的MacBook连NVIDIA显卡都没有,根本跑不动这些大模型。正当我准备放弃的时候,朋友推荐了一个“神器”:MS-SWIFT + 云端GPU,说只要10分钟就能在云上部署一个支持200+多模态模型的AI绘图环境,而且按小时计费,成本低到一杯奶茶钱就能画一天。 抱着试试看的心态,我真的一键启动了属于自己的AI绘画工作站。从部署到生成第一张图,全程不到10分钟,效果还出乎意料地惊艳!更让我惊喜的是,MS-SWIFT不仅支持Stable Diffusion系列,还能轻松调用像Qwen-VL、InternVL、FLUX等前沿多模态模型,真正实现了“一个平台,百种风格”。 这篇文章就是为你写的——如果你是设计师、插画师、内容创作者,或者只是对AI绘画感兴趣的小白,但苦于没有高性能电脑,那这篇指南一定能帮你零门槛上手AI绘画。我会手把手带你完成整个流程:如何选择镜像、

AIGC时代编程新宠!如何让孩子通过DeepSeek成为未来的编程大师?

AIGC时代编程新宠!如何让孩子通过DeepSeek成为未来的编程大师?

文章目录 * 一、激发编程兴趣:从游戏开始 * 二、个性化学习计划:DeepSeek的智能推荐 * 三、项目式学习:动手实践,学以致用 * 四、AI精准辅导:即时解答,深度学习 * 五、全面发展:平衡技术与人文 * 六、家长的陪伴与鼓励 * 《信息学奥赛一本通关》 * 本书定位 * 内容简介 * 作者简介 * 目录 在AIGC(Artificial Intelligence Generative Content,人工智能生成内容)技术蓬勃发展的今天,教育领域正经历一场深刻的变革。DeepSeek作为一款由杭州深度求索人工智能基础技术研究有限公司倾力打造的大语言模型工具,正以其卓越的性能和广泛的应用前景,在编程教育领域大放异彩。 一、激发编程兴趣:从游戏开始 孩子的兴趣是学习的最好驱动力。DeepSeek能够生成一系列基于AI的互动编程游戏,这些游戏通过简单的拖拽式编程界面,让孩子在玩乐中学习编程基础。 示例游戏:制作一个简单的“躲避障碍”小游戏 // 使用Scratch风格的伪代码说明 when green