【保姆级教程】llama.cpp大模型部署全攻略:CPU/GPU全兼容,小白也能轻松上手!

【保姆级教程】llama.cpp大模型部署全攻略:CPU/GPU全兼容,小白也能轻松上手!

一、简介

  • • llama.cpp 是一个在 C/C++ 中实现大型语言模型(LLM)推理的工具
  • • 支持跨平台部署,也支持使用 Docker 快速启动
  • • 可以运行多种量化模型,对电脑要求不高,CPU/GPU设备均可流畅运行
  • • 开源地址参考:https://github.com/ggml-org/llama.cpp

• 核心工作流程参考:

二、安装与下载模型(Docker方式)

1. 搜索可用模型

• 这里以 qwen3-vl 模型为例,提供了多种量化版本,每种版本的大小不一样,根据自己的电脑性能做选择,如选择(模型+量化标签):Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0

• 可以在huggingface官网中搜索可用的量化模型:https://huggingface.co/models?search=gguf

2. 使用 docker-compose 安装启动 llama.cpp

  • • 提前安装好Docker、docker-compose软件环境
  • • (可选)如果有GPU,需要安装好 NVIDIA 驱动程序、NVIDIA Container Toolkit
    英伟达驱动安装参考文档: https://developer.nvidia.com/cuda-toolkit-archive
    NVIDIA Container Toolkit安装参考:https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html
//运行下面命令,如果输出显卡信息即Docker内可以正常使用GPUdocker run --rm --gpus all nvidia/cuda:12.5.0-runtime-ubuntu22.04 nvidia-smi 
  • • 新建docker-compose.yml配置文件,参考下面内容:
    CPU运行版本
services: llama-cpp-server: image: ghcr.io/ggml-org/llama.cpp:server ports: - "8000:8000" volumes: - ./cache:/root/.cache command: > -hf Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0 --jinja -c 65535 --port "8000" --host 0.0.0.0 restart: unless-stopped 

GPU运行版本

services: llama-cpp-server: image: ghcr.io/ggml-org/llama.cpp:server-cuda ports: - "8000:8000" volumes: - ./cache:/root/.cache command: > -hf Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0 --jinja -c 65535 --port "8000" --host 0.0.0.0 --n-gpu-layers 99 restart: unless-stopped deploy: #使用GPU主要增加这个配置 resources: reservations: devices: - driver: nvidia count: all #使用所有GPU,可以指定数量和特定GPU capabilities: [gpu] 

关键参数注解,参考如下

-hf # 从 HuggingFace 自动下载模型--jinja # 启用聊天格式模板(多轮对话必需)-c 65535 # 上下文窗口大小(tokens数量,越大占用越多显存)--port "8000" # 容器内监听端口--host 0.0.0.0 # 监听所有网络接口(Docker 容器必需)--n-gpu-layers 99 # GPU 加载层数(99=全部层,0=纯CPU)更多参数用法参考:https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md 
  • • 配置完,直接一键启动即可

docker-compose up -d
初次启动会自动从huggingface下载模型可能比较耗时(网络不好的话请自行配置加速代理),成功下载并启动截图如下:

三、使用

1. llama.cpp 默认提供的 Web Ui中使用

  • • 启动后,可直接访问:http://ip:8000/,进入对话页面

• 在对话界面,可以输入文本、文件、图片等直接和启动的模型进行对话
文本对话

多模态对话

2. 使用 llama.cpp 提供的 Openai 接口兼容 API

• 多模态对话示例
上面启动的 Qwen/Qwen3-VL 是非常强大的多模态模型,可以进行图片对话,输入下面手写文本图片

postman请求示例截图如下:

• 文本对话API,适合通用问题回答
postman请求示例截图如下:

四、总结

  • • llama.cpp 是个非常强大大语言模型启动工具,让普通电脑也能快速运行大语言模型,基于C/C++开发,性能比 Ollama 更优
  • • 安装依赖较少,兼容CPU/GPU,可跨平台部署,可Docker一键部署
  • • 提供Web Ui在线访问,也提供 Openai 接口兼容的 Api ,方便快速接入各种客户端
  • • 私有部署,完全免费且私密,可以满足各种应用场景,如询问一下私密问题、搭建本地AI笔记、搭建本地AI数据库应用、识别自己的图片内容等

五、AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

如果你也想通过学大模型技术去帮助就业和转行,可以扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

在这里插入图片描述


02.AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述


在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述


在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述
在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述


在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

在这里插入图片描述


如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

Read more

SAM 3开源大模型部署教程:Docker镜像+Jupyter+Web三模式详解

SAM 3开源大模型部署教程:Docker镜像+Jupyter+Web三模式详解 1. 为什么你需要SAM 3——不只是分割,而是理解视觉内容 你有没有遇到过这样的问题:想从一张杂乱的街景图里快速抠出所有行人,或者从一段监控视频中持续追踪某个包裹?传统方法要么需要大量标注数据,要么得写一堆OpenCV规则,费时又难泛化。SAM 3不一样——它不靠预设规则,而是像人一样“看懂”画面:你点一下、框一下,甚至只说一句“那个穿红衣服的人”,它就能立刻识别、分割、跟踪。 这不是概念演示,而是已经能跑在你本地机器上的真实能力。SAM 3是Meta(Facebook)推出的统一基础模型,专为图像和视频中的可提示分割设计。它把检测、分割、跟踪三个任务融合进一个模型,支持文本提示(如“cat”、“bicycle”)、点提示(单击目标区域)、框提示(拖拽包围目标)、掩码提示(粗略涂鸦)等多种交互方式。

Qwen3-32B开源部署新范式:Clawdbot提供CLI命令行工具+Web UI双操作入口

Qwen3-32B开源部署新范式:Clawdbot提供CLI命令行工具+Web UI双操作入口 1. 为什么你需要一个“更轻、更稳、更顺手”的Qwen3-32B用法? 你是不是也遇到过这些情况? 下载完Qwen3-32B模型,光是装Ollama、拉镜像、配环境变量就折腾掉一整个下午;好不容易跑起来,发现每次调用都要写curl命令或改Python脚本;想给同事演示,还得临时搭个前端页面——结果UI丑、响应慢、连历史对话都存不住。 Clawdbot不是又一个“封装一层API”的工具。它把Qwen3-32B真正变成了你电脑里一个开箱即用的本地AI伙伴: * 不用碰Docker Compose文件,不用记端口映射规则,一条命令就能启动; * 命令行里直接聊天、批量提问、导出记录,像用ls、cat一样自然; * Web界面干净清爽,支持多轮对话、上下文记忆、自定义系统提示,打开浏览器就能用; * 所有交互都走本地,模型不上传、数据不出设备、请求不经过第三方服务器。 这不是“能跑就行”的部署,而是为真实使用场景打磨出来的双入口工作流——CLI适合开发者快速验证和集成,Web

WSDL 是什么?一篇小白都能懂的 WebService 接口说明书介绍

你刚接触企业级接口,听到别人说“WSDL”,一脸懵逼?别急,这篇文章专门帮你搞明白: * WSDL 究竟是什么? * 它和 SOAP、WebService 有啥关系? * 为什么我们必须要看 WSDL? * 它长啥样,结构如何? * 怎么用 WSDL 让开发更简单? 什么是 WSDL? WSDL 的全称是 Web Services Description Language,中文可以叫做“Web 服务描述语言”。 打个比方: 你把 WebService 想象成一个自动售货机,WSDL 就是这台机器的说明书。 它告诉你: * 机器在哪里?(接口地址) * 机器卖什么东西?(提供哪些方法) * 怎么操作这台机器?(方法需要哪些参数) * 机器会给你什么?(返回结果格式) * 你跟机器对话用啥语言?(协议和数据格式) WSDL 和 SOAP

支持 GIF / WebP 动图,voidImageViewer 这款看图工具值得试试

支持 GIF / WebP 动图,voidImageViewer 这款看图工具值得试试

在 Windows 平台上,看图这件事听起来很基础,但真要找一款顺手的软件,其实不算容易。 很多人对系统自带看图工具的意见都差不多:不是完全不能用,而是总觉得不够干脆。打开图片要等一下,切下一张有时也会慢半拍。偶尔用还好,一旦平时经常要看截图、照片、设计图、素材图,这种不顺手的感觉就会越来越明显。 由 Everything 团队打造的轻量级看图工具 最近看到一款看图工具 voidImageViewer,试下来印象还不错。它是 voidtools 推出的图片查看器,而 voidtools 这个名字,很多人应该并不陌生,因为Everything 就是他们家的代表作。项目主页对它的定位也很直接:这是一款支持 GIF / WebP 动图的轻量级 Windows 看图软件,目标就是尽可能快地打开和显示图片。 下载地址: >> 前往 更新发布页 >> 先说结论:这软件的思路很“Everything”