llama.cpp 大模型部署指南：CPU/GPU 全兼容与 Docker 快速启动 | 极客日志

C++AI算法

llama.cpp 大模型部署指南：CPU/GPU 全兼容与 Docker 快速启动

介绍 llama.cpp 工具在本地部署大语言模型的方法。支持跨平台及 Docker 快速启动，兼容 CPU 和 GPU 环境。内容涵盖模型搜索下载、Docker Compose 配置（含 CUDA 加速）、Web UI 使用及 OpenAI 接口调用示例。旨在帮助开发者低成本实现私有化大模型应用。

樱花落尽发布于 2026/4/6更新于 2026/7/2667 浏览

llama.cpp 大模型部署指南：CPU/GPU 全兼容与 Docker 快速启动

一、简介

llama.cpp 是一个在 C/C++ 中实现大型语言模型（LLM）推理的工具
支持跨平台部署，也支持使用 Docker 快速启动
可以运行多种量化模型，对电脑要求不高，CPU/GPU 设备均可流畅运行
开源地址参考：https://github.com/ggml-org/llama.cpp

核心工作流程参考：

文章配图

二、安装与下载模型（Docker 方式）

1. 搜索可用模型

这里以 qwen3-vl 模型为例，提供了多种量化版本，每种版本的大小不一样，根据自己的电脑性能做选择，如选择（模型 + 量化标签）：Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0

文章配图

可以在 HuggingFace 官网中搜索可用的量化模型：https://huggingface.co/models?search=gguf

文章配图

2. 使用 docker-compose 安装启动 llama.cpp

提前安装好 Docker、docker-compose 软件环境
（可选）如果有 GPU，需要安装好 NVIDIA 驱动程序、NVIDIA Container Toolkit
- 英伟达驱动安装参考文档：https://developer.nvidia.com/cuda-toolkit-archive
- NVIDIA Container Toolkit 安装参考：https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

# 运行下面命令，如果输出显卡信息即 Docker 内可以正常使用 GPU
docker run --rm --gpus all nvidia/cuda:12.5.0-runtime-ubuntu22.04 nvidia-smi

新建 docker-compose.yml 配置文件，参考下面内容：

CPU 运行版本

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

services:
  llama-cpp-server:
    image: ghcr.io/ggml-org/llama.cpp:server
    ports:
      - "8000:8000"
    volumes:
      - ./cache:/root/.cache
    command: >
      -hf Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0 --jinja -c 65535 --port "8000" --host 0.0.0.0
    restart: unless-stopped

services:
  llama-cpp-server:
    image: ghcr.io/ggml-org/llama.cpp:server-cuda
    ports:
      - "8000:8000"
    volumes:
      - ./cache:/root/.cache
    command: >
      -hf Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0 --jinja -c 65535 --port "8000" --host 0.0.0.0 --n-gpu-layers 99
    restart: unless-stopped
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]

-hf           # 从 HuggingFace 自动下载模型
--jinja       # 启用聊天格式模板（多轮对话必需）
-c 65535      # 上下文窗口大小（tokens 数量，越大占用越多显存）
--port "8000" # 容器内监听端口
--host 0.0.0.0 # 监听所有网络接口（Docker 容器必需）
--n-gpu-layers 99 # GPU 加载层数（99=全部层，0=纯 CPU）
更多参数用法参考：https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md

docker-compose up -d

llama.cpp 大模型部署指南：CPU/GPU 全兼容与 Docker 快速启动

一、简介

二、安装与下载模型（Docker 方式）

1. 搜索可用模型

2. 使用 docker-compose 安装启动 llama.cpp

更多推荐文章

相关免费在线工具

三、使用

1. llama.cpp 默认提供的 Web UI 中使用

2. 使用 llama.cpp 提供的 OpenAI 接口兼容 API

四、总结

更多推荐文章

相关免费在线工具

llama.cpp 大模型部署指南：CPU/GPU 全兼容与 Docker 快速启动

一、简介

二、安装与下载模型（Docker 方式）

1. 搜索可用模型

2. 使用 docker-compose 安装启动 llama.cpp

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

三、使用

1. llama.cpp 默认提供的 Web UI 中使用

2. 使用 llama.cpp 提供的 OpenAI 接口兼容 API

四、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具