llama.cpp 大模型部署全攻略:CPU/GPU 全兼容
llama.cpp 是基于 C/C++ 实现的 LLM 推理工具,支持跨平台及 Docker 部署。本文演示了使用 Docker Compose 快速启动 llama.cpp 服务器的流程,包括 CPU 与 GPU 环境配置、模型下载及关键参数设置。此外还展示了 Web UI 界面操作及 OpenAI 兼容 API 的调用示例。该方案适用于本地运行量化模型,实现私有化部署。

llama.cpp 是基于 C/C++ 实现的 LLM 推理工具,支持跨平台及 Docker 部署。本文演示了使用 Docker Compose 快速启动 llama.cpp 服务器的流程,包括 CPU 与 GPU 环境配置、模型下载及关键参数设置。此外还展示了 Web UI 界面操作及 OpenAI 兼容 API 的调用示例。该方案适用于本地运行量化模型,实现私有化部署。

核心工作流程参考:

这里以 qwen3-vl 模型为例,提供了多种量化版本,每种版本的大小不一样,根据自己的电脑性能做选择,如选择(模型 + 量化标签):Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0

可以在 HuggingFace 官网中搜索可用的量化模型:https://huggingface.co/models?search=gguf

// 运行下面命令,如果输出显卡信息即 Docker 内可以正常使用 GPU
docker run --rm --gpus all nvidia/cuda:12.5.0-runtime-ubuntu22.04 nvidia-smi
CPU 运行版本
services:
llama-cpp-server:
image: ghcr.io/ggml-org/llama.cpp:server
ports:
- "8000:8000"
volumes:
- ./cache:/root/.cache
command: >
-hf Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0 --jinja -c 65535 --port "8000" --host 0.0.0.0
restart: unless-stopped
GPU 运行版本
services:
llama-cpp-server:
image: ghcr.io/ggml-org/llama.cpp:server-cuda
ports:
- "8000:8000"
volumes:
- ./cache:/root/.cache
command: >
-hf Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0 --jinja -c 65535 --port "8000" --host 0.0.0.0 --n-gpu-layers 99
restart: unless-stopped
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
关键参数注解,参考如下
-hf # 从 HuggingFace 自动下载模型
--jinja # 启用聊天格式模板(多轮对话必需)
-c 65535 # 上下文窗口大小(tokens 数量,越大占用越多显存)
--port "8000" # 容器内监听端口
--host 0.0.0.0 # 监听所有网络接口(Docker 容器必需)
--n-gpu-layers 99 # GPU 加载层数(99=全部层,0=纯 CPU)
更多参数用法参考:https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md
docker-compose up -d
初次启动会自动从 HuggingFace 下载模型可能比较耗时(网络不好的话请自行配置加速代理),成功下载并启动截图如下:

文本对话

多模态对话


Postman 请求示例截图如下:



微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online