一、简介
- llama.cpp 是一个在 C/C++ 中实现大型语言模型(LLM)推理的工具
- 支持跨平台部署,也支持使用 Docker 快速启动
- 可以运行多种量化模型,对电脑要求不高,CPU/GPU 设备均可流畅运行
- 开源地址参考:https://github.com/ggml-org/llama.cpp
核心工作流程参考:

二、安装与下载模型(Docker 方式)
1. 搜索可用模型
这里以 qwen3-vl 模型为例,提供了多种量化版本,每种版本的大小不一样,根据自己的电脑性能做选择,如选择(模型 + 量化标签):Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0

可以在 huggingface 官网中搜索可用的量化模型:https://huggingface.co/models?search=gguf

2. 使用 docker-compose 安装启动 llama.cpp
- 提前安装好 Docker、docker-compose 软件环境
- (可选)如果有 GPU,需要安装好 NVIDIA 驱动程序、NVIDIA Container Toolkit 英伟达驱动安装参考文档:https://developer.nvidia.com/cuda-toolkit-archive NVIDIA Container Toolkit 安装参考:https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html
# 运行下面命令,如果输出显卡信息即 Docker 内可以正常使用 GPU
docker run --rm --gpus all nvidia/cuda:12.5.0-runtime-ubuntu22.04 nvidia-smi
- 新建 docker-compose.yml 配置文件,参考下面内容: CPU 运行版本
services:
llama-cpp-server:




多模态对话

postman 请求示例截图如下:

