DeepSeek-R1-Distill-Llama-8B 部署教程:Docker Compose 多模型推理服务
本教程介绍如何使用 Docker Compose 和 Ollama 快速部署 DeepSeek-R1-Distill-Llama-8B 模型。该模型在 AIME 数学竞赛、MATH-500、CodeForces 等榜单表现优异,8B 参数却接近 70B 级推理能力。整个过程无需安装 Python 环境或配置 CUDA 驱动,一条命令即可启动。
1. 为什么选 DeepSeek-R1-Distill-Llama-8B?
1.1 明确的实用能力边界
DeepSeek-R1 系列基于强化学习训练,擅长链式思考与多步推演。DeepSeek-R1-Distill-Llama-8B 是蒸馏后的轻量版本,兼顾性能与效率:
- AIME 2024 pass@1 达 50.4%;
- MATH-500 准确率 89.1%;
- CodeForces 评分 1205;
- GPQA Diamond 得分 49.0。
1.2 Ollama + Docker Compose 生产力组合
相比 HuggingFace + Transformers 需要管理复杂环境,Ollama + Docker Compose 面向工程落地:
- 自动处理模型下载、量化及 GPU 加速;
- 提供统一 REST API(/api/chat);
- 支持模型热切换。 Docker Compose 将服务启动简化为一行命令,自动拉取镜像、挂载目录并设置资源限制。
2. 零配置部署:三步完成本地服务搭建
2.1 前置准备
- 操作系统:Linux (Ubuntu/CentOS) 或 macOS;Windows 需 WSL2。
- GPU 支持:NVIDIA GPU + 驱动 ≥ 525 + CUDA Toolkit ≥ 12.1(无 GPU 可回退 CPU)。
- 内存:≥16GB RAM(CPU 模式建议≥24GB)。
- 磁盘空间:预留 15GB 空闲空间。
2.2 编写 docker-compose.yml
新建文件夹 deepseek-r1-service,创建 docker-compose.yml:
version: '3.8'
services:
ollama:
image: ollama/ollama:latest
container_name: ollama-deepseek
restart: unless-stopped
ports:
- "11434:11434"
volumes:
- ./ollama_models:/root/.ollama/models
- ./ollama_logs:/var/log/ollama
[]

