DeepSeek-R1-Distill-Llama-8B 本地部署与 Docker Compose 服务化
DeepSeek-R1-Distill-Llama-8B 是一个在 AIME 数学竞赛、MATH-500 等榜单上表现优异的蒸馏模型。它基于强化学习训练,具备优秀的逻辑推理能力,8B 参数却能跑出接近 70B 级的推理表现。通过 Docker Compose 编排 Ollama 服务,可以实现零环境配置部署,无需安装 Python 环境或调整 CUDA 驱动,一条命令即可启动。
为什么选择 DeepSeek-R1-Distill-Llama-8B
DeepSeek-R1 系列源自纯强化学习训练的'原生推理模型',擅长链式思考与多步推演。经过蒸馏后的 Llama 架构版本,兼顾了性能与效率。实测数据显示:
- AIME 2024 数学竞赛 pass@1 达 50.4%;
- MATH-500 准确率 89.1%,远超同尺寸竞品;
- CodeForces 编程能力评分 1205,能生成可用代码;
- GPQA Diamond 得分 49.0,理解复杂概念能力强。
相比 HuggingFace + Transformers 需要管理 Python 环境和显存分配,Ollama + Docker Compose 更面向工程落地。它将模型封装为标准 API 服务,自动处理量化与 GPU 适配,支持热切换,大幅降低运维成本。
本地服务搭建
前置准备
确保系统满足以下基本条件:
- 操作系统:Linux (Ubuntu/CentOS) 或 macOS (Intel/M1/M2/M3)。Windows 建议使用 WSL2。
- GPU 支持:NVIDIA GPU + 驱动 ≥ 525 + CUDA Toolkit ≥ 12.1。若无 GPU,Ollama 会自动回退到 CPU 模式。
- 内存:≥16GB RAM(CPU 模式建议≥24GB)。
- 磁盘空间:预留 15GB 空闲空间以容纳模型文件及缓存。
编写 docker-compose.yml
创建项目目录并新建 docker-compose.yml。该配置定义了两个服务:核心推理服务 ollama 和可选的 Nginx 反向代理 api-gateway。
version: '3.8'
services:
ollama:
image: ollama/ollama:latest
container_name: ollama-deepseek
restart: unless-stopped
ports:
- "11434:11434"
volumes:
- ./ollama_models:/root/.ollama/models
- ./ollama_logs:/var/log/ollama
environment:
- OLLAMA_HOST=0.0.0.0:11434
[]

