DeepSeek-R1-Distill-Llama-8B 部署实战：Docker Compose 编排推理服务

本地部署大模型常卡在环境配置上。装依赖、配 CUDA、调参数，半天过去连第一句输出都没跑出来。本文介绍如何利用 Docker Compose 配合 Ollama，以最轻量的方式将 DeepSeek-R1-Distill-Llama-8B 跑起来。该模型在 AIME 数学竞赛、MATH-500 等榜单表现优异，8B 参数却能接近 70B 级推理效果。整个过程无需安装 Python 环境或修改源码，一条命令即可启动。

为什么选择 DeepSeek-R1-Distill-Llama-8B

能力边界与实测数据

DeepSeek-R1 系列基于强化学习训练，擅长链式思考与多步推演。Distill 版本在保留 R1 能力的同时，通过蒸馏优化了效率与稳定性。实测数据显示：

AIME 2024 pass@1 达 50.4%，每两道题约有一道一步解对；
MATH-500 准确率 89.1%，远超同尺寸竞品；
CodeForces 评分 1205，具备实际代码生成能力；
GPQA Diamond 得分 49.0，理解复杂概念。

这意味着它不仅能写技术方案、解算法题，还能辅助阅读论文提炼核心论点。

工程化方案对比

HuggingFace + Transformers 适合研究微调，但需管理 Python 环境与显存分配。Ollama + Docker Compose 则面向工程落地，将模型封装为标准 API 服务，屏蔽底层差异。

自动适配：处理模型下载、量化（默认 4-bit）及 GPU 加速；
统一接口：提供 REST API，支持任意语言对接；
热切换：更换模型无需重启服务。

Docker Compose 进一步简化了启动流程，自动拉取镜像、挂载缓存、设置资源限制，避免手动拼接复杂的 docker run 参数。

零配置部署：三步完成本地服务搭建

前置准备

确保机器满足以下基本条件：

操作系统：Linux (Ubuntu 22.04+/CentOS 8+) 或 macOS (Intel/M1/M2/M3)；Windows 建议使用 WSL2；
GPU 支持：NVIDIA GPU + 驱动 ≥ 525 + CUDA Toolkit ≥ 12.1（无 GPU 可回退 CPU 模式）；
内存：≥16GB RAM（CPU 模式建议 24GB+）；
磁盘空间：预留 15GB 空闲空间（模型文件约 5.2GB）。

提示：若仅体验效果，CPU 模式可跑通全流程，后续升级硬件只需调整配置。

编写 docker-compose.yml

新建文件夹并创建 docker-compose.yml，定义两个服务：核心推理服务 ollama 和可选的 API 网关 api-gateway。

version: '3.8'
services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama-deepseek
    restart: unless-stopped
    
       
    
       
       
    
       
    
      
        
          
              
               
               []

DeepSeek-R1-Distill-Llama-8B 部署实战：Docker Compose 编排推理服务