DeepSeek-R1-Distill-Llama-8B 部署：Docker Compose 推理服务 | 极客日志

PythonAI算法

DeepSeek-R1-Distill-Llama-8B 部署：Docker Compose 推理服务

基于 Docker Compose 和 Ollama 部署 DeepSeek-R1-Distill-Llama-8B 模型的完整流程。涵盖环境准备、配置文件编写、服务启动及模型拉取步骤。提供命令行交互、Python 脚本集成及批量并发处理三种调用方式。此外包含系统提示词优化、多模型并行部署及服务持久化备份等进阶实践，帮助开发者构建可扩展的本地 AI 推理服务底座。

GopherDev发布于 2026/4/6更新于 2026/5/2424 浏览

DeepSeek-R1-Distill-Llama-8B 部署教程：Docker Compose 编排多模型推理服务

本文介绍如何使用 Docker Compose 和 Ollama 部署 DeepSeek-R1-Distill-Llama-8B 模型。该模型基于 R1-Zero 强化学习训练，在数学竞赛、代码生成等任务上表现优异。通过容器化编排，可实现开箱即用的推理服务，无需手动配置 Python 环境或 CUDA 驱动。

1. 为什么选 DeepSeek-R1-Distill-Llama-8B？

1.1 明确能力边界的实用选择

DeepSeek-R1 系列起点是 DeepSeek-R1-Zero——一个纯靠强化学习（RL）训练、跳过监督微调（SFT）阶段的'原生推理模型'。这种训练方式让它天然擅长链式思考、多步推演。

DeepSeek-R1-Distill-Llama-8B 是从强基座上蒸馏出的轻量版本——用 Llama 架构承载 R1 的能力，兼顾性能与效率。实测验证的实战派表现如下：

在 AIME 2024 数学竞赛中，pass@1 达 50.4%；
MATH-500 准确率 89.1%，远超同尺寸竞品；
CodeForces 编程能力评分 1205，比 Qwen-7B 蒸馏版还高；
GPQA Diamond（高难度专业问答）得分 49.0。

1.2 Ollama+Docker Compose 生产力组合

相比 HuggingFace + Transformers 适合研究者调试，Ollama + Docker Compose 面向工程落地：

自动处理模型下载、量化（默认 4-bit）、GPU 加速适配；
提供统一的 REST API（/api/chat），和任何语言都能对接；
支持模型热切换，换模型不用重启服务。

而 Docker Compose 把'启动一个 Ollama 服务'变成了一行命令：docker-compose up -d。

2. 零配置部署：三步完成本地服务搭建

2.1 前置准备

操作系统：Linux（Ubuntu 22.04/24.04、CentOS 8+）或 macOS（Intel/M1/M2/M3）；Windows 需使用 WSL2；
GPU 支持（推荐但非必需）：NVIDIA GPU + 驱动 ≥ 525 + CUDA Toolkit ≥ 12.1；若无 GPU，Ollama 会自动回退到 CPU 推理；
内存：≥16GB RAM（CPU 模式需≥24GB）；GPU 模式建议显存 ≥ 12GB；
磁盘空间：模型文件约 5.2GB，预留 15GB 空闲空间。

2.2 编写 docker-compose.yml

新建文件夹 deepseek-r1-service，创建 docker-compose.yml 文件：

version: '3.8'
services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama-deepseek
    restart: unless-stopped
    ports:
      - 
    
       
       
    
       
       
    
      
        
          
              
               
               []

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 第一步：启动 Ollama 服务
docker-compose up -d ollama

# 第二步：等待服务就绪后，拉取模型
docker exec -it ollama-deepseek ollama pull deepseek-r1:8b

curl -X POST http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{ "model": "deepseek-r1:8b", "messages": [{ "role": "user", "content": "解释什么是链式思维？" }], "stream": false }'

docker exec -it ollama-deepseek ollama run deepseek-r1:8b

import requests

def ask_deepseek(question: str, model: str = "deepseek-r1:8b") -> str:
    url = "http://localhost:11434/api/chat"
    payload = {
        "model": model,
        "messages": [{"role": "user", "content": question}],
        "stream": False,
        "options": {"temperature": 0.3, "num_ctx": 4096}
    }
    try:
        response = requests.post(url, json=payload, timeout=120)
        response.raise_for_status()
        return response.json()["message"]["content"].strip()
    except Exception as e:
        return f"请求失败：{e}"

if __name__ == "__main__":
    result = ask_deepseek("请用中文解释 Transformer 架构中的自注意力机制。")
    print(result)

import concurrent.futures

questions = [
    "如何判断一个数是否为质数？",
    "解释 HTTP 状态码 401 和 403 的区别。",
    "用 Markdown 写一个简洁的 API 文档模板。"
]

with concurrent.futures.ThreadPoolExecutor(max_workers=3) as executor:
    futures = [executor.submit(ask_deepseek, q) for q in questions]
    results = [f.result() for f in concurrent.futures.as_completed(futures)]

{
  "model": "deepseek-r1:8b",
  "messages": [
    {"role": "system", "content": "你是一名资深 Python 工程师，只给代码，不解释原理。"},
    {"role": "user", "content": "写一个函数，过滤字符串中的短单词。"}
  ],
  "stream": False
}

DeepSeek-R1-Distill-Llama-8B 部署：Docker Compose 推理服务

DeepSeek-R1-Distill-Llama-8B 部署教程：Docker Compose 编排多模型推理服务

1. 为什么选 DeepSeek-R1-Distill-Llama-8B？

1.1 明确能力边界的实用选择

1.2 Ollama+Docker Compose 生产力组合

2. 零配置部署：三步完成本地服务搭建

2.1 前置准备

2.2 编写 docker-compose.yml

更多推荐文章

相关免费在线工具

2.3 启动服务并拉取模型

2.4 验证服务

3. 实战调用：三种用法

3.1 命令行交互

3.2 Python 脚本调用

3.3 批量处理

4. 进阶技巧

4.1 提示词优化

4.2 多模型并行

4.3 持久化与备份

5. 总结

更多推荐文章

相关免费在线工具

DeepSeek-R1-Distill-Llama-8B 部署：Docker Compose 推理服务

DeepSeek-R1-Distill-Llama-8B 部署教程：Docker Compose 编排多模型推理服务

1. 为什么选 DeepSeek-R1-Distill-Llama-8B？

1.1 明确能力边界的实用选择

1.2 Ollama+Docker Compose 生产力组合

2. 零配置部署：三步完成本地服务搭建

2.1 前置准备

2.2 编写 docker-compose.yml

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.3 启动服务并拉取模型

2.4 验证服务

3. 实战调用：三种用法

3.1 命令行交互

3.2 Python 脚本调用

3.3 批量处理

4. 进阶技巧

4.1 提示词优化

4.2 多模型并行

4.3 持久化与备份

5. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具