DeepSeek-R1-Distill-Llama-8B 部署：Docker Compose 推理服务 | 极客日志

PythonAI算法

DeepSeek-R1-Distill-Llama-8B 部署：Docker Compose 推理服务

综述由AI生成介绍如何使用 Docker Compose 和 Ollama 快速部署 DeepSeek-R1-Distill-Llama-8B 模型。文章涵盖环境准备、docker-compose.yml 配置、服务启动与模型拉取、API 验证、以及命令行、Python 脚本和批量处理的调用方法。同时提供了系统提示词优化、多模型并行部署及数据持久化备份等进阶技巧，旨在帮助用户构建可扩展的本地 AI 推理服务底座。

BigDataPan发布于 2026/4/5更新于 2026/5/2526 浏览

DeepSeek-R1-Distill-Llama-8B 部署教程：Docker Compose 编排多模型推理服务

本文介绍如何使用 Docker Compose 和 Ollama 快速部署 DeepSeek-R1-Distill-Llama-8B 模型。该模型在数学竞赛、代码生成等任务上表现优异，支持本地化运行。

1. 为什么选 DeepSeek-R1-Distill-Llama-8B？

1.1 它不是'又一个 8B 模型'，而是有明确能力边界的实用选择

DeepSeek-R1 系列基于强化学习（RL）训练，擅长链式思考、多步推演。DeepSeek-R1-Distill-Llama-8B 是从强基座上蒸馏出的轻量版本——用 Llama 架构承载 R1 的能力，兼顾性能与效率。

它在 AIME 2024 数学竞赛中 pass@1 达 50.4%，MATH-500 准确率 89.1%，CodeForces 评分 1205，GPQA Diamond 得分 49.0。这些数字背后是实际可用的能力：写技术方案、解算法题、读论文提炼核心论点。

1.2 为什么不用原生 HuggingFace 方式？Ollama+Docker Compose 才是生产力组合

HuggingFace + Transformers：适合研究者调试模型、修改 LoRA、做微调，需管理 Python 环境、PyTorch 版本、显存分配。
Ollama + Docker Compose：面向工程落地，把模型封装成标准 API 服务，只关心输入输出。

Ollama 自动处理模型下载、量化（默认 4-bit）、GPU 加速适配，提供统一的 REST API（/api/chat），支持模型热切换。Docker Compose 将启动变成一行命令：docker-compose up -d，自动拉取镜像、挂载目录、暴露端口。

2. 零配置部署：三步完成本地服务搭建

2.1 前置准备：确认你的机器满足基本条件

操作系统：Linux（Ubuntu 22.04/24.04、CentOS 8+）或 macOS（Intel/M1/M2/M3）；Windows 需使用 WSL2。
GPU 支持（推荐但非必需）：NVIDIA GPU + 驱动 ≥ 525 + CUDA Toolkit ≥ 12.1；若无 GPU，Ollama 会自动回退到 CPU 推理。
内存：≥16GB RAM（CPU 模式需≥24GB）；GPU 模式建议显存 ≥ 12GB。
磁盘空间：模型文件约 5.2GB，预留 15GB 空闲空间。

2.2 编写 docker-compose.yml：定义你的推理服务

新建文件夹 deepseek-r1-service，创建 docker-compose.yml 文件：

version: '3.8'
services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama-deepseek
    restart: unless-stopped
    ports:
      - "11434:11434"
    
       
       
    
       
       
    
      
        
          
              
               
               []

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 第一步：启动 Ollama 服务
docker-compose up -d ollama

# 第二步：等待服务就绪，然后拉取模型
docker exec -it ollama-deepseek ollama pull deepseek-r1:8b

curl -X POST http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{ "model": "deepseek-r1:8b", "messages": [{ "role": "user", "content": "用一句话解释什么是链式思维？" }], "stream": false }'

docker exec -it ollama-deepseek ollama run deepseek-r1:8b

import requests
import json

def ask_deepseek(question: str, model: str = "deepseek-r1:8b") -> str:
    url = "http://localhost:11434/api/chat"
    payload = {
        "model": model,
        "messages": [{"role": "user", "content": question}],
        "stream": False,
        "options": {
            "temperature": 0.3,
            "num_ctx": 4096
        }
    }
    try:
        response = requests.post(url, json=payload, timeout=120)
        response.raise_for_status()
        data = response.json()
        return data["message"]["content"].strip()
    except requests.exceptions.RequestException as e:
        return f"请求失败：{e}"
    except KeyError as e:
        return f"解析响应失败：{e}"

if __name__ == "__main__":
    result = ask_deepseek("请用中文解释 Transformer 架构中的自注意力机制。")
    print("DeepSeek-R1 的回答：\n", result)

import concurrent.futures
import time

questions = [
    "如何判断一个数是否为质数？给出 Python 实现。",
    "解释 HTTP 状态码 401 和 403 的区别。",
    "用 Markdown 写一个简洁的 API 文档模板。"
]

start_time = time.time()
with concurrent.futures.ThreadPoolExecutor(max_workers=3) as executor:
    futures = [executor.submit(ask_deepseek, q) for q in questions]
    results = [f.result() for f in concurrent.futures.as_completed(futures)]
end_time = time.time()
print(f"3 个问题总耗时：{end_time - start_time:.2f}秒")
for i, (q, r) in enumerate(zip(questions, results)):
    print(f"\n--- 问题{i+1} ---\n{q}\n\n回答：\n{r}")

{
  "model": "deepseek-r1:8b",
  "messages": [
    {"role": "system", "content": "你是一名资深 Python 工程师，回答要简洁、准确、可直接运行。"},
    {"role": "user", "content": "写一个函数，把字符串按空格分割，只保留长度大于 2 的单词。"}
  ],
  "stream": False
}

DeepSeek-R1-Distill-Llama-8B 部署：Docker Compose 推理服务

DeepSeek-R1-Distill-Llama-8B 部署教程：Docker Compose 编排多模型推理服务

1. 为什么选 DeepSeek-R1-Distill-Llama-8B？

1.1 它不是'又一个 8B 模型'，而是有明确能力边界的实用选择

1.2 为什么不用原生 HuggingFace 方式？Ollama+Docker Compose 才是生产力组合

2. 零配置部署：三步完成本地服务搭建

2.1 前置准备：确认你的机器满足基本条件

2.2 编写 docker-compose.yml：定义你的推理服务

更多推荐文章

相关免费在线工具

2.3 启动服务并拉取模型：一条命令搞定

2.4 验证服务是否正常工作

3. 实战调用：从命令行到 Python 脚本的三种用法

3.1 命令行交互：最快上手方式

3.2 Python 脚本调用：集成到你的项目中

3.3 批量处理：一次提交多个问题

4. 进阶技巧：让 8B 模型发挥更大价值

4.1 提示词优化：用好'系统提示'控制风格

4.2 模型对比：在同一套环境中快速切换不同模型

4.3 持久化与备份：保护你的模型和配置

5. 总结

更多推荐文章

相关免费在线工具

DeepSeek-R1-Distill-Llama-8B 部署：Docker Compose 推理服务

DeepSeek-R1-Distill-Llama-8B 部署教程：Docker Compose 编排多模型推理服务

1. 为什么选 DeepSeek-R1-Distill-Llama-8B？

1.1 它不是'又一个 8B 模型'，而是有明确能力边界的实用选择

1.2 为什么不用原生 HuggingFace 方式？Ollama+Docker Compose 才是生产力组合

2. 零配置部署：三步完成本地服务搭建

2.1 前置准备：确认你的机器满足基本条件

2.2 编写 docker-compose.yml：定义你的推理服务

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.3 启动服务并拉取模型：一条命令搞定

2.4 验证服务是否正常工作

3. 实战调用：从命令行到 Python 脚本的三种用法

3.1 命令行交互：最快上手方式

3.2 Python 脚本调用：集成到你的项目中

3.3 批量处理：一次提交多个问题

4. 进阶技巧：让 8B 模型发挥更大价值

4.1 提示词优化：用好'系统提示'控制风格

4.2 模型对比：在同一套环境中快速切换不同模型

4.3 持久化与备份：保护你的模型和配置

5. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具