Docker 部署 Ollama 全流程：CPU/GPU 支持与生产环境实践

当把 Ollama 放到团队协作环境、服务器长期运行场景，或是纳入正式项目开发流程时，会立刻发现一个核心问题：本机安装虽简单，却缺乏工程化属性。

本地安装的典型痛点集中在这几点：

环境易污染，容易出现 CUDA 版本、依赖包的冲突问题
机器迁移成本高，换服务器需要重新配置全套环境
服务状态不可控，缺乏标准化的启停、监控方式
无法无缝接入企业现有运维体系，与容器化、自动化部署流程脱节

也正因如此，在真实的项目落地场景中，Docker 方式部署 Ollama 才是更合理、更可持续的选择。

本文不只是教你把 Docker 版 Ollama'跑起来'，更核心的是带你理解：如何用 Docker 部署 Ollama，让它真正具备工程可用性，适配团队协作与生产级的使用需求。

一、什么时候必须使用 Docker？

很多开发者会有疑问：「我本地直接安装 Ollama 用着挺好，为什么非要用 Docker？」

答案很明确：本地安装可以用，但仅适合个人实验、功能验证阶段。

当你的使用场景出现以下任意一种情况时，建议直接采用 Docker 部署方案，这会从根源上规避后续的诸多问题：

需要在服务器上长期运行 Ollama 服务
需对外暴露大模型 API 接口，供业务系统调用
希望利用 GPU 加速推理，提升模型响应速度
计划将服务迁移到云服务器或混合云环境
未来可能接入 Kubernetes（k8s）进行集群化管理
需要和企业现有 CI/CD 自动化部署体系融合

Docker 部署的核心价值，从来不是"操作更方便"，而是为大模型本地部署赋予环境可复制、服务可管理、数据可持久化的工程化特性，这也是从个人使用到团队协作的关键跨越。

二、基础环境准备

Docker 部署的前提是搭建好基础的 Docker 环境，这一步是所有操作的基础，建议在生产服务器上使用官方源安装，保证环境稳定性。

检查 Docker 安装状态

首先在终端执行以下命令，确认服务器是否已安装 Docker：

docker version

如果能正常输出 Docker 的客户端和服务端版本号，说明环境已就绪；若未安装，需参考 Docker 官方文档，根据自己的操作系统（Ubuntu/CentOS/Windows Server 等）安装最新稳定版本。

三、三种运行方式：CPU / Nvidia GPU / AMD GPU

这是 Docker 部署 Ollama 最容易踩坑的环节——不同的硬件配置（CPU/英伟达 GPU/AMD GPU），对应的容器启动参数完全不同，选不对参数会导致硬件资源无法利用，甚至容器启动失败。

1️⃣ CPU 方式运行

如果只是做功能测试，或是服务器没有独立显卡，可直接采用纯 CPU 方式运行，无需额外配置硬件驱动，命令如下：

docker run -d \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

核心参数说明

/root/.ollama：Ollama 的模型存储和配置目录，所有拉取的模型都会存放在这里
-v ollama:/root/.ollama：通过 Docker 命名卷实现数据持久化，即使容器被删除，模型文件也不会丢失。其中 ollama 是卷的名称，可通过 docker volume ls 查看
-p 11434:11434：映射容器端口到宿主机，11434 是 Ollama 的默认 API 通信端口
--name ollama：为容器命名，方便后续的启停、查看等操作

该方式下，模型的推理计算全部由 CPU 承担，响应速度较慢，仅适合小模型、低并发的测试场景。

Docker 部署 Ollama 全流程：CPU/GPU 支持与生产环境实践

一、什么时候必须使用 Docker？

二、基础环境准备

检查 Docker 安装状态

三、三种运行方式：CPU / Nvidia GPU / AMD GPU

1️⃣ CPU 方式运行

核心参数说明

更多推荐文章

相关免费在线工具

2️⃣ Nvidia GPU 方式运行（推荐）

① 安装 NVIDIA Container Toolkit

② 启动 GPU 版 Ollama 容器

核心参数说明

3️⃣ AMD GPU 方式运行

核心参数说明

四、如何判断是否真的使用了 GPU？

NVIDIA GPU 验证

AMD GPU 验证

五、拉取并运行模型

直接运行模型

单独拉取模型

六、验证服务是否可用

步骤 1：检查容器运行状态

步骤 2：访问本地 API 接口

七、工程化优化建议（强烈建议做）

1️⃣ 替换命名 Volume，使用本地目录映射

2️⃣ 添加自动重启参数，保证服务高可用

3️⃣ 设置资源限制，防止拖垮宿主机

八、推荐使用 Docker Compose 管理服务

1️⃣ 编写 docker-compose.yml 配置文件

2️⃣ 启动/停止服务

Docker Compose 核心优势

九、总结

更多推荐文章

相关免费在线工具

Docker 部署 Ollama 全流程：CPU/GPU 支持与生产环境实践

一、什么时候必须使用 Docker？

二、基础环境准备

检查 Docker 安装状态

三、三种运行方式：CPU / Nvidia GPU / AMD GPU

1️⃣ CPU 方式运行

核心参数说明

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2️⃣ Nvidia GPU 方式运行（推荐）

① 安装 NVIDIA Container Toolkit

② 启动 GPU 版 Ollama 容器

核心参数说明

3️⃣ AMD GPU 方式运行

核心参数说明

四、如何判断是否真的使用了 GPU？

NVIDIA GPU 验证

AMD GPU 验证

五、拉取并运行模型

直接运行模型

单独拉取模型

六、验证服务是否可用

步骤 1：检查容器运行状态

步骤 2：访问本地 API 接口

七、工程化优化建议（强烈建议做）

1️⃣ 替换命名 Volume，使用本地目录映射

2️⃣ 添加自动重启参数，保证服务高可用

3️⃣ 设置资源限制，防止拖垮宿主机

八、推荐使用 Docker Compose 管理服务

1️⃣ 编写 docker-compose.yml 配置文件

2️⃣ 启动/停止服务

Docker Compose 核心优势

九、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具