当把 Ollama 放到团队协作环境、服务器长期运行场景,或是纳入正式项目开发流程时,会立刻发现一个核心问题:本机安装虽简单,却缺乏工程化属性。
本地安装的典型痛点集中在这几点:
- 环境易污染,容易出现 CUDA 版本、依赖包的冲突问题
- 机器迁移成本高,换服务器需要重新配置全套环境
- 服务状态不可控,缺乏标准化的启停、监控方式
- 无法无缝接入企业现有运维体系,与容器化、自动化部署流程脱节
也正因如此,在真实的项目落地场景中,Docker 方式部署 Ollama 才是更合理、更可持续的选择。
本文不只是教你把 Docker 版 Ollama'跑起来',更核心的是带你理解:如何用 Docker 部署 Ollama,让它真正具备工程可用性,适配团队协作与生产级的使用需求。
一、什么时候必须使用 Docker?
很多开发者会有疑问:「我本地直接安装 Ollama 用着挺好,为什么非要用 Docker?」
答案很明确:本地安装可以用,但仅适合个人实验、功能验证阶段。
当你的使用场景出现以下任意一种情况时,建议直接采用 Docker 部署方案,这会从根源上规避后续的诸多问题:
- 需要在服务器上长期运行 Ollama 服务
- 需对外暴露大模型 API 接口,供业务系统调用
- 希望利用 GPU 加速推理,提升模型响应速度
- 计划将服务迁移到云服务器或混合云环境
- 未来可能接入 Kubernetes(k8s)进行集群化管理
- 需要和企业现有 CI/CD 自动化部署体系融合
Docker 部署的核心价值,从来不是"操作更方便",而是为大模型本地部署赋予环境可复制、服务可管理、数据可持久化的工程化特性,这也是从个人使用到团队协作的关键跨越。
二、基础环境准备
Docker 部署的前提是搭建好基础的 Docker 环境,这一步是所有操作的基础,建议在生产服务器上使用官方源安装,保证环境稳定性。
检查 Docker 安装状态
首先在终端执行以下命令,确认服务器是否已安装 Docker:
docker version
如果能正常输出 Docker 的客户端和服务端版本号,说明环境已就绪;若未安装,需参考 Docker 官方文档,根据自己的操作系统(Ubuntu/CentOS/Windows Server 等)安装最新稳定版本。
三、三种运行方式:CPU / Nvidia GPU / AMD GPU
这是 Docker 部署 Ollama 最容易踩坑的环节——不同的硬件配置(CPU/英伟达 GPU/AMD GPU),对应的容器启动参数完全不同,选不对参数会导致硬件资源无法利用,甚至容器启动失败。
1️⃣ CPU 方式运行
如果只是做功能测试,或是服务器没有独立显卡,可直接采用纯 CPU 方式运行,无需额外配置硬件驱动,命令如下:
docker run -d \
-v ollama:/root/.ollama \
-p 11434:11434 \
--name ollama \
ollama/ollama
核心参数说明
/root/.ollama:Ollama 的模型存储和配置目录,所有拉取的模型都会存放在这里-v ollama:/root/.ollama:通过 Docker 命名卷实现数据持久化,即使容器被删除,模型文件也不会丢失。其中ollama是卷的名称,可通过docker volume ls查看-p 11434:11434:映射容器端口到宿主机,11434 是 Ollama 的默认 API 通信端口--name ollama:为容器命名,方便后续的启停、查看等操作
该方式下,模型的推理计算全部由 CPU 承担,响应速度较慢,仅适合小模型、低并发的测试场景。


