引言
在本地部署大语言模型(LLM)时,Ollama 是一个轻量级、易用的推理服务框架。相比 Xinference、OpenLLM 等方案,Ollama 在网络环境受限或追求快速上手的情况下表现更为丝滑。本文将详细介绍如何使用 Docker 一键部署 Ollama,并进行模型调用与 API 测试。
一、Docker 环境部署
推荐使用 Docker 容器化部署,避免依赖冲突,实现一行代码启动。
1. 安装命令
docker run -d --gpus=all -v /yourworkspaces/Ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
2. 参数详解
-d:后台运行容器。--gpus=all:启用宿主机所有 GPU 资源。-v /yourworkspaces/Ollama:/root/.ollama:挂载卷,将容器内模型数据目录映射到本地路径,防止重启后丢失。-p 11434:11434:端口映射,宿主机 11434 端口对应容器内服务端口。--name ollama:指定容器名称,便于后续管理。ollama/ollama:Docker Hub 上的官方镜像。
执行命令后,系统将从 Docker Hub 拉取镜像并启动容器,通常耗时约 30 秒。
3. 状态检查
使用以下命令查看容器运行状态:
docker ps
输出示例中应包含 STATUS 为 Up,PORTS 显示 11434/tcp 已映射。浏览器访问 http://<宿主机 IP>:11434,若出现欢迎页面提示,则服务启动成功。
二、模型管理与运行
1. 拉取模型
进入容器内部拉取模型,例如 Mistral:
docker exec -it ollama ollama run mistral
首次运行会自动下载模型文件,速度取决于网络环境,通常可达百兆每秒级别。
2. 查看模型列表
列出本地已下载的模型:
docker exec -it ollama ollama list
3. 卸载模型
如需释放空间,可删除特定模型:
docker exec -it ollama ollama rm <model_name>
三、API 接口测试
Ollama 提供标准的 HTTP API,支持生成补全和对话模式。
1. 生成补全
使用 curl 发送请求进行文本生成:
curl http://localhost:11434/api/generate -d '{
"model": "mistral",
"prompt": "who are you?",
"stream": false
}'
返回结果为 JSON 格式,包含生成的文本内容。
2. 对话模式
支持多轮对话上下文管理:


