引言
在本地部署大语言模型(LLM)时,Ollama 是一个轻量级、易用的推理服务框架。相比 Xinference、OpenLLM 等方案,Ollama 在网络环境受限或追求快速上手的情况下表现更为丝滑。本文将详细介绍如何使用 Docker 一键部署 Ollama,并进行模型调用与 API 测试。
本文介绍了大模型推理服务框架 Ollama 的本地部署方法。通过 Docker 容器快速启动服务,支持拉取 Mistral 等开源模型。内容涵盖 Docker 运行参数解析、模型下载与运行、API 接口测试(生成与对话模式)、以及集成到 Dify 平台的基础配置。此外补充了环境变量设置、模型卸载及 Python 客户端调用示例,帮助开发者快速搭建本地大模型推理环境。

在本地部署大语言模型(LLM)时,Ollama 是一个轻量级、易用的推理服务框架。相比 Xinference、OpenLLM 等方案,Ollama 在网络环境受限或追求快速上手的情况下表现更为丝滑。本文将详细介绍如何使用 Docker 一键部署 Ollama,并进行模型调用与 API 测试。
推荐使用 Docker 容器化部署,避免依赖冲突,实现一行代码启动。
docker run -d --gpus=all -v /yourworkspaces/Ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
-d:后台运行容器。--gpus=all:启用宿主机所有 GPU 资源。-v /yourworkspaces/Ollama:/root/.ollama:挂载卷,将容器内模型数据目录映射到本地路径,防止重启后丢失。-p 11434:11434:端口映射,宿主机 11434 端口对应容器内服务端口。--name ollama:指定容器名称,便于后续管理。ollama/ollama:Docker Hub 上的官方镜像。执行命令后,系统将从 Docker Hub 拉取镜像并启动容器,通常耗时约 30 秒。
使用以下命令查看容器运行状态:
docker ps
输出示例中应包含 STATUS 为 Up,PORTS 显示 11434/tcp 已映射。浏览器访问 http://<宿主机 IP>:11434,若出现欢迎页面提示,则服务启动成功。
进入容器内部拉取模型,例如 Mistral:
docker exec -it ollama ollama run mistral
首次运行会自动下载模型文件,速度取决于网络环境,通常可达百兆每秒级别。
列出本地已下载的模型:
docker exec -it ollama ollama list
如需释放空间,可删除特定模型:
docker exec -it ollama ollama rm <model_name>
Ollama 提供标准的 HTTP API,支持生成补全和对话模式。
使用 curl 发送请求进行文本生成:
curl http://localhost:11434/api/generate -d '{
"model": "mistral",
"prompt": "who are you?",
"stream": false
}'
返回结果为 JSON 格式,包含生成的文本内容。
支持多轮对话上下文管理:
curl http://localhost:11434/api/chat -d '{
"model": "mistral",
"messages": [
{"role": "user", "content": "why is the sky blue?"}
],
"stream": false
}'
开发者可使用 Python 的 requests 库进行集成:
import requests
import json
def chat_with_ollama(prompt):
url = "http://localhost:11434/api/chat"
data = {
"model": "mistral",
"messages": [{"role": "user", "content": prompt}],
"stream": False
}
response = requests.post(url, json=data)
return response.json()
result = chat_with_ollama("Hello, how are you?")
print(result['message']['content'])
Ollama 可作为模型供应商接入开源 AI 应用开发平台 Dify。在 Dify 的模型设置中添加 Ollama 端点,输入宿主机 IP 和端口即可使用。这能显著提升 AI 智能体的开发效率,无需处理复杂的鉴权逻辑。
可通过环境变量调整 Ollama 行为,例如修改监听地址:
export OLLAMA_HOST=0.0.0.0:11434
此设置允许外部网络访问,但需注意安全风险。
默认情况下,Ollama 仅监听 localhost。若需远程访问,务必配置防火墙规则,限制特定 IP 段访问 11434 端口,防止未授权调用消耗算力资源。
本文详细记录了 Ollama 从 Docker 部署、模型管理到 API 调用的完整流程。通过容器化部署,可以快速搭建本地大模型推理环境。对于希望深入探索大模型技术的开发者,建议结合 Docker Compose 进行编排管理,并关注官方文档以获取最新的模型支持列表。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online