Ollama 简介
Ollama 是一个开源平台,旨在简化在本地环境中启动和运行大型语言模型(LLM)的过程。它提供了一个类似 OpenAI 的 API 接口,但无需复杂的开发配置即可直接通过命令行或集成工具与模型交互。Ollama 支持热切换模型,允许用户在同一会话中灵活加载不同的模型权重,为开发者提供了极大的便利性和多样性。
环境准备
在开始部署之前,请确保您的系统满足以下基本要求:
- 操作系统:macOS (11 Big Sur 及以上), Windows (10/11), Linux (Ubuntu 20.04+, CentOS 7+ 等)。
- 硬件要求:建议至少 8GB 内存,若运行较大参数模型(如 Llama-3-8B),推荐 16GB 以上;GPU 非必须,但能显著提升推理速度。
- 依赖软件:安装 Docker 及 Docker Compose(用于部署 OpenWebUI)。
安装 Ollama
macOS 用户
对于 macOS 用户,可以直接访问 Ollama 官网下载页面获取安装包。双击下载的 .dmg 文件并按照提示完成安装。安装完成后,终端将自动配置环境变量。
Windows 用户
Windows 用户可下载官方提供的 MSI 安装包。安装过程中建议勾选'添加到 PATH'选项,以便在任何目录使用 ollama 命令。安装后重启终端以生效。
Linux 用户
Linux 系统推荐使用官方脚本进行一键安装,该脚本会自动处理依赖关系并配置 systemd 服务。
curl -fsSL https://ollama.com/install.sh | sh
安装成功后,服务将自动启动并在后台运行。
模型管理
查看可用模型
Ollama 提供了丰富的模型库,涵盖多种架构和参数量级。您可以通过以下命令列出已安装的模型:
ollama list
输出示例:
NAME ID SIZE MODIFIED
gemma:2b b50d6c999e59 1.7 GB About an hour ago
llama2:latest 78e26419b446 3.8 GB 9 hours ago
qwen:latest d53d04290064 2.3 GB 8 hours ago
拉取与运行模型
使用 pull 命令从仓库下载模型,使用 run 命令启动对话。
# 下载 Qwen 模型
ollama pull qwen
# 运行模型进入交互式对话
ollama run qwen
在对话模式下,您可以输入自然语言指令,模型会实时生成回复。按 Ctrl+C 退出对话模式。
自定义 Modelfile
Ollama 支持通过 Modelfile 自定义模型行为,例如设置系统提示词、温度参数或指定上下文窗口大小。
创建一个名为 Modelfile 的文件:
FROM qwen:latest
SYSTEM "你是一个专业的编程助手,请用简洁的代码回答。"
PARAMETER temperature
num_ctx


