Ollama 本地部署与运行开源大模型指南

简介

在本地运行开源大型语言模型（LLM）是许多开发者和隐私敏感型用户的首选方案。Ollama 是一款流行的工具，旨在简化本地部署和运行大型语言模型的过程。它提供了一个统一的命令行界面（CLI）和图形用户界面（GUI），支持模型的拉取、移除、运行以及自定义模型创建。

使用 Ollama，您无需手动下载庞大的模型文件，也无需构建复杂的 API 服务。只需安装应用程序，即可拥有强大的模型管理能力。

系统要求

在开始之前，请确保您的环境满足以下基本要求：

操作系统：macOS (Apple Silicon 或 Intel), Linux, Windows (10/11)
内存：建议至少 8GB RAM，推荐 16GB 或以上以运行较大模型
存储：根据模型大小预留空间，通常每个模型需要 2GB 至 10GB 不等
GPU：虽然不是强制要求，但配备 GPU 可显著提升推理速度

安装方法

1. 桌面应用安装

访问 Ollama 官方网站下载对应操作系统的安装包，按照提示完成安装。安装完成后，应用程序将自动启动并在后台运行服务。

2. Docker 部署

对于服务器环境或容器化需求，可以使用 Docker 快速部署：

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

此命令将创建一个名为 ollama 的容器，挂载卷以持久化模型数据，并暴露 11434 端口供外部访问。

支持的模型

Ollama 支持众多主流开源模型，您可以在其官方库中查看完整列表。常见的模型包括：

llama2
mistral
llava
mixtral
starling-lm
neural-chat
codellama
dolphin-mixtral
phi
qwen

命令行操作

启动服务

如果未通过桌面应用启动，可以通过 CLI 手动启动服务：

ollama serve

拉取模型

使用 pull 命令下载模型到本地：

ollama pull llama2
ollama pull mistral

执行后，终端会显示下载进度及校验信息。

运行模型

使用 run 命令进入交互式对话模式：

ollama run orca-mini

启动后，您可以输入问题并获得模型的回复。按 Ctrl+D 退出对话。

列出已安装模型

查看所有本地下载的模型及其状态：

ollama list

输出示例：

NAME	ID	SIZE	MODIFIED

llama2:7b-chat	fe938a131f40	3.8 GB	8 weeks ago
orca-mini:latest	2dbd9f439647	2.0 GB	25 hours ago

Ollama 本地部署与运行开源大模型指南