Ollama 本地部署与运行开源大模型指南
简介
在本地运行开源大型语言模型(LLM)是许多开发者和隐私敏感型用户的首选方案。Ollama 是一款流行的工具,旨在简化本地部署和运行大型语言模型的过程。它提供了一个统一的命令行界面(CLI)和图形用户界面(GUI),支持模型的拉取、移除、运行以及自定义模型创建。
使用 Ollama,您无需手动下载庞大的模型文件,也无需构建复杂的 API 服务。只需安装应用程序,即可拥有强大的模型管理能力。
系统要求
在开始之前,请确保您的环境满足以下基本要求:
- 操作系统:macOS (Apple Silicon 或 Intel), Linux, Windows (10/11)
- 内存:建议至少 8GB RAM,推荐 16GB 或以上以运行较大模型
- 存储:根据模型大小预留空间,通常每个模型需要 2GB 至 10GB 不等
- GPU:虽然不是强制要求,但配备 GPU 可显著提升推理速度
安装方法
1. 桌面应用安装
访问 Ollama 官方网站下载对应操作系统的安装包,按照提示完成安装。安装完成后,应用程序将自动启动并在后台运行服务。
2. Docker 部署
对于服务器环境或容器化需求,可以使用 Docker 快速部署:
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
此命令将创建一个名为 ollama 的容器,挂载卷以持久化模型数据,并暴露 11434 端口供外部访问。
支持的模型
Ollama 支持众多主流开源模型,您可以在其官方库中查看完整列表。常见的模型包括:
- llama2
- mistral
- llava
- mixtral
- starling-lm
- neural-chat
- codellama
- dolphin-mixtral
- phi
- qwen
命令行操作
启动服务
如果未通过桌面应用启动,可以通过 CLI 手动启动服务:
ollama serve
拉取模型
使用 pull 命令下载模型到本地:
ollama pull llama2
ollama pull mistral
执行后,终端会显示下载进度及校验信息。
运行模型
使用 run 命令进入交互式对话模式:
ollama run orca-mini
启动后,您可以输入问题并获得模型的回复。按 Ctrl+D 退出对话。
列出已安装模型
查看所有本地下载的模型及其状态:
ollama list
输出示例:
| NAME | ID | SIZE | MODIFIED |
|---|


