AI 大模型本地部署指南:使用 Ollama 快速运行
概述
随着人工智能技术的快速发展,大型语言模型(LLM)的应用场景日益广泛。然而,将数据上传至云端服务往往涉及隐私泄露风险和高昂的 API 调用成本。通过本地部署大模型,开发者可以在完全离线的环境下运行推理,确保数据隐私并降低延迟。
Ollama 是一个开源工具,专为在本地机器上高效运行大型语言模型而设计。它简化了模型下载、管理和运行的流程,支持多种主流架构,如 Llama 3、Mistral、Gemma 等。
系统要求
在开始部署之前,请确认您的硬件环境满足以下基本要求:
- 操作系统:macOS (Apple Silicon 或 Intel), Linux, Windows (10/11)
- 内存 (RAM):
- 7B 参数模型建议至少 8GB RAM
- 13B 参数模型建议至少 16GB RAM
- 33B 及以上模型建议 32GB+ RAM
- 显卡 (GPU):虽然 CPU 可运行模型,但配备 NVIDIA GPU (CUDA) 或 Apple M 系列芯片能显著提升推理速度。
- 存储空间:每个模型文件通常在 4GB 到 50GB 之间,取决于量化级别。
安装 Ollama
macOS / Linux
使用 Homebrew 或官方脚本进行安装:
# macOS (Homebrew)
brew install ollama
# Linux (官方脚本)
curl -fsSL https://ollama.com/install.sh | sh
Windows
访问 Ollama 官网下载 Windows 安装包,按照向导完成安装。安装完成后,系统托盘会出现 Ollama 图标,表示服务已启动。
验证安装是否成功,可在终端运行:
ollama --version
模型管理
Ollama 内置了模型仓库,用户无需手动下载权重文件。
拉取模型
使用 pull 命令下载模型。例如,下载 Llama 3 版本:
ollama pull llama3
其他常用模型包括:
ollama pull mistral
ollama pull gemma:2b
ollama pull codellama
查看已安装模型
列出本地所有可用模型及其大小:
ollama list
删除模型
如需释放空间,可使用 rm 命令:
ollama rm llama3
模型交互与推理
命令行交互
Ollama 默认提供交互式对话模式。输入模型名称即可开始对话:
ollama run llama3
进入交互界面后,直接输入问题,模型将以流式输出返回结果。例如:
User: What is the capital of France? Model: The capital of France is Paris.


