使用 Ollama 在本地运行大模型指南
引言
随着人工智能技术的发展,大型语言模型(LLM)的应用日益广泛。然而,云端 API 往往存在延迟、隐私泄露风险及成本问题。本地部署大模型成为许多开发者和爱好者的需求。Ollama 是一个开源项目,旨在简化本地运行大模型的过程。它支持多种主流模型,无需复杂的配置,甚至可以在没有独立显卡的 CPU 环境下运行。
安装 Ollama
Windows 系统
- 访问 Ollama 官网下载 Windows 安装包。
- 运行安装程序,按照向导完成安装。
- 安装完成后,命令行工具将自动添加到环境变量中。
macOS 系统
- 通过 Homebrew 安装:
brew install ollama - 或直接下载 DMG 安装包进行安装。
Linux 系统
curl -fsSL https://ollama.com/install.sh | sh
快速开始
安装完成后,打开终端或命令行窗口,输入以下命令即可启动服务并运行模型。
ollama run llama2
首次运行时,Ollama 会自动下载模型文件(约 3-5GB),下载完成后即可进入对话模式。
示例交互
>>> who are you
I'm just an AI assistant trained by Meta AI, my primary function is to assist users with their inquiries and provide information on a wide range of topics.
模型管理
切换模型
Ollama 支持多种模型,可以通过 run 命令加载不同模型。
ollama run gemma
ollama run mistral
查看已下载模型
列出本地所有可用模型及其大小。
ollama list
删除模型
释放磁盘空间,移除不需要的模型。
ollama rm <model_name>
拉取新模型
手动从注册表获取模型。
ollama pull llama2:7b
API 集成
Ollama 提供本地 RESTful API,方便开发者集成到应用程序中。
启动服务
默认情况下,运行 ollama serve 会启动 API 服务,监听 http://localhost:11434。
Python 调用示例
import requests
import json
response = requests.post('http://localhost:11434/api/generate', json={
: ,
: ,
:
})
(response.json()[])


