Ollama 本地部署大语言模型使用指南
Ollama 是一个支持在本地运行大语言模型的工具,兼容 Windows、Linux 和 MacOS。本文详细介绍了 Ollama 的安装步骤、常用模型下载、命令行交互方式以及基于 Docker 的图形界面部署方案。内容涵盖模型管理命令、API 调用示例及硬件优化建议,帮助用户搭建本地 AI 环境,实现数据隐私保护与离线使用。

Ollama 是一个支持在本地运行大语言模型的工具,兼容 Windows、Linux 和 MacOS。本文详细介绍了 Ollama 的安装步骤、常用模型下载、命令行交互方式以及基于 Docker 的图形界面部署方案。内容涵盖模型管理命令、API 调用示例及硬件优化建议,帮助用户搭建本地 AI 环境,实现数据隐私保护与离线使用。

大模型是当前技术领域的热点话题,无论是国外的 ChatGPT、Llama3,还是国内的文心一言、通义千问等,都备受关注。Ollama 是一个支持在本地运行大语言模型的工具,兼容 Windows、Linux 和 MacOS 操作系统。它允许用户无需联网即可在本地设备上运行开源大模型,保障数据隐私并降低延迟。
Ollama 支持主流桌面操作系统,安装方式简单快捷。
brew install ollama
curl -fsSL https://ollama.com/install.sh | sh
访问官网下载 Windows 安装包进行安装,或直接在 PowerShell 中运行:
winget install Ollama.Ollama
安装完成后,服务会自动启动并在后台运行。
Ollama 本身不包含预装模型,需要单独拉取。支持的模型库可在 ollama.com/library 查看。以下是部分常用模型及其参数信息:
| Model | Parameters | Size | Download Command |
|---|---|---|---|
| Llama 3 | 8B | 4.7GB | ollama run llama3 |
| Llama 3 | 70B | 40GB | ollama run llama3:70b |
| Phi 3 Mini | 3.8B | 2.3GB | ollama run phi3 |
| Phi 3 Medium | 14B | 7.9GB | ollama run phi3:medium |
| Gemma | 2B | 1.4GB | ollama run gemma:2b |
| Mistral | 7B | 4.1GB | ollama run mistral |
| Code Llama | 7B | 3.8GB | ollama run codellama |
| LLaVA | 7B | 4.5GB | ollama run llava |
示例: 拉取并运行 Qwen 模型(阿里通义千问)
ollama pull qwen
ollama run qwen
安装并拉取模型后,可直接在终端与模型对话。Ollama 默认监听本地端口 11434。
ollama run llama3
> 你现在是一个程序员,请用 JS 写一个冒泡排序算法。
> 好的,这是一个简单的冒泡排序实现...
Ollama 支持上下文记忆,可以在同一会话中进行多轮提问。
虽然命令行足够强大,但图形界面能提供更好的体验。Open WebUI 是一个流行的开源 UI 项目,支持连接本地 Ollama 实例。
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
部署完成后,访问 http://localhost:3000 即可使用。该界面支持切换已安装的本地模型、管理对话历史以及配置系统提示词。
Ollama 提供了 RESTful API,方便开发者集成到自己的应用中。
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "为什么天空是蓝色的?"
}'
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={
'model': 'llama3',
'prompt': '解释一下量子力学的基本概念',
'stream': False
}
)
print(response.json()['response'])
除了运行模型,Ollama 还提供了丰富的管理命令。
ollama listollama rm <model_name>ollama cp <source> <destination>ollama show <model_name>ollama serve (通常自动启动)本地运行大模型对硬件有一定要求,特别是显存和内存。
OLLAMA_NUM_PARALLEL 调整并发请求数,或通过 OLLAMA_MAX_LOADED_MODELS 限制同时加载的模型数量。Ollama 为开发者提供了一个便捷的本地大模型运行环境。相比云端 API,其优势在于数据隐私安全、无网络依赖以及零成本使用。虽然目前本地模型在推理速度和复杂任务处理能力上与顶级云端模型仍有差距,但随着硬件性能提升和模型轻量化技术的发展,本地部署将成为企业和个人用户的重要选择。通过结合 Open WebUI 和 API 接口,用户可以快速构建个性化的 AI 助手应用。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online