Ollama 本地 AI 大模型部署与使用指南
Ollama 是一款开源的本地大模型管理工具,支持在 Windows、macOS 和 Linux 上运行。 Ollama 的核心优势、系统要求及多平台安装步骤。内容涵盖常用命令详解、热门模型推荐(如 Llama 3、Qwen)、实战案例(编程助手、文档分析)以及进阶配置(Open WebUI、API 调用)。通过本地部署,可实现数据隐私保护、离线可用及零成本使用。

Ollama 是一款开源的本地大模型管理工具,支持在 Windows、macOS 和 Linux 上运行。 Ollama 的核心优势、系统要求及多平台安装步骤。内容涵盖常用命令详解、热门模型推荐(如 Llama 3、Qwen)、实战案例(编程助手、文档分析)以及进阶配置(Open WebUI、API 调用)。通过本地部署,可实现数据隐私保护、离线可用及零成本使用。

在 AI 越来越普及的今天,ChatGPT、Claude 等云端 AI 工具虽然好用,但总面临以下问题:
| 问题 | 说明 |
|---|---|
| 🔒 数据隐私 | 公司代码、文档不敢随便传到云上,怕有泄露风险 |
| 🌐 网络依赖 | 每次调用都要走网络,请求慢、还容易超时 |
| 💰 使用成本 | API 调用费用高,频繁使用成本惊人 |
| 🔑 管理复杂 | API Key 管理麻烦,团队协作容易乱 |
本地大模型(Local LLM)刚好解决这些问题:
Ollama 是一个开源、免费的本地化大型语言模型管理工具,让普通用户也能在个人电脑上轻松运行先进的 AI 模型。

| 特点 | 说明 |
|---|---|
| 📦 一键部署 | 无需配置 Python 环境、CUDA、依赖库 |
| 🔄 自动量化 | 自动下载 GGUF 4-bit 量化模型,节省显存 |
| 💻 跨平台 | Windows/macOS/Linux 全支持 |
| 🚀 简单易用 | 一行命令即可运行大模型 |
| 🔌 API 支持 | 提供标准 REST API,方便集成开发 |
| 📚 模型丰富 | 支持 480+ 开源模型 |
就像用 Docker 管理容器化应用一样,Ollama 把 AI 模型的权重、配置和运行环境打包成了"一站式解决方案"。你不需要写一行 Python 代码,只需要一行命令就能在本地跑起大模型。
| 传统部署方式 | Ollama 部署方式 |
|---|---|
| ❌ 安装 Python、配置 CUDA、下载权重文件、编写运行代码 | ✅ 下载安装包、双击安装、一行命令 |
在开始前,花 10 秒检查你的设备是否满足最低要求,避免白忙活:
| 配置 | 最低要求 | 推荐配置 | 说明 |
|---|---|---|---|
| CPU | 4 核及以上 | 8 核及以上 | 现在的电脑基本都满足 |
| 内存 | 8GB | 16GB+ | 内存越大,能跑的模型越大 |
| 硬盘 | 10GB 空闲 | 50GB+ | 模型文件需要占用空间 |
| GPU | 非必需 | NVIDIA 显卡 | 有 GPU 推理速度更快 |
| 模型参数量 | 内存需求 | 适合场景 |
|---|---|---|
| 1B - 3B | 2-4GB | 简单对话、低配电脑 |
| 7B - 8B | 6-8GB | 日常使用、主流选择 |
| 14B - 32B | 12-24GB | 专业任务、高性能电脑 |
| 70B+ | 48GB+ | 企业级、多卡服务器 |
步骤 1:下载安装包
访问 Ollama 官网下载页面:https://ollama.com/download
或者直接下载 Windows 安装包:OllamaSetup.exe
💡 国内用户提示:如果官网下载速度慢,可以使用镜像源或加速链接
步骤 2:运行安装程序
OllamaSetup.exe 文件步骤 3:验证安装
打开命令提示符(CMD)或 PowerShell,输入:
ollama --version
如果显示版本号,说明安装成功!
以管理员身份打开 PowerShell,执行:
iwr -useb https://ollama.com/install.ps1 | iex
步骤 1:下载安装包
访问官网下载 macOS 版本:Ollama.dmg(适配 macOS 14 Sonoma 及更高版本)
步骤 2:安装
.dmg 文件步骤 3:验证安装
打开终端(Terminal),输入:
ollama --version
打开终端,执行:
curl -fsSL https://ollama.com/install.sh | sh
步骤 1:执行安装命令
curl -fsSL https://ollama.com/install.sh | sh
步骤 2:验证安装
ollama --version
步骤 3:检查服务状态
systemctl status ollama
也可以使用 Docker 方式安装:
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
安装完成后,执行以下命令验证:
# 1. 检查版本号
ollama --version
# 2. 检查服务是否运行
curl http://localhost:11434 # 出现 "Ollama is running" 说明安装成功!
Ollama 的命令非常简单,掌握以下几个核心命令就能轻松使用:
# 下载并运行模型(最常用!)
ollama run <模型名>
# 示例:运行 Llama 3 模型
ollama run llama3
# 仅下载模型但不运行
ollama pull <模型名>
# 示例:下载 Qwen 模型
ollama pull qwen2.5
# 查看本地已安装的模型列表
ollama list
# 删除本地模型(释放空间)
ollama rm <模型名>
# 示例:删除 llama3 模型
ollama rm llama3
# 运行模型并进入交互对话
ollama run <模型名>
# 运行模型并传入单条消息
ollama run <模型名> "你好,请介绍一下你自己"
# 运行模型并指定参数
ollama run <模型名> --num_ctx 4096 --temperature 0.7
# 后台运行模型服务
ollama serve
# 查看 Ollama 版本
ollama --version
# 查看正在运行的模型
ollama ps
# 查看模型详细信息
ollama show <模型名>
# 复制模型(创建副本)
ollama cp <源模型> <目标模型>
| 参数 | 说明 | 默认值 |
|---|---|---|
--num_ctx | 上下文长度(token 数) | 2048 |
--temperature | 生成温度(越高越随机) | 0.8 |
--num_predict | 最大生成 token 数 | 128 |
--top_k | 采样时考虑的候选词数量 | 40 |
--top_p | 核采样概率阈值 | 0.9 |
Ollama 支持 480+ 开源模型,以下是 2026 年最值得推荐的模型:
| 模型名称 | 参数量 | 适合场景 | 内存需求 | 推荐指数 |
|---|---|---|---|---|
| Llama 3.3 | 70B | 通用推理、英文任务 | 48GB+ | ⭐⭐⭐⭐⭐ |
| Qwen3.5 | 32B | 中文场景、复杂推理 | 24GB | ⭐⭐⭐⭐⭐ |
| DeepSeek-R1 | 32B | 强推理、代码生成 | 24GB | ⭐⭐⭐⭐⭐ |
| Qwen2.5-Coder | 32B | 代码专用 | 24GB | ⭐⭐⭐⭐ |
| Llama 3.1 | 8B | 日常使用、低配电脑 | 6GB | ⭐⭐⭐⭐ |
# 轻量级(低配电脑)
ollama run llama3.1:8b
# 平衡型(主流配置)
ollama run llama3.3:70b
# 中文优化
ollama run qwen3.5:32b
# 代码专用模型
ollama run qwen2.5-coder:32b
# 通用代码能力
ollama run deepseek-coder:6.7b
# 强推理模型
ollama run deepseek-r1:32b
# 思考链模式
ollama run qwen3-max-thinking
# 多语言模型
ollama run gemma3:7b
# 中文优化
ollama run qwen2.5:14b
对于第一次使用 Ollama 的用户,推荐从以下模型开始:
# 入门首选:轻量、快速、效果好
ollama run llama3.2:3b
# 中文用户推荐
ollama run qwen2.5:7b
# 平衡性能和资源
ollama run mistral:7b
场景:作为开发者,想要一个能理解项目代码、帮助写代码的 AI 助手,但担心代码泄露。
步骤 1:下载代码专用模型
ollama pull qwen2.5-coder:32b
步骤 2:创建对话
ollama run qwen2.5-coder:32b
步骤 3:开始使用
>>> 请帮我写一个 Python 函数,用于计算斐波那契数列
def fibonacci(n):
if n <= 0:
return []
elif n == 1:
return [0]
fib_list = [0, 1]
for i in range(2, n):
fib_list.append(fib_list[i-1] + fib_list[i-2])
return fib_list
# 使用示例
print(fibonacci(10)) # 输出:[0, 1, 1, 2, 3, 5, 8, 13, 21, 34]
优势:代码完全在本地处理,不用担心泄露到云端!
场景:需要分析大量本地文档,但不想上传到云端。
步骤 1:下载适合长文本的模型
ollama pull qwen3.5:32b
步骤 2:使用 Ollama API 读取文件
创建一个 Python 脚本 doc_analyzer.py:
import requests
def analyze_document(file_path, prompt):
# 读取文件内容
with open(file_path, 'r', encoding='utf-8') as f:
content = f.read()
# 调用 Ollama API
response = requests.post(
'http://localhost:11434/api/generate',
json={
'model': 'qwen3.5:32b',
'prompt': f'{prompt}\n\n文档内容:\n{content}',
'stream': False
}
)
return response.json()['response']
# 使用示例
result = analyze_document('report.txt', '请总结这份文档的主要内容')
print(result)
步骤 3:运行脚本
python doc_analyzer.py
场景:需要翻译敏感文档,不能联网。
# 下载多语言模型
ollama run gemma3:7b "请将以下内容翻译成英文:你好,今天天气很好"
Ollama 默认是命令行界面,如果想要类似 ChatGPT 的网页界面,可以安装 Open WebUI:
步骤 1:使用 Docker 安装
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
步骤 2:访问界面
浏览器打开:http://localhost:3000
步骤 3:配置 Ollama 连接
在设置中添加 Ollama 服务地址:http://host.docker.internal:11434
Ollama 提供标准的 REST API,方便集成到其他应用:
import requests
# 简单对话
response = requests.post(
'http://localhost:11434/api/generate',
json={
'model': 'llama3',
'prompt': '你好,请介绍一下你自己',
'stream': False
}
)
print(response.json()['response'])
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={
'model': 'llama3',
'prompt': '写一首关于春天的诗',
'stream': True
},
stream=True
)
for line in response.iter_lines():
if line:
print(line.decode('utf-8'),)
可以创建自定义的 Modelfile 来配置模型行为:
步骤 1:创建 Modelfile
FROM llama3
# 设置系统提示
SYSTEM """
你是一个专业的编程助手,擅长 Python、JavaScript 等编程语言。
请用简洁、清晰的代码回答问题。
"""
# 设置参数
PARAMETER temperature 0.7
PARAMETER num_ctx 4096
步骤 2:创建自定义模型
ollama create my-coder -f Modelfile
步骤 3:运行自定义模型
ollama run my-coder
解决方案:
# 方法 1:使用国内镜像源
export OLLAMA_HOST=https://ollama.ainews.cn
# 方法 2:配置代理
export HTTP_PROXY=http://proxy.example.com:8080
export HTTPS_PROXY=http://proxy.example.com:8080
# 方法 3:手动下载 GGUF 模型后导入
# 从魔搭社区下载 GGUF 格式模型
# 然后使用 ollama import 命令导入
解决方案:
# 方法 1:选择更小的模型
ollama run llama3.2:3b # 代替 llama3:70b
# 方法 2:减少上下文长度
ollama run llama3 --num_ctx 2048
# 方法 3:配置模型存储路径到更大磁盘
# Windows
setx OLLAMA_MODELS "D:\ollama\models"
# macOS/Linux
echo 'export OLLAMA_MODELS=/data/ollama/models' >> ~/.bashrc
source ~/.bashrc
解决方案:
# 1. 检查 NVIDIA 驱动
nvidia-smi
# 2. 确保安装 CUDA 工具包
# 3. 重启 Ollama 服务
ollama serve
# 4. 查看 GPU 使用情况
ollama ps
解决方案:
# 方法 1:使用中文优化模型
ollama run qwen3.5
# 方法 2:设置正确的编码
# 在终端中设置 UTF-8 编码
export LANG=zh_CN.UTF-8
# 方法 3:在系统提示中指定语言
ollama run llama3 "请用中文回答所有问题"
解决方案:
# 1. 检查端口是否被占用
netstat -ano | findstr 11434 # Windows
lsof -i :11434 # Mac/Linux
# 2. 重启服务
ollama serve
# 3. 检查日志
# Windows: 事件查看器
# Mac/Linux: journalctl -u ollama
| 步骤 | 命令/操作 |
|---|---|
| 1️⃣ 安装 | 官网下载安装包或使用命令行安装 |
| 2️⃣ 验证 | ollama --version |
| 3️⃣ 下载模型 | ollama pull <模型名> |
| 4️⃣ 运行模型 | ollama run <模型名> |
| 5️⃣ 查看列表 | ollama list |
| 资源类型 | 链接 |
|---|---|
| Ollama 官网 | https://ollama.com |
| 模型库 | https://ollama.com/library |
| Open WebUI | https://github.com/open-webui/open-webui |
| 阿里魔搭社区 | https://modelscope.cn |
| Hugging Face | https://huggingface.co |

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online