跳到主要内容
Ollama 本地 AI 大模型部署与使用指南 | 极客日志
Python AI 算法
Ollama 本地 AI 大模型部署与使用指南 Ollama 是一款开源免费的本地化大型语言模型管理工具,支持在个人电脑上运行先进 AI 模型。介绍系统要求、Windows/macOS/Linux 安装步骤、常用命令及热门模型推荐。涵盖代码专用模型选择、API 调用示例(Python)、可视化界面配置及常见问题解决方案。通过本地部署实现数据隐私保护、离线可用及低成本推理,适合开发者构建私人 AI 助手或集成至工作流。
Elasticer 发布于 2026/4/9 更新于 2026/5/23 17 浏览Ollama 本地 AI 大模型部署与使用指南
一、为什么需要本地部署大模型?
在 AI 普及的今天,云端 AI 工具面临以下问题:
问题 说明 🔒 数据隐私 公司代码、文档上传云端存在泄露风险 🌐 网络依赖 每次调用需走网络,请求慢且易超时 💰 使用成本 API 调用费用高,频繁使用成本高 🔑 管理复杂 API Key 管理麻烦,团队协作易混乱
本地大模型(Local LLM)优势:
✅ 数据不出本机 :代码、日志、业务文档本地运行,隐私安全
✅ 速度稳定 :硬件性能足够时,不受网络波动影响
✅ 成本清晰 :除机器本身外无额外调用费用
✅ 离线可用 :断网也能正常使用
二、什么是 Ollama?
Ollama 是一个开源、免费的本地化大型语言模型管理工具,让普通用户能在个人电脑上轻松运行先进的 AI 模型。
🎯 核心特点
┌─────────────────────────────────────────────────────────┐
│ Ollama 核心优势 │
├─────────────────────────────────────────────────────────┤
│ 📦 一键部署 无需配置 Python 环境、CUDA、依赖库 │
│ 🔄 自动量化 自动下载 GGUF 4 -bit 量化模型,节省显存 │
│ 💻 跨平台 Windows/macOS/Linux 全支持 │
│ 🚀 简单易用 一行命令即可运行大模型 │
│ 🔌 API 支持 提供标准 REST API,方便集成开发 │
│ 📚 模型丰富 支持 480 + 开源模型 │
└─────────────────────────────────────────────────────────┘
🤔 工作原理
类似 Docker 管理容器化应用,Ollama 将 AI 模型的权重、配置和运行环境打包。无需写 Python 代码,一行命令即可运行。
三、系统要求与前置准备
🖥️ 硬件要求
配置 最低要求 推荐配置 说明 CPU 4 核及以上 8 核及以上 现代电脑基本满足 内存 8GB 16GB+ 内存越大,能跑的模型越大 硬盘 10GB 空闲 50GB+ 模型文件占用空间 GPU
📊 模型大小与硬件对应关系 模型参数量 内存需求 适合场景
────────────────────────────────────
1B - 3B 2-4GB 简单对话、低配电脑
7B - 8B 6-8GB 日常使用、主流选择
14B - 32B 12-24GB 专业任务、高性能电脑
70B+ 48GB+ 企业级、多卡服务器
🔧 系统版本要求
Windows :Windows 10 或更高版本(推荐 Windows 11)
macOS :macOS 12 (Monterey) 或更高版本
Linux :Ubuntu 20.04+、Debian 11+、CentOS 7+
四、Ollama 安装教程(Windows/Mac/Linux)
🪟 Windows 安装步骤
方法一:官网下载安装(推荐) 步骤 1:下载安装包
访问 Ollama 官网下载页面或直接下载 OllamaSetup.exe。
双击 OllamaSetup.exe
点击 "运行" 处理安全警告
点击 "Install" 开始安装
等待完成(约 1-2 分钟)
步骤 3:验证安装
打开 CMD 或 PowerShell,输入:
方法二:命令行安装 iwr -useb https://ollama.com/install.ps1 | iex
🍎 macOS 安装步骤
方法一:DMG 安装包安装
下载 Ollama.dmg
拖拽至 Applications 文件夹
打开应用程序
方法二:命令行安装 curl -fsSL https://ollama.com/install.sh | sh
🐧 Linux 安装步骤
Ubuntu/Debian 系统 curl -fsSL https://ollama.com/install.sh | sh
其他 Linux 发行版 docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
✅ 安装成功验证
ollama --version
curl http://localhost:11434
出现 "Ollama is running" 说明成功。
五、常用命令详解
📥 模型管理命令
ollama run <模型名>
ollama run llama3
ollama pull <模型名>
ollama list
ollama rm <模型名>
🔧 模型运行命令
ollama run <模型名>
ollama run <模型名> "你好"
ollama serve
📊 系统信息命令
ollama ps
ollama cp <源模型> <目标模型>
🎯 常用参数说明 参数 说明 默认值 --num_ctx上下文长度(token 数) 2048 --temperature生成温度(越高越随机) 0.8 --num_predict最大生成 token 数 128 --top_k采样候选词数量 40 --top_p核采样概率阈值 0.9
六、热门模型推荐 Ollama 支持 480+ 开源模型,以下是推荐模型:
🏆 综合推荐榜 模型名称 参数量 适合场景 内存需求 Llama 3.3 70B 通用推理、英文任务 48GB+ Qwen3.5 32B 中文场景、复杂推理 24GB DeepSeek-R1 32B 强推理、代码生成 24GB Qwen2.5-Coder 32B 代码专用 24GB Llama 3.1 8B 日常使用、低配电脑 6GB
📋 按场景选择模型
🔹 通用对话/日常使用 ollama run llama3.1:8b
ollama run qwen3.5:32b
🔹 代码编程 ollama run qwen2.5-coder:32b
ollama run deepseek-coder:6.7b
🔹 新手推荐入门模型 ollama run llama3.2:3b
ollama run qwen2.5:7b
ollama run mistral:7b
七、实战案例:打造你的私人 AI 助手
案例一:本地编程助手 ollama pull qwen2.5-coder:32b
ollama run qwen2.5-coder:32b
>>> 请帮我写一个 Python 函数,用于计算斐波那契数列
def fibonacci (n ):
if n <= 0 : return []
elif n == 1 : return [0 ]
fib_list = [0 , 1 ]
for i in range (2 , n): fib_list.append(fib_list[i-1 ] + fib_list[i-2 ])
return fib_list
案例二:文档分析助手 创建 Python 脚本 doc_analyzer.py:
import requests
def analyze_document (file_path, prompt ):
with open (file_path, 'r' , encoding='utf-8' ) as f:
content = f.read()
response = requests.post(
'http://localhost:11434/api/generate' ,
json={
'model' : 'qwen3.5:32b' ,
'prompt' : f'{prompt} \n\n文档内容:\n{content} ' ,
'stream' : False
}
)
return response.json()['response' ]
result = analyze_document('report.txt' , '请总结这份文档的主要内容' )
print (result)
八、进阶配置:可视化界面与 API 调用
🎨 安装可视化界面(Open WebUI) docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
步骤 2:访问界面
浏览器打开:http://localhost:3000
步骤 3:配置连接
设置中添加 Ollama 服务地址:http://host.docker.internal:11434
🔌 API 调用示例
Python 调用示例 import requests
response = requests.post(
'http://localhost:11434/api/generate' ,
json={
'model' : 'llama3' ,
'prompt' : '你好,请介绍一下你自己' ,
'stream' : False
}
)
print (response.json()['response' ])
流式响应示例 import requests
response = requests.post(
'http://localhost:11434/api/generate' ,
json={
'model' : 'llama3' ,
'prompt' : '写一首关于春天的诗' ,
'stream' : True
},
stream=True
)
for line in response.iter_lines():
if line:
print (line.decode('utf-8' ))
📁 自定义模型配置(Modelfile) FROM llama3
SYSTEM "你是一个专业的编程助手,擅长 Python、JavaScript 等编程语言。请用简洁、清晰的代码回答问题。"
PARAMETER temperature 0.7
PARAMETER num_ctx 4096
ollama create my-coder -f Modelfile
九、常见问题与解决方案
❓ 问题 1:下载模型速度慢 export OLLAMA_HOST=https://ollama.ainews.cn
export HTTP_PROXY=http://proxy.example.com:8080
export HTTPS_PROXY=http://proxy.example.com:8080
❓ 问题 2:内存不足,模型无法运行
ollama run llama3.2:3b
ollama run llama3 --num_ctx 2048
setx OLLAMA_MODELS "D:\ollama\models"
❓ 问题 3:GPU 加速不生效 nvidia-smi
ollama serve
ollama ps
❓ 问题 4:中文输出乱码 export LANG=zh_CN.UTF-8
ollama run llama3 "请用中文回答所有问题"
❓ 问题 5:Ollama 服务无法启动 netstat -ano | findstr 11434
ollama serve
journalctl -u ollama
十、总结与资源
📝 快速回顾 步骤 命令/操作 1️⃣ 安装 官网下载安装包或使用命令行安装 2️⃣ 验证 ollama --version3️⃣ 下载模型 ollama pull <模型名>4️⃣ 运行模型 ollama run <模型名>5️⃣ 查看列表 ollama list
🔗 推荐资源
💡 最佳实践建议
从轻量模型开始 :先用 7B 以下模型熟悉流程
合理分配存储 :模型文件较大,建议单独分区存储
定期清理 :不用的模型及时删除,释放空间
关注更新 :Ollama 和模型都在快速迭代,保持更新
社区交流 :遇到问题可以在 GitHub 或社区寻求帮助
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
随机西班牙地址生成器 随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online
Gemini 图片去水印 基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online
curl 转代码 解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online