Ollama 本地 AI 大模型部署与使用指南 | 极客日志

PythonAI算法

Ollama 本地 AI 大模型部署与使用指南

Ollama 是一款开源免费的本地化大型语言模型管理工具，支持在个人电脑上运行先进 AI 模型。介绍系统要求、Windows/macOS/Linux 安装步骤、常用命令及热门模型推荐。涵盖代码专用模型选择、API 调用示例（Python）、可视化界面配置及常见问题解决方案。通过本地部署实现数据隐私保护、离线可用及低成本推理，适合开发者构建私人 AI 助手或集成至工作流。

Elasticer发布于 2026/4/9更新于 2026/7/2438 浏览

Ollama 本地 AI 大模型部署与使用指南

一、为什么需要本地部署大模型？

在 AI 普及的今天，云端 AI 工具面临以下问题：

问题	说明
🔒 数据隐私	公司代码、文档上传云端存在泄露风险
🌐 网络依赖	每次调用需走网络，请求慢且易超时
💰 使用成本	API 调用费用高，频繁使用成本高
🔑 管理复杂	API Key 管理麻烦，团队协作易混乱

本地大模型（Local LLM）优势：

✅ 数据不出本机：代码、日志、业务文档本地运行，隐私安全
✅ 速度稳定：硬件性能足够时，不受网络波动影响
✅ 成本清晰：除机器本身外无额外调用费用
✅ 离线可用：断网也能正常使用

二、什么是 Ollama？

Ollama 是一个开源、免费的本地化大型语言模型管理工具，让普通用户能在个人电脑上轻松运行先进的 AI 模型。

🎯 核心特点

┌─────────────────────────────────────────────────────────┐
│ Ollama 核心优势                                         │
├─────────────────────────────────────────────────────────┤
│ 📦 一键部署 无需配置 Python 环境、CUDA、依赖库           │
│ 🔄 自动量化 自动下载 GGUF 4-bit 量化模型，节省显存       │
│ 💻 跨平台 Windows/macOS/Linux 全支持                    │
│ 🚀 简单易用 一行命令即可运行大模型                      │
│ 🔌 API 支持 提供标准 REST API，方便集成开发               │
│ 📚 模型丰富 支持 480+ 开源模型                           │
└─────────────────────────────────────────────────────────┘

🤔 工作原理

类似 Docker 管理容器化应用，Ollama 将 AI 模型的权重、配置和运行环境打包。无需写 Python 代码，一行命令即可运行。

三、系统要求与前置准备

🖥️ 硬件要求

配置	最低要求	推荐配置	说明
CPU	4 核及以上	8 核及以上	现代电脑基本满足
内存	8GB	16GB+	内存越大，能跑的模型越大
硬盘	10GB 空闲	50GB+	模型文件占用空间
GPU

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

模型参数量    内存需求      适合场景
────────────────────────────────────
1B - 3B      2-4GB        简单对话、低配电脑
7B - 8B      6-8GB        日常使用、主流选择
14B - 32B    12-24GB      专业任务、高性能电脑
70B+         48GB+        企业级、多卡服务器

ollama --version

iwr -useb https://ollama.com/install.ps1 | iex

curl -fsSL https://ollama.com/install.sh | sh

curl -fsSL https://ollama.com/install.sh | sh

systemctl status ollama

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# 检查版本号
ollama --version
# 检查服务是否运行
curl http://localhost:11434

# 下载并运行模型
ollama run <模型名>
# 示例：运行 Llama 3
ollama run llama3

# 仅下载模型但不运行
ollama pull <模型名>

# 查看本地已安装的模型列表
ollama list

# 删除本地模型
ollama rm <模型名>

# 运行模型并进入交互对话
ollama run <模型名>

# 运行模型并传入单条消息
ollama run <模型名> "你好"

# 后台运行模型服务
ollama serve

# 查看正在运行的模型
ollama ps

# 复制模型
ollama cp <源模型> <目标模型>

参数	说明	默认值
`--num_ctx`	上下文长度（token 数）	2048
`--temperature`	生成温度（越高越随机）	0.8
`--num_predict`	最大生成 token 数	128
`--top_k`	采样候选词数量	40
`--top_p`	核采样概率阈值	0.9

模型名称	参数量	适合场景	内存需求
Llama 3.3	70B	通用推理、英文任务	48GB+
Qwen3.5	32B	中文场景、复杂推理	24GB
DeepSeek-R1	32B	强推理、代码生成	24GB
Qwen2.5-Coder	32B	代码专用	24GB
Llama 3.1	8B	日常使用、低配电脑	6GB

ollama run llama3.1:8b
ollama run qwen3.5:32b

ollama run qwen2.5-coder:32b
ollama run deepseek-coder:6.7b

ollama run llama3.2:3b
ollama run qwen2.5:7b
ollama run mistral:7b

ollama pull qwen2.5-coder:32b

ollama run qwen2.5-coder:32b

>>> 请帮我写一个 Python 函数，用于计算斐波那契数列
def fibonacci(n):
    if n <= 0: return []
    elif n == 1: return [0]
    fib_list = [0, 1]
    for i in range(2, n): fib_list.append(fib_list[i-1] + fib_list[i-2])
    return fib_list

import requests

def analyze_document(file_path, prompt):
    with open(file_path, 'r', encoding='utf-8') as f:
        content = f.read()
    response = requests.post(
        'http://localhost:11434/api/generate',
        json={
            'model': 'qwen3.5:32b',
            'prompt': f'{prompt}\n\n文档内容:\n{content}',
            'stream': False
        }
    )
    return response.json()['response']

result = analyze_document('report.txt', '请总结这份文档的主要内容')
print(result)

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={
        'model': 'llama3',
        'prompt': '你好，请介绍一下你自己',
        'stream': False
    }
)
print(response.json()['response'])

import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={
        'model': 'llama3',
        'prompt': '写一首关于春天的诗',
        'stream': True
    },
    stream=True
)
for line in response.iter_lines():
    if line:
        print(line.decode('utf-8'))

FROM llama3
SYSTEM "你是一个专业的编程助手，擅长 Python、JavaScript 等编程语言。请用简洁、清晰的代码回答问题。"
PARAMETER temperature 0.7
PARAMETER num_ctx 4096

ollama create my-coder -f Modelfile

ollama run my-coder

export OLLAMA_HOST=https://ollama.ainews.cn
# 或使用代理
export HTTP_PROXY=http://proxy.example.com:8080
export HTTPS_PROXY=http://proxy.example.com:8080

# 选择更小的模型
ollama run llama3.2:3b
# 减少上下文长度
ollama run llama3 --num_ctx 2048
# 配置存储路径
setx OLLAMA_MODELS "D:\ollama\models"

nvidia-smi
ollama serve
ollama ps

export LANG=zh_CN.UTF-8
ollama run llama3 "请用中文回答所有问题"

netstat -ano | findstr 11434
ollama serve
journalctl -u ollama

步骤	命令/操作
1️⃣ 安装	官网下载安装包或使用命令行安装
2️⃣ 验证	`ollama --version`
3️⃣ 下载模型	`ollama pull <模型名>`
4️⃣ 运行模型	`ollama run <模型名>`
5️⃣ 查看列表	`ollama list`

资源类型	链接
Ollama 官网	https://ollama.com
模型库	https://ollama.com/library
Open WebUI	https://github.com/open-webui/open-webui
Hugging Face	https://huggingface.co

Ollama 本地 AI 大模型部署与使用指南

Ollama 本地 AI 大模型部署与使用指南

一、为什么需要本地部署大模型？

二、什么是 Ollama？

🎯 核心特点

🤔 工作原理

三、系统要求与前置准备

🖥️ 硬件要求

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

📊 模型大小与硬件对应关系

🔧 系统版本要求

四、Ollama 安装教程（Windows/Mac/Linux）

🪟 Windows 安装步骤

方法一：官网下载安装（推荐）

方法二：命令行安装

🍎 macOS 安装步骤

方法一：DMG 安装包安装

方法二：命令行安装

🐧 Linux 安装步骤

Ubuntu/Debian 系统

其他 Linux 发行版

✅ 安装成功验证

五、常用命令详解

📥 模型管理命令

🔧 模型运行命令

📊 系统信息命令

🎯 常用参数说明

六、热门模型推荐

🏆 综合推荐榜

📋 按场景选择模型

🔹 通用对话/日常使用

🔹 代码编程

🔹 新手推荐入门模型

七、实战案例：打造你的私人 AI 助手

案例一：本地编程助手

案例二：文档分析助手

八、进阶配置：可视化界面与 API 调用

🎨 安装可视化界面（Open WebUI）

🔌 API 调用示例

Python 调用示例

流式响应示例

📁 自定义模型配置（Modelfile）

九、常见问题与解决方案

❓ 问题 1：下载模型速度慢

❓ 问题 2：内存不足，模型无法运行

❓ 问题 3：GPU 加速不生效

❓ 问题 4：中文输出乱码

❓ 问题 5：Ollama 服务无法启动

十、总结与资源

📝 快速回顾

🔗 推荐资源

💡 最佳实践建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具