Ollama 本地 AI 大模型部署与使用指南

为什么需要本地部署大模型？

在 AI 越来越普及的今天，ChatGPT、Claude 等云端 AI 工具虽然好用，但总面临以下问题：

问题	说明
🔒 数据隐私	公司代码、文档不敢随便传到云上，怕有泄露风险
🌐 网络依赖	每次调用都要走网络，请求慢、还容易超时
💰 使用成本	API 调用费用高，频繁使用成本惊人
🔑 管理复杂	API Key 管理麻烦，团队协作容易乱

本地大模型（Local LLM）刚好解决这些问题：

✅ 数据不出本机：代码、日志、业务文档都在本机里跑，隐私安全
✅ 速度稳定：只要电脑性能够，不用担心网络波动
✅ 成本清晰：除了机器本身，没有额外调用费用
✅ 离线可用：断网也能正常使用

什么是 Ollama？

Ollama 是一个开源、免费的本地化大型语言模型管理工具，让普通用户也能在个人电脑上轻松运行先进的 AI 模型。

文章配图

核心特点

特点	说明
📦 一键部署	无需配置 Python 环境、CUDA、依赖库
🔄 自动量化	自动下载 GGUF 4-bit 量化模型，节省显存
💻 跨平台	Windows/macOS/Linux 全支持
🚀 简单易用	一行命令即可运行大模型
🔌 API 支持	提供标准 REST API，方便集成开发
📚 模型丰富	支持 480+ 开源模型

工作原理

就像用 Docker 管理容器化应用一样，Ollama 把 AI 模型的权重、配置和运行环境打包成了"一站式解决方案"。你不需要写一行 Python 代码，只需要一行命令就能在本地跑起大模型。

传统部署方式	Ollama 部署方式
❌ 安装 Python、配置 CUDA、下载权重文件、编写运行代码	✅ 下载安装包、双击安装、一行命令

系统要求与前置准备

在开始前，花 10 秒检查你的设备是否满足最低要求，避免白忙活：

硬件要求

配置	最低要求	推荐配置	说明
CPU	4 核及以上	8 核及以上	现在的电脑基本都满足
内存	8GB	16GB+	内存越大，能跑的模型越大
硬盘	10GB 空闲	50GB+	模型文件需要占用空间
GPU	非必需	NVIDIA 显卡	有 GPU 推理速度更快

模型大小与硬件对应关系

模型参数量	内存需求	适合场景
1B - 3B	2-4GB	简单对话、低配电脑
7B - 8B	6-8GB	日常使用、主流选择
14B - 32B	12-24GB	专业任务、高性能电脑
70B+	48GB+	企业级、多卡服务器

系统版本要求

Windows：Windows 10 或更高版本（推荐 Windows 11）
macOS：macOS 12 (Monterey) 或更高版本
Linux：Ubuntu 20.04+、Debian 11+、CentOS 7+

Ollama 安装教程（Windows/Mac/Linux）

Windows 安装步骤

方法一：官网下载安装（推荐）

步骤 1：下载安装包

访问 Ollama 官网下载页面：https://ollama.com/download

或者直接下载 Windows 安装包：OllamaSetup.exe

💡 国内用户提示：如果官网下载速度慢，可以使用镜像源或加速链接

步骤 2：运行安装程序

双击下载的 OllamaSetup.exe 文件
系统可能会弹出安全警告窗口，点击 "运行"
点击 "Install" 开始安装
等待安装完成（约 1-2 分钟）

步骤 3：验证安装

打开命令提示符（CMD）或 PowerShell，输入：

ollama --version

如果显示版本号，说明安装成功！

方法二：命令行安装

以管理员身份打开 PowerShell，执行：

iwr -useb https://ollama.com/install.ps1 | iex

macOS 安装步骤

方法一：DMG 安装包安装

步骤 1：下载安装包

访问官网下载 macOS 版本：Ollama.dmg（适配 macOS 14 Sonoma 及更高版本）

步骤 2：安装

双击下载的 .dmg 文件
将 Ollama 图标拖拽到 Applications 文件夹
在应用程序中打开 Ollama

步骤 3：验证安装

打开终端（Terminal），输入：

ollama --version

方法二：命令行安装

打开终端，执行：

curl -fsSL https://ollama.com/install.sh | sh

Linux 安装步骤

Ubuntu/Debian 系统

步骤 1：执行安装命令

curl -fsSL https://ollama.com/install.sh | sh

步骤 2：验证安装

ollama --version

步骤 3：检查服务状态

systemctl status ollama

其他 Linux 发行版

也可以使用 Docker 方式安装：

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

安装成功验证

安装完成后，执行以下命令验证：

# 1. 检查版本号
ollama --version 
# 2. 检查服务是否运行
curl http://localhost:11434 # 出现 "Ollama is running" 说明安装成功！

常用命令详解

Ollama 的命令非常简单，掌握以下几个核心命令就能轻松使用：

模型管理命令

# 下载并运行模型（最常用！）
ollama run <模型名>
# 示例：运行 Llama 3 模型
ollama run llama3

# 仅下载模型但不运行
ollama pull <模型名>
# 示例：下载 Qwen 模型
ollama pull qwen2.5

# 查看本地已安装的模型列表
ollama list

# 删除本地模型（释放空间）
ollama rm <模型名>
# 示例：删除 llama3 模型
ollama rm llama3

模型运行命令

# 运行模型并进入交互对话
ollama run <模型名>

# 运行模型并传入单条消息
ollama run <模型名> "你好，请介绍一下你自己"

# 运行模型并指定参数
ollama run <模型名> --num_ctx 4096 --temperature 0.7

# 后台运行模型服务
ollama serve

系统信息命令

# 查看 Ollama 版本
ollama --version

# 查看正在运行的模型
ollama ps

# 查看模型详细信息
ollama show <模型名>

# 复制模型（创建副本）
ollama cp <源模型> <目标模型>

常用参数说明

参数	说明	默认值
`--num_ctx`	上下文长度（token 数）	2048
`--temperature`	生成温度（越高越随机）	0.8
`--num_predict`	最大生成 token 数	128
`--top_k`	采样时考虑的候选词数量	40
`--top_p`	核采样概率阈值	0.9

2026 年热门模型推荐

Ollama 支持 480+ 开源模型，以下是 2026 年最值得推荐的模型：

综合推荐榜

模型名称	参数量	适合场景	内存需求	推荐指数
Llama 3.3	70B	通用推理、英文任务	48GB+	⭐⭐⭐⭐⭐
Qwen3.5	32B	中文场景、复杂推理	24GB	⭐⭐⭐⭐⭐
DeepSeek-R1	32B	强推理、代码生成	24GB	⭐⭐⭐⭐⭐
Qwen2.5-Coder	32B	代码专用	24GB	⭐⭐⭐⭐
Llama 3.1	8B	日常使用、低配电脑	6GB	⭐⭐⭐⭐

按场景选择模型

通用对话/日常使用

# 轻量级（低配电脑）
ollama run llama3.1:8b
# 平衡型（主流配置）
ollama run llama3.3:70b
# 中文优化
ollama run qwen3.5:32b

代码编程

# 代码专用模型
ollama run qwen2.5-coder:32b
# 通用代码能力
ollama run deepseek-coder:6.7b

复杂推理

# 强推理模型
ollama run deepseek-r1:32b
# 思考链模式
ollama run qwen3-max-thinking

多语言支持

# 多语言模型
ollama run gemma3:7b
# 中文优化
ollama run qwen2.5:14b

新手推荐入门模型

对于第一次使用 Ollama 的用户，推荐从以下模型开始：

# 入门首选：轻量、快速、效果好
ollama run llama3.2:3b
# 中文用户推荐
ollama run qwen2.5:7b
# 平衡性能和资源
ollama run mistral:7b

实战案例：打造你的私人 AI 助手

案例一：本地编程助手

场景：作为开发者，想要一个能理解项目代码、帮助写代码的 AI 助手，但担心代码泄露。

步骤 1：下载代码专用模型

ollama pull qwen2.5-coder:32b

步骤 2：创建对话

ollama run qwen2.5-coder:32b

步骤 3：开始使用

>>> 请帮我写一个 Python 函数，用于计算斐波那契数列
def fibonacci(n):
    if n <= 0:
        return []
    elif n == 1:
        return [0]
    fib_list = [0, 1]
    for i in range(2, n):
        fib_list.append(fib_list[i-1] + fib_list[i-2])
    return fib_list

# 使用示例
print(fibonacci(10)) # 输出：[0, 1, 1, 2, 3, 5, 8, 13, 21, 34]

优势：代码完全在本地处理，不用担心泄露到云端！

案例二：文档分析助手

场景：需要分析大量本地文档，但不想上传到云端。

步骤 1：下载适合长文本的模型

ollama pull qwen3.5:32b

步骤 2：使用 Ollama API 读取文件

创建一个 Python 脚本 doc_analyzer.py：

import requests

def analyze_document(file_path, prompt):
    # 读取文件内容
    with open(file_path, 'r', encoding='utf-8') as f:
        content = f.read()
    
    # 调用 Ollama API
    response = requests.post(
        'http://localhost:11434/api/generate',
        json={
            'model': 'qwen3.5:32b',
            'prompt': f'{prompt}\n\n文档内容:\n{content}',
            'stream': False
        }
    )
    return response.json()['response']

# 使用示例
result = analyze_document('report.txt', '请总结这份文档的主要内容')
print(result)

步骤 3：运行脚本

python doc_analyzer.py

案例三：离线翻译工具

场景：需要翻译敏感文档，不能联网。

# 下载多语言模型
ollama run gemma3:7b "请将以下内容翻译成英文：你好，今天天气很好"

进阶配置：可视化界面与 API 调用

安装可视化界面（Open WebUI）

Ollama 默认是命令行界面，如果想要类似 ChatGPT 的网页界面，可以安装 Open WebUI：

步骤 1：使用 Docker 安装

docker run -d -p 3000:8080 \ 
--add-host=host.docker.internal:host-gateway \ 
-v open-webui:/app/backend/data \ 
--name open-webui \ 
--restart always \ 
ghcr.io/open-webui/open-webui:main

步骤 2：访问界面

浏览器打开：http://localhost:3000

步骤 3：配置 Ollama 连接

在设置中添加 Ollama 服务地址：http://host.docker.internal:11434

API 调用示例

Ollama 提供标准的 REST API，方便集成到其他应用：

Python 调用示例

import requests

# 简单对话
response = requests.post(
    'http://localhost:11434/api/generate',
    json={
        'model': 'llama3',
        'prompt': '你好，请介绍一下你自己',
        'stream': False
    }
)
print(response.json()['response'])

流式响应示例

import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={
        'model': 'llama3',
        'prompt': '写一首关于春天的诗',
        'stream': True
    },
    stream=True
)
for line in response.iter_lines():
    if line:
        print(line.decode('utf-8'),)

自定义模型配置（Modelfile）

可以创建自定义的 Modelfile 来配置模型行为：

步骤 1：创建 Modelfile

FROM llama3
# 设置系统提示
SYSTEM """
你是一个专业的编程助手，擅长 Python、JavaScript 等编程语言。
请用简洁、清晰的代码回答问题。
"""
# 设置参数
PARAMETER temperature 0.7
PARAMETER num_ctx 4096

步骤 2：创建自定义模型

ollama create my-coder -f Modelfile

步骤 3：运行自定义模型

ollama run my-coder

常见问题与解决方案

问题 1：下载模型速度慢

解决方案：

# 方法 1：使用国内镜像源
export OLLAMA_HOST=https://ollama.ainews.cn
# 方法 2：配置代理
export HTTP_PROXY=http://proxy.example.com:8080
export HTTPS_PROXY=http://proxy.example.com:8080
# 方法 3：手动下载 GGUF 模型后导入
# 从魔搭社区下载 GGUF 格式模型
# 然后使用 ollama import 命令导入

问题 2：内存不足，模型无法运行

解决方案：

# 方法 1：选择更小的模型
ollama run llama3.2:3b # 代替 llama3:70b
# 方法 2：减少上下文长度
ollama run llama3 --num_ctx 2048
# 方法 3：配置模型存储路径到更大磁盘
# Windows
setx OLLAMA_MODELS "D:\ollama\models"
# macOS/Linux
echo 'export OLLAMA_MODELS=/data/ollama/models' >> ~/.bashrc
source ~/.bashrc

问题 3：GPU 加速不生效

解决方案：

# 1. 检查 NVIDIA 驱动
nvidia-smi
# 2. 确保安装 CUDA 工具包
# 3. 重启 Ollama 服务
ollama serve
# 4. 查看 GPU 使用情况
ollama ps

问题 4：中文输出乱码

解决方案：

# 方法 1：使用中文优化模型
ollama run qwen3.5
# 方法 2：设置正确的编码
# 在终端中设置 UTF-8 编码
export LANG=zh_CN.UTF-8
# 方法 3：在系统提示中指定语言
ollama run llama3 "请用中文回答所有问题"

问题 5：Ollama 服务无法启动

解决方案：

# 1. 检查端口是否被占用
netstat -ano | findstr 11434 # Windows
lsof -i :11434 # Mac/Linux
# 2. 重启服务
ollama serve
# 3. 检查日志
# Windows: 事件查看器
# Mac/Linux: journalctl -u ollama

总结与资源

快速回顾

步骤	命令/操作
1️⃣ 安装	官网下载安装包或使用命令行安装
2️⃣ 验证	`ollama --version`
3️⃣ 下载模型	`ollama pull <模型名>`
4️⃣ 运行模型	`ollama run <模型名>`
5️⃣ 查看列表	`ollama list`

资源类型	链接
Ollama 官网	https://ollama.com
模型库	https://ollama.com/library
Open WebUI	https://github.com/open-webui/open-webui
阿里魔搭社区	https://modelscope.cn
Hugging Face	https://huggingface.co

最佳实践建议

从轻量模型开始：先用 7B 以下模型熟悉流程
合理分配存储：模型文件较大，建议单独分区存储
定期清理：不用的模型及时删除，释放空间
关注更新：Ollama 和模型都在快速迭代，保持更新
社区交流：遇到问题可以在 GitHub 或社区寻求帮助

Ollama 本地 AI 大模型部署与使用指南

为什么需要本地部署大模型？

什么是 Ollama？

核心特点

工作原理

系统要求与前置准备

硬件要求

模型大小与硬件对应关系

系统版本要求

Ollama 安装教程（Windows/Mac/Linux）

Windows 安装步骤

方法一：官网下载安装（推荐）

方法二：命令行安装

macOS 安装步骤

方法一：DMG 安装包安装

方法二：命令行安装

Linux 安装步骤

Ubuntu/Debian 系统

其他 Linux 发行版

安装成功验证

常用命令详解

模型管理命令

模型运行命令

系统信息命令

常用参数说明

2026 年热门模型推荐

综合推荐榜

按场景选择模型

通用对话/日常使用

代码编程

复杂推理

多语言支持

新手推荐入门模型

实战案例：打造你的私人 AI 助手

案例一：本地编程助手

案例二：文档分析助手

案例三：离线翻译工具

进阶配置：可视化界面与 API 调用

安装可视化界面（Open WebUI）

API 调用示例

Python 调用示例

流式响应示例

自定义模型配置（Modelfile）

常见问题与解决方案

问题 1：下载模型速度慢

问题 2：内存不足，模型无法运行

问题 3：GPU 加速不生效

问题 4：中文输出乱码

问题 5：Ollama 服务无法启动

总结与资源

快速回顾

推荐资源

最佳实践建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具