Ollama 本地 AI 大模型部署完整教程 | 极客日志

编程语言AI算法

Ollama 本地 AI 大模型部署完整教程

介绍如何在无需特殊网络环境下，通过 Microsoft Store 安装 Ollama，并结合阿里魔搭社区下载 GGUF 格式模型，完成本地 AI 大模型的部署。内容涵盖硬件要求、Modelfile 配置详解、参数调优、常见问题排查及实战案例，适合开发者参考。

魔法巫师发布于 2026/4/6更新于 2026/5/2431 浏览

Ollama 是什么：本地大模型运行引擎详解

2.1 Ollama 的技术架构

Ollama 是一个开源的大语言模型本地运行框架，由 Jeffrey Morgan 于 2023 年创建。它的核心目标是将大模型的部署和使用简化到极致，让非专业用户也能轻松运行 AI 模型。

核心组件：

推理引擎：Ollama 底层基于 llama.cpp 项目，这是一个用 C++ 编写的高效推理引擎，专门优化了 GGUF 格式模型的加载和推理。llama.cpp 支持 CPU 和 GPU 加速，能够充分利用硬件资源。
模型管理系统：Ollama 提供了一套完整的模型管理命令，包括拉取、列出、删除、导出、导入等操作。模型以统一的格式存储，便于版本管理和共享。
API 服务：Ollama 运行时会启动一个本地 HTTP 服务（默认端口 11434），提供 RESTful API 接口。这使得 Ollama 可以轻松集成到其他应用程序中。
命令行工具：Ollama 提供了简洁的命令行界面，用户可以通过简单的命令与模型交互。
Modelfile 系统：这是 Ollama 的核心创新之一，类似于 Docker 的 Dockerfile，允许用户定义自定义模型的配置、参数、系统提示等。

2.2 GGUF 格式：模型存储的革命

要理解 Ollama，必须先了解 GGUF 格式。GGUF（GPT-Generated Unified Format）是由 llama.cpp 项目定义的模型文件格式，是 GGML 格式的继任者。

GGUF 的核心特点：

量化支持：GGUF 原生支持多种量化格式，包括 Q4_K_M、Q5_K_M、Q8_0 等。量化可以显著减小模型文件大小，降低内存占用，同时保持可接受的精度损失。
元数据嵌入：GGUF 文件可以嵌入丰富的元数据，包括模型架构信息、tokenizer 配置、训练参数等。这使得模型文件更加自包含。
快速加载：GGUF 格式设计优化了模型加载速度，支持内存映射等技术，可以秒级加载大型模型。
跨平台兼容：GGUF 格式在 Windows、macOS、Linux 上都有良好的支持，便于模型分发和共享。

量化等级说明：

量化格式	精度损失	文件大小	推理速度	适用场景
Q8_0	最小	最大	较慢	追求最高精度
Q6_K	很小	较大	中等	平衡精度与性能
Q5_K_M	小	中等	较快	日常使用推荐
Q4_K_M	中等	较小	快	资源受限场景
Q4_0	较大	最小	最快	极端资源限制

安装前准备：硬件要求与环境检查

3.1 硬件配置要求

Ollama 的硬件需求主要取决于要运行的模型大小。以下是不同规模模型的推荐配置：

基础配置（运行 7B 以下模型）：

CPU：Intel Core i5-12 代或 AMD Ryzen 5 5000 系列及以上

模型规模	Q4 量化	Q5 量化	Q8 量化	FP16
1.5B	~1GB	~1.2GB	~2GB	~3GB
7B	~4GB	~5GB	~8GB	~14GB
14B	~8GB	~10GB	~16GB	~28GB
32B	~18GB	~22GB	~36GB	~64GB
70B	~40GB	~48GB	~80GB	~140GB

# 1. 检查可用磁盘空间
# Windows: 打开"此电脑"查看各分区剩余空间
# macOS/Linux: df -h

# 2. 检查内存
# Windows: 任务管理器 -> 性能 -> 内存
# macOS: 关于本机 -> 内存
# Linux: free -h

# 3. 检查 GPU（如有）
# Windows: 设备管理器 -> 显示适配器
# macOS: 关于本机 -> 系统报告 -> 图形/显示器
# Linux: nvidia-smi（NVIDIA）或 glxinfo（AMD）

# 4. 检查网络连接
# 确保可以访问魔搭社区：https://modelscope.cn

# 5. 关闭可能冲突的软件
# 某些杀毒软件可能拦截 Ollama 的网络访问
# 虚拟机软件可能占用虚拟化资源

sudo apt update && sudo apt install curl git

ollama --version

ollama version is 0.5.x

# 检查 Ollama 服务是否运行
ollama list
# 检查 API 端口是否监听
netstat -ano | findstr 11434

DeepSeek-R1-Distill-Qwen-1.5B-Q8_0.gguf
│ │ │ │ │ │ │ │ │ │ │ └─ 量化格式
│ │ │ │ └─ 模型规模（1.5B 参数）
│ │ │ └─ 基础模型（Qwen）
│ │ └─ 蒸馏版本
└─ 模型版本（R1 推理优化版）
└─ 发布方（深度求索）

场景	推荐量化	理由
日常对话	Q4_K_M	平衡速度与质量
代码生成	Q5_K_M 或 Q6_K	需要更高精度
专业写作	Q6_K 或 Q8_0	追求最佳输出质量
资源受限	Q4_0	最小内存占用
实验测试	Q4_K_M	快速迭代

规模	显存需求	推理速度	能力水平	适用场景
1.5B-3B	1-2GB	极快	基础	简单任务、嵌入式
7B-8B	4-6GB	快	良好	日常使用、开发测试
14B-15B	8-12GB	中等	优秀	专业应用、内容创作
32B+	18GB+	较慢	卓越	高精度需求、研究

# 克隆模型仓库
git clone https://www.modelscope.cn/组织名/模型名.git
# 或使用 modelscope CLI
pip install modelscope
modelscope download --model 组织名/模型名

C:\Users\你的用户名\.ollama\models\

.ollama/
└── models/
    └── custom/
        ├── DeepSeek-R1-Distill-Qwen-1.5B-Q8_0.gguf
        └── modelfile.txt

# 检查文件大小（与网页显示对比）
dir DeepSeek-R1-Distill-Qwen-1.5B-Q8_0.gguf
# 计算文件哈希（如网站提供）
certutil -hashfile DeepSeek-R1-Distill-Qwen-1.5B-Q8_0.gguf SHA256

# 这是注释
INSTRUCTION 参数
# 指令不区分大小写，但建议统一使用大写
# 每行一条指令
# 多行内容使用引号包裹

FROM ./DeepSeek-R1-Distill-Qwen-1.5B-Q8_0.gguf
PARAMETER temperature 0.7
PARAMETER top_p 0.95
PARAMETER top_k 40
PARAMETER repeat_penalty 1.1
PARAMETER min_p 0.05
PARAMETER num_ctx 1024
PARAMETER num_thread 4
PARAMETER num_gpu 8
PARAMETER stop "<|begin_of_sentence|>"
PARAMETER stop "<|end_of_sentence|>"
PARAMETER stop "<|User|>"
PARAMETER stop "<|Assistant|>"

# 从本地 GGUF 文件
FROM ./DeepSeek-R1-Distill-Qwen-1.5B-Q8_0.gguf
# 从 Ollama 官方库
FROM llama3.2
# 从已创建的自定义模型
FROM my-custom-model:latest

# 保守模式 - 适合代码生成、事实问答
PARAMETER temperature 0.3
# 平衡模式 - 适合日常对话
PARAMETER temperature 0.7
# 创意模式 - 适合故事创作、头脑风暴
PARAMETER temperature 1.0

# 严格采样 - 输出更聚焦
PARAMETER top_p 0.8
# 标准采样 - 推荐默认值
PARAMETER top_p 0.95
# 宽松采样 - 更多样化
PARAMETER top_p 0.99

# 严格限制
PARAMETER top_k 20
# 标准配置
PARAMETER top_k 40
# 宽松限制
PARAMETER top_k 100

# 无惩罚
PARAMETER repeat_penalty 1.0
# 轻度惩罚（推荐）
PARAMETER repeat_penalty 1.1
# 强惩罚
PARAMETER repeat_penalty 1.5

# 标准配置
PARAMETER min_p 0.05
# 更严格
PARAMETER min_p 0.1

# 短对话
PARAMETER num_ctx 1024
# 标准对话
PARAMETER num_ctx 4096
# 长文档处理
PARAMETER num_ctx 8192

# 4 核 CPU
PARAMETER num_thread 4
# 8 核 CPU
PARAMETER num_thread 8
# 16 核 CPU
PARAMETER num_thread 16

# 纯 CPU 推理
PARAMETER num_gpu 0
# 混合推理
PARAMETER num_gpu 4
# 纯 GPU 推理（推荐，如有 GPU）
PARAMETER num_gpu 99

PARAMETER stop "<|begin_of_sentence|>"
PARAMETER stop "<|end_of_sentence|>"
PARAMETER stop "<|User|>"
PARAMETER stop "<|Assistant|>"

# 标准对话停止词
PARAMETER stop "User:"
PARAMETER stop "Assistant:"
# 代码生成停止词
PARAMETER stop "```"
PARAMETER stop " ```
# 自定义停止词
PARAMETER stop "[END]"
PARAMETER stop "###"

SYSTEM """
你是一个专业的编程助手，擅长 Python、JavaScript 和 Go 语言。
请提供简洁、准确、可运行的代码示例。
如果用户问题不明确，请主动询问澄清。
"""

TEMPLATE """
{{ if .System }}<|system|> {{ .System }} <|end|> {{ end }}
<|user|> {{ .Prompt }} <|end|>
<|assistant|> {{ .Response }} <|end|>
"""

MESSAGE user "什么是 Python？"
MESSAGE assistant "Python 是一种高级编程语言，以简洁易读著称..."
MESSAGE user "如何打印 Hello World？"
MESSAGE assistant "print('Hello World')"

ADAPTER ./my-lora-adapter

LICENSE """
MIT License
Copyright (c) 2026 Your Name
"""

D:\Ollama\CustomModels\DeepSeek-Custom\

DeepSeek-R1-Distill-Qwen-1.5B-Q8_0.gguf

FROM ./DeepSeek-R1-Distill-Qwen-1.5B-Q8_0.gguf
PARAMETER temperature 0.7
PARAMETER top_p 0.95
PARAMETER top_k 40
PARAMETER repeat_penalty 1.1
PARAMETER min_p 0.05
PARAMETER num_ctx 1024
PARAMETER num_thread 4
PARAMETER num_gpu 8
PARAMETER stop "<|begin_of_sentence|>"
PARAMETER stop "<|end_of_sentence|>"
PARAMETER stop "<|User|>"
PARAMETER stop "<|Assistant|>"

ollama create deepseek-custom -f ./Modelfile

transferring model data using existing layer sha256:abc123...
using existing layer sha256:def456...
success

ollama list

NAME ID SIZE MODIFIED
deepseek-custom abc123def456 2.1 GB 1 minute ago

ollama run deepseek-custom

>>> 你好，请介绍一下你自己
>>> 如何用 Python 读取 CSV 文件？
>>> /bye # 退出对话

ollama run deepseek-custom "请解释什么是机器学习"

curl http://localhost:11434/api/generate -d '{ "model": "deepseek-custom", "prompt": "你好", "stream": false }'

ollama show deepseek-custom

ollama show deepseek-custom --modelfile

ollama cp deepseek-custom deepseek-backup

ollama rm deepseek-custom

ollama cp deepseek-custom ./exported-model

ollama pull ./exported-model

ollama create deepseek-custom -f ./Modelfile

ollama rm deepseek-custom
ollama create deepseek-custom -f ./Modelfile

1. 确定任务类型（对话/代码/写作/分析）
2. 设置基准配置
3. 选择评估指标（准确性/创造性/速度）
4. 逐一调整参数并测试
5. 记录最优配置
6. 应用到生产环境

FROM ./model.gguf
PARAMETER temperature 0.7
PARAMETER top_p 0.95
PARAMETER top_k 40
PARAMETER repeat_penalty 1.1
PARAMETER num_ctx 4096
SYSTEM """
你是一个友好、乐于助人的 AI 助手。
请用简洁、清晰的语言回答问题。
如果不确定答案，请诚实说明。
"""

FROM ./model.gguf
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER top_k 20
PARAMETER repeat_penalty 1.2
PARAMETER num_ctx 8192
PARAMETER stop "```"
SYSTEM """
你是一个专业的编程助手。
请提供准确、可运行、有注释的代码。
优先使用最佳实践和现代语法。
"""

FROM ./model.gguf
PARAMETER temperature 1.0
PARAMETER top_p 0.98
PARAMETER top_k 60
PARAMETER repeat_penalty 1.05
PARAMETER num_ctx 4096
SYSTEM """
你是一个富有创造力的写作助手。
请生成生动、有趣、有想象力的内容。
不要害怕使用新颖的表达方式。
"""

FROM ./model.gguf
PARAMETER temperature 0.5
PARAMETER top_p 0.92
PARAMETER top_k 30
PARAMETER repeat_penalty 1.15
PARAMETER num_ctx 16384
SYSTEM """
你是一个专业的文档分析助手。
请准确提取关键信息，避免主观臆断。
引用原文时请标注出处。
"""

FROM ./model.gguf
PARAMETER temperature 0.5
PARAMETER top_p 0.9
PARAMETER top_k 30
PARAMETER repeat_penalty 1.2
PARAMETER num_ctx 4096
SYSTEM """
你是一个专业的翻译助手。
请保持原文含义，同时确保译文自然流畅。
保留专业术语的准确性。
"""

temperature	top_p	效果特征	适用场景
0.3	0.9	高度确定，保守	代码、事实问答
0.5	0.92	平衡稳定	一般对话
0.7	0.95	适度创意	推荐默认
0.9	0.98	高度创意	创意写作
1.2	0.99	极度发散	头脑风暴

repeat_penalty	num_ctx	效果特征	注意事项
1.0	1024	可能重复，短上下文	资源节省
1.1	4096	适度去重，标准上下文	推荐配置
1.3	8192	强去重，长上下文	显存需求高
1.5	16384	极少重复，超长上下文	可能影响流畅度

# 速度优先配置
PARAMETER num_thread 8
PARAMETER num_gpu 99
PARAMETER num_ctx 2048
PARAMETER temperature 0.5

# 质量优先配置
PARAMETER num_ctx 8192
PARAMETER temperature 0.7
PARAMETER top_p 0.95
PARAMETER repeat_penalty 1.1

# 平衡配置
PARAMETER num_ctx 4096
PARAMETER temperature 0.6
PARAMETER top_p 0.93
PARAMETER repeat_penalty 1.15

显存需求 ≈ 模型大小 (GB) + (num_ctx × 4KB) + 开销 (1-2GB)

1. 尝试网页版安装：https://ollama.com/download
2. 清除 Store 缓存：wsreset.exe
3. 检查 Windows 版本：需要 Windows 10 1903+
4. 使用 GitHub Release 手动安装

1. 关闭并重新打开终端
2. 重启电脑
3. 手动添加环境变量：
   - 系统属性 -> 环境变量
   - 添加 C:\Program Files\Ollama 到 Path

# 检查端口占用
netstat -ano | findstr 11434
# 停止占用进程
taskkill /PID <进程 ID> /F
# 以管理员身份运行
# 右键 -> 以管理员身份运行
# 检查防火墙设置
# Windows Defender 防火墙 -> 允许应用

1. 使用下载工具（IDM、迅雷）
2. 选择非高峰时段下载
3. 检查网络连接
4. 尝试其他镜像源

1. 验证文件哈希值
2. 重新下载文件
3. 检查磁盘错误：chkdsk
4. 确保下载完成（文件大小匹配）

# 检查 Ollama 版本
ollama --version
# 更新 Ollama
# 从官网下载最新版本
# 验证 GGUF 文件
# 确保是 Ollama 兼容的 GGUF 格式
# 检查路径
# 确保 FROM 指令路径正确

# 启用 GPU 加速
PARAMETER num_gpu 99
# 减少上下文
PARAMETER num_ctx 2048
# 使用更小量化
# 下载 Q4 版本而非 Q8
# 关闭其他占用 GPU 的程序

# 增加重复惩罚
PARAMETER repeat_penalty 1.2
# 适当提高温度
PARAMETER temperature 0.8
# 添加停止词
PARAMETER stop "\n\n"

# 减少上下文长度
PARAMETER num_ctx 2048
# 减少 GPU 层数
PARAMETER num_gpu 4
# 使用更小的模型
# 或更低量化等级

# 检查服务状态
ollama list
# 检查端口
netstat -ano | findstr 11434
# 测试 API
curl http://localhost:11434/api/tags
# 检查防火墙
# 确保 11434 端口开放

- 路径分隔符使用 \ 或 /
- 注意文件名大小写不敏感
- 权限问题以管理员运行

- 可能需要授予终端权限
- Apple Silicon 有原生优化
- 注意 Gatekeeper 安全设置

- 可能需要安装依赖
- 注意文件权限
- systemd 服务配置

1. 更新 GPU 驱动到最新版本
2. 启用 GPU 高性能模式
3. 确保 GPU 散热良好
4. 考虑 GPU 超频（谨慎）

1. 设置高性能电源模式
2. 关闭不必要的后台程序
3. 确保 CPU 温度正常
4. 考虑 CPU 超频（谨慎）

1. 启用双通道内存
2. 确保内存频率达标
3. 关闭内存压缩（如影响性能）
4. 增加物理内存

1. 使用 NVMe SSD
2. 确保存储有足够剩余空间
3. 定期清理临时文件
4. 启用存储缓存

# 设置环境变量优化
$env:OLLAMA_NUM_PARALLEL = "4"
$env:OLLAMA_MAX_LOADED_MODELS = "2"
# 持久化设置
[System.Environment]::SetEnvironmentVariable('OLLAMA_NUM_PARALLEL','4','User')

1. 关闭 Windows 视觉效果
2. 禁用不必要的启动项
3. 定期清理系统垃圾
4. 保持系统更新

任务类型 推荐量化 理由
日常对话 Q4_K_M 速度质量平衡
代码生成 Q5_K_M 需要较高精度
专业写作 Q6_K 追求最佳质量
资源受限 Q4_0 最小占用
实验测试 Q4_K_M 快速迭代

场景 推荐规模 理由
简单问答 1.5B-3B 速度快，够用
日常使用 7B-8B 平衡性能
专业应用 14B-15B 能力更强
高精度需求 32B+ 最佳效果

- 批量处理多个请求
- 减少 API 调用次数
- 合并相似任务

- 缓存常用响应
- 使用上下文缓存
- 预加载常用模型

- 并行处理独立任务
- 异步处理长任务
- 使用流式响应

# 监控 GPU 使用
nvidia-smi -l 1
# 监控内存使用
tasklist /V | findstr ollama
# 监控 API 响应时间
# 使用日志或监控工具

1. 启用 Ollama 详细日志
2. 分析慢查询
3. 识别瓶颈
4. 针对性优化

1. 建立性能基准
2. 定期回归测试
3. 对比不同配置
4. 记录优化效果

- 收集个人文档（PDF、Markdown、TXT）
- 整理分类存储
- 提取关键信息

FROM ./DeepSeek-R1-Distill-Qwen-1.5B-Q8_0.gguf
PARAMETER temperature 0.5
PARAMETER top_p 0.9
PARAMETER num_ctx 8192
PARAMETER repeat_penalty 1.2
SYSTEM """
你是一个个人知识助手，基于用户提供的文档回答问题。
请准确引用信息来源。
如果文档中没有相关信息，请明确说明。
"""

ollama create knowledge-assistant -f ./Modelfile

ollama run knowledge-assistant "我上周关于项目会议的笔记里提到了什么关键决策？"

- 安装 Continue 插件
- 或安装 Cody 插件
- 配置 Ollama 作为后端

FROM ./DeepSeek-R1-Distill-Qwen-1.5B-Q8_0.gguf
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER top_k 20
PARAMETER repeat_penalty 1.2
PARAMETER num_ctx 8192
PARAMETER stop "```"
SYSTEM """
你是一个专业的编程助手，擅长 Python、JavaScript、Go 等语言。
请提供准确、可运行、有注释的代码。
优先使用最佳实践和现代语法。
解释代码时请简洁明了。
"""

{"models":[{"name":"ollama","provider":"ollama","model":"code-assistant"}]}

- 代码补全
- 代码解释
- Bug 修复
- 单元测试生成
- 代码重构建议

FROM ./DeepSeek-R1-Distill-Qwen-1.5B-Q8_0.gguf
PARAMETER temperature 0.4
PARAMETER top_p 0.9
PARAMETER num_ctx 16384
PARAMETER repeat_penalty 1.15
SYSTEM """
你是一个专业的文档摘要助手。
请提取文档的核心要点，生成简洁的摘要。
保持原文的关键信息和数据。
摘要长度控制在原文的 10% 以内。
"""

import requests

def summarize_document(text):
    response = requests.post('http://localhost:11434/api/generate', json={
        'model': 'summary-assistant',
        'prompt': f'请为以下文档生成摘要：\n\n{text}',
        'stream': False
    })
    return response.json()['response']

# 使用示例
with open('document.txt', 'r', encoding='utf-8') as f:
    content = f.read()
    summary = summarize_document(content)
    print(summary)

FROM ./DeepSeek-R1-Distill-Qwen-1.5B-Q8_0.gguf
PARAMETER temperature 0.5
PARAMETER top_p 0.9
PARAMETER repeat_penalty 1.2
SYSTEM """
你是一个专业的翻译助手。
请保持原文含义，同时确保译文自然流畅。
保留专业术语的准确性。
不要添加额外解释，只输出翻译结果。
"""

from flask import Flask, request, jsonify
import requests

app = Flask(__name__)

@app.route('/translate', methods=['POST'])
def translate():
    data = request.json
    text = data['text']
    target_lang = data.get('target_lang', '中文')
    prompt = f'请将以下内容翻译成{target_lang}：\n\n{text}'
    response = requests.post('http://localhost:11434/api/generate', json={
        'model': 'translation-assistant',
        'prompt': prompt,
        'stream': False
    })
    return jsonify({'translation': response.json()['response']})

if __name__ == '__main__':
    app.run(port=5000)

- 整理常见问题（FAQ）
- 准备产品文档
- 收集历史对话记录

FROM ./DeepSeek-R1-Distill-Qwen-1.5B-Q8_0.gguf
PARAMETER temperature 0.6
PARAMETER top_p 0.93
PARAMETER num_ctx 4096
PARAMETER repeat_penalty 1.1
SYSTEM """
你是一个专业的客服助手。
请友好、耐心地回答用户问题。
如果问题超出你的知识范围，请引导用户联系人工客服。
保持回答简洁、准确、有帮助。
"""
MESSAGE user "如何重置密码？"
MESSAGE assistant "您可以通过以下步骤重置密码：1. 访问登录页面 2. 点击'忘记密码' 3. 输入注册邮箱 4. 查收邮件并点击链接 5. 设置新密码"

- 网站聊天插件
- 微信公众号
- 企业微信
- 钉钉机器人

1. 完成本教程所有步骤
2. 尝试不同模型和配置
3. 参与 Ollama 社区讨论
4. 阅读官方文档
5. 构建自己的第一个应用

1. 学习模型微调技术
2. 了解 RAG（检索增强生成）
3. 掌握 LangChain 等框架
4. 研究推理优化技术
5. 贡献开源项目

1. 深入研究模型架构
2. 参与模型训练
3. 构建企业级解决方案
4. 发表技术文章
5. 成为社区贡献者

# 安装/更新
ollama --version
# 模型管理
ollama pull # 下载模型
ollama list # 列出模型
ollama rm # 删除模型
ollama cp # 复制模型
ollama show # 查看模型信息
# 运行模型
ollama run # 交互式运行
ollama run "prompt" # 单轮对话
# 创建模型
ollama create -f # 服务管理
ollama serve # 启动服务（通常自动启动）

FROM # 基础模型（必需）
PARAMETER # 参数设置
SYSTEM """ # 系统提示
TEMPLATE """ # 对话模板
MESSAGE """ # 示例对话
ADAPTER # LoRA 适配器
LICENSE """ # 许可证

参数	默认值	范围	说明
temperature	0.8	0-2	创造性控制
top_p	0.9	0-1	核采样概率
top_k	40	1-词表大小	Top-K 采样
repeat_penalty	1.1	1-2	重复惩罚
min_p	0.05	0-1	最小概率
num_ctx	2048	1-模型最大	上下文长度
num_thread	CPU 核心数	1-核心数	CPU 线程数
num_gpu	自动	0-层数	GPU 层数

□ Ollama 服务是否运行？
□ 端口 11434 是否开放？
□ 模型文件是否完整？
□ Modelfile 语法是否正确？
□ 路径是否正确？
□ 权限是否足够？
□ 硬件资源是否充足？
□ 防火墙是否拦截？
□ 杀毒软件是否阻止？
□ 网络连接是否正常？

Ollama 本地 AI 大模型部署完整教程

Ollama 是什么：本地大模型运行引擎详解

2.1 Ollama 的技术架构

2.2 GGUF 格式：模型存储的革命

安装前准备：硬件要求与环境检查

3.1 硬件配置要求

3.2 操作系统兼容性

3.3 环境检查清单

3.4 必要软件准备

第一步：通过 Microsoft Store 安装 Ollama

4.1 Microsoft Store 安装优势

4.2 详细安装步骤

4.3 首次运行配置

4.4 配置数据存储位置（可选）

4.5 防火墙配置

第二步：魔搭社区模型下载完整指南

5.1 为什么选择魔搭社区

5.2 访问魔搭社区

5.3 选择适合的模型

5.4 下载模型文件

5.5 模型文件存放位置

5.6 验证模型文件

第三步：Modelfile 配置文件详解

6.1 Modelfile 是什么

6.2 Modelfile 基本语法

6.3 完整配置示例解析

6.4 FROM 指令

6.5 PARAMETER 指令详解

6.5.1 temperature（温度）

6.5.2 top_p（核采样）

6.5.3 top_k（Top-K 采样）

6.5.4 repeat_penalty（重复惩罚）

6.5.5 min_p（最小概率）

6.5.6 num_ctx（上下文长度）

6.5.7 num_thread（线程数）

6.5.8 num_gpu（GPU 层数）

6.6 stop 参数（停止词）

6.7 其他可用指令

6.7.1 SYSTEM（系统提示）

6.7.2 TEMPLATE（对话模板）

6.7.3 MESSAGE（示例对话）

6.7.4 ADAPTER（LoRA 适配器）

6.7.5 LICENSE（许可证）

第四步：创建并运行自定义模型

7.1 创建 Modelfile

7.2 创建自定义模型

7.3 验证模型创建

7.4 运行自定义模型

7.5 模型管理命令

7.6 更新模型配置

核心参数深度解析

8.1 参数调优方法论

8.2 不同场景的参数配置模板

8.2.1 日常对话助手

8.2.2 代码生成助手

8.2.3 创意写作助手

8.2.4 文档分析助手

8.2.5 多语言翻译助手

8.3 参数组合效果分析

8.4 性能与质量的权衡

8.5 显存优化技巧

常见问题与解决方案

9.1 安装相关问题

问题 1：Microsoft Store 找不到 Ollama

问题 2：安装后 ollama 命令无法识别

问题 3：Ollama 服务无法启动

9.2 模型下载问题

问题 1：魔搭社区下载速度慢

问题 2：GGUF 文件损坏

问题 3：模型加载失败

9.3 模型运行问题

问题 1：推理速度极慢

问题 2：输出内容重复

问题 3：模型输出乱码

问题 4：显存溢出（OOM）

9.4 API 调用问题

问题 1：API 连接失败

问题 2：API 响应慢

9.5 跨平台问题

Windows 特有：