AI 大模型本地部署指南：使用 Ollama 快速运行 | 极客日志

编程语言AI

AI 大模型本地部署指南：使用 Ollama 快速运行

综述由AI生成如何在本地环境中部署和运行 AI 大模型。主要内容包括 Ollama 工具的安装方法（支持 macOS、Linux、Windows）、系统硬件要求分析、模型拉取与管理操作、命令行交互及自定义 Prompt 设置。此外，文章还涵盖了通过 HTTP API 进行程序集成的具体代码示例（Python 和 Curl），以及 Docker 容器化部署方案。针对性能瓶颈，提供了量化技术、并发控制和故障排查建议。最后强调了本地部署在数据隐私和安全方面的优势，为开发者提供了完整的离线 AI 推理解决方案。

链路追踪发布于 2025/2/6更新于 2026/5/3019 浏览

AI 大模型本地部署指南：使用 Ollama 快速运行

概述

随着人工智能技术的快速发展，大型语言模型（LLM）的应用场景日益广泛。然而，将数据上传至云端服务往往涉及隐私泄露风险和高昂的 API 调用成本。通过本地部署大模型，开发者可以在完全离线的环境下运行推理，确保数据隐私并降低延迟。

Ollama 是一个开源工具，专为在本地机器上高效运行大型语言模型而设计。它简化了模型下载、管理和运行的流程，支持多种主流架构，如 Llama 3、Mistral、Gemma 等。

系统要求

在开始部署之前，请确认您的硬件环境满足以下基本要求：

操作系统：macOS (Apple Silicon 或 Intel), Linux, Windows (10/11)
内存 (RAM)：
- 7B 参数模型建议至少 8GB RAM
- 13B 参数模型建议至少 16GB RAM
- 33B 及以上模型建议 32GB+ RAM
显卡 (GPU)：虽然 CPU 可运行模型，但配备 NVIDIA GPU (CUDA) 或 Apple M 系列芯片能显著提升推理速度。
存储空间：每个模型文件通常在 4GB 到 50GB 之间，取决于量化级别。

安装 Ollama

macOS / Linux

使用 Homebrew 或官方脚本进行安装：

# macOS (Homebrew)
brew install ollama

# Linux (官方脚本)
curl -fsSL https://ollama.com/install.sh | sh

Windows

访问 Ollama 官网下载 Windows 安装包，按照向导完成安装。安装完成后，系统托盘会出现 Ollama 图标，表示服务已启动。

验证安装是否成功，可在终端运行：

ollama --version

模型管理

Ollama 内置了模型仓库，用户无需手动下载权重文件。

拉取模型

使用 pull 命令下载模型。例如，下载 Llama 3 版本：

ollama pull llama3

其他常用模型包括：

ollama pull mistral
ollama pull gemma:2b
ollama pull codellama

查看已安装模型

列出本地所有可用模型及其大小：

ollama list

删除模型

如需释放空间，可使用 rm 命令：

ollama rm llama3

模型交互与推理

命令行交互

Ollama 默认提供交互式对话模式。输入模型名称即可开始对话：

ollama run llama3

进入交互界面后，直接输入问题，模型将以流式输出返回结果。例如：

User: What is the capital of France? Model: The capital of France is Paris.

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

User: Write a Python function to calculate Fibonacci numbers.
Model: def fibonacci(n):
    if n <= 1:
        return n
    return fibonacci(n-1) + fibonacci(n-2)

User: How can I optimize this for large n?
Model: For large n, you should use memoization or an iterative approach...

FROM llama3
SYSTEM "You are a helpful coding assistant. Answer in concise code snippets."

ollama create my-coder -f Modelfile
ollama run my-coder

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Explain quantum computing in simple terms.",
  "stream": false
}'

import ollama

response = ollama.chat(
  model='llama3',
  messages=[{
    'role': 'user',
    'content': 'Write a hello world program in Go.',
  }],
)

print(response['message']['content'])

pip install ollama

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

ollama show llama3 --modelfile

OLLAMA_NUM_PARALLEL=2 ollama serve

AI 大模型本地部署指南：使用 Ollama 快速运行

AI 大模型本地部署指南：使用 Ollama 快速运行

概述

系统要求

安装 Ollama

macOS / Linux

Windows

模型管理

拉取模型

查看已安装模型

删除模型

模型交互与推理

命令行交互

更多推荐文章

相关免费在线工具

上下文理解

自定义 Prompt

API 集成开发

基础 API 请求

Python 客户端示例

Docker 部署

性能优化与调优

量化技术

并发控制

故障排查

安全与隐私

总结

更多推荐文章

相关免费在线工具

AI 大模型本地部署指南：使用 Ollama 快速运行

AI 大模型本地部署指南：使用 Ollama 快速运行

概述

系统要求

安装 Ollama

macOS / Linux

Windows

模型管理

拉取模型

查看已安装模型

删除模型

模型交互与推理

命令行交互

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

上下文理解

自定义 Prompt

API 集成开发

基础 API 请求

Python 客户端示例

Docker 部署

性能优化与调优

量化技术

并发控制

故障排查

安全与隐私

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具