本地部署大模型：Ollama 部署与实战指南 | 极客日志

Shell / BashAI

本地部署大模型：Ollama 部署与实战指南

介绍如何在本地机器通过 Ollama 部署和运行大语言模型。涵盖 macOS、Windows 及 Linux 系统的安装步骤，包括裸机部署与 Docker 容器化方案。详细讲解模型库使用、自定义 GGUF 模型导入、提示词工程及模型量化技巧。此外，还包含 REST API 服务启动方法、Python 调用示例、Open WebUI 可视化界面搭建以及 OneAPI 集成方案，帮助用户实现离线大模型应用开发与私有化部署。

并发大师发布于 2025/2/6更新于 2026/6/120 浏览

本地部署大模型：Ollama 部署与实战指南

前言

在云端大模型服务之外，本地部署大语言模型（LLM）提供了数据隐私保护、离线可用及低延迟响应的优势。Ollama 是一款专为本地机器便捷部署和运行大模型而设计的工具，配合 Open WebUI 等前端界面，可构建完整的私有化 AI 应用环境。

本文将从零开始，详细介绍 Ollama 在不同操作系统下的安装、配置、模型管理及 API 调用方法。

一、环境准备

在部署前，请确保硬件满足以下基本要求：

组件	最低要求	推荐配置
CPU	4 核以上	8 核以上
RAM	8GB	16GB - 32GB
GPU	无 (CPU 推理)	NVIDIA GPU (支持 CUDA)
磁盘	5GB 可用空间	50GB+ SSD

注意：模型运行主要依赖内存带宽。若使用量化模型（如 Q4_K_M），7B 参数模型约需 5-6GB 显存/内存，13B 约需 8-10GB。

二、部署方案

1. 客户端直接安装

适用于 macOS 和 Windows 桌面用户。

macOS: 访问官网下载 Ollama-darwin.zip 并解压安装。
Windows: 下载 OllamaSetup.exe 运行安装程序。

安装完成后，终端输入 ollama -v 检查版本。

2. Linux 服务器裸机部署

推荐使用 Linux 服务器以获得更好的性能稳定性。

2.1 安装与启动

使用官方脚本一键安装：

curl -fsSL https://ollama.com/install.sh | sh

安装成功后，系统会自动创建 systemd 服务。查看服务状态：

systemctl status ollama

若显示 active (running)，则服务正常。

2.2 配置修改

默认配置仅允许本地访问。如需局域网访问或更改存储路径，需编辑 /etc/systemd/system/ollama.service。

开启局域网访问：

[Service]
Environment="OLLAMA_HOST=0.0.0.0"

修改模型存储位置：

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

[Service]
Environment="CUDA_VISIBLE_DEVICES=0,1"

systemctl daemon-reload
systemctl restart ollama

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama --restart always ollama/ollama

docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

ollama serve          # 启动服务
ollama list           # 列出已下载模型
ollama pull <model>   # 拉取模型
ollama run <model>    # 运行模型
ollama rm <model>     # 删除模型

ollama run qwen2:0.5b

FROM /root/models/Llama3-FP16.gguf
SYSTEM "You are a helpful assistant."
PARAMETER temperature 0.7

ollama create llama3-custom -f Modelfile

ollama run llama3-custom

ollama create -q Q4_K_M mymodel -f Modelfile

ollama serve

import requests
import json

response = requests.post(
    'http://localhost:11434/api/generate',
    json={
        'model': 'qwen2',
        'prompt': '为什么天空是蓝色的？',
        'stream': False
    }
)

print(response.json()['response'])

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

本地部署大模型：Ollama 部署与实战指南

本地部署大模型：Ollama 部署与实战指南

前言

一、环境准备

二、部署方案

1. 客户端直接安装

2. Linux 服务器裸机部署

2.1 安装与启动

2.2 配置修改

更多推荐文章

相关免费在线工具

3. Docker 容器部署

3.1 基础部署

3.2 GPU 支持部署

三、模型管理与使用

1. 常用命令

2. 模型库选择

3. 自定义模型导入

4. 模型量化

四、API 集成开发

1. 启动 API 服务

2. Python 调用示例

3. 流式输出

五、可视化界面搭建

1. Open WebUI 部署

2. 连接配置

3. 功能特性

六、常见问题排查

七、总结

更多推荐文章

相关免费在线工具

本地部署大模型：Ollama 部署与实战指南

本地部署大模型：Ollama 部署与实战指南

前言

一、环境准备

二、部署方案

1. 客户端直接安装

2. Linux 服务器裸机部署

2.1 安装与启动

2.2 配置修改

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. Docker 容器部署

3.1 基础部署

3.2 GPU 支持部署

三、模型管理与使用

1. 常用命令

2. 模型库选择

3. 自定义模型导入

4. 模型量化

四、API 集成开发

1. 启动 API 服务

2. Python 调用示例

3. 流式输出

五、可视化界面搭建

1. Open WebUI 部署

2. 连接配置

3. 功能特性

六、常见问题排查

七、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具