Ollama 本地部署与运行大模型完全指南 | 极客日志

PythonAI算法

Ollama 本地部署与运行大模型完全指南

综述由AI生成详细阐述了 Ollama 在本地部署和运行大语言模型的全流程。内容包括 MacOS、Windows、Linux 及 Docker 环境的安装方法，支持 NVIDIA 和 AMD GPU 的加速配置。文章介绍了如何运行内置模型、导入自定义 GGUF 或 PyTorch 模型，并通过 Modelfile 定制系统提示词和参数。此外，还涵盖了 CLI 命令详解、REST API 与 Python SDK 的集成方式、日志调试、并发优化策略以及 OpenAI 接口的兼容性配置。通过合理设置环境变量和硬件资源，可实现高效的数据隐私保护的本地 AI 服务。

RefactorPro发布于 2025/2/7更新于 2026/5/3024 浏览

Ollama 本地部署与运行大模型完全指南

本文详细介绍了 Ollama 在本地机器上部署和运行大型语言模型（LLM）的完整流程，涵盖安装、模型管理、自定义配置、API 集成及性能优化等核心内容。

随着大模型技术的发展，越来越多的企业和个人开始关注数据隐私与离线推理能力。虽然线上 API 提供了便利，但本地部署能确保数据不出域，且无需依赖网络状态。Ollama 作为一个开源项目，以其易用性和高性能成为本地运行 LLM 的首选工具之一。

Ollama 介绍

Ollama 是一个专为在本地机器上便捷部署和运行大型语言模型而设计的开源工具。它让用户无需深入了解复杂的底层技术，就能轻松地加载、运行和交互各种 LLM 模型。

核心特点

本地部署：不依赖云端服务，用户可以在自己的设备上运行模型，保护数据隐私。
多操作系统支持：无论是 Mac、Linux 还是 Windows，都能方便地安装使用。
多模型支持：支持多种流行的 LLM 模型，如 Llama、Falcon、Gemma 等，一键运行。
易于使用：提供了直观的命令行界面，操作简单，上手容易。
可扩展性：支持自定义配置，用户可以根据自己的硬件环境和模型需求进行优化。
开源：代码完全开放，用户可以自由查看、修改和分发。

安装指南

MacOS

苹果电脑安装非常简单，下载 Zip 包解压，运行即可。

https://ollama.com/download/Ollama-darwin.zip

安装运行 Ollama.app 之后，系统任务栏上会有一个应用程序图标，点击可以关闭 Ollama 服务。

Windows

Windows 版本目前处于预览版，官方也提供了安装包，安装过程与其他软件类似。

https://ollama.com/download/OllamaSetup.exe

Linux

Linux 系统直接通过 Shell 脚本执行安装命令：

curl -fsSL https://ollama.com/install.sh | sh

Docker 容器化运行

除了直接安装，还可以通过 Docker 运行。官方提供了镜像 ollama/ollama。

CPU 模式

CPU 模式不需要额外配置驱动，直接运行即可：

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

NVIDIA GPU 模式

若要在容器内使用 Nvidia GPU 进行推理，需要安装 NVIDIA Container Toolkit。

安装 NVIDIA GPU 驱动程序及工具包（以 Ubuntu 为例）：

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
  && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
    sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
    sudo  /etc/apt/sources.list.d/nvidia-container-toolkit.list
 apt-get update
 apt-get install -y nvidia-container-toolkit

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

docker run -d --device /dev/kfd --device /dev/dri -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama:rocm

ollama run llama3.1

docker exec -it ollama ollama run llama3

模型	参数	大小	模型名
Llama3.1	8B	4.7G	`llama3.1`
Llama3.1	405B	231G	`llama3.1:405b`
GLM4	9B	5.5G	`glm4`
Qwen2	7B	4.4G	`qwen2`
Qwen2	72B	41G	`qwen2:72b`
Llama3	8B	4.7G	`llama3`
Llama3	70B	40G	`llama3:70b`
Phi3	3.8B	2.3G	`phi3`
Gemma2	9B	5.5G	`gemma2`
Mistral	7B	4.1G	`mistral`

FROM ./vicuna-33b.Q4_0.gguf

ollama create vicuna-33b-q4 -f Modelfile

ollama run vicuna-33b-q4

FROM /path/to/safetensors/directory

git clone https://github.com/ggerganov/llama.cpp.git
pip install -r llama.cpp/requirements.txt
python llama.cpp/convert_hf_to_gguf.py vicuna-hf --outfile vicuna-13b-v1.5.gguf --outtype q8_0

ollama pull glm4

FROM glm4
PARAMETER temperature 1
SYSTEM """
你现在是一个修仙世界的修炼导师，来指导人们修炼。每次回答都以：「渺小的人类」作为开始。
"""

ollama create glm4xiuxian -f ./Modelfile
ollama run glm4xiuxian

OLLAMA_HOST=127.0.0.1:11435 ollama serve

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt":"Why is the sky blue?"
}'

curl http://localhost:11434/api/chat -d '{
  "model": "llama3",
  "messages": [
    { "role": "user", "content": "why is the sky blue?" }
  ]
}'

pip install ollama

import ollama
response = ollama.chat(model='llama3', messages=[
  {'role': 'user', 'content': 'Why is the sky blue?',}
])
print(response['message']['content'])

stream = ollama.chat(
  model='llama3',
  messages=[{'role': 'user', 'content': 'Why is the sky blue?'}],
  stream=True,
)
for chunk in stream:
  print(chunk['message']['content'], end='', flush=True)

try:
  ollama.chat(model)
except ollama.ResponseError as e:
  print('Error:', e.error)
  if e.status_code == 404:
    ollama.pull(model)

from ollama import Client
client = Client(host='http://localhost:11434')
response = client.chat(model='llama3', messages=[
  {'role': 'user', 'content': 'Say this is a test',}
])

cat ~/.ollama/logs/server.log

docker logs <container-name>

OLLAMA_HOST=0.0.0.0:11434 ollama serve

launchctl setenv OLLAMA_HOST "0.0.0.0"

from openai import OpenAI
client = OpenAI(
  base_url='http://localhost:11434/v1/',
  api_key='ollama',
)
chat_completion = client.chat.completions.create(
  messages=[{'role': 'user', 'content': 'Say this is a test'}],
  model='llama3',
)

import OpenAI from 'openai'
const openai = new OpenAI({
  baseURL: 'http://localhost:11434/v1/',
  apiKey: 'ollama',
})
const chatCompletion = await openai.chat.completions.create({
  messages: [{ role: 'user', content: 'Say this is a test' }],
  model: 'llama3',
})

ollama cp llama3 gpt-3.5-turbo

Ollama 本地部署与运行大模型完全指南

Ollama 本地部署与运行大模型完全指南

Ollama 介绍

核心特点

安装指南

MacOS

Windows

Linux

Docker 容器化运行

CPU 模式

NVIDIA GPU 模式

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

AMD GPU 模式

运行模型

本地运行

容器运行

支持的模型

自定义模型

从 GGUF 导入

从 PyTorch 或 Safetensors 导入

定制系统提示

Modelfile 参数详解

CLI 命令全解

模型管理

交互与调试

服务启动

REST API 介绍

生成接口

聊天接口

流式响应

Python API 介绍

安装依赖

基础用法

流式处理

错误处理

自定义客户端

日志与调试

上下文窗口调整

GPU 使用情况检查

Ollama 作为服务使用

Linux/Server

macOS

并发与性能优化

OpenAI 兼容性

Python 客户端

JavaScript 客户端

模型名称映射

模型存储

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具