Ollama：本地部署与运行大型语言模型工具 | 极客日志

Shell / BashAI算法

Ollama：本地部署与运行大型语言模型工具

综述由AI生成Ollama 工具的本地部署与使用方法。内容包括在 Linux 环境下安装 Ollama、配置环境变量以修改 Host 和模型存储路径、管理 GPU 资源。文章展示了如何拉取和运行模型、自定义 Modelfile 导入 GGUF 模型以及通过 REST API 调用模型。此外，还涵盖了集成方案，包括使用 One-API 管理 OpenAI 接口以及通过 Open WebUI 构建本地 Web 界面。最后提供了常见问题排查与卸载步骤，帮助用户完整搭建本地大模型运行环境。

安卓系统发布于 2025/2/6更新于 2026/6/220 浏览

Ollama：本地部署与运行大型语言模型工具

概述

Ollama 是一个专为在本地机器上便捷部署和运行大型语言模型（LLM）而设计的工具。它支持 macOS、Linux 和 Windows 多个平台，通过命令行即可快速拉取、运行和管理模型。

官方网站：https://ollama.com/ GitHub：https://github.com/ollama/ollama

安装

Linux 安装

由于服务器环境通常使用 Linux，以下以 Linux 操作系统为例记录说明。通过命令直接安装如下：

root@master:~/work# curl -fsSL https://ollama.com/install.sh | sh

安装过程中会显示下载进度、创建用户、配置 systemd 服务等步骤。若检测到 NVIDIA GPU，会自动识别。

验证安装

查看 ollama 的状态：

root@master:~/work# systemctl status ollama

输出应显示 Active: active (running)。安装成功后执行 ollama -v 命令，查看版本信息：

root@master:~# ollama -v
ollama version is 0.1.38

配置

编辑 /etc/systemd/system/ollama.service 文件来对 ollama 进行配置。

1. 更改 HOST

默认参数配置启动时仅本地访问，需配置 HOST 开启监听任何来源 IP：

[Service]
Environment="OLLAMA_HOST=0.0.0.0"

2. 更改模型存储路径

不同操作系统大模型存储路径默认如下：

macOS: ~/.ollama/models
Linux: /usr/share/ollama/.ollama/models
Windows: C:\Users\.ollama\models

官方提供设置环境变量 OLLAMA_MODELS 来更改模型文件的存储路径：

[Service]
Environment="OLLAMA_MODELS=/data/ollama/models"

注意：指定目录的权限需正确。如果服务无法启动，可通过授权给相应的目录权限解决：

chown ollama:ollama /data/ollama/models

查看日志调试问题：

journalctl -u ollama

3. 更改运行 GPU

配置环境变量 CUDA_VISIBLE_DEVICES 来指定运行 Ollama 的 GPU，适用于多卡环境：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

Environment="CUDA_VISIBLE_DEVICES=0,1"

systemctl daemon-reload
systemctl restart ollama

root@master:~/work# ollama
Usage:
  ollama [flags]
  ollama [command]

Available Commands:
  serve       Start ollama
  create      Create a model from a Modelfile
  show        Show information for a model
  run         Run a model
  pull        Pull a model from a registry
  push        Push a model to a registry
  list        List models
  ps          List running models
  cp          Copy a model
  rm          Remove a model
  help        Help about any command

root@master:~# ollama pull llama3:8b
pulling manifest 
pulling 00e1317cbf74... 100% ▕██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 4.7 GB
verifying sha256 digest 
writing manifest 
success

root@master:~# ollama list
NAME            ID              SIZE    MODIFIED      
llama3:8b       a6990ed6be41    4.7 GB  3 minutes ago

root@master:~# ollama run llama3:8b
>>> hi
Hi! How's your day going so far? I'm here to chat and help with any questions or topics you'd like to discuss. What's on your mind?

FROM ./Llama3-FP16.gguf

ollama create llama3 -f Modelfile

ollama run llama3

FROM llama3

# 设置温度参数
PARAMETER temperature 1

# 设置 SYSTEM 消息
SYSTEM """
作为 AI 智能助手，你将竭尽所能为员工提供严谨和有帮助的答复。
"""

root@master:/usr/local/docker# ollama serve
...
time=2024-05-16T09:27:27.635Z level=INFO source=payload.go:44 msg="Dynamic LLM libraries [cpu cpu_avx cpu_avx2 cuda_v11 rocm_v60002]"
time=2024-05-16T09:27:31.401Z level=INFO source=types.go:71 msg="inference compute" id=GPU-4c974b93-cf0c-486e-9e6c-8f91bc02743c library=cuda compute=7.0 driver=12.2 name="Tesla V100S-PCIE-32GB" total="31.7 GiB" available="16.5 GiB"

curl http://IP:11434/api/chat -d '{
  "model": "llama3:8b",
  "messages": [
    { "role": "user", "content": "你好啊" }
  ]
}'

{
    "model": "llama3",
    "prompt": "你好啊",
    "stream": false
}

curl http://IP:11434/api/chat -d '{
  "model": "llama3",
  "messages": [
    {
        "role": "system",
        "content": "你是一个乐于助人的 AI 助手。"
    },
    {
        "role": "user",
        "content": "你好啊"
    }
  ],
  "stream": false
}'

docker pull justsong/one-api

mkdir -p /usr/local/docker/oneapi

docker run --name one-api -d --restart always -p 3001:3000 -e TZ=Asia/Shanghai -v /usr/local/docker/oneapi:/data justsong/one-api

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=https://example.com -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

docker run -d -p 3000:8080 --gpus all --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:cuda

docker run -d -p 3000:8080 --gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama

docker run -d -p 3000:8080 -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama

systemctl stop ollama
systemctl disable ollama

rm /etc/systemd/system/ollama.service 
rm $(which ollama)

rm -r /usr/share/ollama
userdel ollama
groupdel ollama

rm -rf ~/.ollama/models

Ollama：本地部署与运行大型语言模型工具

Ollama：本地部署与运行大型语言模型工具

概述

安装

Linux 安装

验证安装

配置

1. 更改 HOST

2. 更改模型存储路径

3. 更改运行 GPU

更多推荐文章

相关免费在线工具

4. 应用配置

5. 访问测试

Ollama 命令

模型库

使用示例

下载模型

查看模型

运行模型并进行对话

自定义模型

从 GGUF 导入

自定义提示

从 PyTorch 或 Safetensors 导入

开启服务

REST API

1. 生成回复

2. 与模型聊天

One-API

部署

管理本地模型

Open WebUI

Docker 部署

配置

常见问题与优化

内存不足

远程访问失败

卸载 Ollama

更多推荐文章

相关免费在线工具

Ollama：本地部署与运行大型语言模型工具

Ollama：本地部署与运行大型语言模型工具

概述

安装

Linux 安装

验证安装

配置

1. 更改 HOST

2. 更改模型存储路径

3. 更改运行 GPU

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. 应用配置

5. 访问测试

Ollama 命令

模型库

使用示例

下载模型

查看模型

运行模型并进行对话

自定义模型

从 GGUF 导入

自定义提示

从 PyTorch 或 Safetensors 导入

开启服务

REST API

1. 生成回复

2. 与模型聊天

One-API

部署

管理本地模型

Open WebUI

Docker 部署

配置

常见问题与优化

内存不足

远程访问失败

卸载 Ollama

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具