本地部署与运行开源大语言模型指南：Ollama | 极客日志

Shell / BashAI算法

本地部署与运行开源大语言模型指南：Ollama

Ollama 是一个用于在本地部署和管理开源大语言模型的框架，支持 Mac、Windows 和 Linux 系统。通过简单的命令行即可安装并运行如 Llama2、Mistral 等模型。它提供 REST API 接口，便于集成到 IDE 插件或其他应用中。配置上支持局域网访问、指定 GPU 运行及自定义模型存储路径。此外，用户可通过 Modelfile 创建自定义模型，并利用 Python 脚本调用 API 实现自动化交互。安装步骤、服务管理、模型运行、API 使用及常见问题排查，帮助开发者快速搭建本地 AI 环境。

疯疯癫癫发布于 2025/2/7更新于 2026/6/322 浏览

什么是 Ollama？

Ollama 是一个可以在本地部署和管理开源大语言模型的框架。它极大地简化了开源大语言模型的安装和配置细节，一经推出就广受好评。目前已在 GitHub 上获得了大量 Star。

不管是著名的 Llama 系列，还是最新的 AI 新贵 Mistral，等等各种开源大语言模型，都可以用 Ollama 实现一键安装并运行。支持的更多模型的列表可以查看 Ollama 官网。

| Model | Parameters | Size | Download | | --- | --- | --- | | Llama 2 | 7B | 3.8GB | ollama run llama2 | | Mistral | 7B | 4.1GB | ollama run mistral |

如何安装 Ollama 框架？

Ollama 支持各个平台：Mac、Windows 和 Linux，也提供了 Docker image。在 Ollama 官网或者 GitHub 可以下载，然后一键安装 Ollama 框架：

Linux: curl -fsSL https://ollama.com/install.sh | sh

由于 Ollama 刚支持 Windows 不久，在 Windows 上的相关配置还不够完善，以下将以 Linux 上运行 Ollama 来举例说明。

运行 Ollama 服务

在 Ollama 安装完成后，一般会自动启动 Ollama 服务，而且会自动设置为开机自启动。安装完成后，可以使用如下命令查看是否 Ollama 是否正常启动。如下例子中显示'Active: active (running)'表示 Ollama 已经正常启动。

$ systemctl status ollama
● ollama.service - Ollama Service
     Loaded: loaded (/etc/systemd/system/ollama.service; enabled; vendor preset: enabled)
    Drop-In: /etc/systemd/system/ollama.service.d
             └─environment.conf
     Active: active (running) since Thu 2024-03-07 09:09:39 HKT; 4 days ago
   Main PID: 19975 (ollama)
      Tasks: 29 (limit: 69456)
     Memory: 1.1G
        CPU: 14min 44.702s
     CGroup: /system.slice/ollama.service
             └─19975 /usr/local/bin/ollama serve

在 Linux 上，如果 Ollama 未启动，可以用如下命令启动 Ollama 服务：ollama serve，或者 sudo systemctl start ollama。

通过分析 Linux 的安装脚本 install.sh，就会看到其中已经将 ollama serve 配置为一个系统服务，所以可以使用 systemctl 来 start / stop ollama 进程。

[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=$BINDIR/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="PATH=$PATH"

启动 Ollama 服务后，可以查看当前的 Ollama 版本，以及常用命令。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

~$ ollama -v
ollama version is 0.1.20
~$ ollama --help
Large language model runner

Usage:
  ollama [flags]
  ollama [command]

Available Commands:
  serve       Start ollama
  create      Create a model from a Modelfile
  show        Show information for a model
  run         Run a model
  pull        Pull a model from a registry
  push        Push a model from a registry
  list        List models
  cp          Copy a model
  rm          Remove a model
  help        Help about any command

Flags:
  -h, --help      help for any command
  -v, --version   Show version information

~$ ollama run llama2
>>> who are you?

I am LLaMA, an AI assistant developed by Meta AI that can understand and respond to human input in a conversational manner. I am trained on a massive dataset of text from the internet and can generate human-like responses to a wide range of topics and questions.

>>> Send a message (/? for help)

curl http://localhost:11434/api/generate -d '{
  "model": "llama2",
  "prompt":"Why is the sky blue?",
  "stream": false
}'

{
    "model": "llama2",
    "created_at": "2024-02-26T04:35:10.787352404Z",
    "response": "The sky appears blue because of a phenomenon called Rayleigh scattering...",
    "done": true,
    "total_duration": 7001870820,
    "load_duration": 4930376,
    "prompt_eval_duration": 60907000,
    "eval_count": 309,
    "eval_duration": 6931593000
}

FROM llama2
SYSTEM "You are a helpful coding assistant."
PARAMETER temperature 0.7

ollama create my-custom-model -f Modelfile

ollama run my-custom-model

import requests

url = "http://localhost:11434/api/generate"
data = {
    "model": "llama2",
    "prompt": "Hello, how are you?",
    "stream": False
}

response = requests.post(url, json=data)
print(response.json()["response"])

PARAMETER num_gpu 99
PARAMETER num_thread 8

[Service]
Environment=OLLAMA_HOST=0.0.0.0:11434

[Service]
Environment=CUDA_VISIBLE_DEVICES=1,2

Environment="OLLAMA_MODELS=/home/paco/lab/LLM/ollama/OLLAMA_MODELS"

[Service]
Environment=OLLAMA_MODELS=<path>/OLLAMA_MODELS

本地部署与运行开源大语言模型指南：Ollama

什么是 Ollama？

如何安装 Ollama 框架？

运行 Ollama 服务

更多推荐文章

相关免费在线工具

如何下载并运行大语言模型？

REST API

高级功能与扩展

创建自定义模型

Python 集成示例

性能调优

常见问题排查

如何查看运行的日志？

如何配置本地大模型对局域网提供服务？

本地有多张 GPU，如何用指定的 GPU 来运行 Ollama？

下载的大模型存储在哪个路径？

如何修改大模型存储的路径？

端口冲突处理

总结

更多推荐文章

相关免费在线工具

本地部署与运行开源大语言模型指南：Ollama

什么是 Ollama？

如何安装 Ollama 框架？

运行 Ollama 服务

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

如何下载并运行大语言模型？

REST API

高级功能与扩展

创建自定义模型

Python 集成示例

性能调优

常见问题排查

如何查看运行的日志？

如何配置本地大模型对局域网提供服务？

本地有多张 GPU，如何用指定的 GPU 来运行 Ollama？

下载的大模型存储在哪个路径？

如何修改大模型存储的路径？

端口冲突处理

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具