本地运行大模型工具：Ollama 安装与使用详解

前言

在人工智能快速发展的今天，大语言模型（LLM）已成为许多领域的关键技术。随着开源模型的兴起，如何在本地环境中高效部署和运行这些模型成为了开发者关注的焦点。Ollama 是一个强大的框架，旨在简化大语言模型在本地环境中的部署与管理过程。

Ollama 简介

Ollama 将模型权重、配置和数据捆绑到一个包中，定义成 Modelfile。它优化了设置和配置细节，包括 GPU 使用情况，帮助用户快速在本地运行开源大型语言模型，例如 Llama 2、Mistral 等。通过简单的安装指令，用户即可执行一条命令在本地运行模型，无需复杂的依赖配置。

安装 Ollama

Ollama 支持多种平台，包括 macOS、Linux 以及 Docker 容器。

macOS 安装

如果你使用的是 Mac，可以直接下载安装包进行安装。

访问官方网站下载对应架构的安装包。
打开下载的 .dmg 文件。
将 Ollama 拖入应用程序文件夹。
首次启动时，系统可能会提示权限确认，点击允许即可。

Linux 安装

Linux 系统提供了一键安装脚本，适用于大多数主流发行版。

curl -fsSL https://ollama.ai/install.sh | sh

执行上述命令后，脚本会自动完成默认安装并启动服务。

Docker 安装

对于需要容器化部署的场景，可以使用官方提供的 Docker 镜像。

docker pull ollama/ollama:latest
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

使用 Ollama

基础运行

安装完成后，Ollama 服务通常会在后台自动启动。要运行一个模型，只需在终端输入以下命令：

ollama run llama2

该命令会自动拉取模型权重（如果本地不存在），并启动交互式对话界面。支持的其他模型可以通过 ollama list 查看已安装的模型列表。

自定义模型 (Modelfile)

Ollama 允许通过编写 Modelfile 来导入更多的自定义模型或调整现有模型的行为。Modelfile 定义了模型的基座、系统提示词、模板及参数。

示例 Modelfile 内容：

FROM llama2
SYSTEM "You are a helpful coding assistant."
PARAMETER temperature 0.7
PARAMETER num_ctx 2048

创建文件后，可以构建并推送自定义模型：

ollama create my-custom-model -f Modelfile
ollama run my-custom-model

API 调用

Ollama 提供了 HTTP API 接口，方便集成到其他应用中。默认监听端口为 11434。

启动服务并暴露网络接口：

OLLAMA_HOST=0.0.0.0:11434 ollama serve

使用 curl 发送请求示例：

curl http://localhost:11434/api/generate -d '{
  "model": "llama2",
  "prompt": "Why is the sky blue?",
  "stream": false
}'

本地运行大模型工具：Ollama 安装与使用详解