Ollama：一条命令在本地运行 Llama2 等大模型

Ollama：一条命令在本地运行 Llama2 等大模型 | 极客日志

前言

在当今的科技时代，AI 已经成为许多领域的关键技术。随着开源大模型的兴起，如何在本地高效部署和运行这些模型成为了开发者关注的焦点。Ollama 是一个强大的工具，旨在简化这一过程，让用户能够轻松地在本地环境中运行大型语言模型（LLM）。

Ollama 是什么？

Ollama 是一个用于在本地运行大型语言模型的框架。它的主要功能是将模型权重、配置和数据捆绑到一个包中，定义成 Modelfile。通过优化设置和配置细节（包括 GPU 使用情况），Ollama 使得在本地运行开源大型语言模型变得非常简单。

它支持多种主流的大模型，如 Llama 2、Mistral、Codellama 等，并提供了一个统一的接口来管理这些模型。

安装指南

Ollama 极大地简化了安装过程，支持多种平台。

Mac 系统

如果你使用的是 Mac，可以直接下载安装包进行安装。

访问官网下载页面：https://ollama.ai/download
下载 .dmg 文件并双击安装。
安装完成后，应用程序会自动启动后台服务。

Linux 系统

Linux 提供了一键安装脚本，适用于大多数发行版。

curl https://ollama.ai/install.sh | sh

执行上述命令后，脚本会自动完成默认安装并启动服务。

Docker 部署

对于需要容器化部署的场景，可以使用官方提供的 Docker 镜像。

docker pull ollama/ollama
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

这将创建一个名为 ollama 的容器，并将模型数据持久化到卷中。

基础使用

安装完成后，Ollama 默认会在本地启动一个服务器。我们可以通过命令行与它交互。

运行模型

以运行 Llama 2 为例，只需执行以下命令：

ollama run llama2

系统会自动拉取模型权重并开始运行。首次运行时可能需要下载几十 GB 的数据，请耐心等待。

查看支持的模型

Ollama 支持众多开源模型，可以通过以下命令列出所有已下载的模型：

ollama list

若要拉取其他模型，例如 Mistral，可以执行：

ollama run mistral

停止与删除模型

如果需要停止当前运行的会话，输入 /bye 或按 Ctrl+C。

若需删除不再需要的模型以释放空间：

ollama rm llama2

高级功能

自定义 Modelfile

Ollama 允许用户通过编写 Modelfile 来自定义模型的行为，例如修改系统提示词、温度参数或加载特定的插件。

创建一个名为 Modelfile 的文件，内容如下：

FROM llama2
SYSTEM "你是一个专业的编程助手，请用简洁的代码回答问题。"
PARAMETER temperature 0.7

然后基于此文件创建新模型：

ollama create my-llama -f Modelfile
ollama run my-llama

API 集成

Ollama 提供了一个 HTTP API，方便开发者将其集成到自己的应用中。默认监听端口为 11434。

启动 API 服务

在 macOS 或 Linux 中，确保环境变量正确设置：

OLLAMA_HOST=0.0.0.0:11434 ollama serve

Python 调用示例

使用 Python 的 requests 库调用 Ollama API：

import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={
        'model': 'llama2',
        'prompt': '为什么天空是蓝色的？',
        'stream': False
    }
)

print(response.json()['response'])

流式输出示例

支持流式响应，适合构建聊天界面：

import requests

with requests.post('http://localhost:11434/api/chat', json={
    'model': 'llama2',
    'messages': [{'role': 'user', 'content': '你好'}],
    'stream': True
}, stream=True) as r:
    for line in r.iter_lines():
        if line:
            print(line.decode('utf-8'))

资源需求说明

不同规模的模型对硬件资源有不同的要求，建议参考以下配置：

3B 模型：需要至少 8GB 内存
7B 模型：需要至少 16GB 内存
13B 模型：需要至少 32GB 内存

如果内存不足，可以考虑量化版本（如 Q4_K_M）以降低资源消耗。

常见问题

1. 模型下载速度慢

Ollama 默认从官方源拉取模型，国内网络环境可能较慢。可以尝试配置代理或使用镜像源。

2. GPU 加速未生效

检查是否安装了正确的 CUDA 驱动（NVIDIA）或 Metal 支持（Apple Silicon）。Ollama 会自动检测可用硬件。

3. 端口被占用

如果 11434 端口已被占用，可通过环境变量指定其他端口：

OLLAMA_HOST=0.0.0.0:11435 ollama serve

总结

Ollama 以其轻量级、易部署的特点，成为本地运行大模型的首选工具之一。通过简单的命令即可启动推理服务，配合 API 接口可快速构建私有化 AI 应用。无论是开发者测试还是企业内网部署，Ollama 都提供了极大的便利。

Ollama：一条命令在本地运行 Llama2 等大模型

前言

Ollama 是什么？

安装指南

Mac 系统

Linux 系统

Docker 部署

基础使用

运行模型

查看支持的模型

停止与删除模型

高级功能

自定义 Modelfile

API 集成

启动 API 服务

Python 调用示例

流式输出示例

资源需求说明

常见问题

1. 模型下载速度慢

2. GPU 加速未生效

3. 端口被占用

总结

更多推荐文章

相关免费在线工具

Ollama：一条命令在本地运行 Llama2 等大模型

前言

Ollama 是什么？

安装指南

Mac 系统

Linux 系统

Docker 部署

基础使用

运行模型

查看支持的模型

停止与删除模型

高级功能

自定义 Modelfile

API 集成

启动 API 服务

Python 调用示例

流式输出示例

资源需求说明

常见问题

1. 模型下载速度慢

2. GPU 加速未生效

3. 端口被占用

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具