本地部署指南：使用 Ollama 运行谷歌 Gemma 大模型 | 极客日志

PythonAI算法

本地部署指南：使用 Ollama 运行谷歌 Gemma 大模型

综述由AI生成如何在本地计算机上使用 Ollama 客户端部署和运行谷歌 Gemma 大模型。内容涵盖环境准备、硬件要求、Ollama 安装步骤、不同参数规模模型（2B 与 7B）的运行指令、交互式对话测试、API 调用方法以及常见问题的排查方案。文章修正了原内容中对 Gemma 功能的描述错误，明确了其作为自然语言处理模型的特性，并去除了无关的推广信息，提供了完整的技术实施指南。

RefactorPro发布于 2025/2/6更新于 2026/6/221 浏览

本地部署指南：使用 Ollama 运行谷歌 Gemma 大模型

本地部署指南：使用 Ollama 运行谷歌 Gemma 大模型

前言

Gemma 是由 Google AI 构建并开源的一系列轻量级、最先进的开放模型。与早期的图像分析工具不同，Gemma 专注于自然语言处理（NLP）任务，旨在为各种文本生成、翻译、摘要和问答场景提供卓越的性能，同时保持较低的资源需求和部署灵活性。

Gemma 模型家族主要包含以下成员：

Gemma 2B：参数量为 20 亿，在推理速度和性能之间取得了良好的平衡，适合资源受限的设备。
Gemma 7B：参数量为 70 亿，在各种 NLP 任务上都表现出最先进的性能，适合拥有较好硬件配置的环境。

Gemma 模型可以通过以下方式运行：

在本地计算机上使用（推荐）。
在 Google Cloud Vertex AI 平台上使用。
在 Kaggle 平台上免费使用。

本指南将详细介绍如何在本地计算机上通过 Ollama 客户端部署和运行 Gemma 模型。

环境准备

在开始部署之前，请确保您的本地环境满足以下基本要求：

硬件要求

内存 (RAM)：
- 运行 2B 模型建议至少 8GB RAM。
- 运行 7B 模型建议至少 16GB RAM。
显存 (VRAM)：
- 如果启用 GPU 加速，7B 模型建议至少 6GB-8GB VRAM。
- 2B 模型对显存要求较低，CPU 模式也可流畅运行。
磁盘空间：
- 每个模型文件约占用 2GB-5GB 磁盘空间，建议预留 10GB 以上可用空间。

操作系统支持

Ollama 支持以下主流操作系统：

macOS (Intel 和 Apple Silicon)
Windows 10/11 (64 位)
Linux (Ubuntu, Debian, Fedora 等)

安装 Ollama 客户端

Ollama 是一个用于运行大型语言模型的轻量级工具，它简化了模型的管理和本地部署流程。

1. 下载客户端

访问 Ollama 官网下载对应操作系统的安装包。根据系统类型选择对应的版本进行下载。

2. 安装步骤

Windows/Mac：运行下载的安装程序，按照向导点击'下一步'完成默认安装。建议保留默认安装路径以避免权限问题。
Linux：使用终端执行官方提供的安装脚本：
```
curl -fsSL https://ollama.com/install.sh | sh
```

3. 验证安装

安装完成后，打开终端或命令行工具，输入以下命令检查版本信息：

ollama --version

如果显示版本号，说明安装成功。

运行 Gemma 模型

Ollama 提供了便捷的命令行接口来拉取和运行模型。以下是针对不同规模模型的具体指令。

1. 选择模型版本

根据您的硬件性能选择合适的模型版本：

7B 全量版本：需要约 16GB 显存，性能最强。
普通 7B 版：适合 8GB 显存环境，经过量化优化。
2B 轻量版：适合 CPU 或低配电脑，速度快但能力相对较弱。

ollama run gemma:7b-instruct-fp16

ollama run gemma:7b

ollama run gemma:2b

> 介绍一下自己
我是一个大型语言模型，由 Google 开发。我的功能包括理解自然语言、生成自然语言、翻译语言、回答问题以及自动摘要。

> 请你介绍一下 Linux
Linux 是一个开源的操作系统，被广泛用于服务器、笔记本电脑和移动设备。它具有自由开源、可扩展性强、安全性高和多平台支持等优势。

curl http://localhost:11434/api/generate -d '{
  "model": "gemma:7b",
  "prompt": "为什么天空是蓝色的？"
}'

import requests

response = requests.post('http://localhost:11434/api/generate', json={
    'model': 'gemma:7b',
    'prompt': '解释量子计算的基本原理'
})
print(response.json()['response'])

ollama rm gemma:7b
ollama pull gemma:7b