Gemma 本地部署指南：基于 Ollama 快速上手

综述由AI生成Google 开源的 Gemma 大语言模型及其本地部署方法。通过 Ollama 工具，用户可以在 Windows、macOS 和 Linux 系统上快速运行 Gemma 2B 和 7B 模型。文章涵盖了环境准备、软件安装、命令行交互及 Python API 集成示例，并提供了硬件配置建议和常见问题解答，帮助用户从零开始掌握 Gemma 的本地化应用。

静心发布于 2025/2/6更新于 2026/6/225 浏览

Gemma 简介

Gemma 是由 Google 推出的一系列轻量级、最先进的开放模型。这些模型基于与 Gemini 模型相同的研究和技术构建，由 Google DeepMind 和 Google 内部其他团队共同开发。Gemma 的名字来源于拉丁语'gemma'，意为'珍贵的石头'，象征着其在 AI 领域的重要价值。

这次发布的 Gemma 不仅仅只有 2B 和 7B 这两种规模，实际上是发布了 Gemma 系列（经过预训练的变体和指令优化的变体，大大小小 50 多种）。Gemma 模型非常适合各种文本生成任务，包括问答、总结和推理。

同时，还能在 Keras3.0（以集成主要框架 JAX、PyTorch 和 TensorFlow）上用于推理和监督微调（SFT）的工具链。以及提供了谷歌 Colab 和 Kaggle 笔记本快速部署代码和 HuggingFace 等第三方 AI 平台的集成，使用户能快速上手体验。

基础性能

这次开源的 Gemma 和 Gemini 用的是同样的技术和基础组件。Gemma 7B 在基准测试上明显超过了 Llama-2 7B 和 13B，无论是科目问答、推理性能、数学能力还是代码能力都要比 Llama-2 强太多（这里的数据是基于关键基准上测试的）。

环境准备

在安装前先确定 C 盘目录大于 20G，再根据自己的电脑配置安装不同型号的 Gemma。8G 显卡跑 2B 应该问题不大，16G 以上的跑 7B 也没问题。建议确保系统已安装 Docker 或 Python 环境以便后续扩展使用。

安装 Ollama

这次使用 Gemma，我们还是用 LLM 的老朋友开源的 Ollama 项目。我们先进入 Ollama 的主页。

进入主页后，点击下载按钮，进入下载页。总共有 macOS、Linux 和 Windows 三个版本，根据您的系统，选择一个版本下载，这次我们以 Windows 为例。

下载完成后就是这个可爱的羊驼图标，然后我们双击 OllamaSetup.exe 安装，默认情况下是装在 C 盘的，直接点 install 一键安装。

安装完成后，系统任务栏右下角位置会多出一个草泥马的头像，这代表已经完成安装了。接下来，我们打开 Windows 自带的 PowerShell 待命（在 Windows 搜索栏搜 powershell）。

运行模型

接下来，我们再回到 Ollama 官网的模型页面，在模型列表处找到 Gemma，点进去。

进去之后 Overview 是模型概述，不管它，直接点 Tags，茫茫多的型号该怎么选呢。

以下是 Gemma 的版本和型号参考：

2b 和 7b：表示模型的参数数量，分别是 2 亿和 7 亿参数。
instruct：表示模型是针对特定指令或任务进行训练的。
text：表示模型专注于处理文本数据。
fp16：表示模型支持半精度浮点数（16 位浮点数），这有助于在保持相对较高精度的同时减少内存使用和提高计算效率。

每个型号后面的 q4_0、q4_1 等是模型的不同版本，是基于模型性能、训练数据集、优化策略或其他因素的不同迭代。例如，q4_0 是第四个迭代的初始版本，而 q4_1 可能是在 q4_0 基础上的改进版本。

那么我们选 latest 这个版本，也就是最新版。

直接在 PowerShell 里输入命令 ollama run gemma 开始下载，下载无需魔法不过可能会花点时间。

下载完成后，在 send a message 行里就可以直接与 gemma 对话了。

Tips：

运行不同版本的 gemma，示例：

ollama run gemma:2b
ollama run gemma:7b

gemma 默认下载在 C 盘；
按 Ctrl+D 退出 gemma；
run ollama gemma 启动 gemma；
ollama list 查看模型型号列表。

Python 集成示例

除了命令行交互，Gemma 也可以通过 Python 脚本调用。Ollama 提供了官方的 Python 客户端库，方便开发者集成到自己的应用中。

Gemma 本地部署指南：基于 Ollama 快速上手

Gemma 简介

基础性能