本地部署 Gemma-1B 大模型：Ollama + Open WebUI 配置与实战 | 极客日志

Shell / BashAI算法

本地部署 Gemma-1B 大模型：Ollama + Open WebUI 配置与实战

综述由AI生成如何在本地部署 Google Gemma-1B 轻量级大模型。通过结合 Ollama 作为推理后端和 Open WebUI 作为交互界面，实现了私有化 AI 助手搭建。文章详细解析了 config.json 配置文件的关键字段（如 baseUrl、apiKey、contextWindow），提供了从安装 Ollama、拉取模型到配置 Docker 环境的完整步骤。此外，还涵盖了上下文长度优化、GPU 加速验证及常见问题排查技巧，适用于希望构建低成本、离线运行 LLM 应用的开发者。

PgDevote发布于 2026/4/6更新于 2026/5/2332 浏览

本地部署 Gemma-1B 大模型：Ollama + Open WebUI 配置与实战

为什么选择 Gemma-1B 进行本地部署？

在生成式人工智能（Generative AI）迅猛发展的今天，大型语言模型（Large Language Models, LLMs）已成为智能应用的核心引擎。然而，主流闭源模型（如 GPT-4、Claude 等）存在数据隐私风险、调用成本高、网络依赖强等痛点。与此同时，开源小模型凭借其低资源消耗、高可控性、完全离线运行等优势，正成为开发者构建私有化 AI 系统的首选。

Google 于 2024 年推出的 Gemma 系列模型，正是这一趋势下的标杆之作。其中，Gemma-1B（10 亿参数版本）以其极小的体积、出色的推理能力、宽松的开源协议（Apache 2.0），迅速成为边缘设备、个人工作站和中小企业私有化部署的理想选择。

💡 Gemma-1B 核心优势：仅需 6GB 显存即可流畅运行（4-bit 量化后甚至可在 CPU 上推理）、支持高达 8192 tokens 的上下文长度（部分实现扩展至 16k+）、完全兼容 Hugging Face Transformers 和 Ollama 生态、商业友好许可证，可自由用于生产环境。

然而，许多开发者在尝试将 Gemma-1B 集成到本地 Web UI（如 Open WebUI）时，常因配置文件结构复杂、API 兼容性问题、上下文长度设置错误等原因导致部署失败。本文将手把手带你完成从零到一的完整部署流程，并深入解析一份高质量的 config.json 配置文件，助你高效构建属于自己的私有化 AI 助手。

技术栈概览：Ollama + Open WebUI 架构解析

在正式配置前，我们先明确整个系统的技术架构与组件职责：

组件	作用	端口	协议
Ollama	本地 LLM 运行时，负责模型加载、推理调度	`11434`	HTTP/REST (OpenAI 兼容)
Open WebUI	前端交互界面，提供类 ChatGPT 的聊天体验	`3000` (默认)	WebSocket + HTTP
Config.json	模型注册与网关配置文件，连接前后端	—	JSON

🔄 数据流：用户输入 → Open WebUI → 解析 config.json → 调用 Ollama /v1/completions 或 /v1/chat/completions → Ollama 加载 Gemma-1B 推理 → 返回结果 → 渲染到前端。

这种架构的优势在于解耦清晰、扩展性强：你可以在同一套 WebUI 中注册多个本地或远程模型（如 Llama3、Phi-3、Qwen 等），并通过统一界面切换使用。

核心配置文件详解：一份为 Gemma-1B 量身定制的 `config.json`

以下是我们要重点解析的完整配置文件。它不仅适用于 Gemma-1B，其结构也适用于其他 Ollama 模型的集成。

{"env":{"OLLAMA_API_KEY":"ollama-local"

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

"env":{"OLLAMA_API_KEY":"ollama-local"}

"gateway":{"mode":"local","auth":{"token":"my-secret-token-123"}}

字段	含义	推荐值
`mode`	运行模式	`"local"`（开发）、`"production"`（生产）
`auth.token`	访问 WebUI 的认证令牌	强密码（建议 16 位以上，含大小写 + 数字 + 符号）

"tools":{"profile":"minimal"}

Profile	功能集	适用场景
`minimal`	仅基础文本生成	资源受限设备、纯对话场景
`standard`	支持函数调用、RAG、文件上传	通用智能助手
`advanced`	启用多模态、Agent 编排、记忆系统	复杂 AI 应用

"ollama":{"baseUrl":"http://localhost:11434/v1","apiKey":"ollama-local","api":"openai-completions","models":[...]}

{"id":"mygemma:latest","name":"MyGemma","api":"openai-completions","reasoning":false,"input":["text"],"cost":{...},"contextWindow":16001,"maxTokens":81920}

字段	说明	技术细节
`id`	必须与 Ollama 中的模型 tag 完全一致	通过 `ollama list` 查看，如 `gemma:1b`、`mygemma:latest`
`name`	WebUI 中显示的名称	可自定义，如 'Gemma-1B (本地)'
`reasoning`	是否支持链式推理（CoT）	Gemma-1B 无专用 CoT 微调，设为 `false`
`input`	支持的输入类型	文本模型填 `["text"]`；多模态填 `["text", "image"]`
`cost`	成本统计（单位：美元/百万 tokens）	本地模型均为 `0`，用于 UI 显示
`contextWindow`	最大上下文长度（含输入 + 输出）	Gemma 官方为 8192，但 Ollama 实现常支持更高（见下文）
`maxTokens`	单次生成最大 token 数	受限于 `contextWindow`，实际 = `contextWindow - input_tokens`

"agents":{"defaults":{"model":{"primary":"ollama/mygemma:latest"}}}

curl -fsSL https://ollama.com/install.sh |sh

ollama pull gemma:1b

FROM gemma:1b
PARAMETER temperature 0.7
PARAMETER num_ctx 8192

ollama create mygemma -f Modelfile

ollama run mygemma:latest
>>> 你好！ Hello! How can you help you today?

docker run -d \
  -p 3000:8080 \
  -v ~/.webui:/app/backend/data \
  --add-host=host.docker.internal:host-gateway \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

git clone https://github.com/open-webui/open-webui.git
cd open-webui
cp backend/config.yaml.example backend/config.yaml
# 编辑 config.yaml，设置 SECRET_KEY 等
docker-compose up -d

docker restart open-webui

mkdir -p ~/.webui

ollama run mygemma:latest --num_ctx 16384

FROM gemma:1b
PARAMETER num_ctx 16384

nvidia-smi # 观察是否有 ollama 进程占用显存

指标	正常范围	异常表现
CPU 使用率	<80%	持续 100% → CPU 瓶颈
GPU 显存	<90%	OOM → 降低 `maxTokens`
响应延迟	<2s/token	>5s/token → 检查量化级别

FROM gemma:1b
SYSTEM """ You are MyGemma, a helpful and harmless AI assistant developed by Google. Answer questions concisely and accurately. """

ollama list # 确认模型 ID
sudo systemctl start ollama # 启动服务
# Linux Docker 启动命令改为：docker run -d --network=host ...

"models":[{"id":"mygemma:latest","name":"Gemma-1B",...},{"id":"llama3:8b","name":"Llama3-8B","contextWindow":8192,"maxTokens":2048}]

本地部署 Gemma-1B 大模型：Ollama + Open WebUI 配置与实战

本地部署 Gemma-1B 大模型：Ollama + Open WebUI 配置与实战

为什么选择 Gemma-1B 进行本地部署？

技术栈概览：Ollama + Open WebUI 架构解析

核心配置文件详解：一份为 Gemma-1B 量身定制的 config.json

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1️⃣ 环境变量配置（env）

▶ 作用说明

▶ 最佳实践

2️⃣ 网关与认证配置（gateway）

▶ 字段解析

▶ 安全建议

3️⃣ 工具与功能配置（tools）

▶ Profile 类型说明

▶ 为何选择 minimal？

4️⃣ 模型提供者配置（models.providers.ollama）——核心模块

▶ 关键字段详解

✅ baseUrl

✅ apiKey

✅ api

5️⃣ 单模型详细配置（models.providers.ollama.models[0]）

▶ 字段深度解析

▶ 关于上下文长度的深度探讨

6️⃣ 默认代理模型配置（agents.defaults）

▶ 作用说明

实战部署：从零搭建 Gemma-1B 本地 AI 助手

步骤 1：安装 Ollama

▶ Linux / macOS

▶ Windows

步骤 2：拉取并测试 Gemma-1B 模型

▶ 拉取官方模型

▶ （可选）创建自定义 Tag

▶ 本地测试

步骤 3：配置 Open WebUI

▶ 方法一：Docker 快速启动（推荐）

▶ 方法二：源码部署（高级用户）

步骤 4：放置并验证 config.json

高级优化与调试技巧

技巧 1：动态调整上下文长度

技巧 2：启用 GPU 加速（NVIDIA）

技巧 3：性能监控与瓶颈分析

技巧 4：自定义提示词模板（Prompt Template）

常见问题解答（FAQ）

Q1：为什么我配置了 mygemma:latest，但 WebUI 找不到模型？

Q2：上下文长度设为 81920 后，模型无法生成任何内容？

Q3：能否同时配置多个模型（如 Gemma + Llama3）？

Q4：如何更新模型配置而不重启 WebUI？

扩展阅读与资源推荐

官方文档

相关工具

总结：打造你的私有化 AI 基座

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

核心配置文件详解：一份为 Gemma-1B 量身定制的 `config.json`

1️⃣ 环境变量配置（`env`）

2️⃣ 网关与认证配置（`gateway`）

3️⃣ 工具与功能配置（`tools`）

▶ 为何选择 `minimal`？

4️⃣ 模型提供者配置（`models.providers.ollama`）——核心模块

✅ `baseUrl`

✅ `apiKey`

✅ `api`

5️⃣ 单模型详细配置（`models.providers.ollama.models[0]`）

6️⃣ 默认代理模型配置（`agents.defaults`）

步骤 4：放置并验证 `config.json`

Q1：为什么我配置了 `mygemma:latest`，但 WebUI 找不到模型？