我在Mac mini使用OpenClaw接上本地Gemma4后,确认了一件事:AI成本正在归零

Google 全新发布的 Gemma4 堪称 2026 年本地 AI 最优解,260 亿参数开源免费,普通笔记本就能离线全速运行。

今天我在折腾一件事:

👉 用 Mac mini 跑 Gemma 4 + 接入 OpenClaw

跑通之后,我的第一反应不是“AI更强了”,而是:

AI 的使用成本,正在被打到接近 0。

一、我是在 Mac mini 上跑起来的 Gemma 4

先说结论:

👉 Gemma 4 是可以在 Mac mini 上跑的

我用的是轻量版本(E4B),本地直接跑,完全离线。

没有云,没有API,没有费用。


两分钟搞定:

12 curl -fsSL ollama.com/install.sh | sh ollama pull gemma4:e4b

跑起来之后,你会有一种感觉:

AI第一次真正属于你自己的硬件了

二、Gemma 4 发布,我把架构扒了一遍

我专门对比了 Gemma 4 和 Gemma 3。

结论很有意思👇


✅ 架构几乎没变

还是那一套:

  • • Pre/Post-norm
  • • 5:1 hybrid attention
  • • GQA

说白了:

👉 不是靠架构创新赢的


✅ 但性能直接起飞

  • • 基准测试全面超 Gemma 3

✅ 26B MoE 是最大惊喜

👉 总参数 26B
👉 实际激活只有 4B

什么意思?

用小模型的成本,打大模型的效果

✅ 最关键:Apache 2.0

这一点很多人没意识到有多重要:

👉 可以商用
👉 可以改
👉 可以私有部署


一句话总结 Gemma 4

架构没变,数据和训练方法才是真王道

所以我现在的判断是:

👉 架构党可以先歇歇了


三、很多人没看懂 Gemma 4 真正的价值

大部分人看到的是:

👉 开源
👉 免费
👉 本地能跑

但这些都不是重点。


真正的重点只有一个:

它原生支持 Function Calling(函数调用)

这意味着什么?


👉 它可以自己调用工具
👉 可以执行代码
👉 可以访问API
👉 可以连数据库
👉 可以浏览网页


说白了:

它不是聊天模型,是一个“能干活的本地智能体”

四、为什么我一定要接 OpenClaw

因为:

👉 Gemma4 + OpenClaw = 本地AI系统


OpenClaw 是什么?

你可以理解为:

AI的操作系统(Agent OS)

它负责:

  • • 多Agent协作
  • • 任务执行
  • • 工具调用(MCP)
  • • 长时间运行

但很多人卡在这里:

👉 OpenClaw 根本没用到你的大模型


比如你看到:

1 gateway-injected

那说明:

你还在用内置小模型

五、正确接入姿势(关键)

1️⃣ 拉对模型

123 ollama pull gemma4:26b # 或 ollama pull gemma4:31b

⚠️ 不能写 gemma4
必须写完整:gemma4:26b


2️⃣ 配置 OpenClaw

123456 {   "id": "gemma4:26b",   "name": "Gemma4 Local",   "contextWindow": 262144,   "maxTokens": 8192 }

3️⃣ 强制切换模型

1 /model ollama/gemma4:26b

当你看到:

1 agent main | ollama/gemma4:26b

那一刻开始:

你就拥有了一个真正的本地 AI Agent

六、今天的测试


🧠 本地:Gemma 4

负责:

  • • 写文章
  • • 代码审查
  • • 数据处理
  • • 日常分析

🔧 工具:MCP + OpenClaw

负责:

  • • 调接口
  • • 浏览网页
  • • 数据库操作
  • • 自动执行任务

☁️ 云端:Claude Code(备用)

只在以下情况用:

  • • 高复杂推理
  • • 架构设计
  • • 超大项目

七、这套组合带来的变化(非常关键)

以前:

👉 每个月 AI 成本 几百美金

现在:

👉 90% 本地解决
👉 只为 10% 付费


一句话总结:

AI从“按token收费”,变成“按电费收费”

八、我有一个老设备也能跑

我现在甚至在试:

👉 老显卡 + gemma4:e4b

结果是:

👉 轻松跑
👉 稳定
👉 可用


随便用,只耗电

Read more

Stable Diffusion显存管理技术解析与优化实践

Stable Diffusion显存管理技术解析与优化实践 【免费下载链接】sd-webui-memory-releaseAn Extension for Automatic1111 Webui that releases the memory each generation 项目地址: https://gitcode.com/gh_mirrors/sd/sd-webui-memory-release 在AI绘画创作过程中,显存管理问题常常成为影响创作体验的关键因素。许多用户在连续生成图像时会遇到显存不足的困扰,这不仅打断了创作流程,还可能造成时间与精力的浪费。针对这一痛点,SD WebUI Memory Release扩展应运而生,为创作者提供了专业的显存管理解决方案。 技术原理深度剖析 显存占用机制解析 现代深度学习框架在执行推理任务时,会在显存中缓存中间计算结果和模型权重。这种缓存机制虽然能提升计算效率,但在连续生成场景下容易导致显存碎片化和内存泄漏问题。具体表现为: * 计算图缓存:PyTorch框架为优化计算性能而保留的计算图结构 * 模型权重驻留:加载的检

GitHub Copilot转变为兼容API

解锁GitHub Copilot全场景使用!copilot-api让Copilot兼容OpenAI/Anthropic生态 作为开发者,你是否曾因GitHub Copilot仅能在指定IDE中使用而感到受限?是否想让Copilot对接Raycast、Claude Code等工具,却苦于接口不兼容?由ericc-ch开发的copilot-api项目给出了完美答案——这是一个反向工程实现的GitHub Copilot API代理,能将Copilot封装为兼容OpenAI和Anthropic规范的API服务,让你在任意支持该规范的工具中轻松调用Copilot能力,彻底解锁Copilot的全场景使用潜力。 项目核心价值:打破生态壁垒,复用Copilot订阅 GitHub Copilot凭借优秀的代码补全、推理能力成为开发者必备工具,但原生仅支持VS Code、JetBrains等少数IDE,且无公开的标准API接口。而copilot-api的核心作用,就是架起Copilot与OpenAI/Anthropic生态的桥梁: * 对于拥有Copilot订阅(个人/企业/商业版)的开发者,

vs code 中内置的聊天是 GitHub Copilot Chat 吗

vs code 中内置的聊天是 GitHub Copilot Chat 吗

vs code 中内置的聊天是 GitHub Copilot Chat 吗 vs code 中内置的聊天要分情况讨论: 1. VS Code 内置的聊天(“Ask Cody”):不是 GitHub Copilot Chat VS Code 在 2023 年底(1.85 版本)引入了一个内置的聊天侧边栏,它的默认提供者是 VS Code 自己的 AI 助手 “Cody”。 * 这个功能是 VS Code 编辑器的一部分,图标通常是一个对话框气泡 💬。 * 它的目标是提供与编辑器深度集成的通用编程帮助,例如解释代码、生成代码、问答等。 * 它不一定与你的 GitHub Copilot 订阅绑定,即使你没有订阅

LLaMA-Factory安装教程(详细版)

LLaMA-Factory安装教程(详细版)

本机显卡双3090 使用wsl中ubuntu torch==2.6.0 conda==24.5.0 cuda==12.4 python==3.12.4(python安装不做赘述,有需要我会另开一篇文章) 一、准备工作 首先,在 https://developer.nvidia.com/cuda-gpus 查看您的 GPU 是否支持CUDA。 保证当前 Linux 版本支持CUDA. 在命令行中输入  uname -m && cat /etc/*release 输出如下,不一定完全一样,类似即可 检查是否安装了 gcc . 在命令行中输入 gcc --version