Google 发布 Gemini Embedding 2 及 MuleRun 自进化 AI 助手

一、Google 发布 Gemini Embedding 2：AI 基础设施的重大升级

1.1 嵌入模型为什么重要？

先简单科普一下嵌入模型（Embedding Model）。如果你用过 ChatGPT、文心一言等大模型，你可能遇到过这个问题：大模型的知识有截止日期，而且它不认识你公司内部的文档。

**RAG（检索增强生成）**就是为了解决这个问题——先从你的知识库里检索最相关的内容，再把这些内容丢给大模型，让它基于真实信息来回答。

而检索的质量，几乎完全取决于嵌入模型。嵌入模型做的事情很简单：把一段内容（文字、图片、视频……）变成一组数字（向量）。两段内容的向量越接近，它们的含义就越相似。

1.2 五种模态，一个向量空间

3 月 10 日，Google 发布了Gemini Embedding 2。这不是又一个"更大更强"的大模型，而是一个嵌入模型，解决的是 AI 系统里最关键的问题：

怎么让机器理解"这段文字"和"那张图片"说的是不是同一件事？

以前，文本要用文本模型处理，图片要用图片模型处理，音频还得先转成文字。如果你想让系统同时理解文字、图片和视频，就得搭一整条复杂的管线。

Gemini Embedding 2 的做法是：把文本、图片、视频、音频、PDF 五种模态，全部塞进同一个向量空间。一次 API 调用搞定。

1.3 核心技术亮点

交错输入（Interleaved Input）

你可以在一次请求里同时传入一张图片和一段文字描述，模型会把它们理解为一个整体，输出一个融合了图文语义的向量。

实际场景：一段产品介绍视频 + 一段口播音频 + 一张产品图 + 一段文字说明。以前需要四个模型分别处理再拼接，现在直接丢进一个 API，出来就是一个统一的向量。

俄罗斯套娃技术（MRL）

Google 使用了一种叫做**Matryoshka Representation Learning（MRL）**的技术。

想象一下俄罗斯套娃——大娃娃里面套小娃娃，每一层都是完整的。

普通嵌入模型会把语义信息均匀分布在所有维度上。强行把 3072 维截断到 768 维，精度会大幅下降。

但 Gemini Embedding 2 被训练成：把最重要的语义信息塞进最前面的维度。前 768 维已经包含了最核心的含义，后面的维度逐步增加细节。

这意味着你可以：

第一轮粗筛：用 768 维在百万级索引里快速找到 Top-K 候选
第二轮精排：对候选结果用完整的 3072 维重新排序

既拿到了大模型的精度，又只付出了小模型的延迟和成本。

1.4 为什么值得关注？

嵌入模型是 AI 系统里最"不性感"但最关键的一层。大模型能不能给出靠谱答案，很大程度取决于检索层能不能找到正确的信息。

对开发者来说，有三点值得关注：

存储成本可以大幅降低。MRL 带来的维度灵活性，让 768 维粗筛+3072 维精排的两阶段架构成为现实。如果你在用 Milvus、Zilliz 等向量数据库，这意味着直接省钱。
多模态管线可以大幅简化。电商的图文商品、教育的视频课程、医疗的影像报告——以前需要多套模型的管线，现在可能简化成一个 API 调用。
"交错输入"是真正的差异化能力。市面上多数嵌入模型还停留在单模态阶段。能在一次请求里理解图文视频音频的联合语义，这在实际业务中价值巨大。

二、MuleRun（骡子快跑）：首个"自进化"个人 AI 产品

2.1 为什么我们需要"骡子"？

自从 OpenClaw 等 AI Agent 爆火之后，各行各业的人都在说："我也想养一个 AI 员工，但从哪里开始？"

维度	龙虾（OpenClaw 等）	骡子（MuleRun）
控制粒度	高	低
使用门槛	高	低
本地优先	是	云端虚拟机
记忆能力	无	自进化
适合人群	技术人员	普通用户

Google 发布 Gemini Embedding 2 及 MuleRun 自进化 AI 助手