Google 发布多模态嵌入模型 Gemini Embedding 2，MuleRun 推出自进化个人 AI

Google 发布 Gemini Embedding 2 实现五模态统一向量空间，支持交错输入与俄罗斯套娃技术降低存储成本。国内 MuleRun 上线主打“自进化”个人 AI 助手，提供 Super Agent 与 Computer 两种形态，通过云端虚拟机与主动复盘机制降低使用门槛。两者共同推动 AI 从极客玩具向平民化工具转变。

时间旅人发布于 2026/4/6更新于 2026/7/1452 浏览

Google 发布多模态嵌入模型 Gemini Embedding 2，MuleRun 推出自进化个人 AI

3 月中旬，Google 发布了 Gemini Embedding 2，实现了文本、图片、视频、音频、PDF 五种模态的统一向量空间；同一天，国内 MuleRun（骡子快跑）产品上线，主打'自进化'个人 AI 助手。这两件事都足够重磅，今天来详细聊聊。

一、Google 发布 Gemini Embedding 2：AI 基础设施的重大升级

1.1 嵌入模型为什么重要？

先简单科普一下嵌入模型（Embedding Model）。如果你用过 ChatGPT、文心一言等大模型，你可能遇到过这个问题：大模型的知识有截止日期，而且它不认识你公司内部的文档。

**RAG（检索增强生成）**就是为了解决这个问题——先从你的知识库里检索最相关的内容，再把这些内容丢给大模型，让它基于真实信息来回答。

而检索的质量，几乎完全取决于嵌入模型。嵌入模型做的事情很简单：把一段内容（文字、图片、视频……）变成一组数字（向量）。两段内容的向量越接近，它们的含义就越相似。

1.2 五种模态，一个向量空间

3 月 10 日，Google 发布了Gemini Embedding 2。这不是又一个'更大更强'的大模型，而是一个嵌入模型，解决的是 AI 系统里最关键的问题：

怎么让机器理解'这段文字'和'那张图片'说的是不是同一件事？

以前，文本要用文本模型处理，图片要用图片模型处理，音频还得先转成文字。如果你想让系统同时理解文字、图片和视频，就得搭一整条复杂的管线。

Gemini Embedding 2 的做法是：把文本、图片、视频、音频、PDF 五种模态，全部塞进同一个向量空间。一次 API 调用搞定。

1.3 核心技术亮点

交错输入（Interleaved Input）

你可以在一次请求里同时传入一张图片和一段文字描述，模型会把它们理解为一个整体，输出一个融合了图文语义的向量。

实际场景：一段产品介绍视频 + 一段口播音频 + 一张产品图 + 一段文字说明。以前需要四个模型分别处理再拼接，现在直接丢进一个 API，出来就是一个统一的向量。

俄罗斯套娃技术（MRL）

Google 使用了一种叫做**Matryoshka Representation Learning（MRL）**的技术。

想象一下俄罗斯套娃——大娃娃里面套小娃娃，每一层都是完整的。

普通嵌入模型会把语义信息均匀分布在所有维度上。强行把 3072 维截断到 768 维，精度会大幅下降。

但 Gemini Embedding 2 被训练成：把最重要的语义信息塞进最前面的维度。前 768 维已经包含了最核心的含义，后面的维度逐步增加细节。

这意味着你可以：

第一轮粗筛：用 768 维在百万级索引里快速找到 Top-K 候选
第二轮精排：对候选结果用完整的 3072 维重新排序

既拿到了大模型的精度，又只付出了小模型的延迟和成本。

1.4 为什么值得关注？

嵌入模型是 AI 系统里最'不性感'但最关键的一层。大模型能不能给出靠谱答案，很大程度取决于检索层能不能找到正确的信息。

对开发者来说，有三点值得关注：

存储成本可以大幅降低。MRL 带来的维度灵活性，让 768 维粗筛 +3072 维精排的两阶段架构成为现实。如果你在用 Milvus、Zilliz 等向量数据库，这意味着直接省钱。
多模态管线可以大幅简化。电商的图文商品、教育的视频课程、医疗的影像报告——以前需要多套模型的管线，现在可能简化成一个 API 调用。
'交错输入'是真正的差异化能力。市面上多数嵌入模型还停留在单模态阶段。能在一次请求里理解图文视频音频的联合语义，这在实际业务中价值巨大。

二、MuleRun（骡子快跑）：首个'自进化'个人 AI 产品