Google 发布多模态嵌入模型 Gemini Embedding 2,MuleRun 推出自进化个人 AI
3 月中旬,Google 发布了 Gemini Embedding 2,实现了文本、图片、视频、音频、PDF 五种模态的统一向量空间;同一天,国内 MuleRun(骡子快跑)产品上线,主打'自进化'个人 AI 助手。这两件事都足够重磅,今天来详细聊聊。
一、Google 发布 Gemini Embedding 2:AI 基础设施的重大升级
1.1 嵌入模型为什么重要?
先简单科普一下嵌入模型(Embedding Model)。如果你用过 ChatGPT、文心一言等大模型,你可能遇到过这个问题:大模型的知识有截止日期,而且它不认识你公司内部的文档。
**RAG(检索增强生成)**就是为了解决这个问题——先从你的知识库里检索最相关的内容,再把这些内容丢给大模型,让它基于真实信息来回答。
而检索的质量,几乎完全取决于嵌入模型。嵌入模型做的事情很简单:把一段内容(文字、图片、视频……)变成一组数字(向量)。两段内容的向量越接近,它们的含义就越相似。
1.2 五种模态,一个向量空间
3 月 10 日,Google 发布了Gemini Embedding 2。这不是又一个'更大更强'的大模型,而是一个嵌入模型,解决的是 AI 系统里最关键的问题:
怎么让机器理解'这段文字'和'那张图片'说的是不是同一件事?
以前,文本要用文本模型处理,图片要用图片模型处理,音频还得先转成文字。如果你想让系统同时理解文字、图片和视频,就得搭一整条复杂的管线。
Gemini Embedding 2 的做法是:把文本、图片、视频、音频、PDF 五种模态,全部塞进同一个向量空间。一次 API 调用搞定。
1.3 核心技术亮点
交错输入(Interleaved Input)
你可以在一次请求里同时传入一张图片和一段文字描述,模型会把它们理解为一个整体,输出一个融合了图文语义的向量。
实际场景:一段产品介绍视频 + 一段口播音频 + 一张产品图 + 一段文字说明。以前需要四个模型分别处理再拼接,现在直接丢进一个 API,出来就是一个统一的向量。
俄罗斯套娃技术(MRL)
Google 使用了一种叫做**Matryoshka Representation Learning(MRL)**的技术。
想象一下俄罗斯套娃——大娃娃里面套小娃娃,每一层都是完整的。
普通嵌入模型会把语义信息均匀分布在所有维度上。强行把 3072 维截断到 768 维,精度会大幅下降。
但 Gemini Embedding 2 被训练成:把最重要的语义信息塞进最前面的维度。前 768 维已经包含了最核心的含义,后面的维度逐步增加细节。
这意味着你可以:
- 第一轮粗筛:用 768 维在百万级索引里快速找到 Top-K 候选
- 第二轮精排:对候选结果用完整的 3072 维重新排序
既拿到了大模型的精度,又只付出了小模型的延迟和成本。
1.4 为什么值得关注?
嵌入模型是 AI 系统里最'不性感'但最关键的一层。大模型能不能给出靠谱答案,很大程度取决于检索层能不能找到正确的信息。
对开发者来说,有三点值得关注:
- 存储成本可以大幅降低。MRL 带来的维度灵活性,让 768 维粗筛 +3072 维精排的两阶段架构成为现实。如果你在用 Milvus、Zilliz 等向量数据库,这意味着直接省钱。
- 多模态管线可以大幅简化。电商的图文商品、教育的视频课程、医疗的影像报告——以前需要多套模型的管线,现在可能简化成一个 API 调用。
- '交错输入'是真正的差异化能力。市面上多数嵌入模型还停留在单模态阶段。能在一次请求里理解图文视频音频的联合语义,这在实际业务中价值巨大。

