Google 发布 Gemini Embedding 2:AI 基础设施的重大升级
一、嵌入模型为什么重要?
先简单科普一下嵌入模型(Embedding Model)。如果你用过 ChatGPT、文心一言等大模型,你可能遇到过这个问题:大模型的知识有截止日期,而且它不认识你公司内部的文档。
Google 发布 Gemini Embedding 2 支持五模态统一向量空间,引入 MRL 技术优化存储与检索效率。MuleRun 推出主打“自进化”的个人 AI 助手,提供 Super Agent 与云端虚拟机两种模式,实现任务自动化沉淀。两者标志着 AI 从极客工具向平民化应用转变,降低开发门槛并提升普通用户使用体验。
先简单科普一下嵌入模型(Embedding Model)。如果你用过 ChatGPT、文心一言等大模型,你可能遇到过这个问题:大模型的知识有截止日期,而且它不认识你公司内部的文档。
**RAG(检索增强生成)**就是为了解决这个问题——先从你的知识库里检索最相关的内容,再把这些内容丢给大模型,让它基于真实信息来回答。
而检索的质量,几乎完全取决于嵌入模型。嵌入模型做的事情很简单:把一段内容(文字、图片、视频……)变成一组数字(向量)。两段内容的向量越接近,它们的含义就越相似。
3 月 10 日,Google 发布了Gemini Embedding 2。这不是又一个"更大更强"的大模型,而是一个嵌入模型,解决的是 AI 系统里最关键的问题:
怎么让机器理解"这段文字"和"那张图片"说的是不是同一件事?
以前,文本要用文本模型处理,图片要用图片模型处理,音频还得先转成文字。如果你想让系统同时理解文字、图片和视频,就得搭一整条复杂的管线。
Gemini Embedding 2 的做法是:把文本、图片、视频、音频、PDF 五种模态,全部塞进同一个向量空间。一次 API 调用搞定。
你可以在一次请求里同时传入一张图片和一段文字描述,模型会把它们理解为一个整体,输出一个融合了图文语义的向量。
实际场景:一段产品介绍视频 + 一段口播音频 + 一张产品图 + 一段文字说明。以前需要四个模型分别处理再拼接,现在直接丢进一个 API,出来就是一个统一的向量。
Google 使用了一种叫做**Matryoshka Representation Learning(MRL)**的技术。
想象一下俄罗斯套娃——大娃娃里面套小娃娃,每一层都是完整的。
普通嵌入模型会把语义信息均匀分布在所有维度上。强行把 3072 维截断到 768 维,精度会大幅下降。
但 Gemini Embedding 2 被训练成:把最重要的语义信息塞进最前面的维度。前 768 维已经包含了最核心的含义,后面的维度逐步增加细节。
这意味着你可以:
既拿到了大模型的精度,又只付出了小模型的延迟和成本。
嵌入模型是 AI 系统里最"不性感"但最关键的一层。大模型能不能给出靠谱答案,很大程度取决于检索层能不能找到正确的信息。
对开发者来说,有三点值得关注:
自从 OpenClaw 等 AI Agent 爆火之后,各行各业的人都在说:"我也想养一个 AI 员工,但从哪里开始?"
真正养上之后呢?崩溃时刻来了:
这些故事指向同一件事:让 AI 真正帮你做事、实现全流程自动化,在技术上是可行的,但大多数人还没找到方法让它稳定地融入日常工作。
3 月 16 日,**MuleRun(骡子快跑)**发布了——这是一款主打"自进化"的个人 AI 产品。
正如创始人提到的,"我们想做的是个人 AI。安全、稳定性、上手门槛低。它一直记着你,根据和你的交互而进化,主动提醒你但不打扰,一直在线。"
之所以叫骡子,是因为:
你在页面的对话框里用自然语言描述需求,骡子会调用它背后封装好的工具和能力来完成任务——生图,做 PPT、建网站、批量处理文件,说清楚你要什么,它来想怎么做。
特点:做完交付。你要一个结果,它给你一个结果。
这是一台专属于你的云端虚拟机,7×24 小时持续运行。就算你关掉电脑、睡觉、出门,它还在工作。
在这个场景下,骡子内置了**"Heartbeat"**的主动触达机制,会在你开机一段时间后,主动汇报过去 24 小时的工作进展。
特点:需要一直跑着。人可以不在,它替你盯着。
测试者先上传了一张图,描述了想要的风格:涂色书风格,粗黑轮廓,无阴影,适合儿童,黑白线稿。骡子读取图片后,自行扫描了可用的模型配置,选了一个适合风格迁移的模型,跑完了转换。
然后测试者说:"将这个过程沉淀下来,我要以后批量处理。"
于是骡子创建了一个名为 coloring-book 的可复用技能,写了批量转换脚本,附上了参数说明文档,把一次性的操作封装成了下次可以直接调用的能力。
"帮我搜索十张好看的风景照,然后全部转化成线稿。"
骡子开始自己拆解、依次执行——搜索并筛选了十张涵盖山脉、湖泊、海滩、花田的风景图,批量下载,调用刚才封装好的脚本,统一转换,最后把十张线稿一并呈现出来。
测试者只给了一句话:"做一个治愈系闯关游戏,画面唯美,配乐柔和。"
没有提任何技术参数,没有提美术风格,没有上传任何素材。
骡子开始自己工作,给这个游戏起了个名字叫"星野漫步"——小狐狸在星空下的梦境森林里穿行,收集萤火虫。深紫星空加极光渐变的背景,樱花花瓣随风飘落,萤火虫有动态光晕,骡子用 Web Audio API 生成了五声音阶的柔和琴音循环。
做完之后,它直接给了一个链接,点开就能玩,发给朋友,手机上也能打。
在测试过程中,测试者发现:在任务完成之后,MuleRun 会主动复盘,将任务经验沉淀下来,下次可以重复操作,或者汇报下一次的任务监控进度,具有一定的主动性。
在个体层面,骡子会:
在群体层面,它构建了一个开放的 Agent 网络生态:
| 维度 | 龙虾(OpenClaw 等) | 骡子(MuleRun) |
|---|---|---|
| 控制粒度 | 高 | 低 |
| 使用门槛 | 高 | 低 |
| 本地优先 | 是 | 云端虚拟机 |
| 记忆能力 | 无 | 自进化 |
| 适合人群 | 技术人员 | 普通用户 |
龙虾代表的是高控制粒度、高使用门槛的路线——它给你最大的自由度,但代价是你要懂它、管它、救它。
骡子代表的是门槛低、自动化程度高的 AI 员工——由它来自主承担"越用越懂你"的责任。
正如创始人说的,"把 AI 的定义权,还给每一个人。骡子不是给大公司用的,就是给你用的。"
这两条新闻放在一起看,透露出了一个明确的信号:AI 正在从"技术极客的玩具"变成"普通人能用的工具"。
也许在不久的将来,我们每个人都会有一个"数字员工",而它需要做的事情,就是一直记着我们,越用越懂我们。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML 转 Markdown 互为补充。 在线工具,Markdown 转 HTML在线工具,online