1. 微软新研究:首个用于 Windows OS 交互的 AI 智能体
来自微软公司的研究团队提出了一个用于满足 Windows OS 上的应用程序的用户需求的 UI-Focused 智能体——UFO,它利用了 GPT-Vision 的功能。
UFO 采用双智能体框架,对图形用户界面(GUI)和 Windows 应用程序的控制信息进行细致观察和分析。这使智能体能够在单个应用程序内部以及跨应用程序之间无缝导航和操作,从而满足用户的要求,在跨多个应用程序时也是如此。该框架包含一个控制交互模块,便于在没有人工干预的情况下进行操作,并实现全自动执行。因此,UFO 能够将艰巨耗时的流程转化为只需通过自然语言命令即可完成的简单任务。
研究团队在 9 个流行的 Windows 应用程序中对 UFO 进行了测试,这涵盖了反映用户日常使用情况的各种场景。实验表明,UFO 在满足用户需求方面具有卓越的能力。UFO 是第一个专门为 Windows OS 环境中的任务完成定制的 UI 智能体。
论文链接:
https://arxiv.org/abs/2402.07939
2. SPIN-Diffusion:文生图扩散模型的自我博弈微调
在生成式人工智能(GenAI)领域,与微调大型语言模型(LLMs)方面取得的显著进展相比,微调扩散模型仍然是一个尚未充分开发的前沿领域。虽然如 Stable Diffusion(SD)和 SDXL 等扩散模型依赖于监督式微调,但在它们接触了一定量的数据后,其性能会不可避免地趋于平稳。最近,强化学习(RL)已被用于利用人类偏好数据微调扩散模型,但这需要为每个文本提示至少两张图像('胜者'和'败者'图像)。
来自加州大学洛杉矶分校的研究团队介绍了一种扩散模型自我博弈微调(SPIN-Diffusion)方法,扩散模型与其早期版本进行竞争,促进了一个迭代自我改进的过程。该方法为传统监督式微调和 RL 策略提供了一个替代方案,并显著提高了模型的性能和对齐度。
在 Pick-a-Pic 数据集上的实验表明,SPIN-Diffusion 从一开始就在与人类偏好对齐和视觉吸引力方面优于现有的监督微调方法。到第二次迭代时,它使用更少的数据,在所有指标上都超过了基于 RLHF 的方法。
论文链接:
https://arxiv.org/abs/2402.10210
3. 谷歌新研究:可阅读 20 倍上下文的 AI 智能体
目前的大型语言模型(LLMs)不仅受限于一定的最大上下文长度,也无法鲁棒地处理长输入。为此,来自 Google DeepMind 和 Google Research 的研究团队提出了一个能够将有效上下文长度提高 20 倍的 LLMs 智能体系统——ReadAgent。
受人类交互式阅读长文档方式的启发,研究团队将 ReadAgent 作为一个简单的提示系统。该系统利用 LLMs 的高级语言能力决定将哪些内容一起存储在一个记忆片段中,随后将这些记忆片段压缩成短小片段记忆(gist memories)。当 ReadAgent 需要提醒自己相关细节以完成任务时,就在原始文本中查找段落。
研究团队使用检索方法、原始长上下文以及 gist memories 来对 ReadAgent 进行评估,并与基线进行比较。在 QuALITY、NarrativeQA 和 QMSum 三个长文档阅读理解任务中,ReadAgent 的表现都优于基线,同时将有效上下文窗口扩展了 3-20 倍。
论文链接:
https://arxiv.org/abs/2402.09727
4. DeepMind 新研究:无需 prompt 的思维链推理
在提升大型语言模型(LLMs)的推理能力方面,此前的研究主要集中在如少样本或零样本的思维链(CoT)提示等特定的提示技术上。这些方法虽然有效,但往往涉及手动密集型的 prompt 工程。
来自 Google DeepMind 的研究团队提出了一个问题:LLMs 能否在没有提示的情况下有效地进行推理?研究发现,通过简单地改变解码过程,就能从预训练 LLMs 中引出 CoT 推理路径。
与传统的贪婪解码不同,通过研究前 K 个备选 token,研究团队发现 CoT 路径通常是这些序列中固有的。这种方法不仅绕过了提示的干扰因素,还允许我们评估 LLMs 的内在推理能力。解码路径中出现 CoT 与模型解码答案的高置信度相关。这一置信度指标有效地区分了 CoT 和非 CoT 路径。在各种推理基准上的研究表明,CoT 解码显著优于标准的贪婪解码。
论文链接:


