
1. 苹果团队推出兼容 LLM 演进的模型更新策略 MUSCLE
为提高模型性能,大语言模型(LLM)经常会因数据或架构变化而更新。在更新模型时,开发人员通常侧重于提高整体性能指标,而不太重视与先前模型版本的兼容性。然而,用户通常会对与之交互的特定机器学习模型的功能和能力建立一个心智模型。每次更新时,他们都必须调整自己的心智模型——这是一项耗费精力的任务,可能会导致用户不满。
在实践中,微调下游任务适配器依赖于预训练的 LLM 基础模型。当这些基础模型更新时,这些面向用户的下游任务模型就会出现实例退化(Instance regression)或负向翻转(Negative flips)的情况。即使下游任务训练程序保持不变,这种情况也会发生。
在这项工作中,来自苹果公司、加州大学圣地亚哥分校的研究团队希望通过两种方式为用户提供无缝的模型更新。首先,他们为与先前模型版本的兼容性概念提供了评估指标,特别适用于生成任务,但也适用于判别任务。他们观察了不同任务和模型更新上不同模型版本之间的退化和不一致性。其次,他们提出了一种训练策略,从而尽量减少模型更新中不一致的情况,其中包括训练一个兼容性模型,该模型可以增强任务微调语言模型。从 Llama 1 到 Llama 2,他们减少了多达 40% 的负向翻转——即以前正确的实例现在被错误地预测出来。
论文链接: https://arxiv.org/abs/2407.09435
2. 华为新研究:用于无限语境 LLM 的类人情景记忆
大语言模型(LLMs)已显示出非凡的能力,但在处理广泛的语境方面仍有困难,这限制了它们在长序列中保持连贯性和准确性的能力。与此相反,人类大脑擅长组织和检索跨越巨大时间尺度的情景体验(episodic experience),这种经验伴随人的一生。
在这项工作中,来自华为、伦敦大学学院提出了一种将人类情景记忆和事件认知的关键方面整合到 LLM 中的新方法——EM-LLM,使 LLM 能够有效处理几乎无限的语境,同时保持计算效率。EM-LLM 采用贝叶斯惊喜和图论边界细化相结合的在线方式,将 token 序列组织成连贯的情景事件。需要时,通过两阶段记忆过程检索这些事件,将基于相似性的检索和时间上连续的检索结合起来,以高效和类似人类的方式获取相关信息。
在 LongBench 数据集上的实验证明了 EM-LLM 的优秀性能,它在各种任务中的总体相对改进率为 4.3%,超过了 SOTA InfLLM 模型,其中在 PassageRetrieval 任务中的改进率为 33%。此外,分析表明,EM-LLM 的事件分割与人类感知的事件之间存在很强的相关性。这项工作不仅提高了 LLM 处理扩展语境的能力,还为探索人类记忆机制提供了一个计算框架,为人工智能和认知科学的跨学科研究开辟了新途径。
论文链接: https://arxiv.org/abs/2407.09450
3. Google DeepMind 推出分层视觉 - 语言 - 动作导航策略 Mobility VLA
导航研究的一个难以实现的目标是构建一个能够理解包括自然语言和图像在内的多模态指令并执行有用导航的智能体。为了实现这一目标,Google DeepMind 研究了一类广泛有用的导航任务,名为 Multimodal Instruction Navigation with demonstration Tours(MINT),其中环境先验知识通过先前录制的示范视频提供。
视觉语言模型(VLM)的最新进展显示了实现这一目标的有希望的路径,因为它展示了在感知和推理多模态输入方面的能力。然而,VLM 通常被训练来预测文本输出,在导航中如何最好地利用它们仍然是一个开放的研究问题。
为了实现 MINT,研究团队提出了 Mobility VLA,一种分层的视觉 - 语言 - 动作(VLA)导航策略,它结合了长上下文 VLM 的环境理解和常识推理能力以及基于拓扑图的稳健低级导航策略。高级策略由一个长上下文 VLM 组成,它将示范视频和多模态用户指令作为输入,以在视频中找到目标帧。接下来,低级策略使用目标帧和离线构建的拓扑图在每个时间步生成机器人动作。
研究团队在一个 836 平方米的真实世界环境中评估了 Mobility VLA,并展示了 Mobility VLA 在以前未解决的多模态指令上的端到端高成功率。
论文链接: https://arxiv.org/abs/2407.07775v1

