1. Meta 提出 Agent-as-a-Judge:用智能体评估智能体
当前的评估技术并不适合智能体系统。这些方法要么只关注最终结果——忽略了智能体系统 step-by-step 的特性,要么需要过多的手工劳动。
为了解决这个问题,来自 Meta 和阿卜杜拉国王科技大学的研究团队提出了 Agent-as-a-Judge 框架,利用智能体系统来评估智能体系统。这是 LLM-as-a-Judge 框架的进一步扩展,它结合了智能体功能,可为整个任务解决过程提供中间反馈。他们将 Agent-as-a-Judge 应用于代码生成任务。
为了克服现有基准存在的问题,并为 Agent-as-a-Judge 提供一个概念验证测试平台,他们提出了 DevAI,一个包含 55 项现实自动人工智能开发任务的新基准。它包括丰富的手动标注,比如总共 365 个分层用户需求。他们使用 Agent-as-a-Judge 对三种流行的智能体系统进行了基准测试,发现它的性能大大优于 LLM-as-a-Judge,而且与人类评估基线一样可靠。
论文链接: https://arxiv.org/abs/2410.10934
2. 颜水成新作:混合头注意力 MoH
在这项工作中,来自北京大学和昆仑万维的研究团队及其合作者,升级了多头注意力机制——Transformer 模型的核心,以提高效率,同时保持或超越之前的精度水平。他们证明了多头注意力可以用求和的形式来表达。
根据并非所有注意头都具有同等重要性这一观点,他们提出了混合头注意力(MoH),这是一种将注意头视为混合专家模型(MoE)机制中的专家的新架构。MoH 有两个显著优势:首先,MoH 使每个 token 都能选择适当的注意力头,从而在不影响准确性或增加参数数量的情况下提高推理效率。其次,MoH 用加权求和取代了多头注意力中的标准求和,为注意力机制引入了灵活性,并释放了额外的性能潜力。
在 ViT、DiT 和 LLM 上进行的大量实验表明,MoH 只需使用 50%-90% 的注意力头,就能超越多头注意力。此外,他们还证明,预训练的多头注意力模型(如 LLaMA3-8B)可以进一步继续调整到他们的 MoH 模型中。值得注意的是,MoH-LaMA3-8B 在 14 个基准测试中取得了 64.0% 的平均准确率,仅利用 75% 的注意力头就比 LLaMA3-8B 高出 2.4%。
论文链接: https://arxiv.org/abs/2410.11842 GitHub 地址: https://github.com/SkyworkAI/MoH
3. 黄萱菁团队:视觉 - 语言模型的'谄媚'现象
在大语言模型(LLM)的研究中,'谄媚'是一种普遍存在的幻觉,给这些模型带来了巨大的挑战。具体来说,LLM 往往不能坚持正确的原始回应,而是盲目地同意用户的意见,即使这些意见是错误的或恶意的。然而,有关视觉语言模型(VLM)中'谄媚'行为的研究却很少。
在这项工作中,复旦大学自然语言处理实验室黄萱菁团队将对谄媚现象的探索从 LLM 扩展到 VLM,并提出 MM-SY 基准来评估这种现象。他们展示了多个代表性模型的评估结果,解决了 VLM 在谄媚研究方面的空白。为了减少谄媚现象,他们提出了一个用于训练的合成数据集,并采用了基于提示、监督微调和 DPO 的方法。实验证明,这些方法能有效缓解 VLM 中的谄媚现象。
此外,他们还对 VLM 进行了探测,以评估谄媚现象对语义的影响,并分析了视觉 token 的注意力分布。研究结果表明,防止谄媚行为的能力主要体现在模型的较高层。在这些较高层中,对图像知识缺乏关注可能会导致谄媚行为,而在较高层中加强对图像的关注证明有利于缓解这一问题。
论文链接: https://arxiv.org/abs/2410.11302
4. 苹果团队提出端侧小语言模型多智能体框架 CAMPHOR
虽然服务器端大语言模型(LLM)在函数调用和复杂推理方面表现出了精通的能力,但直接在端侧部署小语言模型(SLM)为改善延迟和隐私带来了机会,但也为准确性和内存带来了独特的挑战。
在这项工作中,苹果团队提出了 CAMPHOR,这是一个创新的端侧小语言模型多智能体框架,旨在处理多个用户输入,并在本地对个人上下文进行推理,确保隐私得到维护。CAMPHOR 采用分层架构,由高阶推理智能体分解复杂任务,并协调专家智能体负责个人上下文检索、工具交互和动态计划生成。通过在智能体间实现参数共享和利用提示压缩,他们显著减少了模型大小、延迟和内存使用。
为了验证他们的方法,他们展示了一个新颖的数据集,该数据集捕捉了以个性化移动助手使用案例为中心的多智能体任务轨迹。实验表明,经过微调的 SLM 智能体不仅在任务完成率 F1 by~35% 方面超过了闭源 LLM,而且还消除了服务器 - 设备通信的需要,同时提高了隐私性。
论文链接:


