1.最新综述:大型多模态智能体
大型语言模型(LLMs)在为基于文本的人工智能(AI)智能体提供动力方面展示了卓越的性能,使其具备了与人类类似的决策和推理能力。新兴的研究趋势集中在将这些由 LLM 驱动的 AI 智能体扩展到多模态领域。这种扩展使 AI 智能体能够解释和响应多样化的多模态用户查询,从而处理更加复杂和细微的任务。
来自香港中文大学(深圳)、深圳市大数据研究院和中山大学的研究团队对 LLM 驱动的多模态智能体,即大型多模态智能体(LMAs)进行了系统回顾。研究团队首先介绍了开发 LMAs 所涉及的基本要素,并将当前的研究分为四种不同类型。随后回顾了整合多个 LMAs 的协作框架,以增强集体效能。该领域的关键挑战之一是现有研究中使用的评估方法多种多样,阻碍了不同 LMAs 之间的有效比较。因此,研究团队对这些评估方法进行了汇编,并建立了一个综合框架来缩小这些差距。该框架用于使评估标准化以便进行更有意义的比较。最后,研究团队强调了 LMAs 的广泛应用,并提出了未来可能的研究方向。该项研究旨在为这一快速发展领域的未来研究提供有价值的见解和指导。
论文链接: https://arxiv.org/abs/2402.15116 项目地址: https://github.com/jun0wanan/awesome-large-multimodal-agents
2.ToMBench:清华团队领衔提出大模型心智理论基准测试
Theory of Mind(ToM)是一种能够感知并将心理状态归因于自己和他人的认知能力。最近的研究引发了一场关于大型语言模型(LLMs)是否表现出一种 ToM 形式的争论。然而,现有的 ToM 评估受到范围限制、主观判断和意外污染等挑战的阻碍,导致评估不充分。
为此,来自清华大学的研究团队及其合作者推出了 ToMBench,它具有三个关键特征:一个涵盖社会认知领域 8 项任务和 31 种能力的系统性评估框架;一种支持自动和无偏见评估的多选题格式;以及一个严格避免数据泄露的自建双语清单。
研究团队在 ToMBench 上进行了大量实验,评估了 10 种常用 LLMs 在不同任务和能力下的 ToM 性能。实验表明,即使是像 GPT-4 这样最先进的 LLM,也比人类的表现落后 10% 以上,这表明 LLM 还没有达到人类水平的 ToM。ToMBench 用于高效评估大型语言模型的 ToM 能力,从而促进具有内在社会智能的 LLMs 的开发。
论文链接: https://arxiv.org/abs/2402.15052
3.全新脑机接口 BAI:对话式大脑 - 人工智能接口
来自维也纳大学的研究团队提出了大脑 - 人工智能接口(Brain-Artificial Intelligence Interfaces,BAIs)作为一类新的脑机接口(Brain-Computer Interfaces,BCIs)。与依赖完整认知能力的传统 BCIs 不同,BAIs 利用人工智能(AI)的力量取代了部分神经认知处理流程。BAIs 允许用户通过提供高级意图来完成复杂任务,而预先训练好的 AI 智能体确定低级细节。这种方法将 BCIs 的目标受众扩大到了有认知障碍的人,而这些人往往被排除在传统 BCIs 的受益范围之外。
研究团队提出了 BAIs 的通用概念,并通过一个基于 EEG 的对话式 BAI 展示了这种新方法的潜力。在一项模拟电话交谈的实验中表明,对话式 BAI 无需生成语言即可进行复杂的交流。该项研究首次展示了语音神经假体在现实场景中利用非侵入式技术实现流畅交流的能力。
论文链接: https://arxiv.org/abs/2402.15011
4.MobileLLM:针对端侧使用案例优化次十亿参数语言模型
由于云计算成本和延迟问题日益突出,移动设备对高效大型语言模型(LLMs)的需求与日俱增。来自 Meta 公司和 PyTorch 的研究团队专注于设计参数少于十亿的高质量 LLMs,这是移动部署的实用选择。
与强调数据量和参数数量在决定模型质量中起决定性作用的普遍观点相反,该项研究强调了模型架构对十亿以下规模 LLMs 的重要性。利用深层和薄层架构,结合嵌入共享和分组查询关注机制,研究团队建立了一个强大的基线网络——MobileLLM,与之前的 125M/350M 最先进模型相比,准确率显著提高了 2.7%/4.3%。
研究团队还提出了一种即时的分块权重共享方法,不增加模型大小,仅会产生少量延迟开销。由此产生的模型被称为 MobileLLM-LS,与 MobileLLM 125M/350M 相比,精度进一步提高了 0.7%/0.8%。
此外,MobileLLM 模型系列在聊天基准测试中与之前的十亿以下规模模型相比有了显著提高,在 API 调用任务中与 LLaMA-v2 7B 的正确性接近,凸显了小型模型在常见设备使用案例中的能力。


