10 篇今日必读的大模型前沿论文研究

汇总了十篇大模型领域的前沿论文，涵盖 Transformer 架构改进如反馈注意力记忆与 Megalodon 长文本处理，多模态模型推理加速及对齐安全挑战，扩散模型控制框架 Ctrl-Adapter 与文生视频模型 Tango 2，以及真实场景转游戏环境 Video2Game 和美学评估 UNIAA。此外还包括状态空间模型综述及文生歌曲模型 Melodist。这些研究涉及长上下文、推理效率、生成控制、安全性及跨模态应用，为相关技术落地提供了理论支持与实验数据参考。

云间漫步发布于 2025/2/7更新于 2026/7/1958 浏览

大模型日报封面

1. 谷歌推出新型 Transformer 架构：反馈注意力就是工作记忆

虽然 Transformer 给深度学习带来了革命性的变化，但二次注意复杂性阻碍了其处理无限长输入的能力。

谷歌研究团队提出了一种新型 Transformer 架构'反馈注意力记忆'（Feedback Attention Memory，FAM），其利用反馈环路使网络能够关注自身的潜在表征。这种设计促进了 Transformer 工作记忆的出现，使其能够处理无限长的序列。TransformerFAM 不需要额外的权重，因此可以与预训练模型无缝集成。

实验表明，TransformerFAM 显著提高了 Transformer 在各种模型大小（1B、8B 和 24B）的长上下文任务中的性能。

论文链接： https://arxiv.org/abs/2404.09173

2. 高通新研究：提高多模态大型语言模型的推理速度

多模态大型语言模型（MLLMs）的推理速度很慢，这是因为其大型语言模型骨干存在内存带宽瓶颈，并且会自动回归生成 token。

高通研究团队探讨了如何应用推测解码来提高 MLLM（特别是 LLaVA 7B 模型）的推理效率。研究表明，纯语言模型可以作为使用 LLaVA 7B 进行推测解码的良好草稿模型，从而绕过草稿模型中图像 token 及其相关处理组件的需要。在三个不同任务中进行的实验表明，推测解码可以实现高达 2.37 倍的内存加速。

论文链接： https://arxiv.org/abs/2404.08856

3. 确保 LLM 对齐和安全的 18 个基本挑战

来自剑桥大学的研究团队及其合作者确定了在确保大型语言模型（LLMs）的一致性和安全性方面的 18 个基本挑战。这些挑战被分为三个不同的类别：对 LLMs 的科学理解，开发和部署方法，以及社会技术挑战。他们根据已确定的挑战，提出了 200 多个具体的研究问题。

论文链接： https://arxiv.org/abs/2404.09932

4. Ctrl-Adapter：使多样的控制适应任意扩散模型的高效和通用的框架

ControlNets 被广泛用于在不同条件下的图像生成中添加空间控制，如深度图、canny 边缘和人体姿态。

然而，在利用预训练图像 ControlNets 进行受控视频生成时，依然存在一些挑战。首先，由于特征空间的不匹配，预训练的 ControlNet 不能直接插入到新的骨干模型中，且为新骨干训练 ControlNet 的成本很高。其次，不同帧的 ControlNet 特征可能不能有效地处理时间一致性问题。

为此，北卡罗来纳大学教堂山分校团队提出了一个高效、通用的框架——Ctrl-Adapter，其可以通过适应预训练的 ControlNets（并改善视频的时间对齐），为任何图像、视频扩散模型添加不同的控件。Ctrl-Adapter 提供多种功能，包括图像控制、视频控制、具有稀疏帧的视频控制、多条件控制、兼容不同的骨干、适应未见过的控制条件和视频编辑。在 Ctrl-Adapter 中，训练适配器层，将预训练的控制网络特征融合到不同的图像、视频扩散模型，同时冻结 ControlNet 和扩散模型的参数。Ctrl-Adapter 由时间模块和空间模块组成，可以有效地处理视频的时间一致性。他们还提出潜在跳跃和逆时间步采样，用于鲁棒自适应和稀疏控制。

此外，Ctrl-Adapter 还能通过简单地取 ControlNet 输出的（加权）平均值来实现多种条件下的控制。凭借各种图像、视频扩散骨干（SDXL、Hotshot-XL、I2VGen-XL 和 SVD），Ctrl-Adapter 在图像控制方面与 ControlNet 不相上下，并在视频控制方面超过所有基线（在 DAVIS 2017 数据集上实现 SOTA 精度），而且计算成本显著降低（少于 10 GPU 小时）。

论文链接： https://arxiv.org/abs/2404.09967 项目地址： https://ctrl-adapter.github.io/

5. Tango 2：通过直接偏好优化对齐基于扩散的文生视频模型

生成式多模态内容在许多内容创作领域日益流行，因为它有可能让艺术家和媒体人员通过快速将他们的想法带到生活中来创建预制作模型。根据文字提示生成音频，是在音乐和电影行业中这类流程的一个重要方面。

目前，许多基于文生视频的扩散模型专注于在大量提示音频对数据集上训练日益复杂的扩散模型。然而，这些模型并没有明确地关注概念或事件的存在，以及它们在输出音频中与输入提示相关的时间顺序。

来自新加坡科技设计大学的研究团队及其合作者假设关注的是音频生成的这些方面如何在数据有限的情况下提高音频生成的性能。他们使用现有的文本到音频模型 Tango，综合创建了一个偏好数据集，其中每个提示都有一个赢家的音频输出和一些输家的音频输出，供扩散模型学习。从理论上讲，输家的输出可能缺少提示中的一些概念或顺序不正确。

他们在偏好数据集上使用 diffusion-DPO 损失对公开可用的 Tango 文生视频模型进行了微调，并表明它在自动和手动评估指标方面优于 Tango 和 AudioLDM2 的音频输出。

论文链接： https://arxiv.org/abs/2404.09956 GitHub 地址： https://github.com/declare-lab/tango

6. Video2Game：将真实世界场景视频转换为现实和交互式游戏环境

创建高质量的交互式虚拟环境，如游戏和模拟器，通常涉及复杂和昂贵的人工建模过程。

来自伊利诺伊大学香槟分校、上海交通大学和康奈尔大学的研究团队提出了一种自动将真实世界场景视频转换为现实和交互式游戏环境的新方法——Video2Game。该系统的有三个核心组件：（1）神经辐射场（NeRF）模块，有效捕捉场景的几何形状和视觉外观（2）一个网格模块，从 NeRF 中提取知识，以更快地渲染（3）物理模块，对物体之间的相互作用和物理动力学进行建模。

通过遵循精心设计的管道，人们可以构建现实世界的可交互和可操作的数字副本。在室内和大规模室外场景上对该系统进行了基准测试证明，该方法不仅可以实时产生高度逼真的渲染，还可以在上面构建交互式游戏。

论文链接： https://arxiv.org/abs/2404.09833 GitHub 地址： https://video2game.github.io/

7. 北大、快手提出 UNIAA：让多模态大模型更懂人类审美

作为昂贵的专家评估的替代方案，图像美学评估（IAA）是计算机视觉领域的一项重要任务。然而，传统的 IAA 方法通常局限于单一的数据源或任务，限制了其通用性。

为了更好地符合人类的审美，来自北京大学和快手的研究团队提出了一个统一的多模态图像美学评估（UNIAA）框架，包括一个名为 UNIAA-LLaVA 的多模态大型语言模型（MLLM）和一个名为 UNIAA-Bench 的综合基准。他们为 IAA 选择了具有视觉感知和语言能力的 MLLMs，并建立了一种将现有数据集转换为统一的高质量视觉指令微调数据的低成本范式，并以此为基础训练 UNIAA-LLaVA。为了进一步评估 MLLMs 的 IAA 能力，他们构建了由感知、描述和评估 3 个审美层次组成的 UNIAA-Bench。

通过大量实验，验证了 UNIAA 的有效性和合理性。与现有的 MLLMs 相比，UNIAA-LLaVA 在 UNIAA-Bench 的所有级别上都实现了有竞争力的性能。该模型在审美感知方面的表现优于 GPT-4V，甚至接近人类（junior-level），MLLMs 在 IAA 中有很大的潜力，但仍有很大的改进空间。

论文链接： https://arxiv.org/abs/2404.09619

8. 综述：替代 Transformer 的状态空间模型

近来，状态空间模型（State Space Model，SSM）作为一种可能替代基于自注意力的 Transformer 的方法，受到了越来越多的关注。在这项工作中，来自安徽大学、哈尔滨工业大学和北京大学的研究团队，首先对这些工作进行了全面的综述，并进行了实验比较和分析，从而更好地展示 SSM 的特点和优势。

具体而言，他们首先对 SSM 的原理进行了详细描述，从而帮助读者快速捕捉 SSM 的主要思想；然后，对现有的 SSM 及其各种应用进行综述，包括自然语言处理、计算机视觉、图、多模态多媒体、点云/事件流、时间序列数据等领域。此外，他们还对这些模型进行了统计上的比较和分析，希望能帮助读者了解不同结构在各种任务上的有效性。然后，他们提出了该方向可能的研究方向，从而更好地推动 SSM 理论模型和应用的发展。

论文链接： https://arxiv.org/abs/2404.09516 GitHub 地址： https://github.com/Event-AHU/Mamba_State_Space_Model_Paper_List

9. Melodist：实现包含人声和伴奏的可控文生歌曲模型

歌曲是歌声和伴奏的结合，然而，现有的工作主要集中在歌唱声音合成和音乐生成上，很少有人关注歌曲合成。

来自浙江大学的研究团队提出了一项名为'文本到歌曲合成'（text-to-song synthesis）的新任务，其中包含人声和伴奏的生成，他们开发的 Melodist 是一种两阶段文本到歌曲方法，包括歌唱语音合成（SVS）和人声到伴奏合成（V2A）。Melodist 利用三塔对比预训练来学习更有效的文本表示，用于可控的 V2A 合成。

为了缓解数据的稀缺性问题，他们构建了一个从音乐网站中挖掘出的中文歌曲数据集。在他们的数据集上的评估结果表明，Melodist 可以合成具有相当质量和风格一致性的歌曲。

论文链接： https://arxiv.org/abs/2404.09313 项目地址： https://text2songmelodist.github.io/Sample/

10. Megalodon：具有无限文本长度的高效 LLM 预训练和推理

Transformers 的二次方复杂性和较弱的长度外推能力限制了其扩展至长序列的能力，虽然存在线性注意和状态空间模型等二次方以下的解决方案，但根据经验，它们在预训练效率和下游任务准确性方面都不如 Transformers。

来自 Meta、南加州大学、卡内基梅隆大学和加州大学圣地亚哥分校的研究团队提出了一种用于高效序列建模、上下文长度不受限制的神经架构 Megalodon。Megalodon 继承了 Mega 架构，并进一步引入了多种技术组件来提高其能力和稳定性，包括复杂指数移动平均线（CEMA）、时间步归一化层、归一化注意力机制和带双跳残差配置的 pre-norm。在与 Llama2 的可控正面对照比较中，Megalodon 在 70 亿参数和 2 万亿训练 Tokens 的规模上取得了比 transformer 更好的效率。Megalodon 的训练损失为 1.70，在 Llama2-7B (1.75) 和 13B (1.67) 之间。

论文链接： https://arxiv.org/abs/2404.08801 GitHub 地址： https://github.com/XuezheMax/megalodon

10 篇今日必读的大模型前沿论文研究