16 篇大模型领域重要论文综述

清华团队提出歌曲生成模型 SongCreator

虽然此前研究已对歌曲生成的各个方面进行了探索，如歌唱发声、声乐创作和乐器编曲等，但要生成既有歌词又有人声和伴奏的歌曲仍是一项重大挑战，阻碍了音乐生成模型在现实世界中的应用。

有鉴于此，来自清华大学的研究团队及其合作者，提出了一个旨在应对这一挑战的歌曲生成系统 SongCreator。该模型有两个新颖的设计：一个是精心设计的双序列语言模型（DSLM），用于捕捉人声和伴奏信息以生成歌曲；另一个是 DSLM 的附加注意力掩码策略，使模型能够理解、生成和编辑歌曲，从而使其适用于各种与歌曲相关的生成任务。

广泛的实验证明了 SongCreator 的有效性，它在所有八项任务中都取得了 SOTA 或具有竞争力的表现。值得一提的是，它在歌词到歌曲和歌词到人声方面远超过了以前的工作。此外，它还能通过不同的提示独立控制生成歌曲中人声和伴奏的声学条件，显示了其潜在的适用性。

论文链接： https://arxiv.org/abs/2409.06029 项目地址： https://songcreator.github.io/

国科大、美团提出视频 - 音频合成模型 Draw an Audio

音效（Foley），是电影制作中常用的术语，指在无声电影或视频中添加日常音效，从而增强听觉体验。视频到音频（V2A）作为一种特殊的自动音效任务，在视听同步方面面临着固有的挑战。这些挑战包括保持输入视频和生成音频之间的内容一致性，以及视频中时间和响度属性的一致性。

为了解决这些问题，来自中国科学院大学、中国科学院和美团的研究团队构建了一个可控的视频 - 音频合成模型，称为'Draw an Audio'，该模型通过绘制的掩码和响度信号支持多种输入指令。为确保合成音频与目标视频之间的内容一致性，他们提出了掩码 - 注意力模块（MAM），该模块采用掩码视频指令，使模型能够关注感兴趣的区域。

另外，他们还实现了时间响度模块（TLM），该模块使用辅助响度信号，确保合成的声音在响度和时间维度上与视频保持一致。此外，他们还通过标注字幕提示扩展了名为 VGGSound-Caption 的大型 V2A 数据集。在两个大规模 V2A 数据集上对具有挑战性的基准进行的广泛实验验证了 Draw an Audio 达到了 SOTA。

论文链接： https://arxiv.org/abs/2409.06135 项目地址： https://yannqi.github.io/Draw-an-Audio/

UC 伯克利、MIT 团队：评估人类和图像模型的多视角对象一致性

在这项工作中，来自加州大学伯克利分校和麻省理工学院（MIT）的研究团队提出了一个基准，用于直接评估 3D 形状推断任务中人类观察者与视觉模型之间的一致性。

他们利用认知科学中的一种实验设计，要求对物体形状进行零样本视觉推断：给定一组图像，尽管视角存在很大差异，参与者仍要识别哪些图像包含相同/不同的物体。他们从各种图像中选取了常见物体（如椅子）和抽象形状（即程序生成的'常识'物体）。在构建了 2000 多个独特的图像集后，他们对人类参与者执行了这些任务，收集了来自 500 多名参与者的 35K 次行为数据。其中包括明确的选择行为以及中间测量，如反应时间和注视数据。

然后，他们对常见视觉模型（如 DINOv2、MAE、CLIP）的性能进行了评估。他们发现，人类的表现远远优于所有模型。利用多尺度评估方法，他们发现了模型与人类之间的潜在异同：虽然人类与模型的表现是相关的，但人类在具有挑战性的试验中分配了更多的时间/处理。

论文链接： https://arxiv.org/abs/2409.05862 项目地址： https://tzler.github.io/MOCHI/

通过受记忆启发的知识发现实现下一代 RAG

检索增强生成（RAG）利用检索工具访问外部数据库，从而通过优化上下文提高大语言模型（LLM）的生成质量。然而，现有的检索方法受到内在限制，因为它们只能在明确提出的查询和格式化的知识之间进行相关性匹配，而无法处理涉及模糊信息需求或非结构化知识的任务。因此，现有的 RAG 系统主要适用于简单的问题解答任务。

在这项工作中，来自北京智源人工智能研究院和中国人民大学的研究团队提出了一种由长期记忆支持的新型检索增强生成范例——MemoRAG。据介绍，MemoRAG 采用双系统架构。一方面，它采用轻量但长期的 LLM 来形成数据库的全局记忆，一旦提出任务，它就会生成答案草稿，并将检索工具聚类，以便在数据库中找到有用的信息；另一方面，它利用昂贵但具有表现力的 LLM，根据检索到的信息生成最终答案。

16 篇大模型领域重要论文综述

清华团队提出歌曲生成模型 SongCreator

国科大、美团提出视频 - 音频合成模型 Draw an Audio

UC 伯克利、MIT 团队：评估人类和图像模型的多视角对象一致性

通过受记忆启发的知识发现实现下一代 RAG

更多推荐文章

相关免费在线工具

Robot Utility Models：在新环境中零样本部署机器人模型

MMEvol：利用 Evol-Instruct 增强多模态大语言模型

教程：成像与视觉扩散模型

药物发现和研发中的大语言模型：从疾病机理到临床试验

Elsevier Arena：化学/生物/健康基础大语言模型的人类评估

Google DeepMind：通过可扩展逆强化学习模仿语言

斯坦福团队：首次 NLP 专家和 LLM 智能体创意比较

MIT 团队提出 SciAgents，实现科学发现自动化

清华团队推出可配置基础模型：从模块化角度构建 LLM

你的代码 LLM 性能如何？利用高质量数据进行代码指令微调

Qihoo-T2X：通过代理 token 实现文本到任意任务的高效扩散 Transformer

UC 伯克利、斯坦福团队提出表格增强生成 TAG

更多推荐文章

相关免费在线工具

16 篇大模型领域重要论文综述

清华团队提出歌曲生成模型 SongCreator

国科大、美团提出视频 - 音频合成模型 Draw an Audio

UC 伯克利、MIT 团队：评估人类和图像模型的多视角对象一致性

通过受记忆启发的知识发现实现下一代 RAG

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Robot Utility Models：在新环境中零样本部署机器人模型

MMEvol：利用 Evol-Instruct 增强多模态大语言模型

教程：成像与视觉扩散模型

药物发现和研发中的大语言模型：从疾病机理到临床试验

Elsevier Arena：化学/生物/健康基础大语言模型的人类评估

Google DeepMind：通过可扩展逆强化学习模仿语言

斯坦福团队：首次 NLP 专家和 LLM 智能体创意比较

MIT 团队提出 SciAgents，实现科学发现自动化

清华团队推出可配置基础模型：从模块化角度构建 LLM

你的代码 LLM 性能如何？利用高质量数据进行代码指令微调

Qihoo-T2X：通过代理 token 实现文本到任意任务的高效扩散 Transformer

UC 伯克利、斯坦福团队提出表格增强生成 TAG

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具