1. 清华、智谱 AI 团队推出代码评测基准 NaturalCodeBench
大型语言模型(LLM)在为生产活动生成代码方面表现出强大的能力。然而,目前的代码合成基准,如 HumanEval、MBPP 和 DS-1000,主要面向算法和数据科学的入门任务,不能充分满足现实世界中普遍存在的编码挑战要求。
为了填补这一空白,来自清华大学和智谱 AI 的研究团队提出了自然代码基准(NaturalCodeBench,简称 NCB),这是一个具有挑战性的代码基准,旨在反映真实编码任务的复杂性和场景的多样性。
据介绍,NCB 由 402 个 Python 和 Java 中的高质量问题组成,这些问题都是从在线编码服务的自然用户查询中精心挑选出来的,涵盖 6 个不同的领域。考虑到为真实世界的查询创建测试用例异常困难,他们还提出了一个半自动化管道,从而提高测试用例构建的效率。与人工解决方案相比,其效率提高了 4 倍多。
他们在 39 个 LLM 上进行的系统实验发现,HumanEval 分数接近的模型之间在 NCB 上的性能差距仍然很大,这表明我们对实际代码合成场景缺乏关注,或者对 HumanEval 进行了过度优化。另一方面,即使是性能最好的 GPT-4 在 NCB 上的表现也远远不能令人满意。
论文链接:https://arxiv.org/abs/2405.04520 GitHub 地址:https://github.com/THUDM/NaturalCodeBench
2. '文生视频'新研究:多场景文生视频的时间对齐字幕
文生视频(T2V)模型可以在文本提示的条件下生成高质量的视频。这些 T2V 模型通常产生单场景视频片段,描述执行特定动作的实体(比如,一只小熊猫爬树)。然而,生成多场景视频是非常重要的,因为它们在现实世界中无处不在(比如,一只小熊猫爬上树,然后睡在树顶上)。
为了从预训练的 T2V 模型生成多场景视频,来自加州大学洛杉矶分校和谷歌的研究团队提出了时间对齐字幕(TALC)框架,增强了 T2V 模型中的文本条件作用机制,从而识别视频场景和场景描述之间的时间对齐。例如,他们用第一个场景描述(一只小熊猫在爬树)和第二个场景描述(小熊猫睡在树顶上)的表示对生成视频的早期和后期场景的视觉特征进行条件约束。T2V 模型可以生成符合多场景文本描述的多场景视频,并在视觉上保持一致(如实体和背景)。
此外,他们使用 TALC 框架用多场景视频 - 文本数据对预训练的 T2V 模型进行微调。研究表明,用 TALC 微调的模型在总分数上比基线方法高出 15.5 分。
论文链接:https://arxiv.org/abs/2405.04682 GitHub 地址:https://talc-mst2v.github.io/
3. StyleMamba:高效文本驱动图像风格迁移的状态空间模型
来自帝国理工学院、芬兰奥卢理工大学和戴尔的研究团队提出了一种有效的图像风格迁移框架——StyleMamba,其能够将文本提示翻译为相应的视觉风格,同时保留原始图像的内容完整性。
现有的文本引导样式化需要数百次训练迭代,并且需要大量的计算资源。为加快这一过程,他们提出了一种条件状态空间模型 StyleMamba,用于有效的文本驱动图像风格迁移,按顺序将图像特征与目标文本提示对齐。为了增强文本和图像之间的局部和全局风格一致性,他们提出了掩码和二阶方向损失来优化风格化方向,将训练迭代次数显著减少 5 次,推理时间显著减少 3 次。
广泛的实验和定性评估证实,与现有的基线相比,所提出方法达到了 SOTA。
论文链接:https://arxiv.org/abs/2405.05027
4. 注意力驱动的无训练扩散模型效率提升
扩散模型(DMs)在生成高质量和多样化的图像方面表现出优越的性能。
然而,这种卓越的性能以昂贵的架构设计为代价,特别是在领先模型中大量使用了 attention 模块。现有工作主要采用再训练流程来提高数据挖掘效率。这在计算上是昂贵的,且不太可扩展。
为此,来自普林斯顿大学和 Adobe 的研究团队提出了注意力驱动的免训练高校扩散模型(AT-EDM)框架,其利用注意力图来执行冗余 Token 的运行时修剪,而不需要任何再训练。具体来说,对于单步去噪修剪,他们开发了一种新的排序算法——通用加权页面排序(G-WPR),从而识别冗余的 Token,以及一种基于相似性的方法去恢复卷积操作的 Token。此外,他们还提出了一种去噪步骤感知的剪枝(DSAP)方法,来调整不同去噪时间步的剪枝预算,从而获得更好的生成质量。


