
1. 谷歌推出新型 Transformer 架构:反馈注意力就是工作记忆
虽然 Transformer 给深度学习带来了革命性的变化,但二次注意复杂性阻碍了其处理无限长输入的能力。
谷歌研究团队提出了一种新型 Transformer 架构'反馈注意力记忆'(Feedback Attention Memory,FAM),其利用反馈环路使网络能够关注自身的潜在表征。这种设计促进了 Transformer 工作记忆的出现,使其能够处理无限长的序列。TransformerFAM 不需要额外的权重,因此可以与预训练模型无缝集成。
实验表明,TransformerFAM 显著提高了 Transformer 在各种模型大小(1B、8B 和 24B)的长上下文任务中的性能。
论文链接: https://arxiv.org/abs/2404.09173
2. 高通新研究:提高多模态大型语言模型的推理速度
多模态大型语言模型(MLLMs)的推理速度很慢,这是因为其大型语言模型骨干存在内存带宽瓶颈,并且会自动回归生成 token。
高通研究团队探讨了如何应用推测解码来提高 MLLM(特别是 LLaVA 7B 模型)的推理效率。研究表明,纯语言模型可以作为使用 LLaVA 7B 进行推测解码的良好草稿模型,从而绕过草稿模型中图像 token 及其相关处理组件的需要。在三个不同任务中进行的实验表明,推测解码可以实现高达 2.37 倍的内存加速。
论文链接: https://arxiv.org/abs/2404.08856
3. 确保 LLM 对齐和安全的 18 个基本挑战
来自剑桥大学的研究团队及其合作者确定了在确保大型语言模型(LLMs)的一致性和安全性方面的 18 个基本挑战。这些挑战被分为三个不同的类别:对 LLMs 的科学理解,开发和部署方法,以及社会技术挑战。他们根据已确定的挑战,提出了 200 多个具体的研究问题。
论文链接: https://arxiv.org/abs/2404.09932
4. Ctrl-Adapter:使多样的控制适应任意扩散模型的高效和通用的框架
ControlNets 被广泛用于在不同条件下的图像生成中添加空间控制,如深度图、canny 边缘和人体姿态。
然而,在利用预训练图像 ControlNets 进行受控视频生成时,依然存在一些挑战。首先,由于特征空间的不匹配,预训练的 ControlNet 不能直接插入到新的骨干模型中,且为新骨干训练 ControlNet 的成本很高。其次,不同帧的 ControlNet 特征可能不能有效地处理时间一致性问题。
为此,北卡罗来纳大学教堂山分校团队提出了一个高效、通用的框架——Ctrl-Adapter,其可以通过适应预训练的 ControlNets(并改善视频的时间对齐),为任何图像、视频扩散模型添加不同的控件。Ctrl-Adapter 提供多种功能,包括图像控制、视频控制、具有稀疏帧的视频控制、多条件控制、兼容不同的骨干、适应未见过的控制条件和视频编辑。在 Ctrl-Adapter 中,训练适配器层,将预训练的控制网络特征融合到不同的图像、视频扩散模型,同时冻结 ControlNet 和扩散模型的参数。Ctrl-Adapter 由时间模块和空间模块组成,可以有效地处理视频的时间一致性。他们还提出潜在跳跃和逆时间步采样,用于鲁棒自适应和稀疏控制。
此外,Ctrl-Adapter 还能通过简单地取 ControlNet 输出的(加权)平均值来实现多种条件下的控制。凭借各种图像、视频扩散骨干(SDXL、Hotshot-XL、I2VGen-XL 和 SVD),Ctrl-Adapter 在图像控制方面与 ControlNet 不相上下,并在视频控制方面超过所有基线(在 DAVIS 2017 数据集上实现 SOTA 精度),而且计算成本显著降低(少于 10 GPU 小时)。

