Diff Transformer:差分注意力抑制上下文噪声
微软和清华团队提出了一种新的差分注意力机制,直接将两个 softmax 注意力图相减,结果滤除了无关上下文,使注意力模式更稀疏。在语言建模实验中,Diff Transformer 随模型规模和训练 token 数增加全面超越标准 Transformer。它在长上下文建模、关键信息检索、幻觉缓解和上下文学习稳定性上都有实际提升——比如在 QA 和摘要中减少幻觉,在少样本学习中不仅能提精度,对输入顺序变化也更强韧。
论文链接:https://arxiv.org/abs/2410.05258
Presto!:实时高质量文生音频
加州大学圣迭戈分校和 Adobe 研究院的工作瞄准了扩散模型在文字转音乐上的慢速问题。他们先用基于得分的分布匹配蒸馏减少了采样步数,再改进层蒸馏来保留隐藏状态方差,从而降低每一步的成本。两者叠加后,基础模型加速 10-18 倍,单声道/立体声 44.1kHz 生成延迟仅 230/435ms,比之前最快的方法还快 15 倍左右,同时保持高多样性和音质。
论文链接:https://arxiv.org/abs/2410.05167 项目地址:https://presto-music.github.io/web/
多智能体参照交流:考虑视角差异
UC 伯克利团队构建了一个新任务和数据集:两个共享场景的智能体需要根据对方视角生成与理解物体的参照表达。他们收集了 2970 条人类写的参照,并让模型与人类搭档评估。结果,现有模型作为说话者或听话者都明显弱于人类配对。但通过可控训练一个开放权重的说话者模型,交流成功率从 58.9% 提升到 69.3%,甚至超过了最强的专有模型。
论文链接:https://arxiv.org/abs/2410.03959
选择性注意力:无参过滤干扰元素
谷歌研究院提出选择性注意力,一种不改参数就能让注意力自动忽略不必要元素的机制。在语言模型训练中,带选择注意力的 Transformer 能用大约一半的注意力头参数达到同等困惑度;推理时,上下文缓冲区内存需求可降低 16-47 倍(取决于上下文长度)。换言之,它能换来更轻量的模型和更低的显存开销。
论文链接:https://arxiv.org/abs/2410.02703
L-Mul:用加法逼近浮点乘法,大幅省能
浮点乘法是神经网络计算的大头。BitEnergy AI 团队发现,高精度整数加法器可以近似替代浮点乘法,于是设计了线性复杂度乘法 L-Mul。理论误差分析和多个任务上的实验表明,4 位尾数的 L-Mul 精度与 float8_e4m3 乘法相当,3 位尾数则优于 float8_e5m2。若在张量硬件中应用,元素浮点乘法的能耗可降低 95%,点乘降低 80%。直接替换 transformer 中的注意力乘法几乎无损。
论文链接:https://arxiv.org/abs/2410.00907
Loong:分钟级长视频生成
自回归 LLM 在文本生成上很成功,但在视频上通常只能做几秒钟的短片。港大和字节跳动团队分析了关键障碍,提出 Loong 模型,将文本与视频 token 统一为自回归序列,配合渐进式训练和损失重加权缓解不平衡。推理时再用视频 token 重编码和采样策略抑制误差累积。最终在 10 秒视频上训练后,Loong 能直接生成分钟级的长视频。
论文链接:https://arxiv.org/abs/2410.02757 项目地址:https://epiphqny.github.io/Loong-video/
SageAttention:高效且精确的注意力核量化
当序列变长时,注意力的 O(N²) 计算成为瓶颈。清华团队专门量化了注意力算子,提出 SageAttention,OPS 分别是 FlashAttention2 和 xformers 的 2.1 倍和 2.7 倍,精度也优于 FlashAttention3。在 LLM、图像生成和视频生成等模型上,端到端指标几乎没有损失。


