
1. SnapGen:极小、快速的高分辨率'文生图'模型
现有的文本到图像(T2I)扩散模型面临几个限制,包括模型规模大、运行速度慢以及在移动设备上生成的图像质量低。
来自 Snap 的研究团队及其合作者旨在通过开发一种极小且快速的 T2I 模型,在移动平台上生成高分辨率和高质量的图像,从而应对所有这些挑战。为实现这一目标,他们提出了几种技术。首先,他们系统地检查了网络架构的设计选择,以减少模型参数和延迟,同时确保高质量的生成。其次,为了进一步提高生成质量,他们从一个更大的模型中采用了跨架构知识提炼,使用多层次方法指导他们的模型从头开始训练。第三,他们通过将对抗指导与知识提炼相结合,实现了几步生成。
他们的模型 SnapGen 在移动设备上生成 1024x1024 px 图像的时间仅为 1.4 秒。在 ImageNet-1K 上,模型只需 372M 参数就能生成 256x256 px 的图像,FID 达到 2.06。在 T2I 基准(即 GenEval 和 DPG-Bench)上,他们的模型仅有 379M 个参数,以明显更小的规模(例如,比 SDXL 小 7 倍,比 IF-XL 小 14 倍)超越了拥有数十亿个参数的大模型。
论文链接: https://arxiv.org/abs/2412.09619 项目地址: https://snap-research.github.io/snapgen/
2. Lyra:高效、全认知多模态大语言模型
随着多模态大语言模型(MLLMs)的发展,超越单领域的能力对于满足更多功能和更高效的人工智能需求至关重要。然而,以前的综合模型对语音的探索不够,忽视了语音与多模态的融合。
来自香港中文大学、思谋科技和香港科技大学的研究团队推出的 Lyra 是一种高效的 MLLM,可增强多模态能力,包括高级长语音理解、声音理解、跨模态效率和无缝语音交互。为了实现高效和以语音为中心的能力,Lyra 采用了三种策略:(1)利用现有的开源大模型和建议的多模态 LoRA 来降低训练成本和数据要求;(2)使用潜在多模态正则化器和提取器来加强语音和其他模态之间的关系,从而提高模型性能;以及(3)构建一个高质量、广泛的数据集,其中包括 1.5M 多模态(语言、视觉、音频)数据样本和 12K 长语音样本,使 Lyra 能够处理复杂的长语音输入,实现更鲁棒的全方位认知。
与其他全方位方法相比,Lyra 在各种视觉 - 语言、视觉 - 语音和语音 - 语言基准测试中取得了 SOTA 的性能,同时还使用了更少的计算资源和训练数据。
论文链接: https://arxiv.org/abs/2412.09501 项目地址: https://lyra-omni.github.io/
3. EasyRef:即插即用的扩散模型适配方法
传统的扩散模型免微调方法大多以平均图像嵌入作为注入条件,对多个参考图像进行编码,但这种独立于图像的操作无法在图像之间进行交互,从而捕捉多个参考图像中一致的视觉元素。虽然基于微调的低秩适应(LoRA)可以通过训练过程有效地提取多个图像中的一致元素,但它需要针对每个不同的图像组进行特定的微调。
来自香港中文大学多媒体实验室的研究团队及其合作者,提出了一种新颖的即插即用适配方法 EasyRef,它能使扩散模型以多个参考图像和文本提示为条件。为了有效利用多幅图像中一致的视觉元素,他们利用了多模态大语言模型(MLLM)的多图像理解和指令跟踪能力,促使其根据指令捕捉一致的视觉元素。此外,通过适配器将多模态大语言模型的表征注入扩散过程,可以很容易地推广到未见领域,挖掘未见数据中的一致视觉元素。
为了降低计算成本并加强细粒度细节保护,他们提出了一种高效的参考聚合策略和渐进式训练方案。最后,他们提出了一种新的多参考图像生成基准 MRBench。实验结果表明,EasyRef 超越了免微调方法(如 IP-Adapter)和基于微调的方法(如 LoRA),在不同领域实现了卓越的美学质量和鲁棒的零样本泛化。
论文链接: https://arxiv.org/abs/2412.09618 项目地址: https://easyref-gen.github.io/

