
研究团队推出全新布局可控生成框架 InstanceAssemble,专为应对复杂场景下的 Layout-to-Image 任务。InstanceAssemble 框架通过级联结构将文本语义与布局信息分阶段建模,并引入全新的 Assemble-Attention,让模型在面对高密度、多实例布局时依然能保持清晰的空间理解与精准对齐。同时,InstanceAssemble 采用极轻量的 LoRA 适配方式(仅占 SD3-Medium 3.46%、Flux.1 0.84% 参数),即可在保持底模能力的前提下,实现灵活的文本与参考图多模态控制。我们还构建了全新的 DenseLayout 基准与可解释评价指标 LGS,让布局对齐的评估更加精确可靠。整体来看,InstanceAssemble 在复杂布局场景下表现稳健,生成质量与可控性均达到业内领先水平。
论文标题:
InstanceAssemble: Layout-Aware Image Generation via Instance Assembling Attention
论文链接:https://arxiv.org/abs/2509.16691
项目主页:https://github.com/FireRedTeam/InstanceAssemble

背景

当下的文本生成图像扩散模型取得了长足进展,为图像生成引入布局控制(Layout-to-Image, L2I)成为可能。然而,现有布局到图像生成方法在复杂场景下表现仍不理想:一方面,如何精确对齐给定布局并同时保持高画质是巨大挑战;另一方面,在扩散生成的逐步去噪过程中确保每个目标的位置与语义属性不偏离也极为困难。此外,布局控制往往需要支持多模态条件(如文本、参考图等信息),这进一步增加了技术复杂度。现有方案各有不足:无训练方法虽然无需改动基础模型,但在复杂布局下效果显著下降,且对超参数敏感、推理速度慢;有训练方法通过额外模块注入布局信息,但往往引入海量参数,训练代价高昂。评估方面,传统指标也存在偏差,难以准确衡量布局对齐程度。这些挑战和不足表明,实现稳健且高效的布局可控图像生成亟需新的算法创新。
方法

InstanceAssemble 方法在架构上引入了级联结构,将全局文本提示与实例级布局条件分阶段处理。具体而言,模型先利用原有 DiT 获取全局图像背景和整体语境,再通过新设计的实例组装注意力模块(Assemble-Attn)逐个整合各布局实例信息,实现局部精细控制。这样的级联架构确保了全局质量与局部对齐两方面的兼顾,避免了同时处理所有实例可能产生的冲突。在实例组装注意力中,每个目标实例的注意力计算仅在其对应图像区域内进行,避免不同实例间互相干扰。这种独立注意力机制使模型能够有效处理重叠或小物体等复杂布局情形,同时通过权重融合各实例特征,保持画面整体协调。
此外,InstanceAssemble 使用 LoRA 模块进行轻量级模型适配。通过在基础扩散模型中注入少量 LoRA 参数(仅增加基础模型的 3% 的参数量左右),实现了对现有 DiT-based 文本生成图像模型的灵活扩展。LoRA 的加入使模型在保留原有生成能力的同时,能够高效地学习布局控制,不需要大规模重训整个模型,并具备良好的兼容性(例如可方便地加载不同风格的 LoRA 权重)。最后,该方法还支持多模态的布局输入:每个实例既可由文本描述指定,也能利用额外的图像信息(如参考图片、深度图、边缘图等)来丰富内容表示。






