OmniInsert:扩散变换器解决无掩码视频插入难题
视频插入这活儿,以往不是得用掩码,就是得拿复杂控制信号来约束。OmniInsert 这个工作上来就瞄准无掩码插入,直接拿扩散变换器(Diffusion Transformer)来搞定。它要解决的难点主要有三个:数据不够用,主体和场景怎么平衡,融合得自不自然。
为了数据,他们搭了个叫 InsertPipe 的流水线,自动生成千变万化的跨配对视频。具体有三条支线:RealCapture 用现成视频加检测跟踪工具抓取对象,SynthGen 靠 LLM 出提示然后用图像编辑来合成,SimInteract 走渲染引擎模拟物理交互。这样一来,训练素材问题缓解不少。
模型本身叫 OmniInsert,支持单参考图或多参考图。为了不让主体和背景打架,他们搞了条件特定特征注入(CFI),把不同来源的条件显式分开再高效融合。训练上也不一刀切,用了渐进式训练(PT):先只练插入主体,再逐步切换到完整的无掩码插入任务,最后在高保真数据上精调。损失函数方面,有主体聚焦损失(SL)来抓细节,还有插入偏好优化(IPO)去模拟人眼偏好,拉高融合质量。
推理时有上下文感知重述(CAR)模块,让 VLM 帮忙生成一堆细致描述,好让插入对象真的'融进去'。因为没有现成基准,他们自己出了个 InsertBench,场景和主体都足够杂,能测得更全面。
效果上,在 InsertBench 上跟闭源的 Pika-Pro 和 Kling 比,OmniInsert 优势明显:主体一致性指标 CLIP-I 高出 6.3%,DINO-I 高出 9.6%,文本视频对齐 ViCLIP-T 高出 3.4%。动态、美感和一致性也全面超过。肉眼看着也更真,基线方法经常让主体走样或者背景出戏,OmniInsert 保持身份一致和场景互动做得更靠谱。用户调研四个维度都是它赢。
当然也不是没毛病。颜色保真度和物理合理性上偶尔翻车,物体有时会穿模。480p 下生成 121 帧视频差不多要 90 秒。后面打算引入更先进的偏好优化,加速通用视频扩散模型,再多用几种模态数据提提泛化。论文放 arXiv 了,代码也快开源。


