OmniInsert：扩散变换器解决无掩码视频插入难题

视频插入这活儿，以往不是得用掩码，就是得拿复杂控制信号来约束。OmniInsert 这个工作上来就瞄准无掩码插入，直接拿扩散变换器（Diffusion Transformer）来搞定。它要解决的难点主要有三个：数据不够用，主体和场景怎么平衡，融合得自不自然。

为了数据，他们搭了个叫 InsertPipe 的流水线，自动生成千变万化的跨配对视频。具体有三条支线：RealCapture 用现成视频加检测跟踪工具抓取对象，SynthGen 靠 LLM 出提示然后用图像编辑来合成，SimInteract 走渲染引擎模拟物理交互。这样一来，训练素材问题缓解不少。

模型本身叫 OmniInsert，支持单参考图或多参考图。为了不让主体和背景打架，他们搞了条件特定特征注入（CFI），把不同来源的条件显式分开再高效融合。训练上也不一刀切，用了渐进式训练（PT）：先只练插入主体，再逐步切换到完整的无掩码插入任务，最后在高保真数据上精调。损失函数方面，有主体聚焦损失（SL）来抓细节，还有插入偏好优化（IPO）去模拟人眼偏好，拉高融合质量。

推理时有上下文感知重述（CAR）模块，让 VLM 帮忙生成一堆细致描述，好让插入对象真的'融进去'。因为没有现成基准，他们自己出了个 InsertBench，场景和主体都足够杂，能测得更全面。

效果上，在 InsertBench 上跟闭源的 Pika-Pro 和 Kling 比，OmniInsert 优势明显：主体一致性指标 CLIP-I 高出 6.3%，DINO-I 高出 9.6%，文本视频对齐 ViCLIP-T 高出 3.4%。动态、美感和一致性也全面超过。肉眼看着也更真，基线方法经常让主体走样或者背景出戏，OmniInsert 保持身份一致和场景互动做得更靠谱。用户调研四个维度都是它赢。

当然也不是没毛病。颜色保真度和物理合理性上偶尔翻车，物体有时会穿模。480p 下生成 121 帧视频差不多要 90 秒。后面打算引入更先进的偏好优化，加速通用视频扩散模型，再多用几种模态数据提提泛化。论文放 arXiv 了，代码也快开源。

arxiv 论文链接