OmniInsert:基于扩散变换器的无掩码视频插入技术解析
近期,基于扩散模型的视频生成技术进展迅速,但在视频插入(Video Insertion)这一细分领域,现有方案仍面临不少瓶颈。比如依赖复杂的控制信号、难以保证主体一致性等问题,限制了实际落地。本文聚焦于无掩码视频插入任务(Mask-free Video Insertion, MVI),主要解决了数据稀缺、主体与场景平衡以及融合和谐这三大挑战。
为什么需要这个?
深度学习让视频编辑变得更容易,但要在不破坏原视频背景的前提下,把一个新物体自然'贴'进去,依然很难。
- 数据不够用:缺乏成对的插入前后视频及对应的主体参考数据,模型训练受限。
- 主体与场景难平衡:既要保持未编辑区域不变,又要确保插入的主体一致,这是个矛盾点。
- 融合不自然:很多方法生成的结果看起来像是硬贴上去的,缺乏真实交互感。
针对这些问题,研究团队提出了 OmniInsert 框架,目标很明确:无需掩码也能实现高质量的视频插入。
核心方案拆解
数据怎么来?
为了解决数据稀缺,团队设计了名为 InsertPipe 的数据流水线,通过三条管线自动构建跨配对数据集:
- RealCapture Pipe:利用现有真实视频,配合检测、跟踪和擦除工具生成成对数据,再用视觉语言模型(VLM)和大型语言模型(LLM)生成详细提示,增加多样性。
- SynthGen Pipe:用 LLM 生成多样化提示,结合图像/视频生成及主体移除技术,自动合成大规模数据集。
- SimInteract Pipe:基于渲染引擎模拟复杂场景下的主体交互,进一步提升数据的复杂度。
模型架构长什么样?
OmniInsert 是一个统一框架,支持单主体或多主体参考。关键组件包括:
- 条件特定特征注入机制(CFI):在架构中明确区分视频条件和主体条件的注入方式,避免信息混淆,确保高效融合。
- 渐进式训练策略(PT):分四阶段训练,从仅主体插入到完整任务预训练,再到高保真优化,最后引入人类偏好模拟进行偏好优化。
- 主体聚焦损失(SL):专门设计的损失函数,引导模型关注主体细节,提升一致性。
- 插入偏好优化(IPO):利用少量人类标注的偏好数据,引导模型生成更符合人类直觉的结果。
- 上下文感知重述模块(CAR):推理时引入 VLM 生成上下文感知提示,帮助主体无缝融入原始场景。
效果如何?
在 InsertBench 基准测试上,OmniInsert 的表现相当亮眼,甚至优于 Pika-Pro 和 Kling 等闭源商业方案。
- 主体一致性:CLIP-I 和 DINO-I 指标分别领先 6.3% 和 9.6%。
- 文本视频对齐:ViCLIP-T 指标领先 3.4%。
- 综合质量:动态质量、图像质量、美学和一致性等方面均占优。
用户研究也佐证了这一点。30 名志愿者对 40 个样本评估后认为,OmniInsert 在主体保真度、提示跟随和插入合理性上都显著优于基线方法。它不仅能更好地保持主体身份和背景不变性,还能更准确地遵循文本提示,让主体与场景的交互看起来更自然。
局限与展望
当然,技术还没完美。目前仍存在颜色保真度偶尔偏差、物理合理性不足(如穿透现象)、推理速度较慢(约 90 秒/段)等问题。未来可能会引入更先进的偏好优化技术、物理引擎加速,并探索多模态数据利用,让视频插入更加实时和可控。


