OmniInsert:借助扩散变换器实现任意对象无掩码视频插入
近期基于扩散模型的视频生成进展迅速,但在视频插入(Video Insertion)任务上,现有方法往往依赖复杂控制信号,难以保证主体一致性。本文聚焦于无掩码视频插入(MVI),旨在解决数据稀缺、主体与场景平衡以及融合和谐度三大挑战。
核心挑战与方案
面对数据稀缺问题,团队设计了 InsertPipe 数据流水线,自动构建多样化的跨配对数据集。这包括利用真实视频通过检测跟踪工具生成的 RealCapture Pipe,结合 LLM 提示与图像编辑技术的 SynthGen Pipe,以及基于渲染引擎模拟交互的 SimInteract Pipe。
在此基础上开发的 OmniInsert 框架支持单个或多个主体参考。为了保持主体与场景的平衡,引入了条件特定特征注入机制(CFI),明确区分并高效融合多源条件。配合渐进式训练策略(PT),模型从仅主体插入逐步过渡到完整 MVI 任务,并在高保真数据集上优化。此外,主体聚焦损失函数(SL)被设计用来提升细节表现,而插入偏好优化(IPO)则通过模拟人类偏好进一步优化结果。
在推理阶段,上下文感知重述模块(CAR)利用 VLM 生成详细提示,帮助主体无缝融入原始场景。为解决领域缺乏基准的问题,研究还推出了包含多样化场景和主体的 InsertBench 测试集。
效果评估
在 InsertBench 上的定量分析显示,OmniInsert 优于 Pika-Pro 和 Kling 等闭源商业方案。主体一致性指标 CLIP-I 和 DINO-I 分别领先 6.3% 和 9.6%,文本视频对齐 ViCLIP-T 领先 3.4%。动态质量、美学及一致性方面均表现突出。
定性比较中,OmniInsert 在主体保真度、提示跟随及插入合理性上更胜一筹。基线方法常出现主体失真或背景不自然的情况,而 OmniInsert 能更好地维持身份一致性与场景交互。用户研究也证实了其在四个维度上的显著优势。
局限与展望
尽管成果显著,当前版本仍存在颜色保真度、物理合理性(如穿透现象)方面的不足,且 480P 分辨率下 121 帧视频的推理时间约为 90 秒。未来计划引入更先进的偏好优化技术、加速通用视频扩散模型,并探索多模态数据以增强泛化能力。相关论文已发布在 arXiv,代码即将开源。


