OmniInsert：借助扩散变换器实现任意对象无掩码视频插入

近期基于扩散模型的视频生成进展迅速，但在视频插入（Video Insertion）任务上，现有方法往往依赖复杂控制信号，难以保证主体一致性。本文聚焦于无掩码视频插入（MVI），旨在解决数据稀缺、主体与场景平衡以及融合和谐度三大挑战。

核心挑战与方案

面对数据稀缺问题，团队设计了 InsertPipe 数据流水线，自动构建多样化的跨配对数据集。这包括利用真实视频通过检测跟踪工具生成的 RealCapture Pipe，结合 LLM 提示与图像编辑技术的 SynthGen Pipe，以及基于渲染引擎模拟交互的 SimInteract Pipe。

在此基础上开发的 OmniInsert 框架支持单个或多个主体参考。为了保持主体与场景的平衡，引入了条件特定特征注入机制（CFI），明确区分并高效融合多源条件。配合渐进式训练策略（PT），模型从仅主体插入逐步过渡到完整 MVI 任务，并在高保真数据集上优化。此外，主体聚焦损失函数（SL）被设计用来提升细节表现，而插入偏好优化（IPO）则通过模拟人类偏好进一步优化结果。

在推理阶段，上下文感知重述模块（CAR）利用 VLM 生成详细提示，帮助主体无缝融入原始场景。为解决领域缺乏基准的问题，研究还推出了包含多样化场景和主体的 InsertBench 测试集。

效果评估

在 InsertBench 上的定量分析显示，OmniInsert 优于 Pika-Pro 和 Kling 等闭源商业方案。主体一致性指标 CLIP-I 和 DINO-I 分别领先 6.3% 和 9.6%，文本视频对齐 ViCLIP-T 领先 3.4%。动态质量、美学及一致性方面均表现突出。

定性比较中，OmniInsert 在主体保真度、提示跟随及插入合理性上更胜一筹。基线方法常出现主体失真或背景不自然的情况，而 OmniInsert 能更好地维持身份一致性与场景交互。用户研究也证实了其在四个维度上的显著优势。

局限与展望

尽管成果显著，当前版本仍存在颜色保真度、物理合理性（如穿透现象）方面的不足，且 480P 分辨率下 121 帧视频的推理时间约为 90 秒。未来计划引入更先进的偏好优化技术、加速通用视频扩散模型，并探索多模态数据以增强泛化能力。相关论文已发布在 arXiv，代码即将开源。

arxiv 论文链接

OmniInsert：借助扩散变换器实现任意对象无掩码视频插入