摘要:近期基于扩散模型在视频插入领域取得的进展令人瞩目。然而,现有方法依赖复杂的控制信号,却难以保证主体一致性,限制了其实际应用。本文聚焦于无掩码视频插入任务,旨在解决三大关键挑战:数据稀缺、主体与场景平衡以及插入内容的和谐融合。为应对数据稀缺问题,我们提出了一种新型数据流水线 InsertPipe,可自动构建多样化的跨配对数据集。基于该数据流水线,我们开发了 OmniInsert——一种新颖的统一框架,支持从单一或多个主体参考中实现无掩码视频插入。具体而言,为保持主体与场景的平衡,我们引入了一种简单而有效的条件特定特征注入机制,以明确注入多源条件,并提出了一种新型渐进式训练策略,使模型能够平衡来自主体和源视频的特征注入。同时,我们设计了主体聚焦损失函数,以提升主体的细节表现。为进一步增强插入内容的和谐融合,我们提出了插入偏好优化方法,通过模拟人类偏好来优化模型,并在参考过程中引入上下文感知重表述模块,使主体无缝融入原始场景。为解决该领域缺乏基准测试的问题,我们推出了 InsertBench——一个包含多样化场景和精心挑选主体的综合基准测试集。在 InsertBench 上的评估表明,OmniInsert 的性能优于当前最先进的闭源商业解决方案。相关代码即将开源。
研究背景和目的
研究背景:
随着深度学习技术的飞速发展,视频生成和编辑领域取得了显著进展。
特别是基于扩散模型(Diffusion Models)的视频生成方法,因其能够生成高质量、连贯的视频内容而备受关注。然而,在视频插入(Video Insertion, VI)任务中,即将一个参考主体自然地插入到源视频中,现有方法仍面临诸多挑战。首先,数据稀缺性问题严重,缺乏成对的插入前后视频及相应的主体参考,限制了模型的训练效果。其次,主体与场景的平衡问题突出,如何在保持未编辑区域不变的同时确保插入主体的一致性,是当前方法亟待解决的问题。最后,插入和谐化不足,现有方法往往难以实现插入主体与原始场景的自然交互,导致生成结果显得不真实。
研究目的:
本研究旨在解决视频插入任务中的上述挑战,提出一种无需掩码的视频插入方法(Mask-free Video Insertion, MVI),通过以下目标实现:
- 解决数据稀缺性:提出一种新的数据管道 InsertPipe,自动构建多样化的跨配对数据,以缓解数据稀缺问题。
- 保持主体与场景的平衡:引入条件特定特征注入机制(Condition-Specific Feature Injection, CFI)和渐进式训练策略(Progressive Training, PT),以维护插入主体与未编辑区域的一致性。
- 提升插入和谐化:设计主体聚焦损失(Subject-Focused Loss, SL)和插入偏好优化方法(Insertive Preference Optimization, IPO),以及上下文感知重述模块(Context-Aware Rephraser, CAR),以增强插入结果的和谐性和真实性。
- 建立基准测试:引入一个全面的基准测试 InsertBench,用于评估 MVI 任务的性能,推动该领域的研究进展。
研究方法
数据管道构建(InsertPipe):
为了解决数据稀缺问题,我们设计了 InsertPipe 数据管道,包含三条数据生成管线:
- RealCapture Pipe:利用现有真实世界视频,通过检测、跟踪和视频擦除工具构建成对视频。同时,利用视觉语言模型(VLM)和大型语言模型(LLM)生成详细的字幕和检测提示,确保数据的多样性和复杂性。
- SynthGen Pipe:利用 LLM 生成多样化的提示,结合图像生成、图像编辑、视频生成和主体移除技术,自动构建大规模跨配对数据集。通过图像生成、视频生成和主体移除技术,确保数据集的场景多样性和一致性。
- SimInteract Pipe:基于渲染引擎生成定制数据,模拟复杂场景下的主体交互,进一步提升数据的复杂性和多样性。
模型架构(OmniInsert):
我们提出了 OmniInsert 框架,一个无需掩码的视频插入统一框架,支持单主体和多主体参考。
该框架包含以下关键组件:
- 条件特定特征注入机制(CFI):在模型架构中明确区分视频条件和主体条件的注入方式,确保不同条件的高效融合。
- 渐进式训练策略(PT):采用四阶段训练策略,从仅主体插入到完整 MVI 任务的预训练,再到高保真度数据集上的模型优化,最后通过人类偏好模拟进行偏好优化。
- 主体聚焦损失(SL):设计特定损失函数,引导模型关注主体区域的细节表现,提升主体一致性。
- 插入偏好优化(IPO):利用少量人类标注的偏好数据,通过偏好优化方法,引导模型生成更符合人类偏好的插入结果。


