OmniInsert：基于扩散变换器的无掩码视频插入技术解析

近期，基于扩散模型的视频生成技术进展迅速，但在视频插入（Video Insertion）这一细分领域，现有方案仍面临不少瓶颈。比如依赖复杂的控制信号、难以保证主体一致性等问题，限制了实际落地。本文聚焦于无掩码视频插入任务（Mask-free Video Insertion, MVI），主要解决了数据稀缺、主体与场景平衡以及融合和谐这三大挑战。

为什么需要这个？

深度学习让视频编辑变得更容易，但要在不破坏原视频背景的前提下，把一个新物体自然'贴'进去，依然很难。

数据不够用：缺乏成对的插入前后视频及对应的主体参考数据，模型训练受限。
主体与场景难平衡：既要保持未编辑区域不变，又要确保插入的主体一致，这是个矛盾点。
融合不自然：很多方法生成的结果看起来像是硬贴上去的，缺乏真实交互感。

针对这些问题，研究团队提出了 OmniInsert 框架，目标很明确：无需掩码也能实现高质量的视频插入。

核心方案拆解

数据怎么来？

为了解决数据稀缺，团队设计了名为 InsertPipe 的数据流水线，通过三条管线自动构建跨配对数据集：

RealCapture Pipe：利用现有真实视频，配合检测、跟踪和擦除工具生成成对数据，再用视觉语言模型（VLM）和大型语言模型（LLM）生成详细提示，增加多样性。
SynthGen Pipe：用 LLM 生成多样化提示，结合图像/视频生成及主体移除技术，自动合成大规模数据集。
SimInteract Pipe：基于渲染引擎模拟复杂场景下的主体交互，进一步提升数据的复杂度。

模型架构长什么样？

OmniInsert 是一个统一框架，支持单主体或多主体参考。关键组件包括：

条件特定特征注入机制（CFI）：在架构中明确区分视频条件和主体条件的注入方式，避免信息混淆，确保高效融合。
渐进式训练策略（PT）：分四阶段训练，从仅主体插入到完整任务预训练，再到高保真优化，最后引入人类偏好模拟进行偏好优化。
主体聚焦损失（SL）：专门设计的损失函数，引导模型关注主体细节，提升一致性。
插入偏好优化（IPO）：利用少量人类标注的偏好数据，引导模型生成更符合人类直觉的结果。
上下文感知重述模块（CAR）：推理时引入 VLM 生成上下文感知提示，帮助主体无缝融入原始场景。

效果如何？

在 InsertBench 基准测试上，OmniInsert 的表现相当亮眼，甚至优于 Pika-Pro 和 Kling 等闭源商业方案。

主体一致性：CLIP-I 和 DINO-I 指标分别领先 6.3% 和 9.6%。
文本视频对齐：ViCLIP-T 指标领先 3.4%。
综合质量：动态质量、图像质量、美学和一致性等方面均占优。

用户研究也佐证了这一点。30 名志愿者对 40 个样本评估后认为，OmniInsert 在主体保真度、提示跟随和插入合理性上都显著优于基线方法。它不仅能更好地保持主体身份和背景不变性，还能更准确地遵循文本提示，让主体与场景的交互看起来更自然。

局限与展望

当然，技术还没完美。目前仍存在颜色保真度偶尔偏差、物理合理性不足（如穿透现象）、推理速度较慢（约 90 秒/段）等问题。未来可能会引入更先进的偏好优化技术、物理引擎加速，并探索多模态数据利用，让视频插入更加实时和可控。