跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

OmniInsert:借助扩散变换器实现任意对象无掩码视频插入

OmniInsert 提出一种无掩码视频插入框架,利用扩散变换器模型解决数据稀缺与主体场景平衡难题。通过 InsertPipe 构建跨配对数据集,结合条件特征注入与渐进式训练策略,实现多主体参考下的自然融合。引入主体聚焦损失与偏好优化方法提升细节与和谐度,并在 InsertBench 基准测试中超越现有商业方案,为视频生成编辑提供新方向。

kaikai发布于 2026/4/8更新于 2026/5/2211 浏览
OmniInsert:借助扩散变换器实现任意对象无掩码视频插入

OmniInsert:借助扩散变换器实现任意对象无掩码视频插入

近期基于扩散模型的视频生成进展迅速,但在视频插入(Video Insertion)任务上,现有方法往往依赖复杂控制信号,难以保证主体一致性。本文聚焦于无掩码视频插入(MVI),旨在解决数据稀缺、主体与场景平衡以及融合和谐度三大挑战。

核心挑战与方案

面对数据稀缺问题,团队设计了 InsertPipe 数据流水线,自动构建多样化的跨配对数据集。这包括利用真实视频通过检测跟踪工具生成的 RealCapture Pipe,结合 LLM 提示与图像编辑技术的 SynthGen Pipe,以及基于渲染引擎模拟交互的 SimInteract Pipe。

在此基础上开发的 OmniInsert 框架支持单个或多个主体参考。为了保持主体与场景的平衡,引入了条件特定特征注入机制(CFI),明确区分并高效融合多源条件。配合渐进式训练策略(PT),模型从仅主体插入逐步过渡到完整 MVI 任务,并在高保真数据集上优化。此外,主体聚焦损失函数(SL)被设计用来提升细节表现,而插入偏好优化(IPO)则通过模拟人类偏好进一步优化结果。

在推理阶段,上下文感知重述模块(CAR)利用 VLM 生成详细提示,帮助主体无缝融入原始场景。为解决领域缺乏基准的问题,研究还推出了包含多样化场景和主体的 InsertBench 测试集。

效果评估

在 InsertBench 上的定量分析显示,OmniInsert 优于 Pika-Pro 和 Kling 等闭源商业方案。主体一致性指标 CLIP-I 和 DINO-I 分别领先 6.3% 和 9.6%,文本视频对齐 ViCLIP-T 领先 3.4%。动态质量、美学及一致性方面均表现突出。

定性比较中,OmniInsert 在主体保真度、提示跟随及插入合理性上更胜一筹。基线方法常出现主体失真或背景不自然的情况,而 OmniInsert 能更好地维持身份一致性与场景交互。用户研究也证实了其在四个维度上的显著优势。

局限与展望

尽管成果显著,当前版本仍存在颜色保真度、物理合理性(如穿透现象)方面的不足,且 480P 分辨率下 121 帧视频的推理时间约为 90 秒。未来计划引入更先进的偏好优化技术、加速通用视频扩散模型,并探索多模态数据以增强泛化能力。相关论文已发布在 arXiv,代码即将开源。

arxiv 论文链接

目录

  1. OmniInsert:借助扩散变换器实现任意对象无掩码视频插入
  2. 核心挑战与方案
  3. 效果评估
  4. 局限与展望
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 使用 Docker 和 Datmo 快速配置 AI 开发环境
  • Windows 内网环境离线安装 MySQL 完整指南
  • Openclaw 报错 unauthorized: gateway token mismatch 解决方案
  • AI 印象派工坊与 Stable Diffusion 轻量部署对比评测
  • Z-Image Turbo 本地部署与使用指南
  • AIGC 在日常生活中的应用、挑战与展望
  • 基于 Higress 将 REST API 转换为 MCP Server 工具配置指南
  • IQuest-Coder-V1 vs Meta-Llama-Code:指令模型精度实测
  • 预训练语言模型与 BERT 实战应用
  • 深度学习模型优化策略与实战调参
  • GitHub 全界面中文化插件安装与配置指南
  • 预训练语言模型与 BERT 实战应用
  • Web 创建与设计指南
  • Z-Image-Turbo WebUI 本地部署与使用指南
  • C++ 入门:历史、首个程序与命名空间详解
  • Linux 服务器上部署 OpenClaw 完整教程
  • VR、具身智能与人形机器人:构建现实世界的智能接口
  • C 语言排序算法详解:插入排序与希尔排序
  • 大模型压缩技术:量化、剪枝与蒸馏原理详解
  • 微信小程序任意手机号登录漏洞原理与修复方案

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online