MirageLSD 实时直播流扩散模型：视频流自定义风格转换

综述由AI生成MirageLSD 是 Decart AI 推出的首个直播流扩散（LSD）模型，支持在 24 FPS 下以低于 40 ms 的端到端延迟将任意视频流转换为自定义场景或服装风格。该模型通过时空 U-Net 架构、改良 DDIM 采样策略及光流引导技术，解决了传统扩散模型高延迟和跨帧不一致的问题。它支持无限长度视频流推理，适用于在线直播、游戏开发、动画制作及虚拟试衣等场景。开发者可通过 Python SDK 或 Unity/Unreal 插件快速集成，利用混合精度推理和 TensorRT 优化性能，无需绿幕即可实现实时背景与外观切换。

leon发布于 2026/3/16更新于 2026/5/55 浏览

MirageLSD 实时直播流扩散模型：视频流自定义风格转换

概述

随着 AI 技术的高速发展，实时视频内容生成与场景转换成为了众多应用场景的核心需求——从直播互动、游戏开发到动画制作、虚拟试衣，任何需要'场景随心所欲'的场合都渴望更低延迟、更高质量、更易集成的解决方案。

MirageLSD 是 Decart AI 发布的首个 直播流扩散（Live Stream Diffusion, LSD） 模型。它能够在 24 FPS 下、端到端延迟 < 40 ms 的条件下，实时将任意视频流转换成你想要的任何场景，并支持无限长度视频的持续输出。

背景：为什么需要实时扩散模型？

扩散模型挑战：自 2022 年以来，扩散模型在静态图像生成上大放异彩，但要将其应用于实时视频流，则面临三大瓶颈：
- 高延迟：传统扩散需要上百个采样步骤；
- 跨帧一致性：视频需保持连续性，避免闪烁和跳帧；
- 无限长度：一次性生成长视频会耗尽显存，且无法实时输出。
突破点：MirageLSD 的出现正是为了突破以上瓶颈，将扩散模型真正带入实时视频应用时代。

MirageLSD 架构解读

1. 时空 U-Net 核心

输入：来自摄像头、屏幕捕获、游戏引擎的连续视频帧。
编码器：采用多层 2D 卷积加 3D 卷积混合，提取单帧与相邻帧的时空特征。
时空注意力模块：在 U-Net 的每个阶段加入跨帧 self-/cross-attention，保证画面一致性。
解码器：基于注意力融合后的 latent，重建成目标场景的 RGB 帧。

2. 低延迟采样策略

改良 DDIM：由原始 50+ 步骤降至 3–5 步骤，并结合可学习的时间调度器（Time-Step Scheduler），在保证画质的前提下极大缩短采样时间。
渐进式分辨率：先用低分辨率快速生成，再通过轻量级超分网络（Super-Resolution Net）恢复至目标分辨率，进一步减小主流程延迟。

3. 光流引导与状态保持

在线光流估计：通过高效的 FlowNet-lite 计算相邻帧光流，并将其引入时空注意力，提升帧间一致性。
隐藏态缓存：维护上一帧的 latent 隐藏态，作为下一帧生成的初始条件，支持无限长度视频的连续推理。

流式处理管道

视频输入源帧捕获 + 缓冲队列 → 光流估计 + 隐藏态加载 → MirageLSD 推理 → 超分辨率 & 后处理 → 实时输出 & 渲染

视频输入：支持 USB 摄像头、桌面捕获（Windows/macOS）、WebRTC 视频聊天流、Unity/Unreal 等游戏引擎插件。
交互控制：内置简单手势/按键/语音接口，实时调整：
- 场景（城市、森林、科幻等）
- 人物外观（服装、发型、表情）
- 光影效果（夜景、日落、霓虹灯）
输出：推流至 OBS、XSplit，或直接渲染到游戏引擎。

性能优化细节

优化点	说明

MirageLSD 实时直播流扩散模型：视频流自定义风格转换

概述

背景：为什么需要实时扩散模型？

扩散模型挑战：自 2022 年以来，扩散模型在静态图像生成上大放异彩，但要将其应用于实时视频流，则面临三大瓶颈：
- 高延迟：传统扩散需要上百个采样步骤；
- 跨帧一致性：视频需保持连续性，避免闪烁和跳帧；
- 无限长度：一次性生成长视频会耗尽显存，且无法实时输出。
突破点：MirageLSD 的出现正是为了突破以上瓶颈，将扩散模型真正带入实时视频应用时代。

MirageLSD 架构解读

1. 时空 U-Net 核心

输入：来自摄像头、屏幕捕获、游戏引擎的连续视频帧。
编码器：采用多层 2D 卷积加 3D 卷积混合，提取单帧与相邻帧的时空特征。
时空注意力模块：在 U-Net 的每个阶段加入跨帧 self-/cross-attention，保证画面一致性。
解码器：基于注意力融合后的 latent，重建成目标场景的 RGB 帧。

2. 低延迟采样策略

改良 DDIM：由原始 50+ 步骤降至 3–5 步骤，并结合可学习的时间调度器（Time-Step Scheduler），在保证画质的前提下极大缩短采样时间。
渐进式分辨率：先用低分辨率快速生成，再通过轻量级超分网络（Super-Resolution Net）恢复至目标分辨率，进一步减小主流程延迟。

3. 光流引导与状态保持

在线光流估计：通过高效的 FlowNet-lite 计算相邻帧光流，并将其引入时空注意力，提升帧间一致性。
隐藏态缓存：维护上一帧的 latent 隐藏态，作为下一帧生成的初始条件，支持无限长度视频的连续推理。

流式处理管道

视频输入源帧捕获 + 缓冲队列 → 光流估计 + 隐藏态加载 → MirageLSD 推理 → 超分辨率 & 后处理 → 实时输出 & 渲染

视频输入：支持 USB 摄像头、桌面捕获（Windows/macOS）、WebRTC 视频聊天流、Unity/Unreal 等游戏引擎插件。
交互控制：内置简单手势/按键/语音接口，实时调整：
- 场景（城市、森林、科幻等）
- 人物外观（服装、发型、表情）
- 光影效果（夜景、日落、霓虹灯）
输出：推流至 OBS、XSplit，或直接渲染到游戏引擎。

性能优化细节

优化点	说明

MirageLSD 实时直播流扩散模型：视频流自定义风格转换

MirageLSD 实时直播流扩散模型：视频流自定义风格转换

概述

背景：为什么需要实时扩散模型？

MirageLSD 架构解读

1. 时空 U-Net 核心

2. 低延迟采样策略

3. 光流引导与状态保持

流式处理管道

性能优化细节

MirageLSD 实时直播流扩散模型：视频流自定义风格转换

MirageLSD 实时直播流扩散模型：视频流自定义风格转换

概述

背景：为什么需要实时扩散模型？

MirageLSD 架构解读

1. 时空 U-Net 核心

2. 低延迟采样策略

3. 光流引导与状态保持

流式处理管道

性能优化细节

更多推荐文章

相关免费在线工具

关键性能指标

应用场景

上手指南

Unity / Unreal 插件

Python SDK

展望与未来

总结

更多推荐文章

相关免费在线工具

MirageLSD 实时直播流扩散模型：视频流自定义风格转换

MirageLSD 实时直播流扩散模型：视频流自定义风格转换

概述

背景：为什么需要实时扩散模型？

MirageLSD 架构解读

1. 时空 U-Net 核心

2. 低延迟采样策略

3. 光流引导与状态保持

流式处理管道

性能优化细节

MirageLSD 实时直播流扩散模型：视频流自定义风格转换

MirageLSD 实时直播流扩散模型：视频流自定义风格转换

概述

背景：为什么需要实时扩散模型？

MirageLSD 架构解读

1. 时空 U-Net 核心

2. 低延迟采样策略

3. 光流引导与状态保持

流式处理管道

性能优化细节

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

关键性能指标

应用场景

上手指南

Unity / Unreal 插件

Python SDK

展望与未来

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具