MirageLSD 实时直播流扩散模型:视频流自定义风格转换
概述
随着 AI 技术的高速发展,实时视频内容生成与场景转换成为了众多应用场景的核心需求——从直播互动、游戏开发到动画制作、虚拟试衣,任何需要'场景随心所欲'的场合都渴望更低延迟、更高质量、更易集成的解决方案。
MirageLSD 是 Decart AI 发布的首个 直播流扩散(Live Stream Diffusion, LSD) 模型。它能够在 24 FPS 下、端到端延迟 < 40 ms 的条件下,实时将任意视频流转换成你想要的任何场景,并支持无限长度视频的持续输出。
背景:为什么需要实时扩散模型?
- 扩散模型挑战:自 2022 年以来,扩散模型在静态图像生成上大放异彩,但要将其应用于实时视频流,则面临三大瓶颈:
- 高延迟:传统扩散需要上百个采样步骤;
- 跨帧一致性:视频需保持连续性,避免闪烁和跳帧;
- 无限长度:一次性生成长视频会耗尽显存,且无法实时输出。
- 突破点:MirageLSD 的出现正是为了突破以上瓶颈,将扩散模型真正带入实时视频应用时代。
MirageLSD 架构解读
1. 时空 U-Net 核心
- 输入:来自摄像头、屏幕捕获、游戏引擎的连续视频帧。
- 编码器:采用多层 2D 卷积加 3D 卷积混合,提取单帧与相邻帧的时空特征。
- 时空注意力模块:在 U-Net 的每个阶段加入跨帧 self-/cross-attention,保证画面一致性。
- 解码器:基于注意力融合后的 latent,重建成目标场景的 RGB 帧。
2. 低延迟采样策略
- 改良 DDIM:由原始 50+ 步骤降至 3–5 步骤,并结合可学习的时间调度器(Time-Step Scheduler),在保证画质的前提下极大缩短采样时间。
- 渐进式分辨率:先用低分辨率快速生成,再通过轻量级超分网络(Super-Resolution Net)恢复至目标分辨率,进一步减小主流程延迟。
3. 光流引导与状态保持
- 在线光流估计:通过高效的 FlowNet-lite 计算相邻帧光流,并将其引入时空注意力,提升帧间一致性。
- 隐藏态缓存:维护上一帧的 latent 隐藏态,作为下一帧生成的初始条件,支持无限长度视频的连续推理。
流式处理管道
视频输入源帧捕获 + 缓冲队列 → 光流估计 + 隐藏态加载 → MirageLSD 推理 → 超分辨率 & 后处理 → 实时输出 & 渲染
- 视频输入:支持 USB 摄像头、桌面捕获(Windows/macOS)、WebRTC 视频聊天流、Unity/Unreal 等游戏引擎插件。
- 交互控制:内置简单手势/按键/语音接口,实时调整:
- 场景(城市、森林、科幻等)
- 人物外观(服装、发型、表情)
- 光影效果(夜景、日落、霓虹灯)
- 输出:推流至 OBS、XSplit,或直接渲染到游戏引擎。
性能优化细节
| 优化点 | 说明 |
|---|


