Seedance 2.0 双分支扩散 Transformer 解析 | 极客日志

PythonGPT-image-2AI写作AI

Seedance 2.0 双分支扩散 Transformer 解析

Seedance 2.0 通过双分支扩散变换器把空间建模和时序建模拆开，再用 Cross-Gating Fusion 做细粒度融合，既保细节也管运动。文章还梳理了 CFG 的动态调度、隐空间对齐、时间步门控、梯度重加权和 DB-Norm 等实现细节，并给出提示词工程化与结构化模板示例。整体结论是：这套方案不是单纯堆参数，而是用分支解耦和稳定性约束换来更稳的视频生成效果。

WenxuanMa发布于 2026/6/300 浏览

架构核心解析

Seedance 2.0 面向的是高保真视频生成，主打双分支扩散变换器（Dual-Branch Diffusion Transformer）。它最关键的地方，不是把模型做得更大，而是把时空建模拆开了：一条分支处理帧内空间语义，另一条分支盯住跨帧时序变化。和把时空维度直接揉在一起的单流 Transformer 比，这种拆法更细，也更容易把细节和运动各自管住。

双分支协同机制

空间分支用的是分层 ViT，输入先做 16×16 patch 嵌入，再逐级下采样，尽量保住局部纹理和结构信息。时间分支则把同一空间位置在多帧里的 token 沿时间轴堆起来，用轻量级时序注意力去建模运动变化。两路输出最后交给 Cross-Gating Fusion（CGF）融合，门控权重由共享的上下文感知投影器动态生成。

class CrossGatingFusion(nn.Module):
    def __init__(self, dim):
        super().__init__()
        self.proj_s = nn.Linear(dim, dim) # 空间分支门控投影
        self.proj_t = nn.Linear(dim, dim) # 时间分支门控投影
        self.sigmoid = nn.Sigmoid()

    def forward(self, x_s, x_t):
        # x_s: [B, T, H*W, D], x_t: [B, T, H*W, D]
        gate_s = self.sigmoid(self.proj_s(x_t)) # 用时间特征调控空间分支
        gate_t = self.sigmoid(self.proj_t(x_s)) # 用空间特征调控时间分支
        return x_s * gate_s + x_t * gate_t # 加权融合

这类设计的好处很直接：空间分支不会被运动噪声拖着走，时间分支也不需要硬扛全部纹理建模，融合点只负责把两者对齐。

性能对比

模型	FVD↓	PSNR↑	参数量（M）
VideoDiffusion	142.3	28.7	1240
Seedance 1.0	118.9	30.2	985
Seedance 2.0	96.4	32.6	1052

从这组数据看，Seedance 2.0 在画面质量和时序一致性上都更稳，参数量也没有失控。它不是单纯靠堆参数换来的提升。

训练流程要点

先做渐进式分支解冻：前 5K 步只更新空间分支，后 10K 步再联合微调

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

# SDE-Flow step: x_t = x_t^uncond + w_t * (x_t^cond - x_t^uncond)
x_cond = model(x_t, t, cond) # 条件分支
x_uncond = model(x_t, t, None) # 无条件分支
delta = x_cond - x_uncond # 显式残差
x_t = x_uncond + guidance_scale * delta # 解耦更新

# 基于时间步 t 与历史隐状态 h_{t-1} 生成动态门控权重
gate_t = torch.sigmoid(W_g @ torch.cat([x_t, h_prev], dim=-1) + b_g)

# CVPR'24 定理 1：双分支梯度方差归一化条件
def gh_constraint(g_main, g_aux, beta=0.7):
    var_main = torch.var(g_main)
    var_aux = torch.var(g_aux)
    return torch.abs(var_main - beta * var_aux) < 1e-5

class DTBlock(nn.Module):
    def __init__(self, dim, num_heads, t_emb_dim):
        super().__init__()
        self.norm1 = nn.GroupNorm(1, dim) # 1 group → channel-wise norm
        self.attn = CrossAttention(dim, num_heads)
        self.t_proj = nn.Linear(t_emb_dim, dim * 2) # scale & shift for AdaGN

# PyTorch 伪代码：DB-Norm 核心缩放逻辑
alpha = torch.sigmoid(self.alpha_param) # ∈ (0,1)
beta = torch.sqrt(1 - alpha**2) # 保证 alpha² + beta² = 1
out = alpha * branch_a + beta * branch_b

def dynamic_weighting(text_prompts, image):
    f_clip = clip_model.encode_text(tokenize(text_prompts)) # shape: [N, 768]
    f_dino = dino_model(image).mean(dim=[2,3]) # shape: [1, 768]
    weights = F.cosine_similarity(f_clip, f_dino, dim=-1) # [N]
    return torch.softmax(weights * 2.0, dim=0) # 温度缩放增强区分度

你是一名资深 DevOps 工程师，熟悉 Kubernetes v1.28+、Argo CD 和 Prometheus 生态。请基于用户提供的 YAML 片段，仅指出安全风险（如 privileged: true、hostNetwork: true）和可优化项（如 resource requests 缺失），不生成新配置。

Seedance 2.0 双分支扩散 Transformer 解析

架构核心解析

双分支协同机制

性能对比

训练流程要点

更多推荐文章

相关免费在线工具

训练策略与理论建模

CFG 调度关键参数复现

隐空间对齐策略

时间步感知的跨分支注意力门控

梯度流重加权机制

核心组件实现与验证

扩散变换器主干（DT-Backbone）

条件注入模块（CIM）适配

数值稳定性验证

提示词工程化方法

结构化标注体系

动态权重分配

鲁棒性增强

实战模板示例

通用角色设定

结构化信息提取

多步推理任务

更多推荐文章

相关免费在线工具

Seedance 2.0 双分支扩散 Transformer 解析

架构核心解析

双分支协同机制

性能对比

训练流程要点

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

训练策略与理论建模

CFG 调度关键参数复现

隐空间对齐策略

时间步感知的跨分支注意力门控

梯度流重加权机制

核心组件实现与验证

扩散变换器主干（DT-Backbone）

条件注入模块（CIM）适配

数值稳定性验证

提示词工程化方法

结构化标注体系

动态权重分配

鲁棒性增强

实战模板示例

通用角色设定

结构化信息提取

多步推理任务

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具