Diffusion Transformer (DiT):U-Net 换 ViT 架构,应用于视频生成与机器人动作预测 | 极客日志