Diffusion Transformer(DiT):用 ViT 替代 U-Net 用于视频生成与机器人动作预测 | 极客日志