背景与挑战
基于行为克隆(BC)的扩散策略在机器人领域表现优异,但一旦预训练模型效果不佳,往往需要昂贵的人工演示来修正。传统的强化学习(RL)虽然能自主优化,但在高维动作空间中样本效率极低,且容易破坏扩散模型学到的先验分布,导致训练不稳定。
最棘手的问题在于多步去噪带来的梯度传导。扩散模型生成动作并非'一步到位',而是经过几十步迭代。若直接通过奖励反向传播更新权重,梯度需链式传导数十层网络,极易引发梯度爆炸或消失,导致训练瞬间崩盘。
核心思路
DSRL 的核心创新在于不在原始动作空间运行 RL,而是在扩散模型的'潜噪声空间'进行干预。其基本逻辑是调整每一步去噪时加入的噪声(即'转向'),在保留原始行为分布的同时,引导策略向高奖励区域偏移。这相当于将预训练好的扩散策略视为一个'黑盒',冻结其权重,仅训练一个轻量级的 Actor 网络来预测噪声位移。
架构设计
系统采用 Soft Actor-Critic (SAC) 框架,包含两个主要组件:
- Actor 网络:输入当前状态,输出噪声位移量。它决定了如何修改初始高斯噪声,从而改变最终生成的动作。
- Critic 网络:评估特定状态与噪声组合下的长期价值。
这种设计的优势非常明显。首先,它防止了先验崩溃。扩散模型蕴含了大量人类演示中学到的平滑动作先验,直接微调权重容易导致'灾难性遗忘'。冻结权重确保了机器人始终在'人类可能的动作分布'附近微调。其次,样本效率极高。相比更新 8B 参数量的全模型,仅训练一个小规模的 Actor 网络使得策略在 20-40 次真机尝试内即可收敛。无论输入何种初始噪声,被冻结的黑盒模型吐出的动作几乎总是符合人类风格的,保证了探索的有效性。
[图片:模型架构示意图] [图片:训练流程示意图]
损失函数与数据
Actor 的损失基于 SAC 目标,最大化预期奖励并引入熵正则项,同时约束噪声偏移的大小以防偏离原始分布过远。Critic 则使用标准的时间差分误差来训练 Q 函数。
数据方面,离线阶段利用已有的 BC 数据集初始化扩散策略;在线交互阶段,机器人执行带有噪声转向的动作,收集三元组用于更新 Actor 和 Critic。由于是在低维且分布简单的噪声空间优化,所需数据量大幅减少。
实验效果
在 Libero 和 Aloha 等模拟环境中,DSRL 仅需几十个到几百个 episode 就能显著提升成功率。真机实验更具说服力,在'打开烤箱'和'放勺子'等任务中,结合 π₀ 基础模型,DSRL 仅需 20-40 次真机交互,就将成功率从接近 0% 提升至 80% 以上。其样本效率比直接在连续动作空间运行 SAC 高出数倍。
方案对比
除了 DSRL,目前扩散模型结合 RL 还有其他几种主流方案:
- 纯离线设置:包括按价值加权的 BC(给高奖励样本更高权重)、直接最大化奖励(计算开销大)、以及拒绝采样(推理时计算量翻倍)。
- 在线设置:例如用 PPO 微调前几步去噪(只动大方向)、匹配 Q 函数的 Score(数学上转化为沿奖励梯度去噪)、或迭代式 BC(自我进化筛选好样本)。
- 残差策略:保持预训练模型不动,训练一个轻量级网络输出修正值,本质是给扩散模型打补丁。
DSRL 证明了在潜噪声空间进行强化学习是实现快速、自主策略改进的有效途径,解决了扩散策略难以样本高效微调的难题,实现了无需深入修改内部架构的'黑盒'式微调。

