21m/s！UZH RPG组T-RO新作AC-MPC：微分MPC赋能强化学习，实现超人级无人机竞速

文章配图

「MPC+RL」

1.训练效率与极限性能：学得更快，飞得更猛

2.鲁棒性：无惧风扰与参数偏差

3.可解释性：打开 RL 的黑盒

4.真实世界部署：零样本迁移的 21m/s

03 总结

在机器人控制领域，长期存在着模型驱动（MPC）与数据驱动（RL）的路线之争。前者理论完备但依赖人工调参，后者探索力强却受困于黑盒不可解释性。苏黎世大学 RPG 组的这项 T-RO 最新工作，为这一争论提供了一个优雅的融合解。

论文提出的 AC-MPC 架构，创造性地将可微 MPC嵌入到 Actor-Critic 框架的策略网络末端。这不仅让无人机跑出了 21m/s 的超人级速度，更重要的是解决了两大痛点：

1. 鲁棒性突破：利用 MPC 内置的动力学先验，算法在面对风扰和模型参数失配等 OOD场景时，展现出了纯神经网络无法比拟的稳定性。

2. 理论可解释性：论文通过实证分析揭示了一个惊人的数学联系，Critic 网络学到的 Value Function 的 Hessian 矩阵，与 MPC 学到的 Cost 矩阵高度相关。这意味着 RL 真正学会了控制成本的二阶曲率，打通了价值函数与优化目标之间的壁垒。

这篇文章不仅是工程上的胜利，更是对学习型控制（Learning-based Control）内部机理的一次精彩剖析。

21m/s！UZH RPG组T-RO新作AC-MPC：微分MPC赋能强化学习，实现超人级无人机竞速

更多推荐文章

相关免费在线工具

01 主要方法

1. 整体架构：RL决策 + MPC执行

2. Actor设计：学习代价而非动作

3. Critic设计与模型预测价值扩展

02 实验结果

1.训练效率与极限性能：学得更快，飞得更猛

2.鲁棒性：无惧风扰与参数偏差

3.可解释性：打开 RL 的黑盒

4.真实世界部署：零样本迁移的 21m/s

03 总结

更多推荐文章

相关免费在线工具

21m/s！UZH RPG组T-RO新作AC-MPC：微分MPC赋能强化学习，实现超人级无人机竞速

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

01 主要方法

1. 整体架构：RL决策 + MPC执行

2. Actor设计：学习代价而非动作

3. Critic设计与模型预测价值扩展

02 实验结果

1.训练效率与极限性能：学得更快，飞得更猛

2.鲁棒性：无惧风扰与参数偏差

3.可解释性：打开 RL 的黑盒

4.真实世界部署：零样本迁移的 21m/s

03 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具