UZH RPG 组 AC-MPC：微分 MPC 赋能强化学习实现高速无人机竞速

文章配图

「MPC+RL」

在机器人控制领域，长期存在着模型驱动（MPC）与数据驱动（RL）的路线之争。前者理论完备但依赖人工调参，后者探索力强却受困于黑盒不可解释性。苏黎世大学 RPG 组的这项 T-RO 最新工作，为这一争论提供了一个优雅的融合解。

论文提出的 AC-MPC 架构，创造性地将可微 MPC 嵌入到 Actor-Critic 框架的策略网络末端。这不仅让无人机跑出了 21m/s 的超人级速度，更重要的是解决了两大痛点：

鲁棒性突破：利用 MPC 内置的动力学先验，算法在面对风扰和模型参数失配等 OOD 场景时，展现出了纯神经网络无法比拟的稳定性。
理论可解释性：论文通过实证分析揭示了一个惊人的数学联系，Critic 网络学到的 Value Function 的 Hessian 矩阵，与 MPC 学到的 Cost 矩阵高度相关。这意味着 RL 真正学会了控制成本的二阶曲率，打通了价值函数与优化目标之间的壁垒。

这篇文章不仅是工程上的胜利，更是对学习型控制（Learning-based Control）内部机理的一次精彩剖析。

图 1| MPC 与 RL 对比图

01 主要方法

论文提出了一种将模型预测控制（MPC）作为可微层嵌入到强化学习（RL）Actor-Critic 框架中的新方法。其核心思想并非用神经网络直接输出控制量，而是让神经网络学习当前状态下最优的控制目标是什么，然后交由内置动力学模型的 MPC 求解器去计算具体的控制指令。

1. 整体架构：RL 决策 + MPC 执行

传统 RL 直接从观测映射到动作，缺乏物理约束；传统 MPC 依赖人工设计的 Cost Function，难以适应复杂任务。AC-MPC 结合两者：Critic 网络负责长期的价值评估，Actor 网络被拆解为神经代价图（Neural Cost Map）和'可微 MPC（Differentiable MPC）两部分。

图 2| AC-MPC 架构图解。与传统 RL 不同，AC-MPC 的 Actor 网络并不直接输出动作。它首先通过一个神经网络预测出当前最优的二次型代价函数参数，然后将这些参数连同当前状态输入到一个可微 MPC 层中。该层利用四旋翼动力学模型求解优化问题，最终输出满足物理约束的控制指令。

2. Actor 设计：学习代价而非动作

AC-MPC 的 Actor 不直接学习控制策略，而是学习一个从观测到 MPC 代价函数的映射。具体流程为 Actor 接收当前观测（如状态、赛道门位置），输出定义 MPC 优化目标的二次型参数 $Q_k$ 和 $p_k$。这相当于让 Actor 在每一时刻动态调整 MPC 的优化目标。

在获得 Actor 输出的二次型参数后，AC-MPC 通过求解以下最优控制问题来生成动作。由于 AC-MPC 可微，该 Actor 的输出支持梯度反向传播。优化目标公式如下：

$$ J_{QP}(x) = \sum_{k=0}^{N} \left( \begin{bmatrix} x_k \ u_k \end{bmatrix}^T Q_k(s) \begin{bmatrix} x_k \ u_k \end{bmatrix} + p_k(s)^T \begin{bmatrix} x_k \ u_k \end{bmatrix} \right) $$

其中，$s_k$ 是 Actor 的观测输入，$Q_k(s)$ 和 $p_k(s)$ 是神经网络的输出，$x_k, u_k$ 分别是系统状态和控制动作，满足动力学约束 $x_{k+1} = f(x_k, u_k)$。