UZH RPG AC-MPC：微分 MPC 赋能强化学习实现无人机竞速

综述由AI生成苏黎世大学 RPG 组提出 AC-MPC 架构，将可微 MPC 嵌入 Actor-Critic 强化学习框架。该方法让神经网络学习 MPC 代价函数而非直接输出动作，结合动力学先验提升鲁棒性与可解释性。实验表明，AC-MPC 在仿真与真实世界均达到 21m/s 竞速速度，且在风扰和参数偏差下表现优异，实现了零样本迁移。

雾岛听风发布于 2026/4/5更新于 2026/5/2326 浏览

01 主要方法

论文提出了一种将模型预测控制（MPC）作为可微层嵌入到强化学习（RL）Actor-Critic 框架中的新方法。其核心思想并非用神经网络直接输出控制量，而是让神经网络学习当前状态下最优的控制目标是什么，然后交由内置动力学模型的 MPC 求解器去计算具体的控制指令。

1. 整体架构：RL 决策 + MPC 执行

传统 RL 直接从观测映射到动作，缺乏物理约束；传统 MPC 依赖人工设计的 Cost Function，难以适应复杂任务。AC-MPC 结合两者：Critic 网络负责长期的价值评估，Actor 网络被拆解为神经代价图（Neural Cost Map）和'可微 MPC（Differentiable MPC）两部分。

图 2| AC-MPC 架构图解。与传统 RL 不同，AC-MPC 的 Actor 网络并不直接输出动作。它首先通过一个神经网络预测出当前最优的二次型代价函数参数，然后将这些参数连同当前状态输入到一个可微 MPC 层中。该层利用四旋翼动力学模型求解优化问题，最终输出满足物理约束的控制指令。

2. Actor 设计：学习代价而非动作

AC-MPC 的 Actor 不直接学习控制策略，而是学习一个从观测到 MPC 代价函数的映射。具体流程为 Actor 接收当前观测（如状态、赛道门位置），输出定义 MPC 优化目标的二次型参数 $Q_k$ 和 $p_k$。这相当于让 Actor 在每一时刻动态调整 MPC 的优化目标。

在获得 Actor 输出的二次型参数后，AC-MPC 通过求解以下最优控制问题来生成动作。由于 AC-MPC 可微，该 Actor 的输出支持梯度反向传播。优化目标公式如下：

J_{QP}(x) = \sum_{k=0}^{N} \left( \begin{bmatrix} x_k \\ u_k \end{bmatrix}^T Q_k(s) \begin{bmatrix} x_k \\ u_k \end{bmatrix} + p_k(s)^T \begin{bmatrix} x_k \\ u_k \end{bmatrix} \right)

其中，$s_k$ 是 Actor 的观测输入，$Q_k(s)$ 和 $p_k(s)$ 是神经网络的输出，$x_k, u_k$ 分别是系统状态和控制动作，满足动力学约束 $x_{k+1} = f(x_k, u_k)$。

最终的控制动作为 MPC 的最优解，为了实现充分探索，AC-MPC 在训练阶段会叠加高斯噪声，在部署阶段则直接执行 MPC 解。

3. Critic 设计与模型预测价值扩展

为了进一步提高采样效率，论文引入了模型预测价值扩展（MPVE）技术。由于 MPC 求解器会预测未来 H 步的状态序列，这些预测信息被用来辅助 Critic 的学习，减少对真实环境采样的依赖，并缓解价值估计的方差。MPVE 的价值估计公式如下：

\hat{V}(s_0) = \sum_{t=0}^{H-1} \gamma^t \hat{r}(s_t, u_t) + \gamma^H V_\omega(\hat{s}_H)

其中，$\hat{s}$ 和 $\hat{r}$ 来自 MPC 内部模型的预测，而非环境交互。这种设计使得 Critic 能更准确地评估当前策略的长期价值，同时利用 MPC 的预测能力加速训练收敛。

图 3| 价值函数与飞行轨迹可视化。图中颜色代表 Critic 网络评估的价值（黄色为高价值区）。可以看到，AC-MPC 学到的价值函数就像一个势能场，引导无人机穿越赛道门。当无人机穿过一个门后，高价值区域会迅速切换指向下一个门，体现了 Critic 通过学习 Cost Function 实现了类似离散模式切换的高级决策能力。

02 实验结果

论文在仿真环境和真实世界中进行了广泛的验证，不仅证明了 AC-MPC 能达到与 SOTA 强化学习同等的超人级速度，更在鲁棒性和数据效率上展现了压倒性优势。

1. 训练效率与极限性能：学得更快，飞得更猛

在无人机竞速任务中，AC-MPC 展现了极高的采样效率。特别是在高难度的 SplitS（垂直 S 弯）和 Vertical（垂直飞行）赛道中，AC-MPC 能够利用 MPC 内部的动力学先验，比纯神经网络（AC-MLP）更快地收敛到高分奖励区域。此外，在控制指令层面，AC-MPC 能够更一致地触及无人机的物理极限（如推力饱和），通过极致地压榨性能来实现时间最优飞行。