1.引言
车辆主动悬架控制的核心挑战,在于如何在复杂的路面激励下,动态平衡'乘坐舒适性'与'操纵稳定性'。面对非线性特征显著的悬架系统,传统的 PID 或 LQR 控制往往受限于对精确数学模型的依赖,难以在多变工况下保持最优性能。
本文提出一种基于深度强化学习(DRL)的端到端控制方案,利用 MATLAB Reinforcement Learning Toolbox 结合 Simulink 搭建二自由度 1/4 车辆仿真环境。针对连续动作空间控制中常见的收敛不稳定问题,我们采用改进型的 TD3 (Twin Delayed DDPG) 算法替代传统的 DDPG。该方法引入了双重 Critic 网络与延迟更新机制,能有效抑制 Q 值过估计,从而让智能体(Agent)自主学习出更鲁棒的主动控制策略,显著提升车辆的行驶平顺性。
2.控制算法原理
2.1 1/4 车辆动力学建模
为了描述车辆在路面激励下的垂直运动特性,我们采用经典的二自由度 1/4 车辆模型。该模型由簧上质量(车身)$m_s$和簧下质量(车轮组件)$m_u$组成,二者通过刚度为$k_s$和阻尼为$c_s$的悬架系统连接,轮胎则被简化为刚度为$k_t$的线性弹簧。
根据牛顿第二定律,系统在主动控制力$u(t)$和路面垂直输入$z_r(t)$作用下的运动微分方程可表示为:
$$\begin{cases} m_s \ddot{z}_s(t) + c_s [\dot{z}_s(t) - \dot{z}_u(t)] + k_s [z_s(t) - z_u(t)] = u(t) \ m_u \ddot{z}_u(t) + c_s [\dot{z}_u(t) - \dot{z}_s(t)] + k_s [z_u(t) - z_s(t)] + k_t [z_u(t) - z_r(t)] = -u(t) \end{cases}$$
其中,$z_s$和$z_u$分别代表车身和车轮的垂直位移。我们的控制目标是通过调节主动力$u(t)$,在保证悬架动挠度$(z_s - z_u)$不超过机械限位且轮胎动载荷$k_t(z_u - z_r)$保持抓地力的前提下,尽可能减小车身垂直加速度$\ddot{z}_s$,从而提升乘坐舒适性。
2.2 问题形式化:马尔可夫决策过程 (MDP)
将主动悬架控制问题转化为强化学习问题,需定义由状态空间$\mathcal{S}$、动作空间$\mathcal{A}$、状态转移概率$\mathcal{P}$和奖励函数$\mathcal{R}$构成的四元组$\langle \mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R} \rangle$。
**状态空间与动作空间:**智能体在$t$时刻观测到的状态向量$s_t \in \mathcal{S}$包含描述系统动态的关键物理量:
$s_t = [\dot{z}_s, \ddot{z}_s, \dddot{z}_s, z_s - z_u, \dot{z}_s - \dot{z}_u, z_u - z_r]^T$
动作$a_t \in \mathcal{A}$即为主动悬架输出的控制力$u(t)$,其取值受物理执行器约束,即$a_t \in [-F_{max}, F_{max}]$。
**奖励函数设计:**奖励函数$r(s_t, a_t)$是引导策略优化的核心。为了平衡平顺性(舒适)与安全性(操控),我们构建如下的负向加权二次型代价函数:
$r_t = -(w_1 \cdot \ddot{z}_s^2 + w_2 \cdot (z_s - z_u)^2 + w_3 \cdot k_t(z_u - z_r)^2 + w_4 \cdot u^2)$
其中权重系数$w_i$用于调节各性能指标的优先级。强化学习的目标是寻找最优策略$\pi^*$,最大化累积期望回报$J = \mathbb{E}[\sum_{t=0}^T \gamma^t r_t]$。
2.3 TD3 算法核心机制
针对连续动作空间的控制问题,虽然 DDPG 算法提供了基础框架,但其在价值估计中存在的过估计(Overestimation)现象易导致策略发散。本研究采用双延迟深度确定性策略梯度 (TD3) 算法,通过以下三个关键机制提升控制器的鲁棒性:
1)截断双重 Q 学习 (Clipped Double Q-Learning)
TD3 引入两个独立的 Critic 网络$Q_{\theta_1}, Q_{\theta_2}$。在计算目标值$y_t$时,取两者输出的最小值,从而抑制 Q 值的高估偏差:
$y_t = r_t + \gamma \min_{i=1,2} Q_{\theta'i}(s{t+1}, \tilde{a}_{t+1})$
2)目标策略平滑 (Target Policy Smoothing)
为了防止价值网络对尖峰动作过拟合,在计算目标动作$\tilde{a}_{t+1}$时引入截断的正态噪声$\epsilon$,迫使 Critic 学习更平滑的价值曲面:
$\tilde{a}{t+1} = \text{clip}(\pi{\phi'}(s_{t+1}) + \epsilon, -F_{max}, F_{max}), \quad \epsilon \sim \text{clip}(\mathcal{N}(0, \sigma), -c, c)$


