跳到主要内容 自动驾驶中的多智能体强化学习综述 | 极客日志
Python AI 算法
自动驾驶中的多智能体强化学习综述 本文综述了多智能体强化学习(MARL)在自动驾驶领域的应用。文章首先介绍了自动驾驶基准测试及模拟器特征,回顾了强化学习与多智能体系统的基础理论。重点分析了集中式训练分散执行(CTDE)、独立策略优化(IPO)、社会偏好学习及安全可信学习等主流方法,对比了不同算法在状态表示、动作空间及扩展性上的差异。文中还探讨了样本效率、通信协作、安全性等核心挑战,并提出了结合大模型、优化 Sim-to-Real 迁移及建设开源生态等未来发展方向。内容涵盖算法原理、技术趋势及行业实践,旨在为研究人员提供系统的技术参考。
MongoKing 发布于 2025/2/6 0 浏览强化学习(RL)是一种强大的序列决策工具,在许多具有挑战性的现实任务中取得了超越人类能力的表现。作为 RL 在多智能体系统领域的扩展,多智能体强化学习(MARL)不仅需要学习控制策略,还需要考虑与环境中其他所有智能体的交互、不同系统组件之间的相互影响以及计算资源的分配。这增加了算法设计的复杂性,并对计算资源提出了更高的要求。同时,模拟器对于获取现实数据至关重要,这是 RL 的基础。
在本文中,我们首先提出了一系列模拟器的指标,并总结了现有基准测试的特征。其次,为了便于理解,我们回顾了基础知识,并综合了最近与 MARL 相关的自动驾驶和智能交通系统的研究进展。具体而言,我们考察了它们的环境建模、状态表示、感知单元和算法设计。最后,我们讨论了当前面临的挑战以及未来的前景和机会。我们希望本文能够帮助研究人员整合 MARL 技术,并激发更多关于智能和自动驾驶的深刻见解。
一、引言 大规模自动驾驶系统近年来吸引了大量关注,并获得了来自工业界、学术界和政府的数百万资金支持。开发此类系统的动机在于用自动化控制器取代人类驾驶员,这可以显著减少驾驶时间和工作负担,提升交通系统的效率与安全性,促进经济发展。一般来说,为了检测车辆状态并生成可靠的控制策略,自动驾驶车辆(AVs)需要配备大量电子单元,如视觉传感器,包括雷达、激光雷达(LiDAR)、RGB-深度(RGB-D)摄像头、事件摄像头、惯性测量单元(IMU)、全球定位系统(GPS)等。
该领域的一个突出挑战是构建一个能够处理海量信息并将其转化为实时操作的稳健且高效的算法。早期的工作将这一大问题分为感知、规划和控制问题,并独立解决,这被称为模块化自动驾驶。
另一方面,作为一种强大的序列决策工具,强化学习(RL)可以通过奖励信号优化智能体行为模型。随着其发展,深度 RL 结合了 RL 和深度神经网络的优势,能够抽象复杂的观测并学习高效的特征表示。在过去的代表性研究中,它在棋类游戏、电子游戏以及机器人控制等领域表现出色,甚至在某些情况下超越了人类表现。对于自动驾驶而言,RL 使端到端控制成为现实,即从车辆感知到车辆应该做什么的直接转换,就像人类驾驶员一样。
尽管 RL 在自动驾驶车辆方面取得了许多显著成就,大多数相关工作仍是从单个车辆的角度出发,这导致了以自我为中心并可能具有攻击性的驾驶策略,可能会引发安全事故并降低交通系统的效率。
对于现实世界的交通系统,我们通常将其定义为多智能体系统(MAS),并旨在优化整个系统的效率,而不仅仅是最大化个体利益。在 MAS 中,所有智能体在共享的环境中做出决策并进行交互。这意味着每个智能体的状态不仅取决于其自身的行为,还取决于其他智能体的行为,使得环境动态呈现非静态和时间变化性。此外,根据任务设置,智能体可能相互合作或竞争。在如此复杂的场景中,手动编程预先行动几乎是不可能的。
得益于多智能体强化学习(MARL)的重大进展,交通控制、能源分配、大规模机器人控制以及经济建模与预测领域均取得了实质性突破。使用 Dimensions 数据库进行 AI 搜索,统计结果表明,学术界对这些问题高度关注,相关研究领域正处于快速增长阶段。为了加速进一步研究并帮助新研究人员快速入门,我们审阅了 200 多篇出版物、开源软件和代码库,然后系统地总结了现有成就和最新进展。
在此,我们提及其他近期的综述。在里程碑系列中,作者简要总结了从历史到未来的蓝图,并简要介绍了自动驾驶中具有影响力的算法。还有许多综述介绍了 RL 的基本理论和应用,并分析了其发表时最先进的(SoTA)自动驾驶算法,但它们主要关注单智能体学习。然而,近年来研究人员在理论和应用方面取得了显著进展,并且在高级机器人模拟器中也取得了进展。作为在线 RL 训练的关键组成部分,模拟器决定了从模拟到现实的差距,即智能体学习的策略是否可以轻松地转移到物理机器人上。因此,为了使工程师和研究人员能够捕捉最新的进展并加速技术进步,我们全面总结了该领域的技术、挑战和前景。
我们提出了一系列基准的标准,详细分析和总结了先进模拟器、数据集和大规模自动驾驶竞赛的特征。
我们对最先进的 MARL 方法进行了分类,全面回顾了它们在该领域的技术改进、见解和未解决的挑战。
我们从相关领域捕捉了最新进展,并从多个角度深入探讨了基于 MARL 的自动驾驶的未来方向。
我们发布并维护了 GitHub 仓库,以持续报告和更新 MARL-based 自动驾驶、智能交通系统和其他相关领域的最新研究。
在图 2 中,我们可视化了 MARL 的发展历程、数据集、模拟器、硬件和软件在自动驾驶及其他相关领域的发展。总体来说,随着大规模数据集和深度学习的发展,自动驾驶已从分层控制迈向数据驱动时代。随着先进模拟器的出现,基于 RL 的方法登上了舞台,随后新技术如大语言模型带来了更多的机遇。我们将在后文详细分析,本文的其余部分组织如下:在第二节中,我们首先描述了基准的指标。我们还分析了最先进的自动驾驶模拟器和数据集的特征。在第三节中,我们回顾了 RL 和 MARL 的基本概念、定义和开放问题。在第四节中,我们详尽介绍了自动驾驶领域最先进的 MARL 算法。具体而言,我们分析了它们的状态和动作设置、方法论见解和应用。在第五节中,我们指出了现有挑战并给出了可能的解决方案。在第六节中,我们捕捉了最新的进展,并提出了朝向更安全和智能的自动驾驶的有前途的方向。
二、自动驾驶基准 强化学习(RL)通常需要大量的数据。一般来说,它需要与环境进行持续交互,以获得行为轨迹,从而帮助深度神经网络进行更准确的价值估计。然而,由于不确定的探索过程可能造成的经济损失,我们通常不会将 RL 策略直接部署在真实的机器人上。因此,在 RL 范式中,来自真实驾驶和高保真模拟器的数据被广泛用于基于 RL 的自动驾驶开发。在本节中,我们将介绍用于自动驾驶和交通系统中的大规模多智能体强化学习(MARL)的各种数据源。
A. 模拟器与数据集特征 高质量的仿真环境是 MARL 训练的前提。现有的主流模拟器如 CARLA、LGSVL 等提供了高保真的物理引擎和传感器模型。评估这些模拟器的标准包括物理真实性、传感器噪声模型、交通流生成的多样性以及多智能体交互的复杂度。数据集方面,Waymo Open Dataset 和 nuScenes 提供了丰富的真实世界标注数据,可用于验证仿真策略的泛化能力。
B. 最先进的方法论 本节将介绍用于多车辆系统运动规划和控制的最新多智能体强化学习(MARL)方法。我们无法涵盖所有相关研究,但本综述中选取的代表性技术均来源于发表在最具影响力的会议和期刊的报告。
1. 集中式多智能体强化学习 在集中式训练与分散执行(CTDE)方案中,每辆车都有一个独立的策略网络,并设有一个核心计算机来合并和处理来自所有车辆的信息。首先,我们从所有车辆获取合并的观测,通过预定义的全局奖励函数评估系统状态,然后在完成信用分配后训练独立的策略。PRIMAL 是路径规划集中式训练的里程碑式工作,它为每个智能体分配了一个独立且精心设计的参数共享的 actor-critic 网络,并使用 A3C 算法进行训练。在这项工作中,研究人员说明了独立策略可能导致自私行为,而带有安全惩罚的手工设计奖励函数是一个不错的解决方案。此外,系统还提供了一个开关,使智能体可以从交互或专家示范中学习。强化学习与模仿学习的结合有助于快速学习,并缓解自私行为对整个系统的负面影响。
在 MADDPG 中,作者提出了基于深度确定性策略梯度(DDPG)的首个可泛化 CTDE 算法,并使用玩具多粒子环境作为测试平台。它提供了一个基本平台,具有简单的车辆动力学,用于在设计无关的场景下学习连续观测和动作空间中的连续驾驶策略,并吸引了许多杰出的后续研究者。同时,价值函数分解方法与 CTDE 方案的结合在智能体数量上的可扩展性方面表现更好,并减轻了策略训练中的非静态性影响,从而在大规模多智能体系统中提高了性能。这些方法已在 Highway-Env 中无信号交叉路口等复杂场景中得到了验证。
此外,专家示范有助于降低收敛到次优策略的风险。为了验证在无地图导航任务中部署 CTDE 方法的可行性,Global Dueling Q-learning (GDQ) 在 MPE 中为每个 turtlebot3 设置了一个独立的 DDQN 来训练策略并估计价值。此外,他们引入了一个全局价值网络,将每个智能体的价值网络输出组合起来以估计联合状态价值。事实证明,该方法比常规的价值分解方法更为有效。同时,研究人员还尝试将单智能体 RL 中的基本算法(如 PPO 或 SAC)扩展到多智能体任务,并提供了许多重要的基线,如 MAAC 和 MAPPO。特别是,MAPPO 在大量基准测试中得到了全面验证,并提供了系统的超参数选择和训练指南。
为了克服从模拟到现实的差距并将 MAPPO 部署到实际机器人上,开发人员在 Duckietown-Gym 模拟器中训练了一个用于跟随地面航点的策略网络。MAPPO 策略网络采用了循环神经网络(RNN),用于回忆前一状态的知识,并为每辆车输出高层次的目标线速度和角速度。与大多数室内导航任务类似,光学跟踪系统捕获车辆的位置和姿态。通过线性化逆动力学,可以在域适应后获得车辆的低级执行命令。这项工作揭示了如何在实际机器人上部署 CTDE 方案,其工程经验对于未来的研究具有重要价值。
2. 独立策略优化 考虑到实际部署中的通信、带宽和系统复杂性等挑战,完全去中心化系统通过允许智能体独立操作而无需持续协调,减少了通信开销和带宽需求。此外,它更容易在通信基础设施有限或不可靠的环境中部署,降低了决策延迟,并简化了每个智能体的本地计算。这些因素使得去中心化的 MARL 成为现实世界多智能体应用中更实用且更具适应性的方法。近年来,独立策略优化(IPO)获得了越来越多的关注,并提出了大量相关方法。同时,这些研究中所涉及场景的复杂性和智能体的规模也同步增加,反映出去中心化学习更符合现实世界中大规模自动驾驶的需求。
为了在集中式方案中解决可扩展性问题,MAPPER 采用了基于 A2C 算法的去中心化 actor-critic 方法。首先,占用地图的局部观测表示为包含静态场景、动态障碍物和 A*规划器规划轨迹信息的三通道图像。这些三通道观测通过卷积神经网络(CNN)抽象为潜在向量,并与通过多层感知机(MLP)抽象的航点信息一起输入共享的全连接层。随后,两个独立的 MLP 分别输出动作概率和价值估计。此外,MAPPER 在优化过程中使用了额外的进化算法来消除不良策略。与 PRIMAL 相比,MAPPER 在大规模场景中可以更快地学习并更有效地处理动态障碍物。
另一种提高可扩展性的方法是 G2RL,这是一种适用于任意数量智能体的网格地图导航方法。同样,它利用 A*为每个智能体提供全局引导路径。同时,本地占用地图输入到本地 DDQN 规划器中,以捕捉本地观测并生成纠正指令以避免动态障碍物。由于智能体之间无需通信,该方法无需考虑通信延迟,可扩展至任何规模。
作为 PRIMAL 的继任者,PRIMAL2 保留了相同的分层结构,即由 A规划器生成全局路径,并由 A3C 和模仿学习指导的智能体训练。关键区别在于 PRIMAL2 采用了完全去中心化的训练方法,增强了其处理结构化和高密度复杂场景的灵活性。与 MAPPER 类似,它采用了 11×11 的观测范围,并将观测分为多通道图像输入。前四个通道包括静态障碍物、智能体自身的目标点、其他智能体的位置和其他智能体的目标点。第五到第八通道提供了 A 规划的本地路径,以及在观测范围内其他智能体在未来三个时间步长的位置。最后三个通道提供了走廊出口的 X 和 Y 坐标偏移,以及一个布尔状态,指示是否有其他智能体阻挡路径。更细致的观测输入使 PRIMAL2 能够有效解决高密度复杂占用网格中的智能体死锁问题,并生成比前代方法更短的路径。
上述方法是为具有离散动作空间的结构化占用网格开发的,适用于结构化仓库和货运终端中的自动地面车辆。尽管与真实交通系统存在差异,这些方法仍然为后续工作提供了灵感。其他去中心化学习研究在更先进的连续基准测试上进行。例如,在 PIPO 中,研究人员利用图神经网络的置换不变性开发了一种端到端的运动规划方案。他们在 MPE 中定义了一个逐步扩大的连续场景,场景中有各种静态障碍物。在训练过程中,观察到的其他智能体状态的随机置换增强了 actor-critic 网络的特征表示。我们注意到还有许多优秀且具有代表性的去中心化训练方案,但我们将在其他子主题中对它们进行分类,并在后续章节中详细介绍。
3. 带有社会偏好的学习 尽管独立策略学习在许多任务中是可行的,但当多个智能体的利益发生冲突时,纯粹的自我中心的独立策略学习可能会失败,导致每个智能体都以自我为中心。因此,一个重要的问题是如何平衡智能体的自私与利他行为。在图 4 中,我们给出了一个玩具示例,以说明社会偏好如何影响智能体的行为。如果智能体无法平衡其利他和自私行为,这两个智能体可能会发生碰撞或互相阻碍。因此,在策略学习中应该考虑社会行为和偏好。为了找到社会偏好的数学表示,在早期工作中,研究人员首先提出使用三角函数来表示这种偏好。
4. 安全性和可信学习 安全性是部署自动驾驶系统的核心要素,也是首要任务,因为它直接关系到自动驾驶车辆(AVs)的可靠性和人们的生命安全。近年来,强化学习(RL)研究人员投入了大量精力,确保所学策略在探索过程中以及部署后不会引发安全问题。具体来说,受启发,我们将现有的多智能体强化学习(MARL)安全标准和方法分为三类。
首先,软安全保障涉及设计安全惩罚项,以减少危险行为的发生概率。通过精细调整的奖励,学习算法可以在其他性能指标的同时优先考虑安全性。然而,尽管软安全保障已被证明可以有效提高多智能体系统中的安全性能,但其局限性在于它依赖于奖励函数能够准确捕捉所有安全方面的假设,而这在复杂环境中往往具有挑战性。
第二类是优化过程中发生的概率性保障。例如,一些最新的 MARL 算法在策略优化过程中利用拉格朗日约束或安全阈值。本质上,这种方法改善了策略梯度,有助于避免危险的探索行为。然而,由于策略仍然表示为概率分布,因此我们无法为这种方法获得明确、可解释和稳定的安全边界。同时,现实世界驾驶中的关键安全约束是瞬时的和确定性的。例如,避碰是一个依赖于系统当前状态的瞬时约束,而不是依赖于历史轨迹或随机变量。
第三类是形式化验证方法,通过数学证明确保策略满足特定的安全属性。虽然计算成本较高,但在关键任务系统中具有不可替代的作用。
5. 方法总结 如表 II 所示,我们收集了过去五年中关于户外自动驾驶、交通系统控制和结构化场景运输中多智能体强化学习(MARL)的代表性工作。同时,我们列出了它们的分类、最大智能体数量、使用的模拟器以及是否进行了现实世界的实验。在此需要注意的是,即使使用相同的模拟类型,动作设置也可能完全不同。例如,在 PRIMAL 和 PRIMAL2 中,智能体的动作设置为(↑, →, ↓, ←, ∗),代表二维网格地图中在水平和垂直方向上的四种移动以及停留在原地。相比之下,MAPPER 为智能体增加了四个额外的对角移动(↗, ↘, ↙, ↖)。
此外,我们发现许多研究采用预定义的高层次动作指令来简化任务。策略网络输出离散值,这些值映射到相应的预设动作,然后低级控制器执行这些动作,生成命令并将其发送到执行器。两个具体的例子是 MFPG 和 CPO-AD。它们预设了低级单向控制映射,仅考虑自动驾驶车辆在一个方向上的移动。
我们从该领域过去的研究中总结出三大趋势。首先,早期的研究由于算法多样性和模拟器性能的限制,更侧重于网格地图中的集中式 MARL。然而,近期研究探讨了去中心化方法在更复杂的连续观测中的潜力。其次,只有少数研究进行了现实世界的实验,并且仅使用离散模拟器和少量智能体,这是未来工作可以改进的方面。第三,最新的研究采用了更复杂的设计,并整合了来自其他领域的更多方法,如数据压缩和机器视觉。
三、基础概念回顾 为了深入理解 MARL 在自动驾驶中的应用,有必要回顾强化学习和多智能体系统的基本理论。
A. 强化学习基础 强化学习是一种通过与环境交互来学习最优策略的机器学习范式。智能体在每一步采取动作,接收环境的反馈(奖励和状态转移),目标是最大化累积奖励。核心要素包括状态空间、动作空间、奖励函数、策略和价值函数。深度强化学习引入深度神经网络作为函数逼近器,解决了高维状态空间的表示问题。
B. 多智能体强化学习 MARL 扩展了 RL 框架,允许多个智能体在同一环境中协同或竞争。主要难点在于非平稳性(Non-stationarity),即其他智能体的策略也在变化,导致环境动态改变。常见的 MARL 架构包括完全集中式、完全分散式和混合式(如 CTDE)。信用分配(Credit Assignment)是 MARL 的核心问题之一,即如何确定每个智能体对团队总回报的贡献。
四、挑战与解决方案 在本节中,我们将介绍多智能体强化学习(MARL)中的主要挑战。需要注意的是,集中式训练与分散执行(CTDE)和分散式训练与分散执行(DTDE)方案所面临的问题是不同的。尽管已经提出了一些可行的解决方案来解决这些问题,但这些方案仍然不是唯一的,也不完美。我们希望读者能够提前认识到这些问题的存在及其特性,从而更好地理解后续先进方法的动机和技术创新。
A. 样本效率与训练时间 MARL 通常需要大量的交互样本才能收敛,这在真实世界中是不可接受的。解决方案包括引入模型预测控制(MPC)辅助、利用离线强化学习(Offline RL)从历史数据中学习,以及使用课程学习(Curriculum Learning)逐步增加任务难度。
B. 通信与协作 在分布式系统中,通信带宽限制可能导致信息丢失。研究重点在于设计高效的通信协议,如注意力机制(Attention Mechanism)来选择性地传递关键信息,或使用隐式通信(Implicit Communication)通过动作间接传递意图。
C. 安全性与鲁棒性 除了前述的安全保障外,系统还需具备对抗鲁棒性,防止恶意干扰。防御性驾驶策略和不确定性量化是当前的研究热点。
五、未来展望 随着技术的进步,MARL 在自动驾驶领域的应用将更加广泛和深入。
A. 大模型与 MARL 的结合 大语言模型(LLM)的出现为 MARL 提供了新的可能性。LLM 可以作为高层规划器,理解自然语言指令并生成任务目标,而 MARL 负责底层的具体执行。这种分层架构有望解决长程依赖和复杂逻辑推理问题。
B. 仿真到现实的迁移 Sim-to-Real 的差距仍然是主要瓶颈。域随机化(Domain Randomization)和自适应域适应技术将被进一步优化,以提高策略在真实车辆上的成功率。
C. 标准化与开源生态 建立统一的评测基准和开源社区将加速技术迭代。我们呼吁更多研究机构共享数据和代码,共同推动自动驾驶技术的成熟。
六、结论 本文系统综述了多智能体强化学习在自动驾驶领域的应用现状。从基准测试到算法设计,再到安全与挑战,我们梳理了该领域的知识体系。尽管面临诸多挑战,但随着算法创新和算力提升,MARL 有望成为实现高阶自动驾驶的关键技术之一。未来的研究应更加关注安全性、泛化能力和人机协作,以实现真正智能的交通系统。
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
curl 转代码 解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
Base64 字符串编码/解码 将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
Base64 文件转换器 将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online