自动驾驶中的多智能体强化学习综述

强化学习(RL)是一种强大的序列决策工具,在许多具有挑战性的现实任务中取得了超越人类能力的表现。作为 RL 在多智能体系统领域的扩展,多智能体强化学习(MARL)不仅需要学习控制策略,还需要考虑与环境中其他所有智能体的交互、不同系统组件之间的相互影响以及计算资源的分配。这增加了算法设计的复杂性,并对计算资源提出了更高的要求。同时,模拟器对于获取现实数据至关重要,这是 RL 的基础。
在本文中,我们首先提出了一系列模拟器的指标,并总结了现有基准测试的特征。其次,为了便于理解,我们回顾了基础知识,并综合了最近与 MARL 相关的自动驾驶和智能交通系统的研究进展。具体而言,我们考察了它们的环境建模、状态表示、感知单元和算法设计。最后,我们讨论了当前面临的挑战以及未来的前景和机会。我们希望本文能够帮助研究人员整合 MARL 技术,并激发更多关于智能和自动驾驶的深刻见解。
关键词——多智能体强化学习、自动驾驶、人工智能

一、引言
大规模自动驾驶系统近年来吸引了大量关注,并获得了来自工业界、学术界和政府的数百万资金支持。开发此类系统的动机在于用自动化控制器取代人类驾驶员,这可以显著减少驾驶时间和工作负担,提升交通系统的效率与安全性,促进经济发展。一般来说,为了检测车辆状态并生成可靠的控制策略,自动驾驶车辆(AVs)需要配备大量电子单元,如视觉传感器,包括雷达、激光雷达(LiDAR)、RGB-深度(RGB-D)摄像头、事件摄像头、惯性测量单元(IMU)、全球定位系统(GPS)等。
该领域的一个突出挑战是构建一个能够处理海量信息并将其转化为实时操作的稳健且高效的算法。早期的工作将这一大问题分为感知、规划和控制问题,并独立解决,这被称为模块化自动驾驶。
另一方面,作为一种强大的序列决策工具,强化学习(RL)可以通过奖励信号优化智能体行为模型。随着其发展,深度 RL 结合了 RL 和深度神经网络的优势,能够抽象复杂的观测并学习高效的特征表示。在过去的代表性研究中,它在棋类游戏、电子游戏以及机器人控制等领域表现出色,甚至在某些情况下超越了人类表现。对于自动驾驶而言,RL 使端到端控制成为现实,即从车辆感知到车辆应该做什么的直接转换,就像人类驾驶员一样。
尽管 RL 在自动驾驶车辆方面取得了许多显著成就,大多数相关工作仍是从单个车辆的角度出发,这导致了以自我为中心并可能具有攻击性的驾驶策略,可能会引发安全事故并降低交通系统的效率。
对于现实世界的交通系统,我们通常将其定义为多智能体系统(MAS),并旨在优化整个系统的效率,而不仅仅是最大化个体利益。在 MAS 中,所有智能体在共享的环境中做出决策并进行交互。这意味着每个智能体的状态不仅取决于其自身的行为,还取决于其他智能体的行为,使得环境动态呈现非静态和时间变化性。此外,根据任务设置,智能体可能相互合作或竞争。在如此复杂的场景中,手动编程预先行动几乎是不可能的。
得益于多智能体强化学习(MARL)的重大进展,交通控制、能源分配、大规模机器人控制以及经济建模与预测领域均取得了实质性突破。使用 Dimensions 数据库进行 AI 搜索,统计结果表明,学术界对这些问题高度关注,相关研究领域正处于快速增长阶段。为了加速进一步研究并帮助新研究人员快速入门,我们审阅了 200 多篇出版物、开源软件和代码库,然后系统地总结了现有成就和最新进展。
在此,我们提及其他近期的综述。在里程碑系列中,作者简要总结了从历史到未来的蓝图,并简要介绍了自动驾驶中具有影响力的算法。还有许多综述介绍了 RL 的基本理论和应用,并分析了其发表时最先进的(SoTA)自动驾驶算法,但它们主要关注单智能体学习。然而,近年来研究人员在理论和应用方面取得了显著进展,并且在高级机器人模拟器中也取得了进展。作为在线 RL 训练的关键组成部分,模拟器决定了从模拟到现实的差距,即智能体学习的策略是否可以轻松地转移到物理机器人上。因此,为了使工程师和研究人员能够捕捉最新的进展并加速技术进步,我们全面总结了该领域的技术、挑战和前景。
总体而言,本文的主要贡献可总结如下:
- 我们提出了一系列基准的标准,详细分析和总结了先进模拟器、数据集和大规模自动驾驶竞赛的特征。
- 我们对最先进的 MARL 方法进行了分类,全面回顾了它们在该领域的技术改进、见解和未解决的挑战。
- 我们从相关领域捕捉了最新进展,并从多个角度深入探讨了基于 MARL 的自动驾驶的未来方向。


