苏黎世联邦理工学院机器人系统实验室在《Science Robotics》中提出了一种创新的控制框架,通过结合强化学习和多头注意力机制,让机器人在面对不同类型地形时,能做到精准判断和灵活适应,从而实现 100% 障碍穿越成功率。
当前注意力机制与强化学习的结合已从方法创新阶段进入性能优化和应用拓展阶段。除了上述成果,该方向还有不少值得参考的高质量研究,涵盖了自主探索、多机器人导航、作业调度及扫描路径预测等多个场景。以下梳理了四篇代表性工作,供深入理解该架构的多样化应用。
ARiADNE: 基于注意力的深度网络强化学习方法
关键词: Reinforcement Learning、Attention Mechanism、Autonomous Robot Exploration、Graph Neural Networks、Non-Myopic Planning
该方法通过基于注意力机制的深度网络(政策网络与评论网络)学习部分地图中不同区域的多尺度依赖关系并隐式预测探索潜在收益,结合软演员 - 评论者(SAC)强化学习算法,实现自主机器人探索任务中实时、非近视的路径规划,平衡地图利用与新区域探索的权衡。

核心创新点:
- 设计基于多头注意力的地图编码模块,结合机器人本体感受信息,自动聚焦可行落脚点,实现地形感知的可解释性与精准性。
- 提出两阶段强化学习训练 pipeline,先在基础地形上初始化地图编码学习,再引入复杂地形与不确定性微调,兼顾泛化能力与鲁棒性。
- 构建端到端的整体控制框架,无需依赖模型预测控制等上层规划模块,直接将感知信息映射为关节级动作,统一了学习型方法的鲁棒性与模型型方法的精准性。
Attention Graph for Multi-Robot Social Navigation with Deep Reinforcement Learning
关键词: Multi-Robot Social Navigation、Graph Neural Network、Attention Mechanism、Deep Reinforcement Learning、Centralized Training Decentralized Execution
论文提出的 MultiSoc 方法,通过边缘选择器和人群协调器两个结合注意力机制的图神经网络提取实体间多尺度交互特征,结合多智能体近端策略优化(MAPPO)强化学习算法,实现多机器人在拥挤环境中的社会感知导航与隐式协调。

核心创新点:
- 设计双图神经网络架构,结合注意力机制构建实体交互图,精准捕捉机器人与人类、机器人之间的多尺度依赖关系。
- 引入可定制密度元参数,通过边缘选择器动态调整交互图稀疏度,适配不同拥挤程度的导航场景。
- 基于集中式训练分布式执行范式,结合 MAPPO 强化学习算法,实现多机器人隐式协调与社会感知导航。
Flexible Job Shop Scheduling via Dual Attention Network Based Reinforcement Learning
关键词: Flexible Job Shop Scheduling、Deep Reinforcement Learning、Self-Attention Mechanism、Dual-Attention Network、End-to-End Learning
论文提出的 DANIEL 方法,通过由操作消息注意力块和机器消息注意力块组成的双注意力网络(DAN)精准提取柔性作业车间调度中操作与机器的复杂关联特征,结合近端策略优化(PPO)强化学习算法,构建端到端学习框架,同步解决操作排序与机器分配问题,实现高效调度决策。




