ResponsibleRobotBench：多模态大模型驱动的负责任机器人操作基准

2024 年 12 月，汉堡大学、Agile Robots SE、慕尼黑工大及香港理工联合发布了 ResponsibleRobotBench。近年来，大型多模态模型的进步为具身人工智能带来了新机遇，尤其在泛化和推理方面潜力巨大。然而，在现实世界中实现可靠且负责任的机器人行为仍是未解挑战。在高风险环境中，智能体必须超越基本任务执行，进行风险感知推理、道德决策和基于物理的规划。

背景与挑战

大语言模型（LLM）、视觉 - 语言模型（VLM）和多模态大模型（LMM）在机器人操作领域的融合发展迅猛。近期研究主要集中在提升泛化能力和长时程任务规划，例如使用基于智能体的任务分解、代码生成策略以及指令到动作流水线。同时，也有研究致力于构建在大型多任务数据集上训练的可扩展通用机器人模型。

传统机器人安全方法主要依赖符号规划、基于规则的安全验证以及基于模型的轨迹优化。人机交互领域也探索了社交可接受性和交互安全性。但传统方法在处理长时程操作任务时，往往存在适应性差和覆盖范围有限的问题。

相比之下，多模态大模型引导的机器人智能体展现出更强的上下文感知能力和语义泛化能力。虽然 LLM、VLM 和 LMM 的安全性在自然语言处理领域已被广泛研究，但这些问题很少被映射到物理世界中的具身机器人智能体。现有的机器人基准测试主要关注任务成功率或多任务可扩展性，缺乏专门针对安全关键场景下'负责任的机器人操作'的评估。

框架设计

ResponsibleRobotBench 是一个综合性的基准测试框架，旨在评估由多模态大语言模型驱动机器人操作系统的可靠性和风险感知能力。

示意图

与仅关注任务成功率的传统基准不同，该框架强调在存在危险的情况下机器人的负责任行为。它引入一系列操作任务，这些任务在危险程度、场景复杂性、规划难度和指令复杂性方面各不相同。每个任务都经过精心设计，旨在检验智能体在实现任务目标的同时，识别、避免或减轻危险后果的能力。

场景复杂度对比

任务安全分类

任务套件构成

任务采用多维分类系统构建。首先根据是否涉及危险区分，危险情况分为三大类：电气风险、火灾/化学风险和人为风险。例如，任务可能包括在电源插座附近浇花、在面粉粉尘附近点燃蜡烛，或在人手附近进行刀具操作。

除了物理危险，基准还包含攻击和防御场景，其中指令可能具有对抗性或故意造成伤害。任务的规划难度从简单的单步操作到需要上下文推理的复杂多步流程不等。每个任务都带有二进制安全标志，指示在当前约束条件下执行是否安全。

动作表示与指令模式

为了适应各种控制架构，框架支持多种动作表示格式，包括预定义的底层技能、操作姿态和代码生成流程。这种模块化设计使得不同抽象或具身程度的系统之间能够进行公平的比较。

发送给智能体的指令分为三种类型：

正常指令：描述安全且目标导向的行为。
攻击指令：具有对抗性或故意造成伤害。
防御指令：要求智能体在执行任务时减轻或防止不安全的结果。

包含不同危险的任务集

将多种类型的危险纳入任务框架，包括电气危险、人为危险、火灾危险和化学危险。这些类别基于全球安全标准中普遍认可的分类。相关应用领域包括家用服务机器人、人机协作、工业安全机器人等。电气危险尤其涵盖爆炸、触电和磁干扰等风险。

智体评估架构和接口

使用 ResponsibleRobotBench 评估的智能体既可以使用仅基于 LLM 的流水线实例化，也可以使用具有多模态基础的 VLM 实例化。框架兼容零样本和少样本提示方案，从而可以研究不同先验经验水平下的上下文学习。

操作流程

操作流程包含以下核心模块：指令构建、上下文构建和提示构建。模型输出包括视觉描述、用于规划和安全的推理与反思、危险检测以及动作生成。

自然语言指令

利用自然语言指令来控制机器人执行指定任务。普通指令通常不包含明确的安全信息。攻击型指令指示机器人执行本质上不安全的行为，而防御型指令则明确强调安全操作约束。

视觉上下文构建

为了构建全面的视觉上下文，基准支持目标检测模块，用于提取相关实体（如工具、人员、电源或易燃材料）的边界框。对于目标检测，采用 YOLO11 模型，该模型具有较高的效率和准确率。

基于 N 样本的上下文学习

为了提高智能体在不同上下文中的性能，引入上下文学习（ICL），通过整合包含潜在危险相关信息的各种任务样本来实现。这种灵活的条件化机制支持对上下文学习策略进行细粒度的实验。

基于认知信息的上下文学习

认知信息是多模态大型语言模型引导的负责任机器人操作上下文学习的另一个重要组成部分。此类信息通常来源于已学习的世界模型和心理模型。在提出的操作界面中，认知知识被嵌入到上下文学习输入中，包括与潜在危险相关的通用安全指南。

提示构建

通过整合视觉信息、自然语言指令、N-shot 示例和认知信息来构建提示。系统提示包括智能体的任务目标、通用操作指南、认知知识和 N-shot 示例。此外，系统提示还能整合历史信息，即来自先前在仿真环境中执行的操作的反馈。

视觉感知、推理、反思、危险检测和机器人规划

构建的提示信息被传递给大模型，生成符合预定义模式的结构化输出。该输出包括视觉场景描述、安全推理和反思、任务执行推理和规划、危险检测预测以及可执行的动作规划。推理组件对于智能体进行内省式场景评估至关重要。

物理仿真评估

一旦预测出可行的动作，就会在高保真物理仿真中执行该动作。不可行动作会根据其失败类型分配成本。该环境模拟了物理动力学和安全关键交互，从而能够对智能体的规划进行精细评估。

评估指标

为了定量评估机器人智能体在危险环境中的责任性和可靠性，引入一个综合评估接口。核心评估指标包括：

任务成功率：衡量正确完成的任务比例。
安全率：定义为未触发危险情况的任务执行比例。
安全成功率：综合考虑已完成且未违反安全规定的任务。

此外，还定义成本评估指标，反映任务执行过程中的资源消耗，包括底层动作步骤的数量、对感知和推理模块的调用频率以及对人工干预的依赖程度。

细粒度误差分析生成

对负责任的机器人操作进行安全评估，不仅需要评估模型理解潜在危险的能力，还需要评估其在任务执行过程中有效规划和避免此类危险的能力。该流程涵盖多种类型的故障，包括动作偏差和输出格式错误、感知错误、重复输出、运动规划失败导致的故障，以及预测动作在物理上无法实现的情况。

误差分析结果

即插即用接口

基准测试提供支持策略训练和推理的即插即用接口，从而能够与基于学习的方法和评估流程无缝集成。数据采集流程支持生成丰富的多模态信息，包括视觉观测、机器人轨迹和任务指令，这些信息可作为策略学习的宝贵输入。

实验方案

为了系统地评估大模型在负责任的机器人操作中的能力，设计了一套全面的实验方案，涵盖任务类型、动作表示、人机协作能力、多模态输入等多个维度。为了确保实验结果的可复现性，所有实验均在预收集的 100 个场景布局上进行。所有实验场景都将公开，以方便后续的复现和外部验证。