安全即策略,实现负责任的机器人操作

安全即策略,实现负责任的机器人操作

25年5月来自香港理工、哈工大、汉堡大学、深圳鹏城实验室和Agile Robots AG的论文“Don’t Let Your Robot be Harmful: Responsible Robotic Manipulation via Safety-as-Policy”。

在机器人操作中,机械地执行人类指令可能导致严重的安全风险,例如中毒、火灾甚至爆炸。本文提出一种负责任的机器人操作方法,该方法要求机器人在完成指令和执行复杂操作时,能够考虑真实环境中的潜在危险,从而实现安全高效的操作。然而,现实世界中的此类场景变化多端,且对训练构成风险。为了应对这一挑战提出“安全即策略”(Safety-as-policy)方法,该方法包括:(i) 一个世界模型,用于自动生成包含安全风险的场景并进行虚拟交互;(ii) 一个心理模型,用于通过反思推断后果并逐步培养安全认知,从而使机器人能够在规避危险的同时完成任务。此外创建SafeBox合成数据集,其中包含一百个具有不同安全风险场景和指令的负责任机器人操作任务,有效降低了真实世界实验的风险。


初步研究

利用语言指令控制机器人,人类无需指定每个动作的具体行为和轨迹,即可完成由一系列基本动作组成的复杂任务。然而,在某些情况下,日常指令可能导致严重的安全风险。例如,“把热杯子放在地板上”的指令可能会烫伤在地板上玩耍的婴儿。因此,在这些情况下,机器人需要遵循人类指令,并尽可能确保机器人操作的安全,即负责任的机器人操作。为了确保操作安全,面临的挑战是如何根据场景评估潜在风险,并制定相应的应对措施,以防止操作过程中发生伤害。

为了解决这个问题,本文提出“安全即策略”(SAFETY-AS-POLICY)方法。该方法利用对危险场景的认知,针对不同的场景和人类指令规划安全的任务完成方法,从而确保操作过程的安全性和可靠性。具体而言,给定场景的视觉信息 v 和人类语言指令 c,用大型多模态模型(LMM)f,并结合对危险场景的认知 r。模型能够识别场景中的风险因素,并生成任务和运动规划(TAMP)代码 l,以确保执行后的安全:

l = f(v, c | r; p_lmp),

其中 p_lmp 是 TAMP 代码生成的提示。

与之前基于 LLM 的机器人操作工作类似,这些 TAMP 代码将使用预定义的基本动作 API,例如移动、旋转或倾斜。通过这些 TAMP 代码,模型能够控制机器人并实现负责任的机器人操作。

接下来,将介绍如何使 f 学习危险场景的认知 r。如图所示,方法包含两部分:(i) 与世界模型的虚拟交互和 (ii) 基于心理模型的认知学习。虚拟交互使用 LMM 可以交互的世界模型,持续生成包含潜风险指令的不同场景。认知学习基于虚拟场景中的交互迭代地开发新的应对措施,使模型能够有效地理解现实世界的场景。

请添加图片描述

与世界模型的虚拟交互

与人类类似,机器人可以通过交互来学习对场景的理解。然而,设计交互式危险环境成本高昂,而让机器人与各种现实中的危险场景进行交互可能会导致严重的后果。为了解决这个问题,提出一种虚拟交互方法。一个专门设计的世界模型能够持续生成想象中的危险场景和指令,使机器人能够在现实中进行无害的虚拟交互。这将有助于模型在后续步骤中逐步构建对危险场景的认知。

对于机器人而言,它需要传感器数据 v 和指令 c。因此,世界模型需要生成各种各样的危险场景和指令对 (v, c)。幸运的是,多模态大模型 (LMM) 对现实世界中潜在的危险场景具有丰富的理解能力。通过设计一个提示 p_gen,可以利用 LMM 作为想象引擎来生成一个场景的描述:

s = f(p_gen),

其中 f 是 LMM,p_gen 是场景生成的提示,s 是危险场景的描述。然而,直接使用LLM生成大量危险场景s会导致场景收敛,这不利于后续策略学习。为此,用先前生成的场景作为历史h,以帮助模型生成截然不同的场景。对于待生成的第k个场景,获取截至该点的所有先前历史场景:

h_k = h_k−1 ⊕ s_k−1,

其中⊕表示文本拼接,h_k−1表示上一轮的历史。具体来说,h_0 = ∅。然后,可以基于此生成一个新的危险场景s_k:

s_k = f(h_k | p_gen)。

如图所示,对于每个场景s_k,需要将其转换为传感器数据和用户指令。由于文本-到-图像生成模型的进步,可以轻松生成逼真的传感器数据,而无需在真实场景中采集。后续的实验表明,从文本-到-图像模型渲染的图像中学习的机器人,在真实场景中同样有效。

请添加图片描述

具体来说,φ 代表渲染器,即文本-到-图像模型,而 ψ 是一个基于文本的函数,用于从场景描述中提取指令部分:

v_k = φ(s_k), c_k = ψ(s_k),

其中 v_k 和 c_k 分别是第 k 轮由世界模型生成的视觉图像和用户指令。至此,可以让机器人在这个极简的虚拟环境中安全地进行交互。

基于心智模型的认知学习

人类在执行任务并产生后果后,无需外部指导即可回顾结果并自发地总结认知。这些认知将帮助人类在未来遇到类似任务时避免不必要的危险并更有效地完成任务。受这种认知行为的启发,提出一种心智模型。通过使用世界模型不断生成想象中的危险场景,机器人将迭代地参与虚拟交互,然后尝试分析后果并总结新的认知 r,从而使其能够在未来顺利完成任务并避免危险。这里,使用可学习的文本提示作为认知。如图所示,假设已经获得关于危险场景的认知 r。对于一对新的危险场景和指令 (v, c),可以推导出相应的交互 TAMP 代码:

请添加图片描述

l = f(v, c | r; p_lmp)。

然而,当前认知生成的 TAMP 代码 l 在该场景中可能存在危险。如果一段 TAMP 代码导致严重后果,则表明当前的认知不足以理解和处理这种情况。需要分析其后果以提升认知。由于 (v, c) 均为虚拟对象,无法真正获得交互结果,只能推断执行后的后果。幸运的是, LMM 可以有效地扮演检查员的角色,推断执行 TAMP 代码的后果。令 p_isp 为检查提示:

o = f(v, c, l | p_isp),

其中 o 是 LMM 对后果进行推断和分析后得到的文本响应。接下来,设置一个反思器来反思这些后果,以更新之前的认知 r:

r′ = f(r, o | p_rlf),

其中 r′ 代表新的认知,p_rlf 是反思提示。由于世界模型可以不断生成新的场景,可以对公式进行转换。将式 (7-9) 转化为迭代形式:

l_k = f(v_k, c_k, | r_k; p_lmp),
o_k = f(v_k, c_k, l_k | p_isp),
r_k+1 = f(r_k, o_k | p_rlf),

其中 r_0 = ∅。令 r = r_N,其中 N 为迭代次数。最终,使模型能够自主学习如何处理危险场景。

推理流程及实现细节

用 Azure OpenAI 的 GPT-4O [48] 作为多模态大模型 (LMM) 的 f,并关闭输入输出滤波器以避免干扰。用 DALL·E-3 [49] 作为图像渲染器。用 Python 作为语法后端,根据视觉信息和提示生成安全的 TAMP 代码。N 设置为 10 以确保学习过程的彻底性。遵循 VOXPOSER [44] 来规划 TAMP 代码的轨迹。对于真实环境中的机器人操作,用开放词汇表的目标检测和分割来提取视觉信息。


实验设置

  1. 数据集和环境:在 SafeBox 合成数据集和真实世界环境中进行实验。手动创建 SafeBox 合成数据集,以更好地涵盖在真实场景中难以安全验证的任务。创建 1000 个可能包含危险的任务,并使用 DALL·E-3 生成其场景图像,然后手动筛选出质量最高的 100 个任务。在 SafeBox 中,每个任务的场景和指令都是独一无二的,并且根据风险类型,可以将其分为三类:电气、火灾和化学以及人身伤害。为了更好地评估合成数据集,对每个任务进行 20 次实验。在真实世界环境中,设置 10 个任务,每个任务代表不同的场景和指令。具体来说,添加一个独特的 call_human_help() API,机器人可以在无法确保安全的情况下调用该 API 立即终止操作。

真实实验设置如图所示:开发一个机器人平台,该平台集成UR5e机械臂、Robotiq 85双指夹爪和用于采集RGB-D数据的Intel RealSense D435摄像头。在实际实验中,机器人任务被归类为类似SafeBox的任务类别。在实际实验中,对于每个任务,进行50次抓取尝试,以评估成功率、安全率和成本。

请添加图片描述
  1. 指标:设置三个指标来衡量结果:安全率(safe),代表安全行为的比例;成功率(succ),代表安全成功完成用户指令的比例;以及成本,代表机器人执行过程中产生的费用。不同的 API 调用会产生不同的成本,每次实验的成本是所有 API 调用成本的总和。值得注意的是,如果机器人的行为不安全或失败,则成本设置为 10000。
  2. 基准和评估:选择一些近期研究成果作为比较目标:CODE-AS-POLICY (CAP) [41]、VOXPOSER (VP) [44] 和 GPT-4VISION FOR ROBOTICS (GFR) [45]。此外,受负责任人工智能中基于过滤器的自然语言处理和计算机视觉方法的启发,还设计过滤重试(FILTER-AND-RETRY,简称FAR)方法作为参考基线。该方法将使用类似于检查器的模块,在生成TAMP代码后进行风险检测。如果检测到风险,它将分析后果并尝试基于此分析重新生成新的TAMP代码。所有模型均使用相同的示例和API,这些示例和API以相同的方式明确告知场景中潜在的安全风险。为了公平比较,所有基线均使用与相同的GPT-4O作为LLM或LMM。所有模型都将使用相同的机器人平台。评估分为机器评估和人工评估。机器评估适用于大规模自动化评估,而人工评估适用于高精度评估。

Read more

【PX4+ROS完全指南】从零实现无人机Offboard控制:模式解析与实战

【PX4+ROS完全指南】从零实现无人机Offboard控制:模式解析与实战

引言 无人机自主飞行是机器人领域的热门方向,而PX4作为功能强大的开源飞控,配合ROS(机器人操作系统)的灵活性与生态,成为实现高级自主飞行的黄金组合。然而,许多初学者对PX4的飞行模式理解不清,更不知道如何通过ROS编写可靠的Offboard控制程序。 本文将带你彻底搞懂PX4 6大核心飞行模式,实现无人机的自动起飞、悬停、轨迹跟踪(圆形/方形/螺旋)与降落。 亮点一览: * ✅ 深度解析PX4飞行模式(稳定/定高/位置/自动/Offboard) * ✅ 明确ROS可控制的模式与指令接口 * ✅ 完整的ROS功能包(C++实现,状态机设计) * ✅ 支持位置控制与速度控制双模式 * ✅ 内置圆形、方形、螺旋轨迹生成器 * ✅ 详细的安全机制与失效保护配置 无论你是准备参加比赛、做科研,还是想入门无人机开发,这篇文章都将是你宝贵的参考资料。 第一部分:PX4飞行模式深度剖析 PX4的飞行模式可以看作一个控制权逐级递增的层级结构。理解这些模式是编写控制程序的前提。 1. 稳定模式(STABILIZED / MANUAL / ACRO) * 核心特点:

从零开发 AR 演讲提词器:基于 Rokid CXR-M SDK 的实战指南

从零开发 AR 演讲提词器:基于 Rokid CXR-M SDK 的实战指南

从零开发 AR 演讲提词器:基于 Rokid CXR-M SDK 的实战指南 站在讲台上,数百双眼睛注视着你。你开始演讲,却发现关键时刻想不起下一句要说什么——这种场景,每个演讲者都不陌生。 传统的解决方案是在讲台上放一张稿子,或者用 PPT 做备注。但低头看稿显得不专业,看 PPT 又要扭头,容易打断演讲节奏。如果能有一个只有自己能看到的"隐形提词器",演讲就能更加从容自信。 Rokid AR 眼镜恰好提供了这种可能:将提词内容无线传输到眼镜显示屏,演讲者只需自然平视,文字便清晰呈现,而台下观众毫无察觉。本文将完整记录如何利用 Rokid CXR-M SDK 从零开发这款演讲提词器应用。 一、技术方案设计 1.1 为什么选择 AR 眼镜 在确定技术方案前,我们先对比几种提词方案: 方案

【大模型应用篇】用 OpenClaw + 飞书打造 7x24 小时服务器运维机器人

【大模型应用篇】用 OpenClaw + 飞书打造 7x24 小时服务器运维机器人

前言 本文基于OpenClaw,也是最近超火的可在本地运行的AI Agent网关,记录从零搭建通过飞书对话管理服务器运维机器人的全过程。该机器人支持随时随地通过飞书查看服务器状态、检索日志、管理进程,其核心机制在于:由OpenClaw将聊天平台(飞书等)的消息路由至大模型,模型调用本地工具(如Shell、文件系统、浏览器)执行相应任务,最终将结果自动返回至飞书会话中,实现自动化运维交互。 架构概览 飞书 App (WebSocket 长连接)         ↕ OpenClaw Gateway (服务器上 systemd 常驻)         ↕ AI 模型 (DeepSeek v3.2/GLM 4.7)         ↕ 服务器 Shell (受白名单限制的命令执行) 核心组件: * OpenClaw Gateway:Agent 网关,管理会话、工具调用、渠道连接 * 飞书插件:通过

Java毕设选题推荐:基于web的高校一卡通管理系统的设计与实现基于springboot+vue高校一卡通设计与实现【附源码、mysql、文档、调试+代码讲解+全bao等】

Java毕设选题推荐:基于web的高校一卡通管理系统的设计与实现基于springboot+vue高校一卡通设计与实现【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围::小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。 主要内容:免费开题报告、任务书、全bao定制+中期检查PPT、代码编写、🚢文编写和辅导、🚢文降重、长期答辩答疑辅导、一对一专业代码讲解辅导答辩、模拟答辩演练、和理解代码逻辑思路。 特色服务内容:答辩必过班 (全程一对一技术交流,帮助大家顺利完成答辩,小白必选) 全网粉丝50W+,累计帮助2000+完成优秀毕设 🍅文末获取源码🍅 感兴趣的可以先收藏起来,还有大家在毕设选题,