Manual2Skill:利用 VLM 阅读说明书指导机器人进行家具组装
背景与动机
人具备根据操作手册进行组装的能力,但机器人要实现这一点却面临巨大挑战。传统方法往往依赖模仿学习或强化学习,这需要海量的数据和计算资源,且难以从抽象的文本和草图中提取信息并转化为物理动作。
Manual2Skill 框架旨在让机器人有效利用人类设计的手册,既能指导组装动作,又能减少对特定数据的依赖。核心思路是利用视觉语言模型(VLM)理解手册并提取装配结构,构建分层图;随后训练模型估计每个步骤中零部件的相对位姿;最后通过运动规划模块生成可执行的动作序列。
在宜家家具的四件实物上进行的评估,展示了该方法在真实世界装配任务中的有效性。
核心方法
1. VLM 引导的分层装配图生成
手册通常是抽象的草图,而预装场景图像是高分辨率的真实世界图片,具有多样性。VLM 凭借其广泛的互联网规模数据集训练,擅长跨越不同图像域的高级视觉识别和空间推理。
提示策略 输入包括所有手册页面和现实世界的装配前场景图像(多图像推理),以及结合情景学习示例的文字指令。为了获得更好的精度,提示遵循思维链(CoT)与由简到繁(Least-to-Most)原则,指定输出格式为 JSON、Python 代码或自然语言,确保结构良好的输出能无缝融入后续阶段。
关键步骤
- 部件关联:通过分析手册插图中的空间、上下文和功能线索预测每个物理部分的角色。利用 GroundingDINO 实现零样本零件检测,再通过 Set of Marks 方法自动编号,将真实场景与手册草图对应。文本上遵循
{name, label, role}结构,增强可解释性。 - 步骤确定:使用 VLM 推理确定每个步骤涉及哪些部分。针对 VLM 受手指等无关元素影响的问题,采用图像裁切仅保留家具零件来集中注意力。通过 GPT-4o 对话绑定页面、零件与步骤,生成嵌套的层级列表。
2. 单步预装配位姿估计
该模块负责预测每个装配步骤中组件的相对 6D 姿态。
模型架构 包含四个主要模块:图像编码器、点云编码器、跨模态融合模块和姿态回归器。
- 图像编码器:采用 DeepLabV3+,主干网络为 MobileNet V2 以保证轻量快速,特征提取模块使用 Atrous Spatial Pyramid Pooling (ASPP) 支持多尺度分析,输出全局向量。
- 点云编码器:使用 PointNet++ 提取 3D 几何特征,输入为零件或子组件的点云数据。
- 图神经网络(GNN):利用图 Transformer 处理装配关系,更新节点特征以反映连接关系和装配顺序。
- 姿态回归器:三层 MLP 预测零件位姿,输入为融合后的特征。
训练细节 损失函数关注预测准确率和点云与真实点云之间的距离。坐标基准利用 PCA 成分分析法建立基于形状的坐标系。
3. 机器人装配动作生成
- 对齐与抓取:扫描实物图像生成 3D 模型,使用 FoundationPose 和 SAM 获取部件初始状态。设计了基于个体几何形状的启发式抓取方法。
- 轨迹规划:寻找可行无碰撞路径点,利用 RRT-Connect 进行机器人运动规划,重新计算所抓取组件的 6D 姿势以确保精准装配。
实验与结果
装配层级图生成
在宜家 102 个家具的数据集上进行测试。对比了 SingleStep(扁平树结构)和 GeoCluster(多层级树结构)。结果显示,Manual2Skill 的方法准确率相对较高,且在突破 6 个零件以上的基线水平上表现优异。
姿态估计性能
在椅子、桌子、台灯三类家具上进行了验证,每类生成大量训练和测试数据。消融实验表明,引入 GNN 后,GD、RMSE、CD 均降至最低,位姿预测精度极高。Part Accuracy (PA) 达到 86.8%,证明绝大多数零件能被正确放置,模型具备良好的泛化能力。
仿真与真实世界评估
- 仿真环境:在 PyBullet 中测试全流程。最常见的故障发生在 VLM 无法生成完全准确的装配图时,导致点云与说明手册图像未对准。


