Manual2Skill:利用视觉语言模型指导机器人家具组装
引言
人类天生具备根据操作手册进行复杂组装的能力,而机器人要实现这一点则面临巨大挑战。传统的模仿学习或强化学习往往需要海量的数据和计算资源,且难以从抽象的图文手册中提取信息并转化为具体动作。
Manual2Skill 框架旨在解决这一痛点。它通过视觉语言模型(VLM)理解人类设计的手册,提取结构化装配信息,进而指导机器人完成从零件识别到最终组装的全流程。该研究在宜家家具的真实场景中进行了验证,展示了机器人在无需大量预训练数据的情况下,理解并执行复杂指令的潜力。
核心方法
整个系统由三个关键模块组成,形成一个闭环的感知 - 规划 - 执行链路。
1. VLM 引导的分层装配图生成
手册通常是抽象草图,而真实场景图像具有多样性。VLM 凭借其在大规模互联网数据上的训练优势,擅长跨越不同图像域的高级视觉识别和空间推理。
- 输入处理:将手册页面与真实世界装配前的场景图像作为多模态输入。提示词结合了情景学习示例,并明确要求输出 JSON、Python 代码或自然语言格式,确保后续步骤能无缝对接。
- 部件关联:通过分析插图中的空间、上下文和功能线索,预测物理部件的角色。为了提升精度,提示遵循思维链(CoT)和由简到繁(Least-to-Most)策略。同时,利用 GroundingDINO 实现零样本零件检测,并通过 Set of Marks 方法自动编号,将真实场景与手册草图精准对应。
- 步骤推理:使用 VLM 推理确定每个步骤涉及的部件。针对 VLM 易受手指等无关元素干扰的问题,采用图像裁切技术,仅保留家具零件以集中注意力。最终生成包含等效组件的嵌套层级列表。
2. 单步预装配位姿估计
为了精确控制机械臂,需要预测每个步骤中零部件的相对 6D 姿态。
- 模型架构:包含图像编码器、点云编码器、跨模态融合模块和姿态回归器。图像特征通过 DeepLabV3+ 提取,点云特征通过 PointNet++ 获取。两者结合后,利用图神经网络(GNN)更新节点特征,反映部件间的连接关系和装配顺序。
- 坐标系建立:利用 PCA 主成分分析法建立基于形状的坐标系,确保姿态预测的一致性。
- 训练目标:最小化预测准确率误差及点云与真实点云之间的距离损失。
3. 机器人装配动作生成
最后一步是将预测的姿态映射到真实世界并执行。
- 状态感知:扫描实物图像生成 3D 模型,使用 FoundationPose 和 SAM 获取部件初始状态。
- 抓取规划:设计启发式抓取方法,根据个体几何形状选择最佳抓取点。
- 运动规划:利用 RRT-Connect 算法寻找无碰撞路径,并结合 FoundationPose 和 SAM 重新计算抓取组件的 6D 姿势,确保轨迹可行。

实验评估
研究团队在仿真环境和真实世界中进行了多维度测试。
仿真环境测试
在 PyBullet 仿真环境中,使用 IKEA-Manuals 数据集测试全流程。自定义基准对比了完整装配图像估计位姿与启发式策略。结果显示,最常见的失败发生在 VLM 无法生成完全准确的装配图时,导致点云与说明手册图像未对准。但在零件数量小于 7 的 50 个家具测试中,整体成功率表现良好。
真实世界组装
选取了 Flisat(木凳)、Variera(铁架)、Sundvik(椅子)和 Knagglig(盒子)四套宜家家具进行实测。每类试验 10 次,评估平均完成率(ACR)。
- 结果分析:真实世界的完成率相对较高,主要失败原因集中在路径规划上,这与仿真中的主要失败原因(装配图生成)有所不同。未来计划制定自适应运动细化的低级策略来解决插入精度问题。



