Manual2Skill：利用 VLM 阅读说明书指导机器人家具组装

Manual2Skill 框架通过视觉语言模型（VLM）解析家具组装说明书，提取分层装配结构，结合位姿估计与运动规划，指导机器人完成真实世界的家具组装任务。该方法利用 CoT 提示增强推理，采用 GNN 融合图像与点云特征，在仿真及多款宜家家具实验中验证了有效性。尽管在路径规划和紧固执行方面仍有优化空间，但其在零样本泛化至其他装配任务上展现了 100% 的成功率，为机器人从抽象指令中学习复杂技能提供了新范式。

怪力乱神发布于 2026/4/9更新于 2026/4/241 浏览

Manual2Skill：利用视觉语言模型指导机器人家具组装

引言

人类天生具备根据操作手册进行复杂组装的能力，而机器人要实现这一点则面临巨大挑战。传统的模仿学习或强化学习往往需要海量的数据和计算资源，且难以从抽象的图文手册中提取信息并转化为具体动作。

Manual2Skill 框架旨在解决这一痛点。它通过视觉语言模型（VLM）理解人类设计的手册，提取结构化装配信息，进而指导机器人完成从零件识别到最终组装的全流程。该研究在宜家家具的真实场景中进行了验证，展示了机器人在无需大量预训练数据的情况下，理解并执行复杂指令的潜力。

核心方法

整个系统由三个关键模块组成，形成一个闭环的感知 - 规划 - 执行链路。

1. VLM 引导的分层装配图生成

手册通常是抽象草图，而真实场景图像具有多样性。VLM 凭借其在大规模互联网数据上的训练优势，擅长跨越不同图像域的高级视觉识别和空间推理。

输入处理：将手册页面与真实世界装配前的场景图像作为多模态输入。提示词结合了情景学习示例，并明确要求输出 JSON、Python 代码或自然语言格式，确保后续步骤能无缝对接。
部件关联：通过分析插图中的空间、上下文和功能线索，预测物理部件的角色。为了提升精度，提示遵循思维链（CoT）和由简到繁（Least-to-Most）策略。同时，利用 GroundingDINO 实现零样本零件检测，并通过 Set of Marks 方法自动编号，将真实场景与手册草图精准对应。
步骤推理：使用 VLM 推理确定每个步骤涉及的部件。针对 VLM 易受手指等无关元素干扰的问题，采用图像裁切技术，仅保留家具零件以集中注意力。最终生成包含等效组件的嵌套层级列表。

2. 单步预装配位姿估计

为了精确控制机械臂，需要预测每个步骤中零部件的相对 6D 姿态。

模型架构：包含图像编码器、点云编码器、跨模态融合模块和姿态回归器。图像特征通过 DeepLabV3+ 提取，点云特征通过 PointNet++ 获取。两者结合后，利用图神经网络（GNN）更新节点特征，反映部件间的连接关系和装配顺序。
坐标系建立：利用 PCA 主成分分析法建立基于形状的坐标系，确保姿态预测的一致性。
训练目标：最小化预测准确率误差及点云与真实点云之间的距离损失。

3. 机器人装配动作生成

最后一步是将预测的姿态映射到真实世界并执行。

状态感知：扫描实物图像生成 3D 模型，使用 FoundationPose 和 SAM 获取部件初始状态。
抓取规划：设计启发式抓取方法，根据个体几何形状选择最佳抓取点。
运动规划：利用 RRT-Connect 算法寻找无碰撞路径，并结合 FoundationPose 和 SAM 重新计算抓取组件的 6D 姿势，确保轨迹可行。

装配层级图生成示意图

实验评估

研究团队在仿真环境和真实世界中进行了多维度测试。

仿真环境测试

在 PyBullet 仿真环境中，使用 IKEA-Manuals 数据集测试全流程。自定义基准对比了完整装配图像估计位姿与启发式策略。结果显示，最常见的失败发生在 VLM 无法生成完全准确的装配图时，导致点云与说明手册图像未对准。但在零件数量小于 7 的 50 个家具测试中，整体成功率表现良好。

真实世界组装

选取了 Flisat（木凳）、Variera（铁架）、Sundvik（椅子）和 Knagglig（盒子）四套宜家家具进行实测。每类试验 10 次，评估平均完成率（ACR）。

结果分析：真实世界的完成率相对较高，主要失败原因集中在路径规划上，这与仿真中的主要失败原因（装配图生成）有所不同。未来计划制定自适应运动细化的低级策略来解决插入精度问题。

Manual2Skill：利用 VLM 阅读说明书指导机器人家具组装

Manual2Skill：利用视觉语言模型指导机器人家具组装

引言