Manual2Skill：用视觉语言模型读说明书指导机器人组装家具

综述由AI生成Manual2Skill 框架通过视觉语言模型解析家具说明书，实现机器人自主装配。该方法利用分层装配图生成、单步位姿估计及运动规划，解决了从抽象手册到物理执行的难题。在宜家家具及多种任务中验证了有效性，展示了机器人在复杂操作任务上的泛化能力与进步。

MongoKing发布于 2026/4/12更新于 2026/5/2216 浏览

Manual2Skill：利用 VLM 阅读说明书指导机器人进行家具组装

背景与动机

人具备根据操作手册进行组装的能力，但机器人要实现这一点却面临巨大挑战。传统方法往往依赖模仿学习或强化学习，这需要海量的数据和计算资源，且难以从抽象的文本和草图中提取信息并转化为物理动作。

Manual2Skill 框架旨在让机器人有效利用人类设计的手册，既能指导组装动作，又能减少对特定数据的依赖。核心思路是利用视觉语言模型（VLM）理解手册并提取装配结构，构建分层图；随后训练模型估计每个步骤中零部件的相对位姿；最后通过运动规划模块生成可执行的动作序列。

在宜家家具的四件实物上进行的评估，展示了该方法在真实世界装配任务中的有效性。

核心方法

1. VLM 引导的分层装配图生成

手册通常是抽象的草图，而预装场景图像是高分辨率的真实世界图片，具有多样性。VLM 凭借其广泛的互联网规模数据集训练，擅长跨越不同图像域的高级视觉识别和空间推理。

提示策略 输入包括所有手册页面和现实世界的装配前场景图像（多图像推理），以及结合情景学习示例的文字指令。为了获得更好的精度，提示遵循思维链（CoT）与由简到繁（Least-to-Most）原则，指定输出格式为 JSON、Python 代码或自然语言，确保结构良好的输出能无缝融入后续阶段。

关键步骤

部件关联：通过分析手册插图中的空间、上下文和功能线索预测每个物理部分的角色。利用 GroundingDINO 实现零样本零件检测，再通过 Set of Marks 方法自动编号，将真实场景与手册草图对应。文本上遵循 {name, label, role} 结构，增强可解释性。
步骤确定：使用 VLM 推理确定每个步骤涉及哪些部分。针对 VLM 受手指等无关元素影响的问题，采用图像裁切仅保留家具零件来集中注意力。通过 GPT-4o 对话绑定页面、零件与步骤，生成嵌套的层级列表。

2. 单步预装配位姿估计

该模块负责预测每个装配步骤中组件的相对 6D 姿态。

模型架构 包含四个主要模块：图像编码器、点云编码器、跨模态融合模块和姿态回归器。

图像编码器：采用 DeepLabV3+，主干网络为 MobileNet V2 以保证轻量快速，特征提取模块使用 Atrous Spatial Pyramid Pooling (ASPP) 支持多尺度分析，输出全局向量。
点云编码器：使用 PointNet++ 提取 3D 几何特征，输入为零件或子组件的点云数据。
图神经网络（GNN）：利用图 Transformer 处理装配关系，更新节点特征以反映连接关系和装配顺序。
姿态回归器：三层 MLP 预测零件位姿，输入为融合后的特征。

训练细节 损失函数关注预测准确率和点云与真实点云之间的距离。坐标基准利用 PCA 成分分析法建立基于形状的坐标系。

3. 机器人装配动作生成

对齐与抓取：扫描实物图像生成 3D 模型，使用 FoundationPose 和 SAM 获取部件初始状态。设计了基于个体几何形状的启发式抓取方法。
轨迹规划：寻找可行无碰撞路径点，利用 RRT-Connect 进行机器人运动规划，重新计算所抓取组件的 6D 姿势以确保精准装配。

实验与结果

装配层级图生成

在宜家 102 个家具的数据集上进行测试。对比了 SingleStep（扁平树结构）和 GeoCluster（多层级树结构）。结果显示，Manual2Skill 的方法准确率相对较高，且在突破 6 个零件以上的基线水平上表现优异。

姿态估计性能

在椅子、桌子、台灯三类家具上进行了验证，每类生成大量训练和测试数据。消融实验表明，引入 GNN 后，GD、RMSE、CD 均降至最低，位姿预测精度极高。Part Accuracy (PA) 达到 86.8%，证明绝大多数零件能被正确放置，模型具备良好的泛化能力。

仿真与真实世界评估

仿真环境：在 PyBullet 中测试全流程。最常见的故障发生在 VLM 无法生成完全准确的装配图时，导致点云与说明手册图像未对准。

Manual2Skill：用视觉语言模型读说明书指导机器人组装家具

Manual2Skill：利用 VLM 阅读说明书指导机器人进行家具组装

背景与动机

核心方法

1. VLM 引导的分层装配图生成

2. 单步预装配位姿估计

3. 机器人装配动作生成

实验与结果

装配层级图生成

姿态估计性能

仿真与真实世界评估

更多推荐文章

相关免费在线工具

泛化能力

结论与展望

更多推荐文章

相关免费在线工具

Manual2Skill：用视觉语言模型读说明书指导机器人组装家具

Manual2Skill：利用 VLM 阅读说明书指导机器人进行家具组装

背景与动机

核心方法

1. VLM 引导的分层装配图生成

2. 单步预装配位姿估计

3. 机器人装配动作生成

实验与结果

装配层级图生成

姿态估计性能

仿真与真实世界评估

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

泛化能力

结论与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具