背景与定义
**'灵巧手'(dexterous hand)**通常指具有类人手结构、多自由度的末端执行器,能够进行精细的抓取与操作。它们模仿人类手指关节和肌腱驱动,使机器人能够执行转动、重定位、穿插等复杂操作。根据结构和材料不同,灵巧手大致可分为刚性型、柔性型和混合型:刚性型采用金属或坚硬塑料结构,关节通过电机或舵机驱动;柔性型主要用硅胶、橡胶等软材料,可通过气动驱动或形变实现自适应抓取;混合型结合刚柔两者。近年来,随着增材制造和传感技术进步,灵巧手的设计趋势是结构更轻便、可拓展且集成丰富传感器。
在机器人学中,'灵巧手'是把感知—决策—执行闭环落实到接触尺度的关键枢纽。其重要性体现在方法论与系统层两个层面:在方法论上,灵巧手将原本'抓取—位移'的低维任务,提升为包含滚动、指间重排、推挤与非抓取操作在内的操作原语集合;在系统层面,灵巧手以高自由度与顺应性结构、密集触觉传感为载体,显著扩展同一硬件在开放世界中的任务覆盖率。
本文整理了近期在顶会(RSS, CoRL, ICRA, IROS)发表的'灵巧手'相关主题的论文,按照'问题 - 方案'的模式展开,便于浏览及泛读效率。
RSS 2025
DexterityGen: Foundation Controller for Unprecedented Dexterity
内容简介:这篇工作把'人类远程操控的意图(高层)'与'强化学习得到的低层运动基元'拼接起来,打造一个通用'灵巧操控基础控制器'。作者先用 RL 在模拟中学出一大堆'灵巧手运动原子',再把它们组织成'可被人类提示调用'的生成式控制器。到了真实世界,人类只需给出粗指令,控制器就能生成稳定、安全且细致的机器人手动作。
DOGlove: Dexterous Manipulation with a Low-Cost Open-Source Haptic Force Feedback Glove
内容简介:这篇是'让人更像人地遥操作灵巧手'。DOGlove 直接把力反馈 + 触觉做进低成本手套(硬件与软件开源),支持 21 DoF 动捕与 5 DoF 多向力反馈,并在指尖提供振动触觉。核心直觉是:只要操作者真实'感觉到'手物接触,细微力控与摩擦调节就自然发生。
Dexonomy: Synthesizing All Dexterous Grasp Types in a Grasp Taxonomy
内容简介:问题是:灵巧抓取不该只有'抓住没',而是要按抓取类型来抓。作者提出一个从'人标注的手型模板'出发、两阶段自动合成大规模'类型化'灵巧抓取的流水线。该策略能生成接触丰富、无穿模、物理可信的抓取,并做出 10.7k 物体、950 万抓取、31 种抓取类型的大数据集。
Dex1B: Learning with 1B Demonstrations for Dexterous Manipulation
内容简介:这是一篇'用生成模型造海量演示'的灵巧手数据工程论文。作者用带几何可行性约束的生成模型,批量合成十亿级抓取与关节/铰接操作演示。大数据不仅在模拟基准上显著超越已有方法,还能迁到实机验证鲁棒性。
Vib2Move: In-hand Object Reconfiguration via Fingertip Micro-vibrations
内容简介:这篇很'巧':不用复杂的全手重规划,而是让指尖打微振、借重力把物体在掌内微位移、微旋转。作者系统化地建模/实证'振幅、频率、法向载荷'与物体迁移的关系,并在真实系统上展示在手内重构姿态的鲁棒性。
CordViP: Correspondence-based Visuomotor Policy for Dexterous Manipulation in Real-World
内容简介:核心直觉:单目点云质量参差、手指遮挡严重,直接'点云→动作'很难;那就先构建'手 - 物对应'。作者提出以稳健 6D 位姿估计 + 机器人本体感知为基础的'交互感知点云',并显式学习物体表面接触图与臂 - 手协同信息。
Complementarity-Free Multi-Contact Modeling and Optimization for Dexterous Manipulation
内容简介:多接触动力学传统常用'互补约束',但它不光滑、求解棘手。作者从'优化接触模型的对偶'出发,提出完全不依赖互补约束的轻量多接触模型:闭式时间推进、可微、自动满足库仑摩擦,且几乎不用调参。
ViTaSCOPE: Visuo-tactile Implicit Representation for In-hand Pose and Extrinsic Contact Estimation
内容简介:在手内操控要同时估计'物体在手中的位姿'和'外部接触分布',而视觉部分可见、触觉局部稀疏。ViTaSCOPE 用隐式表示统一这些信息:用 SDF 表示物体几何,用'神经剪切场'表示触觉分布,再把两者对齐到同一物体坐标系。
PP-Tac: Paper Picking Using Tactile Feedback in Dexterous Robotic Hands
内容简介:薄而软的纸类物体是机器人'最难拿稳'的类型之一。PP-Tac 搭一个带全向高分辨触觉的多指灵巧手系统,实时检测滑移并做在线摩擦力调节;动作生成上,先合成'捏纸'运动数据,再以扩散策略学出手 - 臂联合抓取。
RUKA: Rethinking the Design of Humanoid Hands with Learning
内容简介:RUKA 不是'控制算法',而是手的结构设计思路:用学习驱动的方式反推'什么样的关节与传动布局'更利于灵巧操控。作者展示了设计到实物的闭环证据,并给出项目页与开源资源。
DexWild: Dexterous Human Interactions for In-the-Wild Robot Policies
内容简介:让机器人手在'野外环境'也能像人一样稳地操作新物体、新场景。DexWild-System:一套轻便、低成本、几分钟就能架好的'人手交互采集套件',一共攒了 9,290 段、93 个环境的人手示范;DexWild 共训练框架:用大量人手数据提供多样性,再配少量机器人示范做'形体落地'校准。
CoRL 2025
DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation
内容简介:这篇工作把'人手'变成学习灵巧操作的通用接口。难点在于人手与各式机器人手之间存在巨大的体态差距。DexUMI 提出硬件 + 软件两层适配:硬件是一套可穿戴手部外骨骼,软件端用视频分割 + 机器人手修复把人手演示的视频转成'仿佛机器人亲自操作'的训练素材。
Text2Touch: Tactile In-Hand Manipulation with LLM-Designed Reward Functions
内容简介:这篇工作把大语言模型(LLM)请来'写奖励函数',专攻带触觉的在手多轴旋转这种高难度灵巧操控。作者把环境上下文与变量清单喂给 LLM,让它迭代地生成/改写奖励。先在仿真用 Teacher 学带特权信息的策略,再蒸馏到只看本体感知 + 触觉的 Student。
RobustDexGrasp: Robust Dexterous Grasping of General Objects from Single-view Perception
内容简介:这篇工作追求'一眼看过去就能稳抓各种新物体'的灵巧抓取,而且还能在干扰下自适应。核心直觉是:与其精准重建全局几何,不如构造'手中心'局部形状表征——用各关节到物体表面的动态距离向量,直接描述潜在接触区域。
ClutterDexGrasp: A Sim-to-Real System for General Dexterous Grasping in Cluttered Scenes
内容简介:目标是在强遮挡与高杂乱度场景里做目标导向的灵巧抓取,还要能零样本迁移到真实环境。论文构建了'教师→学生'两阶段框架:教师在仿真里拥有更强的感知与闭环控制能力来产出可迁移的示范,学生则在现实的稀疏感知下执行稳定抓取。
LodeStar: Long-horizon Dexterity via Synthetic Data Augmentation from Human Demonstrations
内容简介:难点在于长时序灵巧操作既要细腻接触动作,又要把多个技能无缝串接。LodeStar 从少量人类演示出发,先用基础模型把演示自动分解为语义化技能片段;再以残差式 RL 在仿真中为每个技能生成多样化合成演示扩充数据;最后用 Skill Routing Transformer 在执行中选择/衔接技能实现端到端长任务。
DexSkin: High-Coverage Conformable Robotic Skin for Learning Contact-Rich Manipulation
内容简介:论文提出一种可弯折、可大面积覆盖的电容式'机器人皮肤',能在曲面指腹/指背上提供高密度、可标定、可本地化的触觉读数。它面向学习型操控场景设计:读数可跨传感器实例快速标定、可直接构造奖励,并在在线 RL 与学习自模仿等流程中稳定工作。
FFHFlow: Diverse and Uncertainty-Aware Dexterous Grasp Generation via Flow Variational Inference
内容简介:这篇工作要解决'多指手在仅有部分点云时,如何生成又多样又靠谱的抓取'。它用正则化流 (Flow) 做成的深层潜变量模型 (DLVM) 同时学习'先验流 (看物体)'和'抓取流 (看抓取)'。因为 Flow 可精确给出似然,作者把它当成'不确定性刻度':看不见的表面或 OOD 物体都会给出更低似然。
GraspQP: Differentiable Optimization of Force Closure for Diverse and Robust Dexterous Grasping
内容简介:它要解决'怎么系统化地生成既多样又满足力闭合的灵巧抓取'。核心是把力闭合写成一个隐式的二次规划 (QP) 能量,并做成可微形式。作者还提出 MALA*(调整后的 Langevin 采样/拒绝策略),在能量分布上自适应地拒绝不良步长。
KineSoft: Learning Proprioceptive Manipulation Policies with Soft Robot Hands
内容简介:目标是让软体手学会灵巧的在手内操作。它把软手的'形状本体感知'当成一等公民:设计内嵌应变传感阵列做遮挡无关的形状估计,用它来支撑基于扩散的模仿学习,再配一个按目标形变轨迹跟踪的形状条件控制器。
Self-supervised perception for tactile skin covered dexterous hands(Sparsh-skin / PercepSkin)
内容简介:这篇面向磁性感知触觉皮肤(覆盖指尖、指节、手掌)做自监督预训练:输入为全手历史触觉 + 手爪运动学,输出一个通用触觉嵌入,可迁移到定位、状态估计、策略学习等下游任务。价值在于给灵巧手的全手触觉提供了'像视觉那样的通用表征'。
Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration
内容简介:针对用人手/手–物 MoCap 大库训练灵巧手策略时的演示噪声与体现差距问题,Dexplore 用一个统一的'参考约束探索'单环训练:把传统'重定向→跟踪→残差'三段式合并,把演示当作软参考,策略在'参考范围'内用强化学习自己找最省力、可执行的动作。
GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data
内容简介:这篇把纯合成动作数据做到'十亿级',训练出一个抓取方向的 VLA 基座模型。它把感知(自回归表征)与动作生成(基于 flow-matching)用'链式思考'范式统一训练,并结合互联网语义来缓解'语义 - 动作'鸿沟。
Ensuring Force Safety in Vision-Guided Robotic Manipulation via Implicit Tactile Calibration
内容简介:开门等受约束的操作里,力安全比单纯'能开'更关键。作者提出 SafeDiff:先用视觉生成未来状态序列,再用实时触觉反馈'隐式校准'这些状态,使其满足门的物理约束。本质是把触觉当'偏差修正信号',让状态规划在线收敛到安全轨迹。
ICRA 2025
𝒟(R,O) Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping
内容简介:这篇工作把'机器人手型 R、物体 O、以及两者的交互关系 D'统一到一个连续表示里,从而把'抓取'看成一个跨平台可转移的映射问题。相比只在单设备上训练的做法,这种表示天然具备跨手型、跨关节数的一致性。
Variable-Friction In-Hand Manipulation for Arbitrary Objects via Diffusion-Based Imitation Learning
内容简介:他们不用复杂多指手,而是用可变摩擦双指做'滑/滚'协同,把灵巧性'外包'给材料与接触模式切换。本文改为扩散式模仿学习 + 仿真与真实联合共训:少量实演示 + 大量仿真就能学到任意物体→任意目标位姿的精细 in-hand 运动。
DROP: Dexterous Reorientation via Online Planning
内容简介:主张在线采样式规划(SPC)也能把 in-hand 方块连贯重定向到目标姿态,而不必训练一个超大规模离线 RL 策略。系统由关键点视觉估计 + 采样预测控制器组成,实时并行滚动前瞻、选优控制。
GAGrasp: Geometric Algebra Diffusion for Dexterous Grasping
内容简介:抓取的核心对称性是 SE(3)。本文用几何代数(Geometric Algebra, GA)把物体点云与手姿态嵌入统一代数空间,再配合等变注意力模块 + 条件扩散直接在这个空间里采样抓取。与常规'靠数据增强学等变'的方式不同,这里把等变性刻进模型结构。
Visuo-Tactile Object Pose Estimation for a Multi-Finger Robot Hand with Low-Resolution In-Hand Tactile Sensing
内容简介:抓在手里的物体经常被手自身遮挡,单靠相机位姿估计不稳。这篇把低分辨率'触觉接触开关'阵列与视觉、手指关节读数做因子图融合:视觉给全局几何,触觉给'哪里真在碰',编码器给手姿态,三者一起优化出物体 6D 姿态。
ViViDex: Learning Vision-based Dexterous Manipulation from Human Videos
内容简介:不依赖动作示例或手套,直接从人类视频里学灵巧操作。做法是把视频解析成潜在中间表征(手—物互动关键帧/接触事件/指尖轨迹等),再蒸馏成多指手的视觉策略;跨域对齐靠表征学习与模仿损失,而不是人工对齐骨骼。
DexMimicGen: Automated Data Generation for Bimanual Dexterous Manipulation via Imitation Learning
内容简介:面对'双手灵巧'数据昂贵的问题,本文用自动化模仿生成从少量人示教扩增到 2 万 + 演示,涵盖 9 类任务、跨多仿真器与真实机器人。方法核心是 Real→Sim→Real:把人演示结构化成可生成的任务阶段/接触模板,仿真里大量合成,再回到现实做轻量修正。
MuST: Multi-Head Skill Transformer for Long-Horizon Dexterous Manipulation with Skill Progress
内容简介:把长任务拆成多种技能原语(skills),再用 Transformer 做多头并行技能建模与'进度值'调度。MuST 用'进度'表示每个技能执行到哪一段,从而稳妥衔接复杂序列。可扩展到新的技能库、适应任务顺序变化。
IROS 2025
ORCA: An Open-Source, Reliable, Cost-Effective, Anthropomorphic Robotic Hand for Uninterrupted Dexterous Task Learning
内容简介:这篇工作聚焦'灵巧手硬件门槛太高'的痛点:贵、复杂、难维护。ORCA 手把关键点做'减法':17-DoF 腱驱 + 自张紧/自校准结构 + 可'弹起'的关节,减少维护成本并提升可靠性。它集成触觉传感,强调'开箱即用、一天内装好'。
TypeTele: Releasing Dexterity in Teleoperation by Dexterous Manipulation Types
内容简介:传统灵巧手遥操作常'追随人手',但人手的生物力学限制会'锁死'机器手更高的可操作空间。TypeTele 的直觉很大胆:别再强行一一模仿人手姿态,而是引入'操控类型(manipulation types)'的中间层,让操作者选取/切换更适合任务的手型与接触模式。
Hierarchical Reinforcement Learning for Articulated Tool Manipulation with Multifingered Hand
内容简介:这篇直面'用镊子/剪刀这类带关节工具'的在手操作难题。作者用层级式 GCRL(目标条件 RL)把问题拆开:低层管'手 + 工具'的精细协作与构型切换,高层像任务导演,给定工具目标状态并调度手臂达成抓取/操作。
Geometric Retargeting: A Principled, Ultrafast Neural Hand Retargeting Algorithm (GeoRT)
内容简介:灵巧手遥操作/模仿学习离不开'手姿态重定向'。很多方案要么慢、要么靠大量调参、要么在线优化重。GeoRT 的直觉是'把几何本质做成目标函数':保持运动保真、覆盖 C-空间、响应平滑、捏合对应、防自碰撞……统一进一个无测试时优化的神经目标体系里。
Learning Dexterous In-Hand Manipulation with Multifingered Hands via Visuomotor Diffusion Policies
内容简介:本文把扩散策略(Diffusion Policy)搬到'在手操作'的视觉 - 运动端到端学习场景里。直觉是:扩散模型在复杂接触序列/长时动作生成上更稳健,能更好建模'手 - 物 - 手'的微小姿态变化与接触切换。
Beyond Anthropomorphism: Enhancing Grasping and Eliminating a Degree of Freedom by Fusing the Abduction of Digits Four and Five
内容简介:作者反问:'一定要完全仿生才更灵巧吗?'答案是否定的。SABD 把无名指和小指的展收(Abd/Add)融合成一个一个大行程的联合关节,一边减少一个自由度、一边把'手掌两侧的张开幅度'大幅拉大,能抓更宽、更难夹的物。
In-Hand Manipulation of Articulated Tools with Dexterous Robot Hands with Sim-to-Real Transfer
内容简介:抓刚体容易点,在手里操纵'自带机关'的工具(剪刀、钳子、腹腔镜器械)就难多了。作者路线是:先在仿真用'特权观察'学一个强基模型,再蒸馏成可上机的'本体感知策略',最后引入跨注意力的触觉 - 力矩自适应模块在真实硬件上微调。
Adaptac-Dex: Adaptive Visual–Tactile Fusion with Hierarchical Reasoning for Dexterous Manipulation
内容简介:机器人做精细操作时既要'看'也要'摸'。现有多模态融合常用'简单拼接'或固定权重。本文提出 AdapTac:用'力'来当注意力的指挥棒。把当前观测到的合力与模型预测的未来合力结合,作为查询去跨模态注意力里动态调配'看/摸'的比重。
SimLauncher: Launching Dexterous Hand Manipulation Policies with Model-Based Simulation
内容简介:真实世界里的强化学习很费样本、探索慢。本文提出 SimLauncher:先在数字孪生里预训练一个视觉策略,再把它用到真实世界的在线 RL 里,发挥两点作用:① 把模拟回放和小规模真实回放一起当'示范'去启动/约束评论家(critic);② 让预训练策略在交互时提供动作候选,与 RL 策略的动作用 Q 值加权/抽样二选一。


