随着机器人技术从预设程序执行向具身智能交互跨越,触觉感知作为理解物体属性、实现精细操作的核心方式,其重要性日益凸显。但当前系统在感知维度、分辨率及信号解读能力上仍远逊于人类,导致机器人往往处于'有感无知'的状态。
在此背景下,清华大学深圳国际研究生院丁文伯团队联合无界智航(Xspark AI)及多所国内外科研机构,从鸽子卓越的多光谱视觉和非成像感知机制中获得灵感,研发出了一种仿生多模态触觉传感器 SuperTac。该系统将多光谱成像、摩擦电感测与惯性测量融为一体,并通过构建 8.5B 参数的触觉语言模型 DOVE,实现了触觉信号从底层感知到高层语义推理的突破。相关成果发表于《Nature Sensors》第一期。
仿生逻辑:受鸽眼启发的多模态感知架构
SuperTac 的硬件设计对应了鸽子的生物学特征。鸽子的视网膜包含多种视锥细胞,不仅能感知可见光,还拥有人类不具备的紫外线感知能力。
SuperTac 集成了小型化的多光谱成像模块,覆盖了从紫外(390 nm)、可见光(400–700 nm)到近红外(940 nm)及中红外(5.5–14.0 μm)的超宽频段。通过引入超宽频段成像,机器人能够在单一交互中同时解析热辐射、荧光位移等深层物理信息,实现了对物体形状、纹理、颜色和温度的全面表征。
此外,鸽子能通过视网膜中的隐花色素等分子感知地磁场,这是一种不依赖图像的物理感知。SuperTac 在 1 mm 厚的皮肤内嵌入了摩擦纳米发电机(TENG)和惯性测量单元(IMU)。TENG 利用接触起电原理,根据不同物体的电负性差异识别材质,并实现 15 cm 内的接近觉感知。IMU 模拟生物的本体感受,捕捉 0–60 Hz 的振动及碰撞信号。通过将摩擦电与惯性信号与光场调制耦合,传感器无需密集电极阵列即可扩展出对材质极性、震动及空间姿态的感知能力。

核心机制:光场调制的智能感知层
SuperTac 的核心竞争力在于其厚度仅为 1 mm 的光场调制多层感知皮肤。皮肤最外层的导电层采用透明的 PEDOT:PSS,通过丝网印刷技术在具有优异拉伸性能的 TPU 薄膜上形成涡旋线电极设计。这种涡旋设计能提供均匀的电学信号,结合摩擦起电机制,使皮肤在接触不同电负性物体时产生截然不同的电学反馈,从而实现高精度的材质分类与 15 cm 范围内的接近觉探测。
在导电层之下,单向透视反射层充当了光学开关,其透明度受两侧光强差调节。当内部 LED 开启形成'触觉模式'时,内侧光强占据主导,反射层变为不透明状态,CMOS 单元聚焦捕捉皮肤表面的微观纹理与形变;当内部光源关闭,反射层随之变为透明,允许外部可见光透射,使传感器能够直接获取物体的 RGB 颜色信息。
紧邻其下的紫外荧光标记层则利用在近红外波段不可见但在紫外光下激发的荧光标记,实现了形变监测与物体纹理检测的解耦,确保在复杂抓取过程中能够同步捕捉切向滑动与表面细节。

触觉语言大模型:8.5B 参数背后的多模态融合架构
为了构建跨模态物理信号与自然语言空间的统一表征对齐,DOVE 采用了分层架构设计。其底层骨干由预训练的大语言模型 Vicuna 构成,为系统提供了强大的语言理解与逻辑推理基础。
为了处理极其复杂的触觉输入,系统并行集成了四组预训练的 CLIP 模型作为模态编码器,将图像化的触觉特征(包括颜色、纹理、温度和材质信号)提取为深层特征向量。
DOVE 的训练通过三阶段策略实现从底层感知到高层认知的递进:首先利用 CLIP 将异构传感器信号转化为通用的图像表征;随后通过投影层将触觉特征精准对齐至语言模型空间;最后针对 Vicuna 骨干网络进行微调,使其能够结合常识对触觉指令进行复杂推理。

应用场景:从物理触碰到语义逻辑的跃迁
SuperTac 提供的多模态底层数据通过 DOVE 模型的深度解析,成功实现了从单纯的'物理感知'向高层'语义认知'的跨越,赋予了机器人类人的具身交互能力。



