Nature新刊Sensors:清华团队突破机器人触觉难题,多模态感知精度直逼人类指尖

Nature新刊Sensors:清华团队突破机器人触觉难题,多模态感知精度直逼人类指尖

首次让触觉数据从“数值”变成“可理解的信息”

——鸽眼的启发

目录

01  传统触觉传感器的痛点

电子皮肤(e-skin):分辨率和模态难两全

视觉触觉传感器:光谱范围被“卡脖子”

数据解读:多模态信息“各说各话”

02  仿生灵感

导电层:既是“电极”也是“透光开关”

荧光层+反射层:多光谱“信息接收器”

可调节气压,适应不同物体

03  DOVE模型让触觉会“说话”

多模态数据“融合解读”

物体差异“对比推理”

联想判断

04  6大维度刷新触觉传感器纪录

三指灵巧手

平行夹爪

05  待解难题

微型化:目前还无法装在机器人指尖

耐用性:长期使用后性能会下降

动态场景适应:无法处理快速运动的物体

06  总结


在机器人领域,“触觉”一直是个棘手的难题:传统传感器要么分辨率低到摸不清纹理,要么只能测压力却辨不出温度。

近日,清华大学丁文伯团队联合无界智航(Xspark AI)及多所国内外科研机构在《Nature Sensors》上发表的SuperTac仿生多模态触觉传感器,直接打破了这个僵局——

借鉴鸽子的多光谱视觉原理,把多光谱成像、摩擦电传感、惯性测量揉进1mm的“电子皮肤”里,不仅能精准识别纹理、材质、温度,还能预判碰撞和滑动,分类准确率超94%。

让机器人触觉感知第一次有了“人类级”的细腻度。

01  传统触觉传感器的痛点

在SuperTac之前,机器人触觉感知主要分两大技术路线,但都有绕不开的局限:

电子皮肤(e-skin):分辨率和模态难两全

早期电子皮肤靠密集电极阵列实现多模态感知,但电极一多就会出现“信号串扰”——测压力时温度数据会飘,辨纹理时位置精度又下降。

而且为了塞下更多传感器,皮肤厚度往往超过5毫米,贴在机器人手指上既不灵活,又无法捕捉0.1毫米级的细微凸起(比如布料纹理)

视觉触觉传感器:光谱范围被“卡脖子”

后来出现的视觉触觉传感器(靠光学成像测形变)解决了分辨率问题,能做到亚毫米级精度,但大多只局限在可见光范围

比如想通过温度区分刚煮好的杯子和室温杯子,或者靠紫外线识别特殊材质;而且多数只能测压力+纹理,像振动、距离这些关键信息根本拿不到。

数据解读:多模态信息“各说各话”

就算个别传感器能同时测压力、温度、纹理,不同模态的数据也像“不同语言的报告”——压力数据是数值,纹理是图像,温度是热图,没有统一的解读框架,机器人拿到数据也无法“综合判断”。

比如摸到一个物体,知道它硬、凉、光滑,却分不清是玻璃还是金属。

图片

▲SuperTac基于触觉大型模型的垃圾分类任务,其中机器人根据人类的指示清洁桌子,清除垃圾并根据垃圾的类型进行分类以进行回收。

而SuperTac的创新,正是从这三个痛点切入:用仿生设计突破感知模态限制,用轻薄结构兼顾分辨率与灵活性,再靠专用语言模型打通数据解读。

02  仿生灵感

SuperTac的核心创意:鸽子的视觉系统比人类更适合触觉感知

人类只有3种视锥细胞,只能感知可见光;而鸽子有4种视锥细胞,能看到紫外线,还能靠视网膜里的特殊分子感知磁场,相当于“自带多光谱相机+指南针”。这种“全维度信息捕捉”的能力,正是机器人触觉需要的。

图片

▲鸽子视网膜的结构包含视锥细胞和视杆细胞。

于是研究将这个原理“移植”到触觉传感器上,设计出了三层核心结构,总厚度仅1毫米:

导电层:既是“电极”也是“透光开关”

用PEDOT:PSS(一种透明导电材料)涂在TPU薄膜上,既保证透光性,又能在接触物体时产生摩擦电信号——

不同材质的物体(比如塑料和金属)接触时,产生的电压信号不同,机器人靠这个就能“摸出”材质差异。

荧光层+反射层:多光谱“信息接收器”

中间层是紫外线荧光油墨,底层是镀银粉末的反射层,配合不同波长的光源(紫外线、可见光、近红外、中红外),就能实现“一皮多用”:

图片

▲结构设计与传感机制

可调节气压,适应不同物体

此外,传感器内部有个微型气腔,能通过调节气压改变“硬度”——测软物体(比如海绵)时调低气压,让皮肤更贴合;测硬物体(比如金属块)时调高气压,避免过度形变影响精度。

03  DOVE模型让触觉会“说话”

光能采集数据还不够,机器人需要知道“这些数据意味着什么”。

比如摸到“硬、凉、光滑、黄色”的物体,要能判断“这可能是个金属杯子,适合装水”。

图片

▲触觉语言模型的架构

为了解决这个问题,开发了DOVE触觉语言模型(85亿参数),它的核心能力有三个:

多模态数据“融合解读”

DOVE能把摩擦电信号(材质)、温度数据、纹理图像、颜色信息整合到一起,生成自然语言描述。

比如触摸一个杯子后,它会输出:“这个物体是黄色的,室温,表面有均匀的凸起纹理,靠摩擦电信号判断材质为金属”——就像人类触摸后会口头描述一样。

图片

▲SuperTac 与 DOVE 在人机交互(HRI)中的集成示意图。

物体差异“对比推理”

如果机器人同时触摸两个物体,DOVE能找出它们的不同:“两个物体颜色和温度相近,纹理相似,但材质不同(一个是塑料,一个是金属),因此是不同物体”。这

种对比能力,让机器人在分拣任务中效率大大提升。

图片

▲上:通过结合外部视觉与接触、滑动及碰撞传感实现物体的稳定抓取;下:融合材质、纹理、颜色与温度信息,并结合触觉语言模型实现触觉信息理解。

联想判断

它还能结合常识推理物体用途,比如摸到PET材质(常用于饮料瓶)、黄色、有光滑曲面的物体,会判断:

“这可能是一个饮料瓶,适合装液体,日常用来喝水”。

图片

▲触觉语言模型示意图及其在触觉信息理解中的应用。

这种“感知+推理”的组合,让机器人不再是“只会执行指令的工具”,而是能根据触觉信息自主判断操作方式。

04  6大维度刷新触觉传感器纪录

实验在力、位置、温度、纹理、材质、振动6个核心维度进行了测试,全面超越现有传感器:

图片

图片

▲安装了 SuperTac 传感器的机械手用于感知物体的纹理、温度、颜色和材料,并使用我们训练的触觉语言模型将触觉感受解释为语言。

此外,实验还测试了48 种 U 型、V 型及多边形形状探针的力感知精度。

图片

还有一个很实用的功能是距离感知:靠摩擦电信号的变化,能在15厘米内预判物体是否靠近,避免机器人抓取时碰撞;碰撞检测的准确率也有94%,相当于给机器人加了一层“触觉安全气囊”。

此外,将SuperTac装在两种机器人平台上做了实测:

三指灵巧手

在工业装配场景中,机器人需要抓取不同材质的零件——比如塑料齿轮、金属螺丝、玻璃镜片。

SuperTac能实时感知压力和材质:抓塑料时用0.5N的力,抓金属时用1N的力,抓玻璃时用0.3N的力,成功率比传统方案提升30%。

图片

▲配备 SuperTac 的灵巧手(a) 灵巧手实物图(b) 机器人手在 UR5 机械臂上的装配示意图

平行夹爪

在家庭服务场景中,机器人需要处理软物体(比如叠衣服、拿面包)和易碎物体(比如杯子、盘子)。

SuperTac的气压调节功能在这里派上了用场:夹面包时调低气压,让夹爪更“软”,避免把面包压变形;夹杯子时调高气压,保证抓稳不滑落;而且靠温度感知,能避开刚从微波炉拿出来的热盘子,防止烫伤(传感器本身耐高温,不会损坏)。

图片

▲配备 SuperTac 的平行夹爪(a) 平行双夹爪实物图(b) 夹爪在 UR5 机械臂上的装配示意图

05  待解难题

虽然SuperTac的突破很显著,但它并非完美,仍有几个需要改进的方向:

微型化:目前还无法装在机器人指尖

现在的SuperTac直径约32毫米(相当于一枚硬币大小),主要装在机器人的手掌或夹爪上

而人类的触觉感知主要靠指尖,未来需要把传感器缩小到5毫米以下,才能装在机器人手指上,实现更灵活的操作(比如捏起一根针)。

耐用性:长期使用后性能会下降

研究在进行了8万次接触测试后,传感器的信号稳定性还能保持,但超过10万次后,导电层的PEDOT:PSS可能会磨损,导致摩擦电信号减弱;而反射层的银粉末也可能脱落,影响光学成像。

动态场景适应:无法处理快速运动的物体

目前SuperTac的采样频率是1kHz(每秒采集1000次数据),对于缓慢接触的物体(如抓取杯子)足够,但如果物体快速运动(如接住掉落的球),可能会出现数据滞后,导致判断不及时。

06  总结

SuperTac为机器人触觉感知提供了一套“新范式”:

用“一层皮肤+多光谱成像”实现多种感知,既简化了结构,又提升了性能。

首次让触觉数据从“冰冷的数值”变成“可理解的信息”——机器人不再是“摸到什么就是什么”,而是能结合常识推理物体的用途和操作方式。这种“感知+认知”的结合,是机器人从“工具”向“助手”转变的关键一步。

不过也要清醒地认识到,它离人类触觉还有差距——比如人类能靠触觉感知到物体的“质感”(如丝绸的顺滑、羊毛的柔软),而SuperTac目前还只能靠纹理和硬度间接判断。但不可否认,这已经是机器人触觉感知领域的一大步。

Ref

论文题目:Biomimetic multimodal tactile sensing enables human-like robotic perception

论文作者:Shoujie Li, Tong Wu, Jianle Xu, Yan Huang, Zongwen Zhang, Hongfa Zhao, Qinghao Xu, Zihan Wang, Linqi Ye, Yang Yang, Chuqiao Lyu, Shilong Mu, Xueqian Wang, Zhaoqian Xie, Changsheng Wu, Xinge Yu, Wenbo Ding

论文链接:https://doi.org/10.1038/s44460-025-00006-y

代码地址:https://github.com/wut19/DOVE

数据集地址:https://cloud.tsinghua.edu.cn/d/f6abfcf5845a42018e2a/

Read more

AI绘画提示词生成器:从原理到实战的开发者指南

快速体验 在开始今天关于 AI绘画提示词生成器:从原理到实战的开发者指南 的探讨之前,我想先分享一个最近让我觉得很有意思的全栈技术挑战。 我们常说 AI 是未来,但作为开发者,如何将大模型(LLM)真正落地为一个低延迟、可交互的实时系统,而不仅仅是调个 API? 这里有一个非常硬核的动手实验:基于火山引擎豆包大模型,从零搭建一个实时语音通话应用。它不是简单的问答,而是需要你亲手打通 ASR(语音识别)→ LLM(大脑思考)→ TTS(语音合成)的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学来说,这是个绝佳的练手项目。 从0到1构建生产级别应用,脱离Demo,点击打开 从0打造个人豆包实时通话AI动手实验 AI绘画提示词生成器:从原理到实战的开发者指南 背景与痛点 AI绘画的兴起让提示词(Prompt)成为连接创意与生成结果的关键纽带。然而在实际开发中,构建一个高效的提示词生成器常面临以下挑战: * 质量不稳定:生成的提示词可能过于笼统(如"

Stable-Diffusion-v1-5-archive惊艳效果展示:35mm胶片风、赛博朋克、水墨国风案例

Stable-Diffusion-v1-5-archive惊艳效果展示:35mm胶片风、赛博朋克、水墨国风案例 很多人觉得Stable Diffusion 1.5已经是“老古董”了,跟不上现在各种新模型的花样。但说实话,经典之所以是经典,就是因为它足够稳定、可控,而且风格塑造能力极强。今天我就用 stable-diffusion-v1-5-archive 这个归档版本,给大家展示几个让我眼前一亮的生成效果,看看这个“老将”在特定风格下,能玩出什么新花样。 我们重点看三个风格:充满故事感的35mm胶片风、未来感爆棚的赛博朋克、以及意境深远的水墨国风。我会把生成这些图的提示词、参数设置都贴出来,你可以直接拿去用,看看能不能复现出同样惊艳的效果。 1. 核心能力与准备工作 在开始展示之前,我们先快速了解一下这个镜像能做什么,以及怎么快速上手。 1.1 它能做什么? Stable Diffusion v1.5 Archive 是一个开箱即用的经典文生图模型。它的核心就是:你输入一段文字描述,它给你生成一张对应的图片。别看它版本老,

智能无人机平台V4

V3版本回顾 在V3版本中,实现了无人机的自动索敌追踪、并在扫描到入侵者后将信息“广播”给其他无人机,其他巡逻状态的无人机可以协同该无人机进行“围剿”行为。 V4版本提升 * 为入侵者加入了可视化的血条,便于玩家更直观的看到入侵者血量减少的过程 * 加入了“任务系统”,现在玩家可以通过点击守卫区中的位置来指挥最近的巡逻状态无人机前往该位置 * 将无人机的move方法内部的庞大代码分成几个小的方法,并通过不同的限定条件来调用不同的方法。同时为了便于后期功能的添加,现在将无人机移动方案的限定条件改为由状态码的不同来决定无人机的移动方式。 V4版本的具体实现 可视化血条的添加 * 思路:只需要在入侵者的正上方画出一个矩形边框和一个实心矩形即可,通过改变实心矩形的宽度来达到显示血量的效果 具体实现 Color color3 =newColor(0,0,0); g.setColor(color3); g.drawRect(x, y-5, size,6);Color color4 =newColor(124,244,21); g.setColor(color4); g

基于FPGA的千兆以太网源代码实现与设计实战

本文还有配套的精品资源,点击获取 简介:本设计基于FPGA平台,实现千兆以太网的数据传输功能,适用于高速网络通信场景,如视频信号的高效传输。通过Verilog等硬件描述语言,构建包括以太网物理层(PHY)、MAC控制器、Wishbone总线接口等核心模块,并提供完整的测试平台与行为模型用于仿真验证。配套的使用说明指导开发者在特定FPGA平台上配置和部署该系统,具有较强的工程实用性。该方案广泛应用于嵌入式系统、工业控制和高性能数据传输领域,是掌握FPGA网络接口开发的重要实践项目。 1. FPGA千兆以太网设计概述 随着高速通信需求的不断增长,基于FPGA实现千兆以太网接口已成为嵌入式系统、工业控制和视频传输等领域的重要技术手段。本章从系统架构出发,阐述FPGA在千兆以太网设计中的核心优势——强大的并行处理能力、灵活的可重构性以及极低的数据处理延迟。重点介绍关键功能模块的划分与协作机制,包括PHY层接口、MAC控制器、Wishbone总线桥接及数据包处理引擎,并结合IEEE 802.3标准解析千兆以太网帧结构与物理层规范。同时,明确顶层模块( eth_top )的数据流向与控制