Nature新刊Sensors:清华团队突破机器人触觉难题,多模态感知精度直逼人类指尖

Nature新刊Sensors:清华团队突破机器人触觉难题,多模态感知精度直逼人类指尖

首次让触觉数据从“数值”变成“可理解的信息”

——鸽眼的启发

目录

01  传统触觉传感器的痛点

电子皮肤(e-skin):分辨率和模态难两全

视觉触觉传感器:光谱范围被“卡脖子”

数据解读:多模态信息“各说各话”

02  仿生灵感

导电层:既是“电极”也是“透光开关”

荧光层+反射层:多光谱“信息接收器”

可调节气压,适应不同物体

03  DOVE模型让触觉会“说话”

多模态数据“融合解读”

物体差异“对比推理”

联想判断

04  6大维度刷新触觉传感器纪录

三指灵巧手

平行夹爪

05  待解难题

微型化:目前还无法装在机器人指尖

耐用性:长期使用后性能会下降

动态场景适应:无法处理快速运动的物体

06  总结


在机器人领域,“触觉”一直是个棘手的难题:传统传感器要么分辨率低到摸不清纹理,要么只能测压力却辨不出温度。

近日,清华大学丁文伯团队联合无界智航(Xspark AI)及多所国内外科研机构在《Nature Sensors》上发表的SuperTac仿生多模态触觉传感器,直接打破了这个僵局——

借鉴鸽子的多光谱视觉原理,把多光谱成像、摩擦电传感、惯性测量揉进1mm的“电子皮肤”里,不仅能精准识别纹理、材质、温度,还能预判碰撞和滑动,分类准确率超94%。

让机器人触觉感知第一次有了“人类级”的细腻度。

01  传统触觉传感器的痛点

在SuperTac之前,机器人触觉感知主要分两大技术路线,但都有绕不开的局限:

电子皮肤(e-skin):分辨率和模态难两全

早期电子皮肤靠密集电极阵列实现多模态感知,但电极一多就会出现“信号串扰”——测压力时温度数据会飘,辨纹理时位置精度又下降。

而且为了塞下更多传感器,皮肤厚度往往超过5毫米,贴在机器人手指上既不灵活,又无法捕捉0.1毫米级的细微凸起(比如布料纹理)

视觉触觉传感器:光谱范围被“卡脖子”

后来出现的视觉触觉传感器(靠光学成像测形变)解决了分辨率问题,能做到亚毫米级精度,但大多只局限在可见光范围

比如想通过温度区分刚煮好的杯子和室温杯子,或者靠紫外线识别特殊材质;而且多数只能测压力+纹理,像振动、距离这些关键信息根本拿不到。

数据解读:多模态信息“各说各话”

就算个别传感器能同时测压力、温度、纹理,不同模态的数据也像“不同语言的报告”——压力数据是数值,纹理是图像,温度是热图,没有统一的解读框架,机器人拿到数据也无法“综合判断”。

比如摸到一个物体,知道它硬、凉、光滑,却分不清是玻璃还是金属。

图片

▲SuperTac基于触觉大型模型的垃圾分类任务,其中机器人根据人类的指示清洁桌子,清除垃圾并根据垃圾的类型进行分类以进行回收。

而SuperTac的创新,正是从这三个痛点切入:用仿生设计突破感知模态限制,用轻薄结构兼顾分辨率与灵活性,再靠专用语言模型打通数据解读。

02  仿生灵感

SuperTac的核心创意:鸽子的视觉系统比人类更适合触觉感知

人类只有3种视锥细胞,只能感知可见光;而鸽子有4种视锥细胞,能看到紫外线,还能靠视网膜里的特殊分子感知磁场,相当于“自带多光谱相机+指南针”。这种“全维度信息捕捉”的能力,正是机器人触觉需要的。

图片

▲鸽子视网膜的结构包含视锥细胞和视杆细胞。

于是研究将这个原理“移植”到触觉传感器上,设计出了三层核心结构,总厚度仅1毫米:

导电层:既是“电极”也是“透光开关”

用PEDOT:PSS(一种透明导电材料)涂在TPU薄膜上,既保证透光性,又能在接触物体时产生摩擦电信号——

不同材质的物体(比如塑料和金属)接触时,产生的电压信号不同,机器人靠这个就能“摸出”材质差异。

荧光层+反射层:多光谱“信息接收器”

中间层是紫外线荧光油墨,底层是镀银粉末的反射层,配合不同波长的光源(紫外线、可见光、近红外、中红外),就能实现“一皮多用”:

图片

▲结构设计与传感机制

可调节气压,适应不同物体

此外,传感器内部有个微型气腔,能通过调节气压改变“硬度”——测软物体(比如海绵)时调低气压,让皮肤更贴合;测硬物体(比如金属块)时调高气压,避免过度形变影响精度。

03  DOVE模型让触觉会“说话”

光能采集数据还不够,机器人需要知道“这些数据意味着什么”。

比如摸到“硬、凉、光滑、黄色”的物体,要能判断“这可能是个金属杯子,适合装水”。

图片

▲触觉语言模型的架构

为了解决这个问题,开发了DOVE触觉语言模型(85亿参数),它的核心能力有三个:

多模态数据“融合解读”

DOVE能把摩擦电信号(材质)、温度数据、纹理图像、颜色信息整合到一起,生成自然语言描述。

比如触摸一个杯子后,它会输出:“这个物体是黄色的,室温,表面有均匀的凸起纹理,靠摩擦电信号判断材质为金属”——就像人类触摸后会口头描述一样。

图片

▲SuperTac 与 DOVE 在人机交互(HRI)中的集成示意图。

物体差异“对比推理”

如果机器人同时触摸两个物体,DOVE能找出它们的不同:“两个物体颜色和温度相近,纹理相似,但材质不同(一个是塑料,一个是金属),因此是不同物体”。这

种对比能力,让机器人在分拣任务中效率大大提升。

图片

▲上:通过结合外部视觉与接触、滑动及碰撞传感实现物体的稳定抓取;下:融合材质、纹理、颜色与温度信息,并结合触觉语言模型实现触觉信息理解。

联想判断

它还能结合常识推理物体用途,比如摸到PET材质(常用于饮料瓶)、黄色、有光滑曲面的物体,会判断:

“这可能是一个饮料瓶,适合装液体,日常用来喝水”。

图片

▲触觉语言模型示意图及其在触觉信息理解中的应用。

这种“感知+推理”的组合,让机器人不再是“只会执行指令的工具”,而是能根据触觉信息自主判断操作方式。

04  6大维度刷新触觉传感器纪录

实验在力、位置、温度、纹理、材质、振动6个核心维度进行了测试,全面超越现有传感器:

图片

图片

▲安装了 SuperTac 传感器的机械手用于感知物体的纹理、温度、颜色和材料,并使用我们训练的触觉语言模型将触觉感受解释为语言。

此外,实验还测试了48 种 U 型、V 型及多边形形状探针的力感知精度。

图片

还有一个很实用的功能是距离感知:靠摩擦电信号的变化,能在15厘米内预判物体是否靠近,避免机器人抓取时碰撞;碰撞检测的准确率也有94%,相当于给机器人加了一层“触觉安全气囊”。

此外,将SuperTac装在两种机器人平台上做了实测:

三指灵巧手

在工业装配场景中,机器人需要抓取不同材质的零件——比如塑料齿轮、金属螺丝、玻璃镜片。

SuperTac能实时感知压力和材质:抓塑料时用0.5N的力,抓金属时用1N的力,抓玻璃时用0.3N的力,成功率比传统方案提升30%。

图片

▲配备 SuperTac 的灵巧手(a) 灵巧手实物图(b) 机器人手在 UR5 机械臂上的装配示意图

平行夹爪

在家庭服务场景中,机器人需要处理软物体(比如叠衣服、拿面包)和易碎物体(比如杯子、盘子)。

SuperTac的气压调节功能在这里派上了用场:夹面包时调低气压,让夹爪更“软”,避免把面包压变形;夹杯子时调高气压,保证抓稳不滑落;而且靠温度感知,能避开刚从微波炉拿出来的热盘子,防止烫伤(传感器本身耐高温,不会损坏)。

图片

▲配备 SuperTac 的平行夹爪(a) 平行双夹爪实物图(b) 夹爪在 UR5 机械臂上的装配示意图

05  待解难题

虽然SuperTac的突破很显著,但它并非完美,仍有几个需要改进的方向:

微型化:目前还无法装在机器人指尖

现在的SuperTac直径约32毫米(相当于一枚硬币大小),主要装在机器人的手掌或夹爪上

而人类的触觉感知主要靠指尖,未来需要把传感器缩小到5毫米以下,才能装在机器人手指上,实现更灵活的操作(比如捏起一根针)。

耐用性:长期使用后性能会下降

研究在进行了8万次接触测试后,传感器的信号稳定性还能保持,但超过10万次后,导电层的PEDOT:PSS可能会磨损,导致摩擦电信号减弱;而反射层的银粉末也可能脱落,影响光学成像。

动态场景适应:无法处理快速运动的物体

目前SuperTac的采样频率是1kHz(每秒采集1000次数据),对于缓慢接触的物体(如抓取杯子)足够,但如果物体快速运动(如接住掉落的球),可能会出现数据滞后,导致判断不及时。

06  总结

SuperTac为机器人触觉感知提供了一套“新范式”:

用“一层皮肤+多光谱成像”实现多种感知,既简化了结构,又提升了性能。

首次让触觉数据从“冰冷的数值”变成“可理解的信息”——机器人不再是“摸到什么就是什么”,而是能结合常识推理物体的用途和操作方式。这种“感知+认知”的结合,是机器人从“工具”向“助手”转变的关键一步。

不过也要清醒地认识到,它离人类触觉还有差距——比如人类能靠触觉感知到物体的“质感”(如丝绸的顺滑、羊毛的柔软),而SuperTac目前还只能靠纹理和硬度间接判断。但不可否认,这已经是机器人触觉感知领域的一大步。

Ref

论文题目:Biomimetic multimodal tactile sensing enables human-like robotic perception

论文作者:Shoujie Li, Tong Wu, Jianle Xu, Yan Huang, Zongwen Zhang, Hongfa Zhao, Qinghao Xu, Zihan Wang, Linqi Ye, Yang Yang, Chuqiao Lyu, Shilong Mu, Xueqian Wang, Zhaoqian Xie, Changsheng Wu, Xinge Yu, Wenbo Ding

论文链接:https://doi.org/10.1038/s44460-025-00006-y

代码地址:https://github.com/wut19/DOVE

数据集地址:https://cloud.tsinghua.edu.cn/d/f6abfcf5845a42018e2a/

Read more

老手机 本地部署小龙虾OpenClaw(使用本地千问大模型)实机演示 Termux+Ubuntu+Llama 新手完整安装教程(含代码)

本教程提供从 0 到 1 的详细步骤,在安卓手机上通过 Termux 运行 Ubuntu,部署本地 Llama 大模型,并集成 OpenClaw 进行 AI 交互,全程无需 Root。建议手机配置:≥4GB 内存,≥64GB 存储,Android 7+。 一、准备工作 1.1 安装 Termux 1. 从F-Droid或GitHub下载最新版 Termux(避免应用商店旧版本) 2. 安装并打开,首次启动会自动配置基础环境 1.2 手机设置优化 1. 开启开发者选项(设置→关于手机→连续点击版本号 7 次) 2.

Ollama 底层的 llama.cpp 和 GGUF

GGUF = 大模型权重的「通用压缩格式」(类似视频的 MP4,适配所有播放器) llama.cpp = 跑 GGUF 格式模型的「轻量级推理引擎」(类似视频播放器,能在低配电脑上流畅播 MP4) 两者配合:GGUF 让模型体积变小、适配性强,llama.cpp 让模型能在 CPU / 低配 GPU 上快速跑 这也是 Ollama 能做到 “一键本地运行” 的底层原因 GGUF 详解:大模型的 “通用压缩包” 核心定义 GGUF(Generic GGML Format)是 GGML 格式的升级版,是专门为大模型权重设计的二进制存储格式 核心目标是「通用、高效、压缩」 GGML 是什么?

Z-Image-Turbo与Midjourney对比:开源VS闭源生成效果实测

Z-Image-Turbo与Midjourney对比:开源VS闭源生成效果实测 1. 开源新星Z-Image-Turbo来了,它到底有多强? 你有没有遇到过这种情况:脑子里有个画面,想画出来却无从下手?或者做设计时,为了找一张合适的配图翻遍全网都不满意?现在,AI绘画已经能帮你把想法变成现实。而在众多AI图像生成工具中,最近冒出来一个叫 Z-Image-Turbo 的模型,势头特别猛。 它是阿里巴巴通义实验室开源的一款高效文生图模型,名字里的“Turbo”可不是吹的——主打一个快、准、稳。更关键的是,它完全免费,还能在消费级显卡上跑起来。相比之下,像Midjourney这样的闭源工具虽然效果也不错,但得付费、要翻墙、还得绑定Discord,用起来没那么自由。 那问题就来了:这个新开源的Z-Image-Turbo,真能跟Midjourney掰手腕吗?我们决定来一场面对面的实测PK,看看谁才是真正的“造图王者”。 2. Z-Image-Turbo是什么?为什么值得关注 2.1 什么是Z-Image-Turbo Z-Image-Turbo是阿里通义实验室推出的高效文本生成图

【干货实操】AI绘画/设计变现:零美术基础也能赚外快,90天落地计划+提示词模板(附可用学习链接)

前言 你是不是羡慕别人靠设计接单赚钱,却苦于没美术基础、没专业软件、没接单渠道? 当下AI绘画技术的成熟,给普通人打开了一扇零门槛、零成本的变现大门——AI绘画/设计变现。不需要你会手绘、懂PS,只要掌握AI绘画工具的基础操作和精准提示词技巧,依托“AI生成初稿+人工微调优化”的模式,就能做出高质量的设计作品,承接头像、壁纸、海报等刚需订单,适合程序员、职场人、学生党利用碎片化时间赚外快,全程坚守合规底线,可直接落地。 本文整理了90天详细落地计划,包含工具选型、获客渠道、定价策略、版权注意事项等全流程实操步骤,附赠公共可用的学习资料和提示词模板,普通人照做就能上手,轻松实现从0到1的收益突破。 核心原则 1. 零成本起步:拒绝付费会员、培训课程,全部使用免费AI绘画工具和免费获客渠道; 2. AI+人工双驱动:AI负责基础图像生成,人工负责细节优化、风格调整,保证作品差异化; 3. 刚需低竞争赛道切入:避开复杂的商业插画、