引言
Rokid 是国内 AR(增强现实)领域的成熟厂商,致力于让 AR 走进日常。其产品线包括 AR 眼镜、AR 主机等,旨在让用户摆脱手机、手柄束缚,直接用手与虚拟物体交互。
手势识别是 Rokid 给 AR 设备提供的自然交互方式,例如捏合手指调大虚拟屏幕、挥手翻页。不同设备和开发需求需搭配不同版本的 SDK(软件开发工具包)。
一、基础认知:先选对版本,避免开发走弯路
Rokid 手势识别技术随 SDK 版本迭代持续优化,不同版本适配的 Unity 版本、设备、功能均有所不同。
| UXR SDK 版本 | 支持 Unity 版本 | 核心功能差异 | 适配设备 | 适合人群 |
|---|---|---|---|---|
| UXR 2.0 | 2020/2021/2022 LTS | 基础 4 类手势(捏合/握拳/手掌/松开)、基础远近场切换 | Station 2、Max Pro、AR Lite | 新手入门、常规手势交互开发 |
| UXR 3.0 | 2022/2023.3 LTS | 新增图像识别(如扫二维码)、手势置信度过滤、模型轻量化 30% | Station Pro、Max 2、AR Studio | 高级交互、性能优化需求开发者 |
若电脑安装的是 Unity 2023,建议选 UXR 3.0;如果使用的是 2021 且只需要简单手势,UXR 2.0 更稳定。
二、技术拆解:Rokid 手势识别的三阶段逻辑
不管是 UXR 2.0 还是 3.0,手势识别的核心逻辑都是'看得到手→认得出手势→跟得上手',但 3.0 在每个阶段都做了优化。
2.1 看得到手——AR 专属视觉算法
要让设备'看见'手,需在算法和摄像头方面下足功夫。Rokid 的 3D 手势算法在领域内取得关键突破,仅依赖一颗普通的 RGB 摄像头,无需复杂的多摄像头或 ToF 传感器,降低了硬件成本,同时保持高精度和稳定性。
- 利用 AI 算法和深度学习模型,实时捕捉手部的 3D 姿态信息,包括手部的 6DoF(六自由度)位置、26 个关节点的自由度(26DoF)以及 Hand Mesh(手部网格)信息。
- 响应速度上,该算法在移动端实现了毫秒级的响应速度,单帧检测耗时低于 10 毫秒,识别准确率达到 99%,且深度估计误差小于 5 厘米。
- 算法可运行在多种硬件架构上,包括 CPU、GPU 和 NPU,适配高通、海思等主流平台。
2.2 认得出手势——骨骼点定位与判断
设备看清楚手后,下一步是'认出你在做什么手势',核心是'标骨骼点→看姿势',UXR 3.0 在分类精度上做了优化。
1. 26 个骨骼点:给手'标关键位置'
Rokid 会在手上标记 26 个关键点,每个点都有用:
- 腕部(WRIST):确定手的'根在哪',避免手移动判错位置;
- 掌心(PALM):判断手'面朝设备还是背对设备'——掌心朝设备就是想'直接摸';
- 指尖(食指尖、拇指尖):判断'捏合''点击'的关键,UXR 3.0 的骨骼点定位精度提升了 10%,指尖位置更准。
设备怎么找这些点?用'热力图回归'——给手画'热力图',哪个位置亮,哪个就是骨骼点。
26 个节点分别是手腕 WRIST,掌心 PALM,4 个掌骨(METACARPAL)节点,和 5 根手指关节节点,拇指从 CMC 指骨末节依次 MCP、IP、TIP 指尖,其他从 MCP 指骨末节依次 PIP、DIP、TIP 指尖。
2. 手势分类:看'骨架姿势'下判断
有了骨骼点,设备就像'看姿势猜动作',通过'点和点的关系'判断手势。
| 手势类型 | 核心判断条件(大白话) | 对应现实动作 | 版本优化(UXR3.0) |
|---|---|---|---|
| 捏合(Pinch) | 拇指尖 + 食指尖距离<2cm,其他手指弯 |


