引言
Rokid 是国内 AR(增强现实)领域的领先企业,致力于让 AR 走进日常。其产品线包括 AR 眼镜、AR 主机等,旨在让用户摆脱手机、手柄的束缚,直接用手交互虚拟内容。
手势识别是 Rokid 给 AR 设备提供的自然交互方式,例如通过捏合手指调大虚拟屏幕,或挥手翻页。不同设备和开发需求需搭配不同版本的 SDK(软件开发工具包),如 UXR 2.0 和 UXR 3.0。

一、基础认知:版本选择
Rokid 手势识别技术随 SDK 版本迭代持续优化,不同版本适配的 Unity 版本、设备及功能存在差异。建议先确认开发环境再选择 SDK。
| UXR SDK 版本 | 支持 Unity 版本 | 核心功能差异 | 适配设备 | 适合人群 |
|---|---|---|---|---|
| UXR 2.0 | 2020/2021/2022 LTS | 基础 4 类手势(捏合/握拳/手掌/松开)、基础远近场切换 | Station 2、Max Pro、AR Lite | 新手入门、常规手势交互开发 |
| UXR 3.0 | 2022/2023.3 LTS | 新增图像识别、手势置信度过滤、模型轻量化 30% | Station Pro、Max 2、AR Studio | 高级交互、性能优化需求开发者 |
若使用 Unity 2023,推荐选 UXR 3.0;若用 2021 且仅需简单手势,UXR 2.0 更稳定。
二、技术拆解:手势识别逻辑
无论是 UXR 2.0 还是 3.0,核心逻辑均为'看得到手→认得出手势→跟得上手',但 3.0 在各阶段均有优化。
2.1 视觉感知
Rokid 的 3D 手势算法在移动端实现了关键突破。仅依赖一颗普通 RGB 摄像头,无需复杂的多摄像头或 ToF 传感器,降低了硬件成本同时保持高精度。
- 利用 AI 算法和深度学习模型,实时捕捉手部 3D 姿态信息,包括 6DoF 位置、26 个关节点自由度及 Hand Mesh 信息。
- 响应速度达到毫秒级,单帧检测耗时低于 10 毫秒,识别准确率达到 99%,深度估计误差小于 5 厘米。
- 支持多种硬件架构,包括 CPU、GPU 和 NPU,适配高通、海思等主流平台。
2.2 骨骼点与手势分类
设备看清手后,通过标记骨骼点判断动作。UXR 3.0 在分类精度上做了优化。
26 个骨骼点:
- 腕部(WRIST):确定手的根节点。
- 掌心(PALM):判断手朝向。
- 指尖:判断捏合、点击的关键。
设备使用'热力图回归'定位骨骼点。26 个节点包括手腕、掌心、4 个掌骨节点及 5 根手指关节节点。
常见手势类型:
| 手势类型 | 核心判断条件 | 对应现实动作 | 版本优化(UXR3.0) |
|---|---|---|---|
| 捏合(Pinch) | 拇指尖 + 食指尖距离<2cm | 捏小物件 | 新增置信度过滤,误判少 30% |
| 握拳(Grip) | 所有指尖靠近掌心 | 攥拳头 | 支持半握拳识别 |


