引言
在深入手势识别之前,我们需要明确其核心目标:如何让 AR 设备通过自然的手部动作实现无接触交互。Rokid 作为 AR 领域的成熟方案提供商,其 SDK 旨在摆脱传统手柄束缚,让用户直接用手'触摸'虚拟内容。
手势识别是 AR 设备的核心交互方式之一,例如捏合手指调节虚拟屏幕大小、挥手翻页等。不同设备和开发需求对应不同的 SDK 版本,选择合适的版本是开发的第一步。
一、基础认知:版本选型与适配
Rokid 手势识别技术随 SDK 迭代持续优化,不同版本在 Unity 支持、功能特性及设备适配上存在差异。下表总结了主要版本的对比,帮助开发者快速定位:
| UXR SDK 版本 | 支持 Unity 版本 | 核心功能差异 | 适配设备 | 适合人群 |
|---|---|---|---|---|
| UXR 2.0 | 2020/2021/2022 LTS | 基础 4 类手势(捏合/握拳/手掌/松开)、基础远近场切换 | Station 2、Max Pro、AR Lite | 新手入门、常规手势交互开发 |
| UXR 3.0 | 2022/2023.3 LTS | 新增图像识别、手势置信度过滤、模型轻量化 30% | Station Pro、Max 2、AR Studio | 高级交互、性能优化需求开发者 |
若使用 Unity 2023,建议优先选择 UXR 3.0;若使用 2021 且仅需简单手势,UXR 2.0 更为稳定。
二、技术拆解:手势识别的三阶段逻辑
无论是 UXR 2.0 还是 3.0,核心逻辑均遵循'视觉捕捉→姿态识别→交互反馈'的流程,但 3.0 在各阶段均有显著优化。
2.1 视觉捕捉:低成本的 3D 感知
要让设备'看见'手,算法与摄像头的配合至关重要。Rokid 的 3D 手势算法无需复杂的多摄像头或 ToF 传感器,仅依赖单颗 RGB 摄像头即可实现高精度识别,有效降低了硬件成本。
- AI 算法驱动:利用深度学习模型实时捕捉手部 3D 姿态信息,包括 6DoF 位置、26 个关节点自由度及 Hand Mesh 网格信息。
- 高性能响应:移动端单帧检测耗时低于 10 毫秒,识别准确率达 99%,深度估计误差小于 5 厘米。
- 多架构适配:支持 CPU、GPU 和 NPU 运行,兼容高通、海思等主流平台。
2.2 姿态识别:骨骼点映射与分类
设备捕捉到手部后,需通过'标骨骼点→看姿势'来判断具体手势。UXR 3.0 在分类精度上做了进一步优化。
1. 26 个骨骼点定义 系统会在手上标记关键位置,类似医生画关节标记:
- 腕部 (WRIST):确定手的基准位置。
- 掌心 (PALM):判断手朝向(掌心朝设备通常代表'触摸'意图)。
- 指尖:食指尖、拇指尖等,用于判断捏合、点击等精细动作。UXR 3.0 将指尖定位精度提升了 10%。
这些节点涵盖手腕、掌心、4 个掌骨节点以及 5 根手指的指骨末节(如 MCP、IP、TIP)。系统采用'热力图回归'技术,通过亮斑直接定位骨骼点。
2. 手势分类逻辑 基于骨骼点关系判断手势类型,常见手势及 UXR 3.0 优化如下:
| 手势类型 | 核心判断条件 | 对应现实动作 | 版本优化(UXR3.0) |
|---|---|---|---|
| 捏合 (Pinch) | 拇指尖 + 食指尖距离<2cm,其他手指弯 | 捏小物件 | 新增置信度过滤,<80% 不响应 |
| 握拳 (Grip) | 所有指尖靠近掌心 | 攥拳头 |


