EgoPoseFormer v2
论文链接:https://arxiv.org/abs/2603.04090
开源代码(EPFv1):https://github.com/ChenhongyiYang/egoposeformer
EgoPoseFormer v2 (EPFv2) 是由 Meta、阿卜杜拉国王科技大学等机构的研究者提出,用于解决 AR/VR 场景中的第一视角人体动捕问题,发表在 CVPR 2026。
核心内容总结
1. 研究背景与挑战
- **第一视角动捕(Egocentric Motion Capture)**是 AR/VR 的关键技术,但面临视角受限(看不到脚/背)、严重自遮挡(手被物体挡住)、以及 3D 标注数据稀缺等难题。
- 前代方法(EPFv1)使用可变形注意力机制,但计算复杂度高,难以在移动端部署。
2. EPFv2 的核心创新
架构简化与优化:
- 单一整体查询(Single Holistic Query):取代为每个关节单独设置查询的方式,无论预测多少关节,计算量恒定。
- 投影条件交叉注意力:用 3D 姿态提案投影到 2D 图像平面作为空间引导,替代难以部署的可变形注意力,兼容标准加速框架。
- 因果时间注意力(Causal Temporal Attention):利用历史帧信息解决抖动和遮挡问题,保持时序一致性。
- 不确定性预测:模型输出每关节的不确定性(置信度),在遮挡区域自动增大不确定性范围。
自动标注系统(ALS):
- 利用'教师 - 学生'框架,用高质量模型为 7000 万帧无标签野外视频生成伪标签。
- 引入不确定性蒸馏:学生模型不仅学习坐标,还学习教师模型的'信心分布',自动筛选高质量训练样本。
3. 实验结果
在权威基准 EgoBody3M 上:
- 精度:MPJPE 达到 4.02cm,相比 SOTA 提升 22.4%,相比 EPFv1 提升 15.3%。
- 速度:模型仅 0.83M 参数,在 A100 上推理延迟仅 0.8ms,具备在轻便 AR 眼镜上实时运行的潜力。
4. 应用价值
该技术旨在让 AR/VR 头显中的虚拟化身能丝滑同步用户动作,即使在低头看不到脚或手被遮挡时,依然保持准确、不抖动的姿态估计,为下一代沉浸式交互体验提供技术基础。
KTPFormer:3D 人体姿态估计
论文标题:KTPFormer: Kinematics and Trajectory Prior Knowledge-Enhanced Transformer for 3D Human Pose Estimation
基本信息
- 作者:Jihua Peng, Yanghong Zhou, P.Y. Mok(香港理工大学 AiDLab)
- 发表:CVPR 2024, pp. 1123-1132
- 代码:https://github.com/JihuaPeng/KTPFormer
研究背景与动机
3D 人体姿态估计是从图像/视频中恢复人体关节三维位置的关键技术,广泛应用于虚拟现实、增强现实、运动分析等领域。现有基于 Transformer 的方法虽然能够建模长距离依赖关系,但存在一个关键缺陷:自注意力机制中的 Query、Key、Value (Q, K, V) 向量通常仅通过简单的线性映射生成,未能充分利用人体固有的解剖结构知识和运动规律。

