EgoPoseFormer v2:AR/VR 第一视角人体动作捕捉技术解析
EgoPoseFormer v2 和 KTPFormer 两项 3D 人体姿态估计技术。EPFv2 针对 AR/VR 第一视角动捕,通过单一整体查询、投影条件交叉注意力和因果时间注意力解决遮挡和抖动问题,在 EgoBody3M 基准上 MPJPE 达 4.02cm。文章对比了 EPFv2 的因果时间注意力与 DeepSeek 视觉因果流在时空维度的区别,并分析了 SAM2 跟踪机制的异同。此外,详细阐述了 KTPFormer 如何通过运动学先验注意力 (KPA) 和轨迹先验注意力 (TPA) 将人体先验知识注入 Transformer,实现了轻量级且高性能的 3D 姿态估计。

