一、前言
本文关注基于骨骼点的动作识别中遇到的遮挡问题,重点分析因果时间注意力机制在其中的作用。
二、EgoPoseFormer v2
EgoPoseFormer v2 (EPFv2) 是由 Meta、阿卜杜拉国王科技大学等机构的研究者提出,用于解决 AR/VR 场景中的第一视角人体动捕问题,发表在 CVPR 2026。
核心内容总结
1. 研究背景与挑战
- **第一视角动捕(Egocentric Motion Capture)**是 AR/VR 的关键技术,但面临视角受限(看不到脚/背)、严重自遮挡(手被物体挡住)、以及 3D 标注数据稀缺等难题
- 前代方法(EPFv1)使用可变形注意力机制,但计算复杂度高,难以在移动端部署
2. EPFv2 的核心创新
架构简化与优化:
- 单一整体查询(Single Holistic Query):取代为每个关节单独设置查询的方式,无论预测多少关节,计算量恒定
- 投影条件交叉注意力:用 3D 姿态提案投影到 2D 图像平面作为空间引导,替代难以部署的可变形注意力,兼容标准加速框架
- 因果时间注意力(Causal Temporal Attention):利用历史帧信息解决抖动和遮挡问题,保持时序一致性
- 不确定性预测:模型输出每关节的不确定性(置信度),在遮挡区域自动增大不确定性范围
自动标注系统(ALS):
- 利用'教师 - 学生'框架,用高质量模型为 7000 万帧无标签野外视频生成伪标签
- 引入不确定性蒸馏:学生模型不仅学习坐标,还学习教师模型的'信心分布',自动筛选高质量训练样本
3. 实验结果
在权威基准 EgoBody3M 上:
- 精度:MPJPE 达到 4.02cm,相比 SOTA 提升 22.4%,相比 EPFv1 提升 15.3%
- 速度:模型仅 0.83M 参数,在 A100 上推理延迟仅 0.8ms,具备在轻便 AR 眼镜上实时运行的潜力
4. 应用价值
该技术旨在让 AR/VR 头显中的虚拟化身能丝滑同步用户动作,即使在低头看不到脚或手被遮挡时,依然保持准确、不抖动的姿态估计,为下一代沉浸式交互体验提供技术基础。
三、DeepSeek 视觉因果流与 EPFv2 对比
DeepSeek 发布过一项关于图像识别顺序的创新机制,名为'视觉因果流'。这与 Meta 的 EPFv2 模型中的'因果时间注意力'是两个不同的概念。
简单来说:DeepSeek 的'视觉因果流'关注的是'空间逻辑':解决一张图里,哪个部分应该先被'读懂'。Meta EPFv2 的'因果时间注意力'关注的是'时间逻辑':解决视频里,如何利用过去的信息来理解现在。
两者都是在各自领域(文档 OCR 与动作捕捉)利用'因果'思想解决特定问题的创新设计,但应用场景和实现方式截然不同。
实现原理与技术区别
1. DeepSeek 的'视觉因果流' (空间逻辑重排)
它的核心,是为单张图像内的视觉元素'排定理解顺序'。它在一个类语言模型(LLM)架构的编码器内部,巧妙地设置了两种不同的注意力机制来处理两组 Token:
- 视觉 Token:来自图像的 Patch。它们之间采用双向注意力,目的是无差别地感知图像的全局上下文,理解画面中有什么。
- 因果流查询 Token:一组可学习的、新的 Token。它们之间采用因果注意力,每个 Query 只能看到前面的 Query。
这两组 Token 会进行交互。最终,经过因果注意力处理后的 Query Token,就携带了按语义逻辑(而非原始空间顺序)重新组织过的图像信息,再被送入解码器生成文本。整个过程就像是模型在'阅读'图像前,先在心里把各个元素按逻辑关系排了个序。
2. Meta EPFv2 的'因果时间注意力' (时间逻辑依赖)
它的核心,是为视频序列的当前帧寻找'历史依据',以应对遮挡和抖动。实现方式更直接:在模型的 Transformer 解码器中,当预测当前帧的姿态时,其注意力机制的掩码(Mask)被设置为只能访问当前帧及之前历史帧的信息。这种强制性的时序掩码,让模型学习到动作的连贯性,从而在某一帧信息不全时,能根据运动轨迹进行合理推断。

