视觉 - 骨架双模态框架:通过视频实现帕金森病步态的泛化评估
研究背景
步态评估在衡量帕金森病(PD)患者的病情严重程度中起着至关重要的作用。医生通过仔细观察和分析步态表现,能深入了解疾病进展,从而制定更精确的诊断和治疗方案。目前临床实践中广泛接受的 PD 步态评估标准是基于 MDS-UPDRS(统一帕金森病评分量表)第三部分的内容。
然而,传统方法存在明显局限。评估过程要求患者遵守严格测试协议,依赖经过专业培训的评估人员观察关键指标。这不仅耗时耗力,且不同评估人员间的主观差异可能影响评分准确性。虽然基于可穿戴传感器的自动化技术被广泛探索,但接触式设备不可避免地干扰了患者的自然运动,阻碍了其临床普及。
随着计算机视觉技术的进步,基于视频的非接触式评估应运而生。现有研究利用深度学习和人体姿态估计算法量化人体运动,证明了非接触式分析的有效性。但大多数方法仅依赖骨架信息,忽略了 PD 步态中的视觉特征;且多局限于单一录制视角,泛化能力有限。此外,依赖光流等中层特征可能丢失原始 RGB 图像信息,而直接使用全量 RGB 数据又引入过多背景噪声和计算负担。事实上,临床评估既关注局部身体部位状态,也需考量宏观骨架运动特征。
总体方法流程
视觉 - 骨架双模态框架(VSDF)的核心在于融合局部视觉细节与全局骨架运动。整个流程始于人体姿态估计,我们从步态视频中解耦出关键点的视觉信息与骨架结构。
接着,带着坐标信息的特征块被送入关键点视觉 Transformer(KVT),专门负责捕捉局部的视觉细节。随后,模型将提取到的骨架运动特征与 KVT 输出的视觉特征进行融合,并输入到时间融合编码器(Temporal Fusion Encoder)中,以进一步提取步态的时间动态特征。最终,评估分数由一个多层感知器(MLP)头部输出。

关键点视觉 Transformer (KVT)
为了精准捕捉行走时局部身体部位的视觉细节,作者设计了一种全新的 Transformer 模型来提取人体关键点的视觉特征。
图像块嵌入 (Patches embedding)
模型并非直接处理整张图片,而是围绕关键点提取短时间序列的帧序列图像块。对于视频流,获取关键点局部视频块后,使用 3D 卷积来提取反映短期变化的特征,从而生成关键点 Tokens (KT)。

位置与连接嵌入 (Positions and connections embedding)
考虑到关键点不仅具有绝对坐标,彼此间还存在物理结构上的连通性。该模型通过可学习的线性投影直接嵌入关键点坐标,并与位置编码拼接得到初始表示。随后,引入了基于关键点邻接矩阵的邻接嵌入(Adjacency Embedding, AE)来表示身体各部位之间的连接信息。最后,将 AE 加入到特征中,并在序列头部添加一个 CLS Token。

关键点自注意力 (Keypoints Self-Attention, KSA)
输入数据首先通过线性投影转换为 Queries (Q), Keys (K), Values (V)。在 Transformer 的自注意力计算阶段,模型将上述的邻接嵌入(AE)融入其中,使得注意力权重的计算不仅基于特征相似度,还能充分考虑到人体关键点之间的物理连接性。








