视觉 - 骨架双模态框架：帕金森病步态泛化评估新方案

视觉 - 骨架双模态框架：通过视频实现帕金森病步态的泛化评估

研究背景

步态评估在衡量帕金森病（PD）患者的病情严重程度中起着至关重要的作用。医生通过仔细观察和分析步态表现，能深入了解疾病进展，从而制定更精确的诊断和治疗方案。目前临床实践中广泛接受的 PD 步态评估标准是基于 MDS-UPDRS（统一帕金森病评分量表）第三部分的内容。

然而，传统方法存在明显局限。评估过程要求患者遵守严格测试协议，依赖经过专业培训的评估人员观察关键指标。这不仅耗时耗力，且不同评估人员间的主观差异可能影响评分准确性。虽然基于可穿戴传感器的自动化技术被广泛探索，但接触式设备不可避免地干扰了患者的自然运动，阻碍了其临床普及。

随着计算机视觉技术的进步，基于视频的非接触式评估应运而生。现有研究利用深度学习和人体姿态估计算法量化人体运动，证明了非接触式分析的有效性。但大多数方法仅依赖骨架信息，忽略了 PD 步态中的视觉特征；且多局限于单一录制视角，泛化能力有限。此外，依赖光流等中层特征可能丢失原始 RGB 图像信息，而直接使用全量 RGB 数据又引入过多背景噪声和计算负担。事实上，临床评估既关注局部身体部位状态，也需考量宏观骨架运动特征。

总体方法流程

视觉 - 骨架双模态框架（VSDF）的核心在于融合局部视觉细节与全局骨架运动。整个流程始于人体姿态估计，我们从步态视频中解耦出关键点的视觉信息与骨架结构。

接着，带着坐标信息的特征块被送入关键点视觉 Transformer（KVT），专门负责捕捉局部的视觉细节。随后，模型将提取到的骨架运动特征与 KVT 输出的视觉特征进行融合，并输入到时间融合编码器（Temporal Fusion Encoder）中，以进一步提取步态的时间动态特征。最终，评估分数由一个多层感知器（MLP）头部输出。

总体方法流程图

关键点视觉 Transformer (KVT)

为了精准捕捉行走时局部身体部位的视觉细节，作者设计了一种全新的 Transformer 模型来提取人体关键点的视觉特征。

图像块嵌入 (Patches embedding)

模型并非直接处理整张图片，而是围绕关键点提取短时间序列的帧序列图像块。对于视频流，获取关键点局部视频块后，使用 3D 卷积来提取反映短期变化的特征，从而生成关键点 Tokens (KT)。

图像块嵌入示意图

位置与连接嵌入 (Positions and connections embedding)

考虑到关键点不仅具有绝对坐标，彼此间还存在物理结构上的连通性。该模型通过可学习的线性投影直接嵌入关键点坐标，并与位置编码拼接得到初始表示。随后，引入了基于关键点邻接矩阵的邻接嵌入（Adjacency Embedding, AE）来表示身体各部位之间的连接信息。最后，将 AE 加入到特征中，并在序列头部添加一个 CLS Token。

位置与连接嵌入示意图