视觉 - 骨架双模态框架：帕金森病步态的泛化评估

综述由AI生成一种用于帕金森病（PD）步态评估的视觉 - 骨架双模态深度学习框架。针对传统 MDS-UPDRS 量表评估主观耗时及传感器方法干扰自然运动的问题，该研究提出结合关键点视觉 Transformer（KVT）与时空图卷积网络（ST-GCN）。模型通过提取局部关键点的视觉特征和全局骨架运动特征，利用时间融合编码器整合信息，最终输出评估分数。实验表明，双模态融合在量化评分准确性上优于单一模态，且在跨视角数据下展现出显著的泛化能力，为无约束环境下的远程监测提供了可行方案。

链路追踪发布于 2026/4/6更新于 2026/5/2025 浏览

论文阅读：视觉 - 骨架双模态框架

研究背景介绍

帕金森病评估与帕金森病评分量表（MDS-UPDRS）

步态评估在衡量帕金森病（PD）患者的病情严重程度中起着至关重要的作用。通过仔细观察和分析步态表现，医生可以深入了解帕金森病的进展，从而制定更精确的诊断和治疗方案。目前在临床实践中，被广泛接受的 PD 步态评估标准是基于 MDS-UPDRS（统一帕金森病评分量表）第三部分的内容。在评估过程中，患者必须遵守 MDS-UPDRS 中规定的测试协议，以准确捕捉其步态特征。这要求经过专业培训的评估人员仔细观察关键的步态指标，并对步态表现进行全面评估。然而，这种方法极其耗时，且需要大量的医疗资源。尽管评估人员具备专业培训和丰富经验，但主观性差异仍可能影响评分，引入了显著的主观性因素。因此，临床上迫切需要一种客观且精确的 PD 患者步态评估方法。近年来，许多研究探索了基于可穿戴传感器的各种自动化技术来量化 PD 患者的步态运动。然而，这些方法依赖于直接接触患者身体的传感器，不可避免地会影响 PD 患者的自然运动，这阻碍了它们在临床实践中的广泛采用。

帕金森病步态评估

随着计算机视觉技术的进步，基于视频的非接触式 PD 步态评估方法应运而生，克服了基于传感器方法的局限性。视频技术为 PD 评估提供了一种非接触、可扩展且无创的方法。近期的研究利用视频技术，辅以深度学习和人体姿态估计算法，来准确量化人体运动，证明了非接触式视频分析技术能够有效、快速地评估 PD 患者的步态。然而，目前大多数基于视频的方法仅仅依赖于在视频中通过人体姿态估计获取的骨架信息，而忽略了 PD 步态的视觉特征。而且，它们仅应用于单一录制视角的 PD 步态评估，展现出有限的泛化能力。此外，大多数现有的基于视频的方法依赖于光流或姿态估计等中层特征，这可能会在提取过程中丢弃原始 RGB 图像中的某些视觉信息。但是，直接使用视频中的全部 RGB 信息又会引入不必要的背景细节，并显著增加不必要的计算量。事实上，临床评估人员主要关注的是各个特定身体部位的状态。不仅如此，由于 PD 步态评估是一个综合的过程，除了局部视觉细节，如何有效地利用更宏观的骨架运动特征也值得进一步考量。

研究内容

总体方法流程

视觉 - 骨架双模态框架总体工作流程如下图所示。首先，通过人体姿态估计技术从步态视频中提取关键点的视觉信息和骨架信息。对于关键点视觉，模型将带有坐标信息的特征块输入到关键点视觉 Transformer（KVT）中以提取视觉特征。随后，模型将提取到的骨架运动特征与 KVT 提取的关键点视觉特征进行融合，并输入到时间融合编码器（Temporal Fusion Encoder）中，以进一步提取步态的时间动态特征。最后，最终的评估分数由一个多层感知器（MLP）头部输出。

![图片]

关键点视觉 Transformer (KVT)

为了捕捉局部身体部位在行走时的视觉细节，作者设计了一种全新的 Transformer 模型来提取人体关键点的视觉特征（如下图所示）。

![图片]

图像块嵌入 (Patches embedding)

模型并非将整张图片输入，而是围绕关键点提取短时间序列的帧序列图像块（如下图）。对于视频，获取关键点局部视频块后，使用 3D 卷积来提取反映短期变化的特征，从而生成关键点 Tokens (KT)。

![图片]

位置与连接嵌入 (Positions and connections embedding)

考虑到关键点不仅具有绝对的坐标位置，关键点之间还存在物理结构上的连通性。该模型通过可学习的线性投影直接嵌入关键点坐标，并与拼接得到。随后，引入了基于关键点邻接矩阵的邻接嵌入（Adjacency Embedding, AE）来表示身体各部位之间的连接信息。最后，将 AE 加入到特征中，并在序列头部添加一个 CLS Token。

![图片]

关键点自注意力 (Keypoints Self-Attention, KSA)

如下图所示，输入数据首先通过线性投影转换为 Queries (Q), Keys (K), Values (V)。在 Transformer 的自注意力计算阶段，模型将上述的邻接嵌入（AE）融入其中，使得注意力权重的计算不仅基于特征相似度，还能充分考虑到人体关键点之间的物理连接性。

![图片]

骨架特征提取 (Skeleton features extraction)

在获取了人类关键点的视觉特征后，模型采用经典的时空图卷积网络（ST-GCN）来提取 PD 步态的全局骨架特征。该部分将空间连接与时间维度相结合，能够从宏观角度提取人体行走的运动规律。

![图片]

时间融合编码器 (Temporal Fusion Encoder)

对于同一时间段内提取到的'局部关键点视觉特征'与'全局骨架运动特征'，模型首先通过拼接（Concatenation）的方式进行特征融合。为了提取整个视频的全局时间动态特性，融合后的特征序列被输入到时间融合编码器中，该编码器还加入了时间嵌入（Temporal Embeddings, TE）。

视觉 - 骨架双模态框架：帕金森病步态的泛化评估

论文阅读：视觉 - 骨架双模态框架

研究背景介绍

帕金森病评估与帕金森病评分量表（MDS-UPDRS）

帕金森病步态评估

研究内容

总体方法流程

关键点视觉 Transformer (KVT)

图像块嵌入 (Patches embedding)

位置与连接嵌入 (Positions and connections embedding)

关键点自注意力 (Keypoints Self-Attention, KSA)

骨架特征提取 (Skeleton features extraction)

时间融合编码器 (Temporal Fusion Encoder)

更多推荐文章

相关免费在线工具

实验结果

结论

更多推荐文章

相关免费在线工具

视觉 - 骨架双模态框架：帕金森病步态的泛化评估

论文阅读：视觉 - 骨架双模态框架

研究背景介绍

帕金森病评估与帕金森病评分量表（MDS-UPDRS）

帕金森病步态评估

研究内容

总体方法流程

关键点视觉 Transformer (KVT)

图像块嵌入 (Patches embedding)

位置与连接嵌入 (Positions and connections embedding)

关键点自注意力 (Keypoints Self-Attention, KSA)

骨架特征提取 (Skeleton features extraction)

时间融合编码器 (Temporal Fusion Encoder)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

实验结果

结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具