跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

视觉 - 骨架双模态框架:帕金森病步态泛化评估新方案

综述由AI生成视觉 - 骨架双模态框架针对帕金森病步态评估提出新方案。传统方法依赖主观评分或接触式传感器,存在局限。该框架结合关键点视觉 Transformer 与时空图卷积网络,融合局部视觉细节与全局骨架运动特征。实验表明,双模态融合显著提升了评估准确性,并在跨视角数据中展现出优异的泛化能力,为无约束环境下的远程监测提供了可行路径。

追风少年发布于 2026/4/8更新于 2026/6/116 浏览
视觉 - 骨架双模态框架:帕金森病步态泛化评估新方案

视觉 - 骨架双模态框架:通过视频实现帕金森病步态的泛化评估

研究背景

步态评估在衡量帕金森病(PD)患者的病情严重程度中起着至关重要的作用。医生通过仔细观察和分析步态表现,能深入了解疾病进展,从而制定更精确的诊断和治疗方案。目前临床实践中广泛接受的 PD 步态评估标准是基于 MDS-UPDRS(统一帕金森病评分量表)第三部分的内容。

然而,传统方法存在明显局限。评估过程要求患者遵守严格测试协议,依赖经过专业培训的评估人员观察关键指标。这不仅耗时耗力,且不同评估人员间的主观差异可能影响评分准确性。虽然基于可穿戴传感器的自动化技术被广泛探索,但接触式设备不可避免地干扰了患者的自然运动,阻碍了其临床普及。

随着计算机视觉技术的进步,基于视频的非接触式评估应运而生。现有研究利用深度学习和人体姿态估计算法量化人体运动,证明了非接触式分析的有效性。但大多数方法仅依赖骨架信息,忽略了 PD 步态中的视觉特征;且多局限于单一录制视角,泛化能力有限。此外,依赖光流等中层特征可能丢失原始 RGB 图像信息,而直接使用全量 RGB 数据又引入过多背景噪声和计算负担。事实上,临床评估既关注局部身体部位状态,也需考量宏观骨架运动特征。

总体方法流程

视觉 - 骨架双模态框架(VSDF)的核心在于融合局部视觉细节与全局骨架运动。整个流程始于人体姿态估计,我们从步态视频中解耦出关键点的视觉信息与骨架结构。

接着,带着坐标信息的特征块被送入关键点视觉 Transformer(KVT),专门负责捕捉局部的视觉细节。随后,模型将提取到的骨架运动特征与 KVT 输出的视觉特征进行融合,并输入到时间融合编码器(Temporal Fusion Encoder)中,以进一步提取步态的时间动态特征。最终,评估分数由一个多层感知器(MLP)头部输出。

总体方法流程图

关键点视觉 Transformer (KVT)

为了精准捕捉行走时局部身体部位的视觉细节,作者设计了一种全新的 Transformer 模型来提取人体关键点的视觉特征。

图像块嵌入 (Patches embedding)

模型并非直接处理整张图片,而是围绕关键点提取短时间序列的帧序列图像块。对于视频流,获取关键点局部视频块后,使用 3D 卷积来提取反映短期变化的特征,从而生成关键点 Tokens (KT)。

图像块嵌入示意图

位置与连接嵌入 (Positions and connections embedding)

考虑到关键点不仅具有绝对坐标,彼此间还存在物理结构上的连通性。该模型通过可学习的线性投影直接嵌入关键点坐标,并与位置编码拼接得到初始表示。随后,引入了基于关键点邻接矩阵的邻接嵌入(Adjacency Embedding, AE)来表示身体各部位之间的连接信息。最后,将 AE 加入到特征中,并在序列头部添加一个 CLS Token。

位置与连接嵌入示意图

关键点自注意力 (Keypoints Self-Attention, KSA)

输入数据首先通过线性投影转换为 Queries (Q), Keys (K), Values (V)。在 Transformer 的自注意力计算阶段,模型将上述的邻接嵌入(AE)融入其中,使得注意力权重的计算不仅基于特征相似度,还能充分考虑到人体关键点之间的物理连接性。

关键点自注意力机制

骨架特征提取 (Skeleton features extraction)

在获取人类关键点的视觉特征后,模型采用经典的时空图卷积网络(ST-GCN)来提取 PD 步态的全局骨架特征。该部分将空间连接与时间维度相结合,能够从宏观角度提取人体行走的运动规律。

骨架特征提取示意图

时间融合编码器 (Temporal Fusion Encoder)

对于同一时间段内提取到的'局部关键点视觉特征'与'全局骨架运动特征',模型首先通过拼接(Concatenation)的方式进行特征融合。为了提取整个视频的全局时间动态特性,融合后的特征序列被输入到时间融合编码器中,该编码器还加入了时间嵌入(Temporal Embeddings, TE)。

时间融合编码器示意图

最后,评估分数由 MLP 头部计算输出。

评估分数输出示意图

实验结果

在消融实验中,作者对比了单独骨架运动与关键点视觉的表现。结果显示,在双模态方法中,关键点视觉在非 0 评分的量化中表现优于骨架运动。这表明关键点视觉能够更好地捕捉步态中细微特征的变化。此外,双模态特征融合能有效提升对视频中 PD 步态的整体评估准确性。

消融实验结果表

此外,作者还将该方法与现有的几种帕金森步态严重程度评估方法进行了比较。结果表明,本文提出的方法在一个更多参与者的数据集中实现了更为准确的评估,并在更一般的录制条件下(Ours-2 跨视角)展现出了极其显著的泛化优势。

跨视角泛化性能对比

结论

该研究开创性地提出了一种用于评估 MDS-UPDRS 步态严重程度的视觉 - 骨架双模态深度学习框架。通过引入独特的关键点视觉 Transformer 以及时间融合编码器,该模型不仅有效弥补了传统骨架方法在微小视觉特征上的丢失,还显著提高了多类别评分的准确性。更重要的是,该模型在更一般化的跨视角监控数据上表现出了极高的鲁棒性,这为未来在家庭和社区环境中实现无约束的帕金森病远程监测与评估提供了极其可行的技术方案。


论文链接: https://doi.org/10.1016/j.media.2025.103727
代码链接: https://github.com/FJNU-LWP/PD-gait-VSDF

目录

  1. 视觉 - 骨架双模态框架:通过视频实现帕金森病步态的泛化评估
  2. 研究背景
  3. 总体方法流程
  4. 关键点视觉 Transformer (KVT)
  5. 图像块嵌入 (Patches embedding)
  6. 位置与连接嵌入 (Positions and connections embedding)
  7. 关键点自注意力 (Keypoints Self-Attention, KSA)
  8. 骨架特征提取 (Skeleton features extraction)
  9. 时间融合编码器 (Temporal Fusion Encoder)
  10. 实验结果
  11. 结论
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • RAG 四大模式详解:Naive、Advanced、Modular 与 Agentic
  • Python Flask Vue 图书借阅管理信息系统设计与实现
  • 可持续发展与CV:绿色AI模型设计
  • OpenClaw Memory 本地模式配置:Ubuntu+CUDA+llama.cpp 实战
  • AI 驱动下内存价格暴涨原因及能源隐私绿色趋势分析
  • 前端国际化最佳实践与实现方案
  • 分布式系统唯一 ID 生成方案技术详解
  • Java 集合框架:接口体系、常用实现、底层结构与线程安全
  • 前端地图开发:主流 SDK 引入方式与初始化配置详解
  • FPGA 实现多协议编码器接口:BISS-C、SSI 与多摩川集成
  • Windows 下 Python 包管理工具 uv 安装与 VSCode 配置
  • C++ 滑动窗口算法进阶解析与实战
  • Mac 系统下高速安装与配置 Homebrew 全攻略(中科大/清华镜像)
  • Ubuntu 下 Python 环境配置与实战开发指南
  • 激光雷达点云配准:ICP 与 NDT 算法详解
  • 原生 JavaScript 打造动态滑动拼图验证码
  • 命令行大模型交互工具 MCPHost 实战指南
  • Llama 3-8B-Instruct 在昇腾 NPU 上的 SGLang 性能实测
  • LeetCode 49. 字母异位词分组 Java 实现
  • MySQL 分库分表实战指南:垂直分库与水平分表策略及避坑要点

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online