跳到主要内容
融合条件扩散与图学习的 EEG 信号重建与认知负荷识别 | 极客日志
Python AI 算法
融合条件扩散与图学习的 EEG 信号重建与认知负荷识别 该研究提出一种统一框架,利用条件引导去噪扩散概率模型(CG-DDPM)修复多源伪迹污染的脑电信号,并通过融合 CNN、GCN 与 KAN 的 EEGGX-Net 网络进行认知负荷分级。在 STEW 和 iNCog-EEG 数据集上,二分类准确率超 98%,三分类超 95%。文章详细分析了扩散模型相比传统生成模型的优势,探讨了三分支架构的设计动机,并批判性评估了合成噪声与真实场景的差异、被试间变异及计算效率等局限,为 EEG-BCI 的实际部署提供了参考。
孤勇者 发布于 2026/3/30 更新于 2026/4/24 1 浏览融合条件扩散与图学习的 EEG 信号重建与认知负荷识别
论文信息
标题 :Fusion-driven EEG reconstruction and cognitive workload recognition using conditional diffusion and graph-based learning
期刊 :Advanced Engineering Informatics 71 (2026) 104243
DOI :10.1016/j.aei.2025.104243
作者 :Fariya Bintay Shafi, Md. Faysal Ahamed, Amith Khandakar*, Mohamed Arselene Ayari, Shahriar Islam Siyam
机构 :Qatar University(电气工程系、土木与环境工程系),Rajshahi University of Engineering & Technology(孟加拉)
关键词 :认知负荷、脑电图、条件引导去噪扩散概率模型、EEG 图融合网络、信号重建
该研究提出了一种'重建 - 分类'统一框架。第一阶段利用**条件引导去噪扩散概率模型(CG-DDPM)**同时修复 6 种伪迹污染的 EEG 信号,第二阶段使用融合 CNN、GCN、KAN 三分支编码器的 EEGGX-Net 对认知负荷进行分级识别。在 STEW 和自采集 iNCog-EEG 两个数据集上,二分类准确率均超过 98%,三分类超过 95%,且均为被试独立评估。
一、研究背景:EEG 认知负荷识别的三大挑战
1.1 认知负荷监测的工程需求
认知负荷指人在信息处理和态势感知过程中所消耗的心理资源。在空中交通管制、飞行驾驶、外科手术等高风险场景中,操作员的认知负荷水平直接关系到系统安全——过高导致注意力崩溃,过低则引发态势感知丧失。因此,实时、准确地监测认知负荷是人机系统安全设计的核心需求。
在各类生理指标中,脑电图(EEG)因其非侵入性和毫秒级时间分辨率成为主要手段。前额叶 theta(4-8 Hz)功率增强是认知负荷最稳健的神经标志物,同时伴随 alpha(8-13 Hz)功率抑制和 beta(13-30 Hz)功率上升。
1.2 三大结构性挑战
将这些频谱标志物转化为可靠的自动分类系统,面临三个挑战:
(1)多源伪迹的同时污染
真实场景中,EEG 信号同时受到多种伪迹干扰:EMG(肌电)、EOG(眼动)、ECG(心电)、呼吸运动、工频干扰及电极脱落导致的信号缺失。传统方法各有局限:ICA 需要专家手动识别;小波阈值对参数敏感且有伪 Gibbs 现象;陷波滤波器会扭曲临近频率。没有任何单一传统方法能同时处理全部伪迹类型。
(2)被试间变异
颅骨厚度、皮层褶皱、电极阻抗等因素导致 EEG 信号存在巨大的被试间分布差异。在 STEW 数据集上,被试独立分类准确率历史上仅为 66-83%,而被试依赖评估可达 >95%。这意味着分类器必须学习到跨个体通用的认知负荷表征,而非记忆特定被试的信号特征。
(3)重建与分类的脱节
以往工作将信号去噪和负荷分类视为独立的顺序问题。去噪阶段优化的是信号保真度指标(如 SNR、MSE),而非下游分类性能。基于深度学习的去噪方法往往产生过度平滑的输出,丢弃了对分类至关重要的高频成分。
1.3 现有方法的能力对比
研究 方法 数据集 处理伪迹 被试独立 最佳准确率 Wang et al. (2024) LGNet (CNN+Transformer) 模拟飞行 - √ 91.19% Siddhad et al. (2024) Transformer STEW
Safari et al. (2024) SVM+连接性特征 STEW 部分 √ 88.96%
Yedukondalu et al. (2025) R-LMD+BAO+OEL STEW 部分 √ 96.1%
本文 CG-DDPM + EEGGX-Net STEW + iNCog-EEG 6 种 √ >98% (二) / >95% (三)
该论文的核心贡献在于:首次构建了从伪迹重建到负荷分类的统一框架,将扩散模型引入 EEG 信号修复,并设计了 CNN+GCN+KAN 三分支融合的分类网络。
二、方法学:CG-DDPM 信号重建
2.1 为什么选择扩散模型? 去噪扩散概率模型(DDPM)的基本原理是:前向过程将干净数据逐步加入高斯噪声直至完全退化为纯噪声,反向过程则训练一个 U-Net 网络学习预测每步添加的噪声,从而从纯噪声逐步恢复出原始信号。
相较于 EEG 去噪中常用的其他生成模型,DDPM 有三个关键优势:
特性 自编码器/VAE GAN DDPM 训练稳定性 稳定 模式崩溃、训练不稳定 单一模型,稳定收敛 高频细节保留 过度平滑 可能引入伪影 逐步恢复,保留细节 输出多样性 - 模式坍缩风险 概率性采样,覆盖完整分布
近年来,扩散模型在 EEG 去噪领域已显示出显著潜力,但这些工作均将去噪作为独立任务,未考虑下游分类性能。
2.2 CG-DDPM 的条件引导机制 CG-DDPM 的关键创新在于在标准 DDPM 基础上引入了三重条件引导 ,将'无条件噪声去除'升级为'针对特定伪迹的定向修复':
(1)条件编码器
从含噪 EEG 输入中提取伪迹感知特征 。其内部采用四级级联处理:时域卷积层 → 多头时间注意力 → 空间注意力 → 通道注意力。输出的条件特征编码了'当前信号中伪迹的类型、位置和强度'信息。
(2)条件变分自编码器(CVAE)
在干净 EEG 信号 上训练,学习一个结构化的潜在空间,编码'正常脑电形态'的先验分布。CVAE 本质上为反向去噪过程提供了一个生物物理学上合理的目标分布。
(3)引导 U-Net 去噪器
将条件编码器和 CVAE 的输出通过线性投影融合后,注入 U-Net 的每个残差块,指导反向去噪的方向。这意味着模型在每一步去噪时,既知道'当前信号中有什么噪声',又知道'干净信号应该长什么样'。
2.3 多组分损失函数 损失组分 作用 权重 扩散损失 噪声预测精度(时域) 1.0 频谱损失 重建信号与原始信号在频域上的结构一致性 0.1 KL 散度 CVAE 潜在空间正则化,防止过拟合 0.1 时间一致性 相邻时间步之间的平滑过渡 0.01
频谱损失的设计值得注意 :由于认知负荷分类高度依赖频段功率比(theta/alpha/beta),纯时域 MSE 损失不足以保证频域信息的完整性。频谱损失通过约束重建信号与原始信号的频谱幅度一致,直接保护了对分类至关重要的频段特征。
2.4 处理的伪迹类型 CG-DDPM 能同时处理 6 种伪迹 + 信号缺失 :EMG、EOG、ECG、呼吸运动、工频干扰(50/60 Hz)以及随机掩码(模拟电极脱落)。这一覆盖范围在同类工作中罕见。
三、方法学:EEGGX-Net 分类网络
3.1 三分支编码器的设计动机 EEG 信号包含三个互补的信息维度:时域局部模式、空间拓扑关系以及非线性动力学特征。单一架构难以同时最优地捕获所有维度,因此 EEGGX-Net 采用三分支并行编码。
3.2 CNN 分支:时域局部特征提取 四层 1D 卷积网络(滤波器数 64→64→128→128,核大小 3),每两层后接最大池化。CNN 通过局部感受野提取短程时域模式,捕获与认知状态转换相关的瞬态 EEG 事件。
3.3 GCN 分支:电极拓扑图学习 图卷积网络(GCN)将 EEG 信号建模为图结构 :节点为特征(27 维手工提取特征),边由特征间的皮尔逊相关系数定义。经对称归一化后进行两层图卷积传播。
为什么用 GCN? EEG 电极按 10-20 系统分布于头皮表面,形成非欧几里得拓扑结构。标准 CNN 假设输入位于规则网格上,无法原生表达电极间的空间关系。GCN 的消息传递机制天然适合在非规则图上传播信息,能够捕获区分认知状态的跨脑区连接模式。
3.4 KAN 分支:自适应非线性建模 Kolmogorov-Arnold Network(KAN) 是 Liu et al.(MIT, ICLR 2025)提出的新型网络架构,与传统 MLP 存在根本性差异:
MLP :在节点上放置固定激活函数(如 ReLU),在边上放置可学习的线性权重
KAN :在边上放置可学习的激活函数 (以 B-spline 基函数参数化),节点仅执行简单求和
KAN 的理论基础是 Kolmogorov-Arnold 表示定理 :任何连续多元函数都可以精确分解为有限个一元连续函数的叠加与组合。KAN 用可学习的 B-spline 曲线实现这些一元函数,使网络能够自适应地调整每条边上非线性变换的形状。
该论文使用三层 KAN Block(27→128→256→128),每层包含残差连接和 LayerNorm。KAN 在 EEG 分析中的优势在于:(1)自适应的样条激活函数能建模 EEG 的非平稳非线性动力学;(2)KAN 在分布外泛化上表现优于 MLP,这对跨被试分类至关重要。
3.5 双向多头交叉注意力融合(MHCAF) 三个分支的特征不采用简单拼接,而是通过双向交叉注意力 进行自适应融合。具体而言:CNN 特征作为 Query、GCN 特征作为 Key/Value 生成第一路注意力输出,同时 GCN 特征作为 Query、CNN 特征作为 Key/Value 生成第二路输出。两路输出经残差连接和前馈网络后拼接,再与 KAN 分支的输出进行最终拼接。
双向设计的关键优势在于:时域上下文可以增强空间特征的判别力,空间动态也可以反向指导时域特征的选择,实现了比单向注意力更充分的跨模态交互。
3.6 层次化胶囊分类器(HCC) 分类器采用胶囊网络 替代常见的全连接分类头。与标量输出的传统神经元不同,胶囊以向量 为输出单元——向量的模长编码实体存在的概率,方向编码实例化参数。
胶囊网络的核心机制是动态路由 :低层胶囊通过迭代协议过程决定向哪个高层胶囊发送信息。在每轮迭代中,低层胶囊的预测向量与高层胶囊的当前输出计算一致性,一致性高的连接被增强,低的被抑制。这一过程本质上是一种可学习的软注意力机制 ,能够自动发现特征的部分 - 整体层次关系。
本文使用 32 个 8 维主胶囊和基于类别数的数字胶囊(16 维),通过 3 轮动态路由。胶囊网络对 EEG 分类的优势在于:向量表示能够同时编码多个特征属性,对被试间/试次间的高变异性更鲁棒。
3.7 两阶段分类策略 分类采用层级式设计:第一阶段为二分类(静息态 vs. 负荷态),第二阶段在负荷态内部进行三分类(低/中/高负荷)。这种策略先做粗粒度判断再细粒度分级,降低了直接多分类的难度。
四、数据集与实验设置
4.1 STEW 数据集(公开基准) 参数 详情 来源 Lim et al. (2018), IEEE TNSRE 被试 48 人(18-35 岁男性大学生) 设备 Emotiv EPOC(消费级),14 通道,128 Hz 范式 2.5 分钟静息 + 2.5 分钟 SIMKAP 多任务 标签 NASA-TLX 1-9 量表 → 二分类 + 三分类
4.2 iNCog-EEG 数据集(自采集) 参数 详情 被试 40 人 设备 KT88-3200(临床级),16 通道,200 Hz 范式 5 分钟静息 + 三个 5 分钟多任务阶段 噪声设计 30 人干净数据 + 10 人含真实伪迹
两个数据集使用不同级别的设备 ,互相验证增强了结论的跨硬件泛化可信度。
4.3 预处理与特征工程 预处理分两个阶段:重建前 (带通 0.5-45 Hz + Z-score 标准化 → 合成伪迹注入 → CG-DDPM 重建)和重建后 (精细带通 3-40 Hz → 去尖峰 → 50% 重叠滑窗 → 特征提取)。
从重建后的信号中提取 27 维手工特征 ,覆盖五个特征域:频域特征、统计特征、熵特征、频段功率、分形维度。经 Z-score 归一化和 SMOTE 类别平衡后送入分类器。
4.4 评估方案 采用被试独立 5 折交叉验证 :确保训练集和测试集来自不同被试,防止被试级别的数据泄漏。三种输入条件被系统对比:原始数据、含噪/缺失数据、CG-DDPM 重建后数据。
五、核心实验结果
5.1 CG-DDPM 重建性能 指标 CG-DDPM 理想范围 说明 SNR 16.50 dB >20 dB 信号功率约为噪声的 45 倍 MSE 14.23 (μV)² <10 中等失真水平 MAE 3.45 μV <3-5 μV 达到可接受下限 CC 0.86 >0.85 时域波形强相关 SC 0.79 >0.8 频谱保真度接近理想
与替代生成模型的直接对比 (所有模型均搭配 EEGGX-Net 分类器):
重建方法 SNR CC SC STEW 二分类 STEW 三分类 TAE(传统自编码器) 10.85 0.59 0.48 90.88% 84.13% VAE 11.21 0.67 0.54 88.42% 85.44% GAN 13.40 0.70 0.61 94.72% 88.92% CG-DDPM 16.50 0.86 0.79 98.86% 98.65%
CG-DDPM 在所有指标上全面领先。尤其值得关注的是 CC 从 GAN 的 0.70 提升至 0.86(+23%),SC 从 0.61 提升至 0.79(+30%),说明扩散模型在时频两个维度上对 EEG 波形的保真能力均远超 GAN。这一优势直接传导至下游分类性能。
5.2 STEW 数据集分类性能 模型 原始数据 含噪/缺失数据 重建后数据 SSGCNet (2023) 93.04% 82.10% 90.07% MTCN (2024) 94.88% 83.46% 91.38% FBSTCNet (2024) 97.02% 90.02% 95.23% GMAEEG (2024) 96.15% 87.13% 94.31% EEG-DG (2024) 97.72% 89.19% 96.28% EEGGX-Net 99.74% 92.43% 98.86%
模型 原始数据 含噪/缺失数据 重建后数据 SSGCNet (2023) 90.66% 78.59% 86.24% MTCN (2024) 92.57% 81.33% 89.91% FBSTCNet (2024) 95.89% 87.12% 92.35% GMAEEG (2024) 93.25% 83.05% 90.98% EEG-DG (2024) 96.82% 86.80% 94.24% EEGGX-Net 99.65% 90.95% 98.65%
所有模型在含噪条件下性能大幅下降(7-12 个百分点),验证了伪迹鲁棒性是实际部署的刚性需求
经 CG-DDPM 重建后,所有模型性能均显著恢复,证明扩散重建对下游分类具有模型无关的普适价值
EEGGX-Net 在三种条件下均全面领先,且在含噪条件下的性能衰减最小
5.3 iNCog-EEG 外部验证 在不同设备、不同通道数、不同被试群体上仍保持二分类 >98%、三分类 >95%,验证了框架的跨数据集泛化能力。
5.4 消融实验 CG-DDPM 消融 :S-2 的结果值得特别关注:将高斯噪声替换为 Laplace 噪声后,SNR 从 12.18 骤降至 8.18,证实了高斯噪声建模假设对 EEG 扩散模型的关键性。其余组件的逐步引入带来了稳定递增的性能提升。
EEGGX-Net 消融 :隐藏维度不足会导致瓶颈,加深 KAN 和增加 GCN 层数均能带来性能提升,完整模型表现最佳。
5.5 可视化验证 t-SNE 特征可视化显示:原始 EEG 特征中静息态和负荷态严重重叠;含噪后重叠加剧;CG-DDPM 重建后聚类明显收紧、类间分离增大;经 EEGGX-Net 编码后达到最清晰的类间分离。
5.6 计算效率 模块 推理延迟(batch=128) 吞吐量 参数量 模型大小 CG-DDPM 153.65 ms 833.05 Hz 4.30 M 16.42 MB EEGGX-Net 73.17 ms 1749.40 Hz 2.77 M 43.75 MB
硬件平台为 NVIDIA RTX 3090 Ti。两模块合计延迟约 227 ms,对于典型认知负荷评估窗口接近可用,但尚未达到严格实时 BCI 的要求(<100 ms)。
六、局限性与批判性分析
6.1 STEW 二分类准确率的可信度 STEW 二分类 >98% 需要审慎解读。Pušica et al.(2025)明确指出:STEW 的二分类本质上是区分'静息'和'SIMKAP 多任务'两种截然不同的实验条件 。这意味着分类器可能在很大程度上检测的是'是否在执行任务'而非纯粹的'认知负荷水平'。三分类结果才是更有诊断价值的指标 。
6.2 合成噪声与真实伪迹的差距 实验中的伪迹是以加性方式叠加在干净信号上的合成噪声。但真实场景中,伪迹与神经信号以非线性方式交互。尽管 iNCog-EEG 中 10 名被试含有真实伪迹,但其规模尚不足以全面验证模型在真实噪声条件下的表现。
6.3 人口统计学局限 STEW 的 48 名被试全部为 18-35 岁男性大学生,iNCog-EEG 也仅 40 人。在女性、老年人、神经发育障碍群体等更广泛人群上的表现完全未知。
6.4 缺少跨语料库迁移实验 论文在两个数据集上分别训练、分别测试,但未进行'在 STEW 上训练,在 iNCog-EEG 上直接测试'的零样本迁移实验。考虑到两个数据集使用不同设备、不同导联系统和不同采样率,这一实验虽然极具挑战性,但恰恰是泛化能力的终极考验。
6.5 扩散模型的推理开销 CG-DDPM 的 153.65 ms 延迟在离线分析中可以接受,但对需要亚 100 ms 响应的实时 BCI 场景仍有差距。论文未探讨 DDIM 加速采样或渐进蒸馏等加速方案,这是走向实际部署的必经之路。
6.6 手工特征 vs. 端到端学习 分类阶段使用 27 维手工提取特征,增加了特征工程的人工成本,也可能遗漏手工特征未覆盖的判别信息。端到端学习方案值得后续探索。
七、个人思考与总结
7.1 这篇论文的主要贡献 对 EEG 信号处理 :扩散模型正在成为 EEG 去噪的新范式。CG-DDPM 的 CVAE 形态先验 + 条件编码器的架构设计,为后续'条件引导扩散去噪'方向提供了可复用的参考框架。
对认知负荷识别 :本文确立了'先重建后分类'的务实路径——接受信号在实际场景中必然含噪,用生成模型修复后再分类,而非假设输入是干净的。这一范式转变对推动 EEG-BCI 从实验室走向实际部署具有重要意义。
对 EEG 深度学习架构设计 :CNN+GCN+KAN 三分支 + 交叉注意力融合 + 胶囊分类器的组合,体现了当前 EEG 分类的设计趋势——不依赖单一架构,而是让不同架构覆盖信号的互补信息维度,再通过注意力机制进行自适应融合。
7.2 一些值得进一步思考的问题
CG-DDPM 的重建过程是否可能引入系统性偏差 ?即重建信号是否在某些条件下增强了原始信号中并不存在的模式,从而'帮助'了分类器?对此需要更细致的频段分析和因果验证。
KAN 相对于精心调优的 MLP 的实际优势有多大?在小数据集上 KAN 表现优异,但其在大规模 EEG 数据上的表现仍待验证。
跨语料库迁移 的性能如何?这一实验的缺失是当前工作最大的遗憾之一。
如果将手工特征替换为端到端的原始波形学习,EEGX-Net 的三分支设计是否仍然有效?
附录:核心参考文献
Shafi, F.B. et al. "Fusion-driven EEG reconstruction and cognitive workload recognition using conditional diffusion and graph-based learning." Advanced Engineering Informatics 71, 104243 (2026).
Ho, J., Jain, A., Abbeel, P. "Denoising Diffusion Probabilistic Models." NeurIPS (2020).
Liu, Z. et al. "KAN: Kolmogorov-Arnold Networks." ICLR (2025).
Sabour, S., Frosst, N., Hinton, G. "Dynamic Routing Between Capsules." NeurIPS (2017).
Lim, W.L. et al. "STEW: Simultaneous Task EEG Workload Dataset." IEEE TNSRE 26(11), 2106-2114 (2018).
Chikhi, S. et al. "EEG power spectral measures of cognitive workload: A meta-analysis." Psychophysiology 59(6), e14009 (2022).
Herbozo Contreras, L.F. et al. "KAN-EEG: towards replacing backbone-MLP for an effective seizure detection system." Royal Society Open Science 12(3), 240999 (2025).
Huang, H. et al. "EEGDfus: A Conditional Diffusion Model for Fine-Grained EEG Denoising." IEEE JBHI (2024).
Pušica, M. et al. "STEW dataset benchmark analysis." Frontiers in Neuroergonomics (2025).
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
随机西班牙地址生成器 随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online
Gemini 图片去水印 基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online
curl 转代码 解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online