【论文阅读 | Advanced Engineering Informatics 2026】融合条件扩散与图学习的 EEG 信号重建与认知负荷识别
📖 论文信息标题:Fusion-driven EEG reconstruction and cognitive workload recognition using conditional diffusion and graph-based learning期刊:Advanced Engineering Informatics 71 (2026) 104243DOI:10.1016/j.aei.2025.104243作者:Fariya Bintay Shafi, Md. Faysal Ahamed, Amith Khandakar*, Mohamed Arselene Ayari, Shahriar Islam Siyam机构:Qatar University(电气工程系、土木与环境工程系),Rajshahi University of Engineering & Technology(孟加拉)关键词:认知负荷、脑电图、条件引导去噪扩散概率模型、EEG 图融合网络、信号重建
该论文提出了一个"重建-分类"统一框架:第一阶段使用条件引导去噪扩散概率模型(CG-DDPM)同时修复 6 种伪迹污染的 EEG 信号,第二阶段使用融合 CNN、GCN、KAN 三分支编码器的 EEGGX-Net 对认知负荷进行分级识别。在 STEW 和自采集 iNCog-EEG 两个数据集上,二分类准确率均超过 98%,三分类超过 95%,且均为被试独立评估。
一、研究背景:EEG 认知负荷识别的三大挑战
1.1 认知负荷监测的工程需求
认知负荷(Cognitive Workload)指人在信息处理和态势感知过程中所消耗的心理资源。在空中交通管制、飞行驾驶、外科手术、核设施操作等高风险场景中,操作员的认知负荷水平直接关系到系统安全——过高导致注意力崩溃和决策失误,过低则引发态势感知丧失。因此,实时、准确地监测认知负荷,是人机系统安全设计的核心需求。
在各类生理指标中,脑电图(EEG)因其非侵入性和毫秒级时间分辨率而成为认知负荷监测的主要手段。认知负荷的 EEG 标志物已被充分验证:Chikhi et al.(2022, Psychophysiology)对 723 名被试的 meta 分析确认,前额叶 theta(4-8 Hz)功率增强是认知负荷最稳健的神经标志物,同时伴随 alpha(8-13 Hz)功率抑制和 beta(13-30 Hz)功率上升。
1.2 三大结构性挑战
将这些频谱标志物转化为可靠的自动分类系统,面临以下三个挑战:
(1)多源伪迹的同时污染
真实场景中,EEG 信号同时受到多种伪迹干扰:EMG(面部/颈部肌电,宽频高频)、EOG(眨眼/眼动,低频大振幅 50-100 μV)、ECG(心脏电活动,准周期 QRS 波)、呼吸运动(极低频基线漂移)、工频干扰(50/60 Hz 窄带)以及电极脱落导致的信号缺失。传统方法各有局限:ICA 需要专家手动识别伪迹成分,假设线性源混合;小波阈值对参数敏感且有伪 Gibbs 现象;陷波滤波器会扭曲临近频率。没有任何单一传统方法能同时处理全部伪迹类型。
(2)被试间变异
颅骨厚度、皮层褶皱、电极阻抗、个体认知策略等因素导致 EEG 信号存在巨大的被试间分布差异。在 STEW 数据集上,被试独立(subject-independent)分类准确率历史上仅为 66-83%(多分类),而被试依赖(subject-dependent)评估可达 >95%——两者差距达 15-30 个百分点。这意味着分类器必须学习到跨个体通用的认知负荷表征,而非记忆特定被试的信号特征。
(3)重建与分类的脱节
以往大多数工作将信号去噪和负荷分类视为独立的顺序问题。去噪阶段优化的是信号保真度指标(如 SNR、MSE),而非下游分类性能。更严重的是,基于深度学习的去噪方法(自编码器、GAN)往往产生过度平滑的输出,丢弃了对分类至关重要的高频成分——theta/alpha/beta 频段的细微功率变化正是认知负荷分级的关键依据。
1.3 现有方法的能力对比
| 研究 | 方法 | 数据集 | 处理伪迹 | 被试独立 | 最佳准确率 |
|---|---|---|---|---|---|
| Wang et al. (2024) | LGNet (CNN+Transformer) | 模拟飞行 | - | √ | 91.19% |
| Siddhad et al. (2024) | Transformer | STEW | - | √ | 95.28% (二) / 88.72% (三) |
| Safari et al. (2024) | SVM+连接性特征 | STEW | 部分 | √ | 88.96% |
| Yedukondalu et al. (2025) | R-LMD+BAO+OEL | STEW | 部分 | √ | 96.1% |
| 本文 | CG-DDPM + EEGGX-Net | STEW + iNCog-EEG | 6种 | √ | >98% (二) / >95% (三) |
该论文的核心贡献在于:首次构建了从伪迹重建到负荷分类的统一框架,将扩散模型引入 EEG 信号修复,并设计了 CNN+GCN+KAN 三分支融合的分类网络。
二、方法学:CG-DDPM 信号重建
2.1 为什么选择扩散模型?
去噪扩散概率模型(DDPM,Ho et al., NeurIPS 2020)的基本原理是:前向过程将干净数据逐步加入高斯噪声直至完全退化为纯噪声,反向过程则训练一个 U-Net 网络学习预测每步添加的噪声,从而从纯噪声逐步恢复出原始信号。
相较于 EEG 去噪中常用的其他生成模型,DDPM 有三个关键优势:
| 特性 | 自编码器/VAE | GAN | DDPM |
|---|---|---|---|
| 训练稳定性 | 稳定 | 模式崩溃、训练不稳定 | 单一模型,稳定收敛 |
| 高频细节保留 | 过度平滑 | 可能引入伪影 | 逐步恢复,保留细节 |
| 输出多样性 | - | 模式坍缩风险 | 概率性采样,覆盖完整分布 |
近年来,扩散模型在 EEG 去噪领域已显示出显著潜力:EEGDfus(Huang et al., IEEE JBHI 2024)使用条件扩散处理 EOG/EMG 伪迹,CC 达 0.983-0.992;D4PM(2025)引入双分支扩散和伪迹类型嵌入。但这些工作均将去噪作为独立任务,未考虑下游分类性能。
2.2 CG-DDPM 的条件引导机制
CG-DDPM 的关键创新在于在标准 DDPM 基础上引入了三重条件引导,将"无条件噪声去除"升级为"针对特定伪迹的定向修复":
(1)条件编码器(Conditional Encoder)
从含噪 EEG 输入中提取伪迹感知特征。其内部采用四级级联处理:时域卷积层(检测局部伪迹波形,如眨眼的尖峰)→ 多头时间注意力(捕获长程时域依赖)→ 空间注意力(建模通道间相关性)→ 通道注意力(加权不同电极的重要性)。输出的条件特征编码了"当前信号中伪迹的类型、位置和强度"信息。
(2)条件变分自编码器(CVAE)
在干净 EEG 信号上训练,学习一个结构化的潜在空间,编码"正常脑电形态"的先验分布。编码器将干净信号映射为潜在分布的均值和方差,推理时从该分布中采样并解码,为去噪过程提供"干净信号应有的形态"参考。CVAE 本质上为反向去噪过程提供了一个生物物理学上合理的目标分布。
(3)引导 U-Net 去噪器(Guided U-Net Denoiser)
将条件编码器和 CVAE 的输出通过线性投影融合后,注入 U-Net 的每个残差块,指导反向去噪的方向。这意味着模型在每一步去噪时,既知道"当前信号中有什么噪声",又知道"干净信号应该长什么样"。
2.3 多组分损失函数
训练目标由四个损失组分加权构成:
| 损失组分 | 作用 | 权重 |
|---|---|---|
| 扩散损失 | 噪声预测精度(时域) | 1.0 |
| 频谱损失 | 重建信号与原始信号在频域上的结构一致性 | 0.1 |
| KL 散度 | CVAE 潜在空间正则化,防止过拟合 | 0.1 |
| 时间一致性 | 相邻时间步之间的平滑过渡 | 0.01 |
频谱损失的设计值得注意:由于认知负荷分类高度依赖频段功率比(theta/alpha/beta),纯时域 MSE 损失不足以保证频域信息的完整性。频谱损失通过约束重建信号与原始信号的频谱幅度一致,直接保护了对分类至关重要的频段特征。
2.4 处理的伪迹类型
CG-DDPM 能同时处理 6 种伪迹 + 信号缺失:EMG、EOG、ECG、呼吸运动、工频干扰(50/60 Hz)以及随机掩码(模拟电极脱落)。这一覆盖范围在同类工作中罕见——大多数 EEG 去噪方法仅针对 1-2 种伪迹。
三、方法学:EEGGX-Net 分类网络
3.1 三分支编码器的设计动机
EEG 信号包含三个互补的信息维度:时域局部模式(事件相关电位、频率振荡)、空间拓扑关系(电极间功能连接、脑区协同)以及非线性动力学特征(混沌特性、跨频耦合)。单一架构难以同时最优地捕获所有维度,因此 EEGGX-Net 采用三分支并行编码,分别由最适合各维度的架构承担。
3.2 CNN 分支:时域局部特征提取
四层 1D 卷积网络(滤波器数 64→64→128→128,核大小 3),每两层后接最大池化。CNN 通过局部感受野提取短程时域模式,捕获与认知状态转换相关的瞬态 EEG 事件。
3.3 GCN 分支:电极拓扑图学习
图卷积网络(GCN)将 EEG 信号建模为图结构:节点为特征(27 维手工提取特征),边由特征间的皮尔逊相关系数定义——相关系数超过阈值的特征对之间建立连接,形成稀疏邻接矩阵,经对称归一化后进行两层图卷积传播(1→16→32 维)。
为什么用 GCN? EEG 电极按 10-20 系统分布于头皮表面,形成非欧几里得拓扑结构。标准 CNN 假设输入位于规则网格上,无法原生表达电极间的空间关系。GCN 的消息传递机制天然适合在非规则图上传播信息,能够捕获区分认知状态的跨脑区连接模式(如前额叶-顶叶协同激活)。这一方向在 EEG 分析中已有大量验证:RGNN(Zhong et al., 2020)、DGCNN(Song et al., 2019)、SSGCNet(Wang et al., 2023)均表明图方法显著优于标准 CNN。
3.4 KAN 分支:自适应非线性建模
Kolmogorov-Arnold Network(KAN) 是 Liu et al.(MIT, ICLR 2025)提出的新型网络架构,与传统 MLP 存在根本性差异:
- MLP:在节点上放置固定激活函数(如 ReLU),在边上放置可学习的线性权重
- KAN:在边上放置可学习的激活函数(以 B-spline 基函数参数化),节点仅执行简单求和
KAN 的理论基础是 Kolmogorov-Arnold 表示定理:任何连续多元函数都可以精确分解为有限个一元连续函数的叠加与组合。KAN 用可学习的 B-spline 曲线实现这些一元函数,使网络能够自适应地调整每条边上非线性变换的形状,而非被固定激活函数的形式所限制。
该论文使用三层 KAN Block(27→128→256→128),每层包含残差连接和 LayerNorm。KAN 在 EEG 分析中的优势在于:(1)自适应的样条激活函数能建模 EEG 的非平稳非线性动力学;(2)KAN 在分布外泛化上表现优于 MLP(Liu et al., 2024),这对跨被试分类至关重要。
本文是 KAN 在认知负荷分类中的早期应用之一。近期 KAN-EEG(Herbozo Contreras et al., 2025, Royal Society Open Science)在癫痫检测中已验证了 KAN 的跨数据集泛化优势。
3.5 双向多头交叉注意力融合(MHCAF)
三个分支的特征不采用简单拼接,而是通过双向交叉注意力进行自适应融合。具体而言:CNN 特征作为 Query、GCN 特征作为 Key/Value 生成第一路注意力输出(让时域特征选择性关注相关的空间信息),同时 GCN 特征作为 Query、CNN 特征作为 Key/Value 生成第二路输出(让空间特征选择性关注相关的时域信息)。两路输出经残差连接和前馈网络后拼接,再与 KAN 分支的输出进行最终拼接,形成综合特征向量。
双向设计的关键优势在于:时域上下文可以增强空间特征的判别力,空间动态也可以反向指导时域特征的选择,实现了比单向注意力更充分的跨模态交互。
3.6 层次化胶囊分类器(HCC)
分类器采用胶囊网络(Sabour, Frosst & Hinton, NeurIPS 2017)替代常见的全连接分类头。与标量输出的传统神经元不同,胶囊以向量为输出单元——向量的模长编码实体存在的概率,方向编码实例化参数(如特征的具体属性)。
胶囊网络的核心机制是动态路由(Dynamic Routing):低层胶囊通过迭代协议过程决定向哪个高层胶囊发送信息。在每轮迭代中,低层胶囊的预测向量与高层胶囊的当前输出计算一致性,一致性高的连接被增强,低的被抑制。这一过程本质上是一种可学习的软注意力机制,能够自动发现特征的部分-整体层次关系。
本文使用 32 个 8 维主胶囊和基于类别数的数字胶囊(16 维),通过 3 轮动态路由。胶囊网络对 EEG 分类的优势在于:向量表示能够同时编码多个特征属性,对被试间/试次间的高变异性更鲁棒。TC-Net(2022)已在 DEAP 情绪识别数据集上用 Transformer+Capsule 达到 98.76% 的准确率,验证了胶囊网络在 EEG 分类中的有效性。
3.7 两阶段分类策略
分类采用层级式设计:第一阶段为二分类(静息态 vs. 负荷态),第二阶段在负荷态内部进行三分类(低/中/高负荷)。这种策略先做粗粒度判断再细粒度分级,降低了直接多分类的难度。
四、数据集与实验设置
4.1 STEW 数据集(公开基准)
| 参数 | 详情 |
|---|---|
| 来源 | Lim et al. (2018), IEEE TNSRE |
| 被试 | 48 人(18-35岁男性大学生) |
| 设备 | Emotiv EPOC(消费级),14 通道,128 Hz |
| 范式 | 2.5 分钟静息 + 2.5 分钟 SIMKAP 多任务(视觉匹配、算术问答、时钟监控) |
| 标签 | NASA-TLX 1-9 量表 → 二分类(静息/负荷)+ 三分类(低 1-3 / 中 4-6 / 高 7-9) |
4.2 iNCog-EEG 数据集(自采集)
| 参数 | 详情 |
|---|---|
| 被试 | 40 人 |
| 设备 | KT88-3200(临床级),16 通道,200 Hz,10-20 标准导联 |
| 范式 | 5 分钟静息 + 三个 5 分钟多任务阶段(易/中/难),间隔 10 分钟休息 |
| 任务构成 | 四象限同时进行:数学运算 + N-back 记忆匹配 + 物体追踪 + 反应抑制 |
| 噪声设计 | 30 人干净数据 + 10 人含真实伪迹(EOG, EMG, ECG, 呼吸, 工频) |
两个数据集使用不同级别的设备(消费级 Emotiv vs. 临床级 KT88-3200),通道数(14 vs. 16)和采样率(128 vs. 200 Hz)也不同,互相验证增强了结论的跨硬件泛化可信度。
4.3 预处理与特征工程
预处理分两个阶段:重建前(带通 0.5-45 Hz + Z-score 标准化 → 合成伪迹注入 → CG-DDPM 重建)和重建后(精细带通 3-40 Hz → 去尖峰 → 50% 重叠滑窗 → 特征提取)。
从重建后的信号中提取 27 维手工特征,覆盖五个特征域:频域特征 2 个(均值/中值频率)、统计特征 6 个(均值、方差、偏度、峰度等)、熵特征 5 个(样本熵、近似熵、排列熵等)、频段功率 10 个(delta/theta/alpha/beta/gamma 各频段绝对与相对功率)、分形维度 4 个(Higuchi、Katz 等)。经 Z-score 归一化和 SMOTE 类别平衡后送入分类器。
4.4 评估方案
采用被试独立 5 折交叉验证:48 名(或 40 名)被试随机分为 5 组,每折中 4 组训练、1 组测试,确保训练集和测试集来自不同被试,防止被试级别的数据泄漏。在每折内部,训练集进一步按 80:10:10 划分为训练/验证/内部测试子集。
三种输入条件被系统对比:原始数据(Raw)、含噪/缺失数据(Noisy/Masked)、CG-DDPM 重建后数据(Reconstructed)。
五、核心实验结果
5.1 CG-DDPM 重建性能
| 指标 | CG-DDPM | 理想范围 | 说明 |
|---|---|---|---|
| SNR | 16.50 dB | >20 dB | 信号功率约为噪声的 45 倍 |
| MSE | 14.23 (μV)² | <10 | 中等失真水平 |
| MAE | 3.45 μV | <3-5 μV | 达到可接受下限 |
| CC | 0.86 | >0.85 | 时域波形强相关 |
| SC | 0.79 | >0.8 | 频谱保真度接近理想 |
与替代生成模型的直接对比(所有模型均搭配 EEGGX-Net 分类器):
| 重建方法 | SNR | CC | SC | STEW 二分类 | STEW 三分类 |
|---|---|---|---|---|---|
| TAE(传统自编码器) | 10.85 | 0.59 | 0.48 | 90.88% | 84.13% |
| VAE | 11.21 | 0.67 | 0.54 | 88.42% | 85.44% |
| GAN | 13.40 | 0.70 | 0.61 | 94.72% | 88.92% |
| CG-DDPM | 16.50 | 0.86 | 0.79 | 98.86% | 98.65% |
CG-DDPM 在所有指标上全面领先。尤其值得关注的是 CC 从 GAN 的 0.70 提升至 0.86(+23%),SC 从 0.61 提升至 0.79(+30%),说明扩散模型在时频两个维度上对 EEG 波形的保真能力均远超 GAN。这一优势直接传导至下游分类性能:三分类准确率从 GAN 的 88.92% 跃升至 98.65%。
5.2 STEW 数据集分类性能
二分类(静息 vs. 负荷)对比:
| 模型 | 原始数据 | 含噪/缺失数据 | 重建后数据 |
|---|---|---|---|
| SSGCNet (2023) | 93.04% | 82.10% | 90.07% |
| MTCN (2024) | 94.88% | 83.46% | 91.38% |
| FBSTCNet (2024) | 97.02% | 90.02% | 95.23% |
| GMAEEG (2024) | 96.15% | 87.13% | 94.31% |
| EEG-DG (2024) | 97.72% | 89.19% | 96.28% |
| EEGGX-Net | 99.74% | 92.43% | 98.86% |
三分类(低/中/高负荷)对比:
| 模型 | 原始数据 | 含噪/缺失数据 | 重建后数据 |
|---|---|---|---|
| SSGCNet (2023) | 90.66% | 78.59% | 86.24% |
| MTCN (2024) | 92.57% | 81.33% | 89.91% |
| FBSTCNet (2024) | 95.89% | 87.12% | 92.35% |
| GMAEEG (2024) | 93.25% | 83.05% | 90.98% |
| EEG-DG (2024) | 96.82% | 86.80% | 94.24% |
| EEGGX-Net | 99.65% | 90.95% | 98.65% |
三个关键观察:
- 所有模型在含噪条件下性能大幅下降(7-12 个百分点),验证了伪迹鲁棒性是实际部署的刚性需求
- 经 CG-DDPM 重建后,所有模型性能均显著恢复,证明扩散重建对下游分类具有模型无关的普适价值
- EEGGX-Net 在三种条件下均全面领先,且在含噪条件下的性能衰减最小(二分类仅降 ~7%,而 SSGCNet 降 ~11%)
统计显著性经 p 值确认:EEGGX-Net 与各基线模型的差异大多达 p < 0.005。
5.3 iNCog-EEG 外部验证
| 任务 | 原始数据 | 含噪数据 | 重建后数据 |
|---|---|---|---|
| 二分类 | 98.79 ± 0.07% | 88.80 ± 0.85% | 98.00 ± 0.12% |
| 三分类 | 97.55 ± 0.08% | 85.50 ± 0.01% | 95.64 ± 0.10% |
在不同设备(KT88-3200 vs. Emotiv EPOC)、不同通道数(16 vs. 14)、不同被试群体上仍保持二分类 >98%、三分类 >95%,验证了框架的跨数据集泛化能力。
5.4 消融实验
CG-DDPM 消融(逐步添加组件):
| 配置 | 关键改变 | SNR | CC |
|---|---|---|---|
| S-1 | 基线:高斯噪声 + ResNet + CVAE | 12.18 | 0.74 |
| S-2 | 替换为 Laplace 噪声 | 8.18 ↓ | 0.70 |
| S-4 | +倒残差块 | 13.10 | 0.78 |
| S-5 | +条件编码器 | 14.07 | 0.79 |
| S-7 | +双重注意力(空间+通道) | 15.45 | 0.83 |
| S-8 | 完整模型 | 16.50 | 0.86 |
S-2 的结果值得特别关注:将高斯噪声替换为 Laplace 噪声后,SNR 从 12.18 骤降至 8.18,证实了高斯噪声建模假设对 EEG 扩散模型的关键性。其余组件的逐步引入带来了稳定递增的性能提升,验证了各模块的独立贡献。
EEGGX-Net 消融:
| 配置 | 二分类准确率 | 关键改变 |
|---|---|---|
| S-1 | 91.82% | 最小配置:1 层 GCN, 浅层 KAN, 4 个胶囊 |
| S-2 | 89.45% ↓ | 隐藏维度不足(瓶颈) |
| S-3 | 93.76% | 加深 KAN |
| S-5 | 96.28% | 更多 GCN 层 + 更多胶囊 |
| S-8 | 98.86% | 完整模型:3 层 GCN, 3 层 KAN, 4 头注意力, 8 维胶囊 |
5.5 可视化验证
t-SNE 特征可视化:原始 EEG 特征中静息态和负荷态严重重叠;含噪后重叠加剧;CG-DDPM 重建后聚类明显收紧、类间分离增大;经 EEGGX-Net 编码后达到最清晰的类间分离。这一渐进式改善直观验证了"重建-分类"流水线的有效性。
脑地形图可视化:对 6 种伪迹污染的信号,CG-DDPM 重建后的头皮电位分布与原始干净信号高度一致,空间连贯性良好。即使在极端条件下(>50% 掩码、强工频干扰,原始 SNR 低至 -4.4 dB),重建后 SNR 可提升至 11-17 dB。
5.6 计算效率
| 模块 | 推理延迟(batch=128) | 吞吐量 | 参数量 | 模型大小 |
|---|---|---|---|---|
| CG-DDPM | 153.65 ms | 833.05 Hz | 4.30 M | 16.42 MB |
| EEGGX-Net | 73.17 ms | 1749.40 Hz | 2.77 M | 43.75 MB |
硬件平台为 NVIDIA RTX 3090 Ti(32GB)。两模块合计延迟约 227 ms,对于典型认知负荷评估窗口(250-500 ms)接近可用,但尚未达到严格实时 BCI 的要求(<100 ms)。
六、局限性与批判性分析
6.1 STEW 二分类准确率的可信度
STEW 二分类 >98% 需要审慎解读。Pušica et al.(2025, Frontiers in Neuroergonomics)明确指出:STEW 的二分类本质上是区分"静息"和"SIMKAP 多任务"两种截然不同的实验条件——NASA-TLX 评分 1-4 几乎全部聚集在静息态,6-9 聚集在任务态。这意味着分类器可能在很大程度上检测的是"是否在执行任务"而非纯粹的"认知负荷水平"。三分类结果(在负荷态内部区分低/中/高)才是更有诊断价值的指标。
6.2 合成噪声与真实伪迹的差距
实验中的伪迹是以加性方式叠加在干净信号上的合成噪声。但真实场景中,伪迹与神经信号以非线性方式交互——电极阻抗变化、头部运动导致的接触不良、被试特异性伪迹形态等,并非简单的加法关系。尽管 iNCog-EEG 中 10 名被试含有真实伪迹,但其规模尚不足以全面验证模型在真实噪声条件下的表现。
6.3 人口统计学局限
STEW 的 48 名被试全部为 18-35 岁男性大学生,iNCog-EEG 也仅 40 人。在女性、老年人、神经发育障碍群体等更广泛人群上的表现完全未知。鉴于 EEG 特征存在显著的年龄和性别相关差异(如老年人 alpha 峰频率下降),这一局限不可忽视。
6.4 缺少跨语料库迁移实验
论文在两个数据集上分别训练、分别测试,但未进行"在 STEW 上训练,在 iNCog-EEG 上直接测试"的零样本迁移实验。考虑到两个数据集使用不同设备、不同导联系统和不同采样率,这一实验虽然极具挑战性,但恰恰是泛化能力的终极考验。
6.5 扩散模型的推理开销
CG-DDPM 的 153.65 ms 延迟在离线分析(如班次结束后的回顾性评估)中可以接受,但对需要亚 100 ms 响应的实时 BCI 场景仍有差距。论文未探讨 DDIM 加速采样(Song et al., ICLR 2021)、渐进蒸馏(Salimans & Ho, 2022)或潜在空间扩散(Rombach et al., 2022)等加速方案,这是走向实际部署的必经之路。
6.6 手工特征 vs. 端到端学习
分类阶段使用 27 维手工提取特征(而非原始波形输入),增加了特征工程的人工成本,也可能遗漏手工特征未覆盖的判别信息。端到端学习方案(直接从重建后的时间序列中自动提取特征)值得后续探索。
七、个人思考与总结
7.1 这篇论文的主要贡献
对 EEG 信号处理:扩散模型正在成为 EEG 去噪的新范式。从 2024 年的 EEGDfus 到本文的 CG-DDPM,扩散模型在 EEG 重建中展现出对 VAE 和 GAN 的系统性优势。CG-DDPM 的 CVAE 形态先验 + 条件编码器的架构设计,为后续"条件引导扩散去噪"方向提供了可复用的参考框架。
对认知负荷识别:本文确立了"先重建后分类"的务实路径——接受信号在实际场景中必然含噪,用生成模型修复后再分类,而非假设输入是干净的。这一范式转变对推动 EEG-BCI 从实验室走向实际部署具有重要意义。
对 EEG 深度学习架构设计:CNN+GCN+KAN 三分支 + 交叉注意力融合 + 胶囊分类器的组合,体现了当前 EEG 分类的设计趋势——不依赖单一架构,而是让不同架构覆盖信号的互补信息维度,再通过注意力机制进行自适应融合。这一"多分支+交叉注意力"的设计范式与 DGC-TSAR、MAS-DGAT-Net、GCANet 等近期工作高度一致。
7.2 一些值得进一步思考的问题
- CG-DDPM 的重建过程是否可能引入系统性偏差?即重建信号是否在某些条件下增强了原始信号中并不存在的模式,从而"帮助"了分类器?对此需要更细致的频段分析和因果验证。
- KAN 相对于精心调优的 MLP(使用 GELU、Swish 等现代激活函数)的实际优势有多大?在小数据集上 KAN 表现优异,但其在大规模 EEG 数据上的表现仍待验证。
- 跨语料库迁移(在 STEW 上训练、iNCog-EEG 上测试)的性能如何?这一实验的缺失是当前工作最大的遗憾之一。
- 如果将手工特征替换为端到端的原始波形学习,EEGGX-Net 的三分支设计是否仍然有效?
附录:核心参考文献
- Shafi, F.B. et al. "Fusion-driven EEG reconstruction and cognitive workload recognition using conditional diffusion and graph-based learning." Advanced Engineering Informatics 71, 104243 (2026).
- Ho, J., Jain, A., Abbeel, P. "Denoising Diffusion Probabilistic Models." NeurIPS (2020).
- Liu, Z. et al. "KAN: Kolmogorov-Arnold Networks." ICLR (2025).
- Sabour, S., Frosst, N., Hinton, G. "Dynamic Routing Between Capsules." NeurIPS (2017).
- Lim, W.L. et al. "STEW: Simultaneous Task EEG Workload Dataset." IEEE TNSRE 26(11), 2106-2114 (2018).
- Chikhi, S. et al. "EEG power spectral measures of cognitive workload: A meta-analysis." Psychophysiology 59(6), e14009 (2022).
- Herbozo Contreras, L.F. et al. "KAN-EEG: towards replacing backbone-MLP for an effective seizure detection system." Royal Society Open Science 12(3), 240999 (2025).
- Huang, H. et al. "EEGDfus: A Conditional Diffusion Model for Fine-Grained EEG Denoising." IEEE JBHI (2024).
- Pušica, M. et al. "STEW dataset benchmark analysis." Frontiers in Neuroergonomics (2025).
💬 如果这篇解读对你有帮助,欢迎点赞、收藏、关注,也欢迎在评论区讨论!
本文为论文阅读笔记,仅代表个人理解,如有错误欢迎指正。