跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
Python

基于多分支融合 Transformer 的原始脑电数据运动想象解码

MI-MBFT:基于多分支融合 Transformer 框架的原始脑电数据运动想象解码增强方法 **全名**:MI-MBFT: Superior Motor Imagery Decoding of Raw EEG Data Based on a Multi-Branch and Fusion Transformer Framework **Authors**:Jingjing Luo, Qiyin…

DevStack发布于 2026/4/6更新于 2026/5/2284K 浏览

MI-MBFT:基于多分支融合 Transformer 框架的原始脑电数据运动想象解码增强方法

全名:MI-MBFT: Superior Motor Imagery Decoding of Raw EEG Data Based on a Multi-Branch and Fusion Transformer Framework

Authors:Jingjing Luo, Qiying Cheng, Hongbo Wang, Qiang Du, Youhao Wang and Yang Li

Abstract

问题:EEG 的非平稳特性及其时空特征对大脑状态和环境因素的易感性带来了巨大的挑战。大多数深度学习解码网络倾向于关注局部特征,导致其在适应全局依赖关系时存在局限性。

解决方法:本文提出了一种端到端的多分支和融合转换器 (MBFT) 框架,通过自注意力机制自动找到 EEG 信号中最重要的部分。由于运动想象 EEG 信号包含多个频段的节律特征,设计了多分支 Transformer 结构来同时处理不同频段的信息,并通过多头注意力机制将这些信息融合起来。

总结:

MBFT 做了三件事:

  • 多分支结构(Multi-Branch):针对不同的频带并行提取特征。
  • Transformer 编码器——自注意力机制(Self-Attention):自动识别一段长长的脑电序列中,哪些时间点、哪些位置的信号最关键。
  • 融合转换(Fusion Transformer):在各个分支提取完局部特征后,MBFT 并没有直接输出结果,而是进行了一次融合。

效果:

  • BCI Competition IV 2a Dataset 上为 86.93%
  • BCI Competition II-III 数据集上为 94.64%
  • MMIDB 数据集上达到了 93.52%,均达到了新的最先进水平 (State-of-the-Art, SOTA)。

该方法探索了一种可能更适合 MI-EEG 解码的新型网络结构,有助于提高 BCI 系统的性能。

目录

  • Abstract
  • 一、INTRODUCTION
  • 二、MATERIALS AND METHODS
    • 2.1 The datasets used
    • 2.2 Data Pre-processing
    • 2.3 Multi-Branch and Fusion Transformer Framework
      • 2.3.1 Initial feature extraction (IFE) block(初始特征提取 (IFE) 模块)
      • 2.3.2 Multi-freq branch (MFB) block(多分支模块)
      • 2.3.3 Fusion attention (FA) block(融合注意力 (FA) 模块)
      • 2.3.4 分类头
  • 三、实验结果
    • 3.1 训练策略与评估方法
    • 3.2 超参数调优
    • 3.3 模型对比
    • 3.4 训练过程对比
    • 3.5 混淆矩阵
    • 3.6 消融实验
    • 3.7 模型可视化
  • 四、DISCUSSION
  • 五、CONCLUSION

一、INTRODUCTION

目前用于 MI-EEG 解码的深度学习方法难以同时捕获时序 EEG 信号中的局部和全局特征。局部特征表示有限空间或时间窗口内的信息,关注瞬时的时空特征。相比之下,全局特征在整个 EEG 试验中捕获了更广泛的关系和模式,包括长期的时间依赖性。虽然基于 Transformer 模型显示出了希望,但它们需要进一步的探索和改进,以学习 MI-EEG 数据中的综合时空光谱特征。

为了解决这些限制并提高译码性能,我们提出了一种同时使用转换器和 MSA 技术的新结构。该架构利用基于卷积特征的多分支融合结构,从全序列长度数据中端到端捕获关键信息。该模型的动机是多分支变压器结构能够根据前面提取的局部特征通过卷积自主学习 EEG 信号的多维全局特征。此外,通过使用注意力融合机制,模型可以自适应地整合来自多个分支的特征,并选择最优的表示进行分类。

该模型分三步对 MI-EEG 数据进行处理:

  1. 首先,通过双层卷积操作和挤压激励 (SE) 注意力模块提取初始时空特征。
  2. 其次,将数据编码成序列的形式,通过多分支转换器模块探索整个序列上多个光谱的节律特征;
  3. 第三,通过进一步的 MSA 融合模块获得用于分类的独特的高层表示。

多支路和融合 Transformer 的结构

多支路和融合 Transformer 的结构。 (a) 初始特征提取 (IFE) 模块。(b) 多分支 (MFB) 模块。(c) 融合注意力 (FA) 模块。(d) 分类头。

研究贡献:

  1. 提出了一种高性能的多支路和融合变换 (MBFT) 框架,该框架结合 CNN、SE 注意力、多支路变换和 MSA 端到端的自适应学习脑电特征。
  2. 多支路变压器结构自适应地学习序列内部的相互依赖关系,从多个频率并行捕获全序列长度的关键元素。
  3. 多头融合模块自适应地学习分支之间的相互依赖关系,为分类提供更全面的特征选择。
  4. 通过实验验证和对比分析,该模型在多个公开数据集上表现出优异的分类性能,超过了当前最先进的方法。

论文的其余部分组织如下:第二节介绍了提出的模型。第三节展示了模型的性能,并描述了模型的可解释性。第四节讨论结果。第五部分对本研究进行了总结。

二、MATERIALS AND METHODS

2.1 The datasets used

  • The BCI competition IV dataset 2a (referred to as Dataset 2a)
  • The BCI competition II dataset III (referred to as Dataset II-III)
  • The MMIDB dataset

关于 Datasets 的 introduction 会另外说明。

2.2 Data Pre-processing

  1. 对连续的原始数据进行基于事件标记的切分,记录每个运动 MI 任务的开始。
  2. 所有数据集均选择 MI 任务开始后 4 秒的数据长度。
  3. 使用基于汉明窗的有限脉冲响应 (FIR) 滤波器对数据进行 1 ~ 40 Hz 的带通滤波,以去除 60 Hz 以上的高频肌电 (EMG) 伪迹和 50 Hz 处的直流 (DC) 偏置,同时保留 MI 活动的节律和波形特征。
  4. 我们对所有数据集中每个试次的 4 秒段进行了 250 Hz 的重采样,以实现 1000 个数据点的统一长度。

Z-score 标准化处理,作为一种成熟的预处理技术,该过程有助于将信号的总体均值集中在 0 附近,并将其偏差标准化为 1,从而最小化信号值变化的影响。此外,该过程通过确保模型输入落在 sigmoid 函数的最佳激活范围内,增强了深度学习模型训练的有效性,从而促进了更稳定和一致的神经网络训练。

2.3 Multi-Branch and Fusion Transformer Framework

MBFT 模型由三个主要模块组成:由 TSConv 模块和 SE 注意力模块组成的初始特征提取 (IFE) 模块,由四个并行块嵌入和 Transformer 编码器分支组成的多特征分支 (MFB) 模块,和融合注意力 (FA) 模块主要与多头自注意力模块最后由分类模块分类。

2.3.1 Initial feature extraction (IFE) block(初始特征提取 (IFE) 模块)

IFE 块旨在从原始数据中提取初始时空特征。它由TS-Conv 模块和SE 注意力模块组成。TS-Conv 模块包括两个时间和空间卷积层,如图所示。时间卷积层采用 40 个核大小为 (1, 50) 的滤波器,其对采样率为 250 Hz 的 EEG 提取的特征覆盖的时间尺度为 0.2s,相当于 5 Hz 以上的高通滤波。我们使用零填充来保持输出与输入相同的大小。然后,将 40 个特征图输入到空间卷积层。空间卷积层的核设置为 (C, 1),在数据集 2a 中为 (22, 1),它关注所有电极通道之间的权重分配。考虑到投影空间模式的主成分在经验上少于电极数量,我们将空间卷积的输出设置为 16 个特征图。在卷积后加入批量归一化、激活层和 dropout,加速收敛,防止过拟合。TS-Conv 模块的输出是一个宽度为 16,高度为 1000 的 2D 特征图,对应空间位置和时态信息。

**通俗来讲,IFE(Initial Feature Extraction,初始特征提取块)**它的任务是把杂乱的原始脑电信号,初步整理成计算机更容易理解的'特征图'。

2.3.1.1 TS-Conv 模块:时空双重过滤(包含时间卷积和空间卷积)

脑电信号是二维的:横向是时间(Time),纵向是通道(Space,即头皮上的电极)。

A 时间卷积层(Time Domain)—— '提取节奏'

  • 它是做什么的:像一个滑动的放大镜,沿着时间轴扫描。
  • 关键数据:卷积核大小为 $(1, 50)$。在 $250\text{Hz}$(每秒采样 250 次)的速率下,$50$ 个点正好代表 $0.2$ 秒。
  • 物理意义:这个操作相当于一个 $5\text{Hz}$ 的高通滤波器,目的是滤除低频噪声(如漂移),保留运动想象中关键的高频波动信息。
  • 结果:这一步产生了 40 个特征图,意味着它从 40 个不同的角度(滤波器)去观察时间变化。

B 空间卷积层(Spatial Domain)—— '定位脑区'

  • 它是做什么的:此时放大镜垂直旋转,跨越所有的电极通道进行扫描。
  • 关键数据:卷积核大小为 $(C, 1)$。在 BCI Competition IV 2a 数据集中有 22 个电极,所以就是 $(22, 1)$。
  • 物理意义:它的目的是计算各个通道之间的权重。比如,当你脑子里想踢球时,头顶区域的电极信号可能比耳后的更重要,空间卷积就会给头顶电极更高的权重。
  • 精简信息:作者提到'主成分少于电极数',所以将 40 个特征图压缩到了 16 个。这相当于一种'降维',剔除了冗余干扰,只保留最核心的 16 种空间模式。
2.3.1.2 输出结果的含义

经过上述处理,IFE 块输出一个 16 X 1000 的特征图:

  • 16(高度/空间维度):代表提取出的 16 种不同的空间特征。
  • 1000(宽度/时间维度):代表原始的 1000 个时间点。
2.3.1.3 辅助模块:SE 注意力与性能优化

SE 注意力模块(Squeeze-and-Excitation):

在卷积之后,SE 模块会再次对这 16 个特征通道进行'打分',加强重要的通道,抑制不重要的通道,实现特征的自适应增强。

标准化与防止过拟合:

  • Batch Normalization(批归一化):让数据分布更稳定,训练速度更快。
  • Activation(激活层):引入非线性,让模型能理解复杂的逻辑。
  • Dropout(随机失活):训练时随机'关掉'一部分神经元,防止模型只会死记硬背(过拟合)。
2.3.2 Multi-freq branch (MFB) block(多分支模块)

MFB 块是 MBFT 模型的中心部分,负责将初始特征划分为多个频段,并捕获全序列长度 EEG 数据中的关键元素信息。它包含四个并行的Transformer 编码器 (Transformer Encoder, TE) 模块,每个模块前都有一个补丁嵌入 (Patch Embedding, PE) 模块。

  1. 传统的 Transformer 直接把数据切成一块块(Patch),这会丢失局部连续性。这里改用 2D 卷积 来'切',在降维的同时保留了相邻时间点和通道之间的关联,并进一步编码了序列 Token 之间的关系。
  2. 为了增强模型同时捕获'时 - 频'和'空 - 时'信息的能力,PE 模块构建了四个分支:
    • 低维特征的长序列 (200, 10):采样精细,对应高频信息(25 Hz)。
    • 高维特征的短序列 (25, 80):采样粗糙但特征维度深,对应低频信息(3.125 Hz)。

具体而言,四个分支的卷积核尺寸配置为

$$ (s, r_{Ti}) $$

,其中

$$ s = 16 $$

是来自 SE 模块的全通道尺寸,

$$ r_{Ti} \in {5, 10, 20, 40} $$

对应于 PE 时间特征的尺寸缩减比例(按两倍递增设置)。PE 模块提供了多个感受野,能够有效地聚焦于与所选值对齐的不同时间尺度,确保来自四个分支的特征表示充分且平衡。为了补偿由于不同

$$ r_{Ti} $$

嵌入导致的不同特征长度造成的信息损失,PE 模块的滤波器数量分别设置为 10、20、40 和 80。当序列变短时,增加滤波器的数量(10 -> 80),保证了信息的总量平衡。

对于尺寸为

$$ (16, 1000) $$

的初始特征图,我们分别得到了维度为

$$ (200, 10) $$

、

$$ (100, 20) $$

、

$$ (50, 40) $$

和

$$ (25, 80) $$

的特征序列。第一维是序列长度,第二维是嵌入维度。

基于原始 250 Hz 的采样频率,时间卷积允许网络模块分别主要聚焦于 25 Hz、12.5 Hz、6.25 Hz 和 3.125 Hz 附近的特定频段。

这些频带对应于体感节律的

$$ \alpha $$

和低

$$ \beta $$

频段(已知富含运动想象信息),从而实现了在更广泛的 MI 相关频率范围内提取多种时空特征及其耦合。

据此,我们将这四个分支分别称为:高频分支、中频 1 分支、中频 2 分支和低频分支。

PE 模块中 2D 卷积的等式如下:

$$ X_{Si} = PE(X, W_i) = \text{Conv2D}(X, W_i) + b_i $$

其中

$$ X_{Si} $$

是第

$$ i $$

个分支的输出特征序列,

$$ X $$

是输入特征图,

$$ W_i $$

是第 $i$ 个分支的卷积核,

$$ b_i $$

是偏置项。

第二步:位置感知 (Positional Embedding)

由于 Transformer 本质上是对称的(即它不知道序列的先后顺序),通过加上 $P_i$,模型才能理解'这是脑电信号的前段,那是后段'。

在通过卷积生成 EEG 补丁后,我们在序列中添加了一组可学习的位置嵌入 (Positional Embedding) 参数以包含空间信息。因为模型无法自发学习 Token 之间的序列关系,添加反映位置关系的额外信息会有所帮助。这些位置嵌入参数与特征序列尺寸相同,通过线性累加影响训练。位置嵌入等式如下:

$$ X'{Si} = X{Si} + P_i $$

第三步:深度关系挖掘 (TE 模块)
  • MSA (多头自注意力):让模型去发现不同时间点之间的关联。例如,第 10 毫秒的信号可能与第 500 毫秒的信号有某种运动想象相关的联系。
  • GELU & LN:引入随机性增强稳健性,并确保训练过程中的梯度稳定。

我们选择在实验表现最佳的 3 层 TE。每层主要由一个多头自注意力 (MSA) 模块和一个逐位置前馈网络 (FFN) 组成。逐位置 FFN 由两个全连接 (FC) 层组成,中间带有 GELU 激活函数,扩展率为 4。层归一化 (LN) 置于每个模块之前,并采用残差连接。i-th Transformer 分支的等式可归纳为:

$$ B_i = \text{TE}_3(PE(X, W_i), P_i) $$

经过三层 Transformer 编码后,长序列侧重于高频时空分布的全局信息,而短序列侧重于低频全局信息。MFB 块充分利用了来自不同频段序列内的相互依赖关系。

总结

MFB 块的本质是一个'分频段的高级特征提取器'。

  1. 它将 EEG 信号模拟成广播的不同频道(高频到低频),每个频道由一个专门的 Transformer 分支去处理。
  2. 它通过 2D 卷积解决了空间(电极位置)和时间(信号演变)特征的初步融合,再通过 Transformer 解决长程的全局依赖问题。

该设计精准捕捉了脑电中的

$$ \alpha $$

和

$$ \beta $$

波(MI 任务中最关键的波段)。

最终结果: 得到的四个分支输出

$$ B_i $$

分别代表了大脑在不同频率下运动想象的'全景视图',为后续的分类决策提供了极高价值的特征。

2.3.3 Fusion attention (FA) block(融合注意力 (FA) 模块)

FA 模块旨在融合来自之前 MFB 模块输出的四个高层表示,以获得用于分类的最终特征。它包括用于汇总各分支输出的拼接操作以及用于自适应学习各分支间权重关系的 MSA 模块,从而关注每个分支在分类中起主导作用的关键元素。

把之前产生的四个'频率频道'的数据融合成一个最终的决策特征。其处理流程可以分为三个关键步骤:

第一步:对齐与标准化 (Compression & Upsampling)

在上一段中,四个分支产生的特征矩阵大小不一(例如 200x10 和 25x80)。

  • GAP (全局平均池化):消除时间长度差异。它把每一个分支从'序列'变成了一个'特征向量'。以压缩每个分支的信息。
  • 线性插值上采样:消除维度差异。通过线性插值上采样保持其他分支的特征维度与'低频分支'一致。由于'低频分支'的特征最丰富(80 维),模型把其他三个分支也拉伸到 80 维。

结果: 在拼接(Concatenation)之后,我们使用 MSA(多头自注意力) 模块来优化这四个分支特征上的注意力权重。得到了 4 个长度均为 80 的向量,合并后形成一个

$$ (4, 80) $$

的矩阵。MSA 采用如图 2(b) 所示(论文中)

缩放点积注意力公式如下:

$$ \text{Attention}(Q, K, V) = \text{softmax}\left( \frac{QK^T}{\sqrt{D_k}} \right)V = AV $$

其中,

$$ N $$

和

$$ M $$

表示查询和键(或值)的长度,此处它们都等于特征序列的长度

$$ L $$

;

$$ D_k $$

和

$$ D_v $$

表示键(或查询)和值的维度,此处它们都等于特征序列的嵌入大小

$$ D $$

;

$$ A $$

被称为注意力矩阵;

$$ 1/\sqrt{D_k} $$

是缩放因子,用于缓解 softmax 函数的梯度消失问题。

第二步:跨频率权重分配 (MSA Module)

这是本段的核心。为什么要用 MSA?

  • 寻找关联:高频分支的信息和低频分支的信息并不是孤立的。MSA 的作用是让模型自动学习:'在当前的运动想象任务中,我是该多关注 25Hz 的信号,还是 3.125Hz 的信号?'
  • 多头(Multi-head)的作用:不同的'头'可以从不同的侧面观察这四个频段的关系。有的头可能发现 α 波和 β 波的耦合,有的头可能专注于某个特定频段的强度。

MSA 模块将原始序列在特征维度上分割成多个等长的子序列,并并行计算缩放点积注意力,从而在特征序列内部形成多种互注意力模式。

$$ Q $$

、

$$ K $$

和

$$ V $$

使用

$$ H $$

组不同的线性全连接投影进行估算。输出是根据公式对每个投影后的查询、键和值计算得到的。因此,MSA 可以通过线性投影获得多组

$$ Q $$

、

$$ K $$

、

$$ V $$

子集,并在多种注意力分配模式下并行计算后进行拼接。MSA 的运行公式如下:

$$ \text{MSA}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_H)W^O $$

$$ \text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V) $$

其中,

$$ W_i^Q $$

、

$$ W_i^K $$

、

$$ W_i^V $$

和

$$ W_i^O $$

是投影参数矩阵。

FA 块的输出是重新校准后的高层特征堆叠,尺寸为

$$ (4, 80) $$

。

第三步:缩放点积注意力的数学保障
  • 重新校准 (Re-calibrated):经过 MSA 后,原始的特征被重新分配了权重。重要的频段特征被放大,不重要的被抑制。

Softmax + 缩放因子

$$ \sqrt{D_k} $$

: 这是为了防止计算出的数值过大导致梯度消失,确保模型能稳定地更新参数。

总结

MBFT 模型的'决策融合层':

  1. 它解决了四个分支输出形状不一的问题,通过池化和插值将它们强行对齐到相同的维度(80 维)。
  2. 它没有简单地把四个分支的结果相加,而是引入了 Transformer 的核心——多头自注意力机制。

这实际上是在模拟大脑在进行运动想象时,不同频率脑电波之间的交互和权重分配。最终输出的

$$ (4, 80) $$

特征矩阵,是经过全盘考虑、权衡了高低频贡献后的'精炼版'运动想象特征。

一句话: MFB 块负责'分头提取',而这一段描述的 FA 过程负责'聪明地整合'。

2.3.4 分类头

分类头是一个基于前一阶段提取的高级时空 - 频谱特征进行分类的模块。在此阶段,模型使用 全局平均池化 (GAP) 计算平均特征作为分类标识符,并使用 全连接 (FC) 模块作为分类器。FC 模块前放置了一个 层归一化 (LN) 层,用于归一化特征元素内的上下文关系。FC 层的输出神经元数量对应于运动想象 (MI)-EEG 的类别数。在本研究中,Dataset 2a 有 4 个类别,而 Datasets II-III 和 MMIDB 各有 2 个类别。

为了促进每个分支提取具有辨别性的特征,真实标签对每个分支都是可见的。整个模型由 五个独立的分类头 组成:分别位于四个频率分支的末端以及 FA 块之后。模型根据每个分类头的输出与相应真实类别标签之间的差异,同时计算 交叉熵损失 (Cross-Entropy Loss)。模型优化的目标是最小化总损失值,公式如下:

$$ \theta^* = \arg \min_{\theta}(loss_{high} + loss_{mid1} + loss_{mid2} + loss_{low} + loss_f) $$

其中,

$$ loss_{high} $$

、

$$ loss_{mid1} $$

、

$$ loss_{mid2} $$

和

$$ loss_{low} $$

代表四个分支的损失值,

$$ loss_f $$

代表网络末端的损失值。

1. 深度监督机制 (Deep Supervision)

通常的模型只有一个输出口(分类头)。但 MBFT 模型设计了 5 个出口:

  • 4 个分支出口:强迫高、中、低频每个分支都要具备独立分类的能力。这意味着每个分支不仅仅是特征的搬运工,必须提取出真正对分类有用的信息。
  • 1 个最终出口:在特征聚合(FA)之后,汇聚所有信息进行最终判决。

这种设计的好处是:防止梯度消失,并确保模型在处理不同频段脑电信号时,每一个频段都得到了充分的权重训练。

2. 分类器的构成
  • GAP (全局平均池化):替代了传统的 Flatten(展平)操作。GAP 极大地减少了模型参数量,防止过拟合,这在样本量较小的脑电数据集上非常有效。
  • LN (层归一化):在分类前整理特征分布,让 FC 层更容易'看懂'数据。
3. 验证策略
  • 10 折交叉验证:数据被分为十份,每份轮流用于测试,其余用于训练。十次训练的平均准确率用于衡量模型性能。通过对比该模型与其他先进方法在预测准确率和训练过程中的表现,来验证其优越性。
  • t-SNE 可视化:这是一种强大的降维工具,可以将 80 维的复杂特征投影到 2 维平面上。如果分类效果好,你会看到代表不同运动想象(如左手 vs 右手)的点在图中明显聚集成不同的簇。
  • 消融实验:探索各模块的贡献。

研究价值: 这种设计充分照顾了脑电信号'非平稳'和'多频段融合'的特性。通过 Transformer 捕捉长距离依赖,通过多分支处理频率差异,通过多分类头强化监督,最终在复杂的运动想象任务中取得了领先性能。

三、实验结果

3.1 训练策略与评估方法

  1. 训练配置(复现关键)

    • 硬件/软件:Ubuntu 18.04 系统上验证,使用 Python 3.6 语言和 PyTorch 1.10.1 + CUDA 10.2 框架
    • 正则化:Dropout (0.5) 是一个相对较高的值,这表明 EEG 数据通常噪声较大且样本量有限,高 Dropout 率有助于防止模型过拟合。
    • 优化器:Adam 是目前最主流的选择,结合 $$ 10^{-3} $$ 的学习率,批处理大小(Batch Size)为 100,训练周期(Epoch)为 200。
  2. 评估机制(科学性)

    • 10 折交叉验证 (10-fold CV):这是机器学习中评估模型稳健性的金标准。将数据被分为十份,每份轮流作为测试集,其余九份用于训练。十次训练会话的平均准确率被用于衡量模型性能。确保结果不是因为运气(选到了容易的数据)产生的,而是模型真实的泛化能力。
    • 跨会话 (Cross-session):这是一个难点。脑电信号在不同时间(会话)采集时会有明显波动,跨会话验证证明了该模型在实际应用中处理信号不稳定性的能力。
  3. 研究深度

    • 消融实验 (Ablation Experiments):就像拆掉赛车的零件看哪部分最关键一样。作者会逐个关闭多频分支(MFB)或特征聚合(FA)模块,证明每个部分都是不可或缺的。
    • t-SNE 可视化:这是一种降维算法,将高维的脑电特征降到 2 维。如果图中的不同颜色(代表不同动作)点群分得越开,说明模型的'分类眼光'越精准。

3.2 超参数调优

在选择每个分支中 MSA 模块的 transformer 层数和头数时,我们根据在数据集 2a 上的平均结果选择最优超参数。

  • 在实验中,各分支对 transformer 的敏感性相似,因此我们设置四个分支的层数一致。
  • 为了平衡模型性能和复杂性,我们进行了层数从 1 到 6 的实验。
  • 整个模型涉及在两个位置调整 MSA 头的数量:每个分支的 transformer 模块以及融合模块。
  • 为了让模型能够自适应地学习每个分支中的各种注意力模式,我们没有引入先验差异,而是保持各分支 transformer 各层的 MSA 头数一致。
  • 考虑到四个分支序列的最小特征维度为 10,我们探索了 10 的因子作为头数,即 1、2、5 和 10。
  • 在融合模块中,考虑到特征维度为 80,我们探索了 4、6、8 和 10 作为头数,以保持与各分支头数在同一数量级。

根据实验结果,我们选择了最优超参数,即每个分支 3 层 transformer,5 个 MSA 头,以及融合注意力 8 个头(见表 I)。所提出模型的整体结构和超参数设置列于表 II。

表 I

表 II

3.3 模型对比

将 MBFT 与近年来最先进的端到端方法进行了对比。所有方法均基于其在 Dataset 2a(四分类任务)上的测试准确率进行比较,对比结果取自相关论文,如表 III 所示。

表 III

为了验证 MBFT 模型的泛化能力,我们在另外两个公开数据集上进行了测试(见表 IV)。它在 Dataset II-III 上达到了 94.64%,优于近期的一系列基准算法。在 MMIDB 数据集的受试者内(Intra-sub)模式下得分 93.52%,在跨受试者(Cross-sub)模式下得分 84.07%,均处于顶尖水平。

表 IV

3.4 训练过程对比

我们对比了两个端到端基准模型(EEGNet 和 ShallowConvNet)与 MBFT 在 Dataset 2a 受试者 1 上的训练 - 测试准确率及损失曲线,如图 3 所示。为了保持一致性,对于 MBFT,我们仅绘制了融合后的分类损失值。

ShallowConvNet 的收敛速度最快(大约在第 5 个 Epoch 左右),这归功于其层数较少、结构更简单浅显。

EEGNet 的收敛速度最慢(大约在第 50 个 Epoch 左右),且经历了一个损失增加、准确率下降的波动期。

MBFT 虽然由于参数量较大导致收敛速度慢于 ShallowConvNet,但它最终以高效且稳定的收敛过程实现了卓越的准确率。

最终性能排序为:MBFT > EEGNet > ShallowConvNet。

训练曲线

3.5 混淆矩阵

Dataset 2a 上 9 名受试者的平均混淆矩阵,其中 0-3 分别表示左手、右手、足部和舌头的运动想象类型(见图 4)。总体而言,所有四个类别的正确预测平均准确率均超过 80%,其中左手运动想象的准确率稍低,为 82%。大多数模型可能会将其误判为右手或足部想象,误判为舌头想象的情况较少。

混淆矩阵

3.6 消融实验

为了验证 MBFT 的主要部分,我们在 Dataset 2a 上进行了消融实验,通过移除模型的一个核心模块并评估剩余模型的整体性能。评估的模型如下:

  1. TS:移除两层时空卷积后的模型,此时 SE 注意力模块输入的通道数为 22。
  2. SE:移除 SE 注意力模块,将 TS 卷积的输出直接连接到 MFB 块。
  3. Uni-Brac(单分支):移除其他三个分支,仅保留一个分支。例如,'High-Freq'表示保留高频分支,移除中频和低频分支。
  4. FA:移除特征聚合模块,仅使用简单的堆叠进行融合。
  5. Uni-Loss:仅计算一个最终损失函数的模型。

大多数残缺模型的性能均差于完整模型(见表 V)。

消融实验

3.7 模型可视化

3.7.1 基于 t-SNE 的数据分布

我们使用 t-SNE 技术可视化了模型各阶段的数据分布变化(见图 5)。起初,四类数据分布混杂,无明显差异。经过 TS-Conv(时空卷积) 后,数据分布显示出局部聚集的变化,但部分个体点偏离了整体。经过 SE Attention(注意力) 处理后,数据集显示出簇类分离的趋势。经过**四个分支(MFB)后,同类别数据趋于聚合,不同类别趋于分离。然而,仍存在区域连接、类别间距不等或错位分布的现象。经过融合(Fusion)**后,2D 平面上显示出四个等间距的点簇。t-SNE 映射图说明了 MBFT 在各模块中对原始数据进行的步步分类,证明了模型掌握和分类数据本质特征的能力。

t-SNE

3.7.2 TS-Conv 隐藏层可视化

TS-Conv 模块采用一维卷积学习 40 个时间滤波器,在 250Hz 采样频率下,周期为 200 毫秒。为了可视化学习到的滤波器,我们绘制了 Dataset 2a 的 9 个模型中 40 个时间卷积滤波器的功率谱密度(PSD)曲线(见图 6 中的蓝色聚类线,黑线代表所有滤波器的平均 PSD 曲线)。所有时间滤波器主要集中在 30 Hz 以下的频率,这与**感觉运动节律(SMR)**频段相对应。

PSD

3.7.3 MFB 注意力图可视化

我们关注模型注意力机制捕捉到的关键时刻及其对应的事件信息,如图 7 的注意力热图所示。MFB 模块内的 MSA(多头自注意力) 模块可以辨识全序列中的多种注意力模式。在注意力矩阵中,某些行被突出显示,意味着这些时刻显著影响了其他时刻。我们在研究中将其称为高注意力时刻(HAMs)。

注意力图

在高频分支中,HAMs 密集分布于整个时间进程,热图颜色差异较均匀,表明高频分支对大多数时刻的关注相对一致。随着频段降低,HAMs 的数量逐渐减少,导致热图颜色对比度增加,偶尔出现集群式或强烈的单个 HAM(例如中频 1 分支的 L1-H4 和低频分支的 L2-H3)。这一观察支持了'每个分支优先处理不同频率信息'的观点。从层深度角度看,每个头的 HAM 数量逐渐增加,深层(如蓝色框所示)注意力图中出现了密集的 HAM。这表明在更深层次,序列中的每个元素对其他时刻的元素关注度更高。这可能是由于深层具有更广的感受野,每个时刻都包含了与其他时刻共享的信息。

四、DISCUSSION

4.1 MBFT 的核心优势:性能与泛化
  • 准确率大幅提升:在三个主流数据集上均打破了纪录,尤其是在 Dataset 2a 上平均提升显著。
  • 通用性强:相比于需要为每个人单独调参的模型(如 EEG-TCNet),MBFT 采用统一参数就能在绝大多数人身上表现优异,这更符合实际 BCI 应用的需求。
4.2 架构设计的科学性验证
  • 多分支(Multi-branch):解决'分频'问题。不同频段捕捉不同模式,融合后的效果远好于任何单一频段。
  • Transformer + MSA:解决'全局关联'问题。t-SNE 证明了该结构能有效拉开不同动作特征的距离(类间距离大,类内距离小)。
4.3 局限性分析(针对受试者 5)
  • 发现问题:固定的卷积窗口是双刃剑。虽然通用性好,但对极个别生理特征特殊的个体(如受试者 5),可能无法捕捉其独特的时间动态。
  • 改进方向:引入多尺度时间窗口(类似 MTFB-CNN 的设计)可能会弥补这一短板。
4.4 未来展望:迈向实际应用

作者提出了三个关键的技术演进方向,这也是当前脑机接口领域的前沿热点:

  • 基础模型(Foundation Models):利用大模型预训练来增强特征提取的深度。
  • 领域自适应(Domain Adaptation)或大规模基础模型预训练技术:解决不同数据集、不同设备之间的信号差异。
  • 在线学习(Online Learning)或迁移学习:针对实时脑电序列,让模型具备'边用边学'的能力,以适应用户状态的波动。

MBFT 证明了**'多频段分解 + 全局注意力融合'**是当前 EEG 解码的最优解之一,虽然在处理极端个体差异上仍有优化空间,但其作为端到端通用模型的表现已达到了行业领先水平。

五、CONCLUSION

多分支与融合 Transformer 框架(MBFT)

实现了稳健且准确的 MI-EEG 分类。MBFT 解决了端到端深度学习方法在 MI-EEG 解码中的挑战:即如何有效捕获脑电时间信号中的局部和全局特征。MBFT 利用 SE 注意力模块以及具有专门设计卷积超参数的 PE(补丁嵌入)模块,确保从运动想象相关频率中有效学习局部时空特征。

模型还采用了带有 MSA(多头自注意力)模块的多分支 Transformer 结构,以增强对全序列长度 MI-EEG 数据中复杂特征及其相互作用的全局学习能力。此外,注意力融合机制能够自适应地整合多个分支的特征,并选择最优表示进行分类。该模型在 BCIC IV-2a 数据集上达到了 86.93% 的平均准确率,最高受试者达到了 98.22%。这表明它对脑电信号的脑活动模式具有更好的识别能力。

尽管 MBFT 表现出良好的前景,但仍需要进一步研究使其专门适配于神经康复应用。

  • 定制框架以专注于与患者皮层活动和运动功能相关的脑电特征。
  • MBFT 可以与现有的神经康复方法(如物理治疗或功能性刺激技术)相结合,以制定更全面的治疗方案。

我们未来的工作包括探索在多个感受野尺度上自适应提取时间特征的方法。我们希望进一步提高模型性能,并推动基于 MI-EEG 的脑机接口(BCI)康复技术在临床环境中的实时应用。

目录

  1. MI-MBFT:基于多分支融合 Transformer 框架的原始脑电数据运动想象解码增强方法
  2. Abstract
  3. 目录
  4. 一、INTRODUCTION
  5. 二、MATERIALS AND METHODS
  6. 2.1 The datasets used
  7. 2.2 Data Pre-processing
  8. 2.3 Multi-Branch and Fusion Transformer Framework
  9. 2.3.1 Initial feature extraction (IFE) block(初始特征提取 (IFE) 模块)
  10. 2.3.1.1 TS-Conv 模块:时空双重过滤(包含时间卷积和空间卷积)
  11. 2.3.1.2 输出结果的含义
  12. 2.3.1.3 辅助模块:SE 注意力与性能优化
  13. 2.3.2 Multi-freq branch (MFB) block(多分支模块)
  14. 第二步:位置感知 (Positional Embedding)
  15. 第三步:深度关系挖掘 (TE 模块)
  16. 总结
  17. 2.3.3 Fusion attention (FA) block(融合注意力 (FA) 模块)
  18. 第一步:对齐与标准化 (Compression & Upsampling)
  19. 第二步:跨频率权重分配 (MSA Module)
  20. 第三步:缩放点积注意力的数学保障
  21. 总结
  22. 2.3.4 分类头
  23. 1. 深度监督机制 (Deep Supervision)
  24. 2. 分类器的构成
  25. 3. 验证策略
  26. 三、实验结果
  27. 3.1 训练策略与评估方法
  28. 3.2 超参数调优
  29. 3.3 模型对比
  30. 3.4 训练过程对比
  31. 3.5 混淆矩阵
  32. 3.6 消融实验
  33. 3.7 模型可视化
  34. 3.7.1 基于 t-SNE 的数据分布
  35. 3.7.2 TS-Conv 隐藏层可视化
  36. 3.7.3 MFB 注意力图可视化
  37. 四、DISCUSSION
  38. 4.1 MBFT 的核心优势:性能与泛化
  39. 4.2 架构设计的科学性验证
  40. 4.3 局限性分析(针对受试者 5)
  41. 4.4 未来展望:迈向实际应用
  42. 五、CONCLUSION
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 纯 Java 手写多功能 AI Agent:从零实现类 Manus 智能体架构
  • 机器学习各大模型原理深度剖析
  • Python 基础语法完全指南:变量、数据类型与运算符详解
  • Python 大麦网自动化抢票技术实现指南
  • 无人机避障算法核心技术:五种主流算法原理与实战应用场景
  • OpenClaw 解析:AI 智能体的能力、隐患与未来
  • OpenAI Codex 与 GitHub Copilot 核心差异及选型指南
  • Web 自动化测试常用函数解析与场景应用
  • 快速排序算法原理及多种实现方式
  • llama.cpp 本地大模型部署与 API 调用指南
  • 前端文件下载实战:从原理到最佳实践
  • 微软 GraphRAG 动态社区选择优化全球搜索成本
  • 算法实战:消失的两个数字 - 位运算解法
  • JavaScript 基础语法与 jQuery 快速入门
  • PicoClaw 轻量级 AI 助手安装与使用指南
  • AI 绘画实战指南:从提示词到高质量图像生成
  • 机器人通讯总线选型:CAN/FD、高速 485 与 EtherCAT 深度对比
  • C++ 火柴人跑酷游戏开发流程详解
  • PGvector 在 Spring AI 中实现向量数据库存储与相似性搜索
  • AI 技术在游戏开发与内容创作中的应用实践

相关免费在线工具

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online

  • Base64 文件转换器

    将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online

  • Markdown转HTML

    将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online

  • HTML转Markdown

    将 HTML 片段转为 GitHub Flavored Markdown,支持标题、列表、链接、代码块与表格等;浏览器内处理,可链接预填。 在线工具,HTML转Markdown在线工具,online

  • JSON 压缩

    通过删除不必要的空白来缩小和压缩JSON。 在线工具,JSON 压缩在线工具,online