华人团队用大模型实现'读心术':大脑活动直接变文字
NeurIPS 收录的一项新研究,让大模型也学会'读心术'了!通过学习脑电波数据,模型成功地把受试者的脑电图信号翻译成了文本。而且整个过程不需要大型设备,只要一块特制的'头巾'就能实现。
这项成果名为 DeWave,能在不通过侵入式设备和 MRI 的情况下解读脑电波并翻译成文本。由于用了大模型来读脑,因此报道 DeWave 的 iFLScience 也管它叫 BrainGPT。
DeWave 虽然不是最早实现脑电波解码的技术,但是它第一个做到了非侵入且无需 MRI 的脑电波 - 文本转换。如果能够规模化运用,DeWave 将为脑部瘫痪的人群提供交流上的帮助。
测评成绩超 SOTA
由于 DeWave 采用非侵入式方法,信号中的噪声更强,解析难度更高,但相比于此前的 SOTA(State-of-the-Art)方法,DeWave 的测试成绩还是有所提高。
数据集与实验设置
研究团队采用了公开的 ZuCo 数据集,其中包含了一万多个不重复的句子;受试者进行自然阅读的同时,研究团队对他们的脑信号和正在阅读的文本进行记录。脑电波信号采样频率为 500Hz,包含 128 个信道。这种高采样率和高信道数意味着原始数据量巨大,对模型的压缩和特征提取能力提出了极高要求。
如果输入的 EEG 信息已经按照眼动追踪方式的特征切分好,那么 DeWave 大概可以准确解读出句子的三分之一;即使不切分也能够成功捕捉一部分的关键词。这意味着在复杂场景下,模型依然具备基本的语义理解能力。
研究结果还显示,DeWave 对单词的解析准确率高于整句,对动词的准确率高于名词。这可能与动词在句子中承载更多动作意图有关,其对应的神经激活模式更为显著。
性能对比数据
数据方面,研究团队一共让 DeWave 对 29 名受试者的脑电图进行了采集和解析。
结果显示,有切分时,DeWave 在 BLEU-N 数据集上成绩比传统方法高出了 3-18%,在 ROUGE-1 数据集上也有最高 6.35% 的提升。BLEU(Bilingual Evaluation Understudy)是衡量机器翻译质量的指标,而 ROUGE(Recall-Oriented Understudy for Gisting Evaluation)则侧重于召回率。这些提升表明 DeWave 生成的文本在词汇选择和句子结构上更接近人类表达。
如果不做切分,DeWave 与相同条件的传统方法相比,表现最多提升了 120%。这一巨大的提升幅度证明了离散化编码在处理连续噪声信号时的有效性。
鲁棒性测试
为了评估 DeWave 的鲁棒性,团队对其进行了跨受试者(Cross-subject)测试。这轮测试一共有 18 名受试者,其中一人的脑电波被用于训练。然后,研究团队观察了模型在其他 17 人上进行测试时的表现,与被用于训练的人差距越小,说明模型的鲁棒性越强。
结果显示,DeWave 的分数下降值低于传统模型,显示出了更强的鲁棒性和泛化能力。这对于实际医疗应用至关重要,因为不同患者的脑电波特征差异很大,模型需要能够适应新用户而不需要重新从头训练。
用大模型解读脑电波
DeWave 的核心是引入了名为'离散码本'的概念。这是该技术的创新点所在。
核心架构原理
通过向量化编码器,连续的脑电图信号被拆分为离散形式,分别与词汇进行对齐。这一步骤类似于语言模型中的词嵌入(Embedding),将物理信号映射到了语义空间。之后,研究团队将离散化的数据送入 Transformer 编码器,得到上下文语义融合的向量表示。Transformer 架构擅长处理长序列依赖关系,能够有效捕捉脑电信号随时间变化的语义连贯性。
![图片:DeWave 架构图示意]
将向量化的文本信息作为监督数据,用得到的向量化信号对 BART 大模型进行训练,就得到了 DeWave。BART(Bidirectional and Auto-Regressive Transformers)是一种预训练模型,结合了双向编码器和自回归解码器的优势,非常适合生成任务。
新的信号解析过程也与之相似——先进行离散化和向量化编码,然后用 BART 对其进行解读,就得到了文本信息。这种端到端的训练方式减少了中间步骤的信息损失。
增强可解码性
同时,为了增强可解码性研究团队还通过正负样本对编码进行调节,使 DeWave 解析出的语义更接近目标文本词向量。这种方法类似于对比学习(Contrastive Learning),拉近了正确脑电波特征与对应文本的距离,推远了错误匹配的距离,从而提高了识别精度。
技术背景与挑战
脑机接口的发展
脑机接口(Brain-Computer Interface, BCI)技术旨在建立大脑与外部设备之间的直接通信通道。传统的 BCI 系统往往依赖于侵入式电极,需要手术植入,存在感染风险和伦理争议。非侵入式系统如 EEG(脑电图)虽然安全,但信号微弱且易受干扰。
DeWave 的出现标志着非侵入式 BCI 在语义解码领域迈出了重要一步。它证明了利用大规模预训练语言模型的能力,可以从低信噪比的生物信号中提取高级语义信息。
信号处理的难点
脑电信号具有高度的个体差异性、非平稳性和低信噪比特点。环境噪声、肌肉运动伪影都会严重影响解码效果。DeWave 采用的离散码本策略有效地降低了信号的维度,将连续的模拟信号转化为离散的 token,使得大语言模型能够像处理文本一样处理脑电波。
此外,500Hz 的采样率和 128 个信道产生了海量数据。如何在有限的计算资源下实时处理这些数据,也是工程落地面临的主要挑战。未来的优化方向可能包括模型轻量化和边缘计算部署。
应用场景与展望
医疗康复
DeWave 最大的潜在价值在于辅助沟通障碍患者。对于患有肌萎缩侧索硬化症(ALS)、闭锁综合征或中风导致瘫痪的患者,他们可能无法说话或打字。DeWave 提供了一种潜在的'意念打字'方案,帮助他们恢复与外界交流的能力。
人机交互
除了医疗领域,该技术未来也可能应用于高端人机交互场景。例如,在虚拟现实(VR)或增强现实(AR)环境中,用户可以通过思维控制界面选择,减少物理操作的需求,提升沉浸感。
局限性与伦理
尽管取得了进展,DeWave 目前仍存在局限性。准确率尚未达到 100%,特别是在长句生成和复杂逻辑表达上仍有提升空间。此外,隐私保护是另一个关键问题。脑电波数据属于高度敏感的生物特征信息,如何确保数据不被滥用、防止'思想窃听',需要严格的法律法规和技术加密手段。
随着技术的成熟,我们期待看到更小型化、低功耗的硬件设备出现,让这项技术真正走进大众生活,造福更多需要帮助的人。