华人团队利用大模型实现非侵入式脑电波转文字技术

综述由AI生成华人团队研发的 DeWave 系统利用大模型实现了非侵入式脑电波到文本的转换。该系统基于 NeurIPS 收录的研究，采用离散码本概念将连续脑电信号转化为离散 token，结合 Transformer 编码器和 BART 模型进行训练。在 ZuCo 数据集测试中，DeWave 在有切分情况下 BLEU-N 成绩提升 3-18%，无切分情况下表现提升最高达 120%，且跨受试者测试显示出强鲁棒性。该技术无需 MRI 或侵入式设备，仅需特制头巾即可工作，主要面向瘫痪人群的交流辅助，同时也面临信号噪声、隐私保护等挑战。

二进制发布于 2025/2/7更新于 2026/6/223 浏览

华人团队用大模型实现'读心术'：大脑活动直接变文字

NeurIPS 收录的一项新研究，让大模型也学会'读心术'了！通过学习脑电波数据，模型成功地把受试者的脑电图信号翻译成了文本。而且整个过程不需要大型设备，只要一块特制的'头巾'就能实现。

这项成果名为 DeWave，能在不通过侵入式设备和 MRI 的情况下解读脑电波并翻译成文本。由于用了大模型来读脑，因此报道 DeWave 的 iFLScience 也管它叫 BrainGPT。

DeWave 虽然不是最早实现脑电波解码的技术，但是它第一个做到了非侵入且无需 MRI 的脑电波 - 文本转换。如果能够规模化运用，DeWave 将为脑部瘫痪的人群提供交流上的帮助。

测评成绩超 SOTA

由于 DeWave 采用非侵入式方法，信号中的噪声更强，解析难度更高，但相比于此前的 SOTA（State-of-the-Art）方法，DeWave 的测试成绩还是有所提高。

数据集与实验设置

研究团队采用了公开的 ZuCo 数据集，其中包含了一万多个不重复的句子；受试者进行自然阅读的同时，研究团队对他们的脑信号和正在阅读的文本进行记录。脑电波信号采样频率为 500Hz，包含 128 个信道。这种高采样率和高信道数意味着原始数据量巨大，对模型的压缩和特征提取能力提出了极高要求。

如果输入的 EEG 信息已经按照眼动追踪方式的特征切分好，那么 DeWave 大概可以准确解读出句子的三分之一；即使不切分也能够成功捕捉一部分的关键词。这意味着在复杂场景下，模型依然具备基本的语义理解能力。

研究结果还显示，DeWave 对单词的解析准确率高于整句，对动词的准确率高于名词。这可能与动词在句子中承载更多动作意图有关，其对应的神经激活模式更为显著。

性能对比数据

数据方面，研究团队一共让 DeWave 对 29 名受试者的脑电图进行了采集和解析。

结果显示，有切分时，DeWave 在 BLEU-N 数据集上成绩比传统方法高出了 3-18%，在 ROUGE-1 数据集上也有最高 6.35% 的提升。BLEU（Bilingual Evaluation Understudy）是衡量机器翻译质量的指标，而 ROUGE（Recall-Oriented Understudy for Gisting Evaluation）则侧重于召回率。这些提升表明 DeWave 生成的文本在词汇选择和句子结构上更接近人类表达。

如果不做切分，DeWave 与相同条件的传统方法相比，表现最多提升了 120%。这一巨大的提升幅度证明了离散化编码在处理连续噪声信号时的有效性。

鲁棒性测试

为了评估 DeWave 的鲁棒性，团队对其进行了跨受试者（Cross-subject）测试。这轮测试一共有 18 名受试者，其中一人的脑电波被用于训练。然后，研究团队观察了模型在其他 17 人上进行测试时的表现，与被用于训练的人差距越小，说明模型的鲁棒性越强。

结果显示，DeWave 的分数下降值低于传统模型，显示出了更强的鲁棒性和泛化能力。这对于实际医疗应用至关重要，因为不同患者的脑电波特征差异很大，模型需要能够适应新用户而不需要重新从头训练。

用大模型解读脑电波

DeWave 的核心是引入了名为'离散码本'的概念。这是该技术的创新点所在。

核心架构原理

通过向量化编码器，连续的脑电图信号被拆分为离散形式，分别与词汇进行对齐。这一步骤类似于语言模型中的词嵌入（Embedding），将物理信号映射到了语义空间。之后，研究团队将离散化的数据送入 Transformer 编码器，得到上下文语义融合的向量表示。Transformer 架构擅长处理长序列依赖关系，能够有效捕捉脑电信号随时间变化的语义连贯性。

![图片：DeWave 架构图示意]

将向量化的文本信息作为监督数据，用得到的向量化信号对 BART 大模型进行训练，就得到了 DeWave。BART（Bidirectional and Auto-Regressive Transformers）是一种预训练模型，结合了双向编码器和自回归解码器的优势，非常适合生成任务。

新的信号解析过程也与之相似——先进行离散化和向量化编码，然后用 BART 对其进行解读，就得到了文本信息。这种端到端的训练方式减少了中间步骤的信息损失。

增强可解码性

同时，为了增强可解码性研究团队还通过正负样本对编码进行调节，使 DeWave 解析出的语义更接近目标文本词向量。这种方法类似于对比学习（Contrastive Learning），拉近了正确脑电波特征与对应文本的距离，推远了错误匹配的距离，从而提高了识别精度。

技术背景与挑战

脑机接口的发展

脑机接口（Brain-Computer Interface, BCI）技术旨在建立大脑与外部设备之间的直接通信通道。传统的 BCI 系统往往依赖于侵入式电极，需要手术植入，存在感染风险和伦理争议。非侵入式系统如 EEG（脑电图）虽然安全，但信号微弱且易受干扰。

DeWave 的出现标志着非侵入式 BCI 在语义解码领域迈出了重要一步。它证明了利用大规模预训练语言模型的能力，可以从低信噪比的生物信号中提取高级语义信息。

华人团队利用大模型实现非侵入式脑电波转文字技术

华人团队用大模型实现'读心术'：大脑活动直接变文字

测评成绩超 SOTA

数据集与实验设置

性能对比数据

鲁棒性测试

用大模型解读脑电波

核心架构原理

增强可解码性

技术背景与挑战

脑机接口的发展

更多推荐文章

相关免费在线工具

信号处理的难点

应用场景与展望

医疗康复

人机交互

局限性与伦理

更多推荐文章

相关免费在线工具

华人团队利用大模型实现非侵入式脑电波转文字技术

华人团队用大模型实现'读心术'：大脑活动直接变文字

测评成绩超 SOTA

数据集与实验设置

性能对比数据

鲁棒性测试

用大模型解读脑电波

核心架构原理

增强可解码性

技术背景与挑战

脑机接口的发展

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

信号处理的难点

应用场景与展望

医疗康复

人机交互

局限性与伦理

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具