论文基本信息
标题: GenSE: Generative Speech Enhancement via Language Models using Hierarchical Modeling
发表: ICLR 2025 (arXiv:2502.02942)
领域: 语音增强、语言模型、生成式建模
GenSE 的模型由三部分组成:
- SimCodec:一个神经语音编解码器,用于将语音信号压缩为离散声学 token,并通过解码器从这些 token 重建语音信号。
- XLSR:一个预训练的自监督模型(Meta AI 开源),用于从语音中提取高维语义信息。
- N2S 和 S2S(Two decoder-only LMs):分别用于两个阶段的生成任务。
- N2S(Noisy-to-Semantic)模块:将带噪语音转换为干净的语义 token。
- S2S(Semantic-to-Speech)模块:基于语义 token 和带噪声学 token 生成干净的声学 token,最终重建出增强后的语音。
SimCodec
SimCodec 是 GenSE 框架中为「语言模型友好」而重新设计的一款神经语音编解码器。
核心功能只有两点:
- 把连续的语音压缩成尽可能少的离散声学 token。
- 将这些 token 高质量的还原成原始波形,让后续的语言模型做下一个 token 的预测。
三项主要创新: A. 单量化器(single-quantizer)架构——把传统 8 级残差量化压缩成 1 级; B. 超大码本(8192)+ 两阶段「重排」训练——解决大码本'利用率低、难收敛'的顽疾; C. 端到端 GAN 训练目标——在频域多尺度重建 + 感知对抗 loss 下,把比特率压到 0.65 kbps 仍能打败 4–9 kbps 的强基线。
Q:为什么要重新设计一款编解码器? A:传统的 RVQ 方案例如 EnCodec 和 DAC 用了 8 个量化器进行逐级残差,每层 1024 条目,一秒钟音频要产生 600–900 个 token。对于自回归 LM 来说,序列长度直接决定推理成本,长一倍 GPU 时间就近乎翻倍。 因此 SimCodec 的目标是:仅用 1 个量化器、一秒钟音频产生 token 数量<=100。
为了研究分析单量化器 + 大码本(codesize)的可行性,作者首先做了一个重建质量与码本大小之间关系的实验。 可以看到:随着码本大小的增加,码本的利用率是单调下降的;PESQ 在一定范围内可以随着码本大小的增加,但是当码本大小 ≥2^11 后,PESQ 反而开始下降,码本大小达到 2^13 的大小时,大约有一半的码字都没有被激活,码字利用率下降显著的拖低了 PESQ。
那么得到了结论:单纯把码本扩大不可行,必须让'大码本 + 高利用率'同时成立。
为了让'大码本 + 高利用率'同时成立,作者提出了一种两阶段重排训练方法: 第一阶段使用两个独立的小组量化器进行训练,按码本的使用频率来筛选高频码本并重组成为新码本;第二阶段则是,基于新码本微调编码器和解码器,确保码本的利用率和重构质量。
Reorganize: 训练完成后,对每个小组量化器的码本向量按'码本使用率'排序,分别挑选出使用率最高的 N 个和 K 个量化向量(高频令牌);重组新码本:将两个量化器筛选出的高频向量成对拼接,构建一个新的大码本,新码本规模为 N×K(最终达到 8192)。
优势:重组后的码本仅保留高频使用的向量,避免了直接训练大码本时的'无效码本'问题,同时继承了两个量化器学到的语音特征,保证了码本的表达能力。
效果:重组后的码本仅包含高频有效令牌,配合单个量化器,让 SimCodec 在低码率(0.65-1.3 kbps)下,既能减少声学令牌数量(50-100 token/s,远低于传统模型的 300-900 token/s),又能保证高质量语音重构。
Nq(Number of Quantizers):量化器数量 MCD(Mel-Cepstral Distortion):梅尔倒谱失真 核心含义:衡量原始语音与重构语音在梅尔倒谱域的差异,反映音色还原度,数值越小,重构语音与原始语音的音色越接近、失真越小。
UTMOS(UTokyo-SaruLab MOS):自动主观质量评分系统。 核心含义:通过模型预测人类对语音质量的主观评分(模拟 MOS 分数),范围通常为 1~5,分数越高,主观感知质量越好(越接近人类对高质量语音的评价)。
N2S 和 S2S
核心目标: 解决带噪语音中噪声对语义提取和声学生成的干扰问题,降低 LM 预测难度:
- 传统方法将去噪和生成耦合,噪声易传递至后续生成阶段,导致语音质量和说话人一致性下降;
- 分层框架让每个阶段专注单一任务,先净化语义信息,再基于干净语义生成高质量语音。
两大核心模块(两阶段流程) 整个框架分为'带噪到语义(N2S)'和'语义到语音(S2S)'两个串联阶段,流程为:带噪语音 → N2S 模块生成干净语义令牌 → S2S 模块生成干净声学令牌 → SimCodec 解码器重构干净语音。
1. 带噪到语义转换(N2S 模块):专注去噪
核心任务:将带噪语音的语义令牌转化为干净语义令牌,消除噪声对语义信息的扭曲。
语义提取:采用预训练自监督模型 XLSR,将带噪语音编码为连续特征,再通过 k-means 聚类离散化为语义令牌(聚类中心数 K=1024,每 20ms 输出一个令牌)。得到一个离散化的语义令牌序列。
训练方式:基于自回归语言模型,以'带噪语义令牌'为条件,预测'干净语义令牌',训练目标为: 其中 s^为干净语义令牌,s̄为带噪语义令牌,确保生成的语义令牌时序一致、无噪声干扰。
2. 语义到语音生成(S2S 模块):专注高质量生成 + 音色一致性
核心任务:基于干净语义令牌,生成干净声学令牌,最终通过 SimCodec 解码器重构语音。
关键机制:令牌链提示机制(Token Chain Prompting) 不直接用干净语义令牌生成声学令牌,而是将'带噪语义令牌 + 干净语义令牌 + 带噪声学令牌'拼接为综合提示(Prompt),再输入 LM 预测干净声学令牌。 作用:带噪声学令牌包含原始说话人的音色特征,提示机制能捕捉这些特征,保证增强后语音的说话人一致性。
在 GenSE 的令牌链提示机制中:
- 带噪语义令牌:从带噪语音中提取的语义表示,虽然受噪声影响,但仍保留了语言内容的大致信息
- 干净语义令牌:由语义语言模型(Semantic LM)预测得到的去噪后语义表示,提供准确的语言内容
- 带噪声学令牌:从带噪语音中提取的声学表示,虽然包含噪声,但保留了原始说话人的音色、韵律等个性化特征
训练方式:基于自回归语言模型,联合提示信息预测干净声学令牌,训练目标为: 其中 a^为干净声学令牌,s̄为带噪声学令牌,SimCodec 的单量化器设计让声学令牌序列简洁,降低 LM 预测复杂度。
核心优势
- 去噪与生成解耦:N2S 模块提前过滤语义噪声,避免噪声影响 S2S 模块的语音生成,提升 LM 预测稳定性;
- 音色一致性保障:令牌链提示机制融合带噪声学令牌的说话人特征。
- 任务专业化:两阶段分别聚焦'语义去噪'和'声学生成',让模型更高效地学习对应任务的规律,提升整体增强质量。
实验结果
1. GenSE 与主流 SE 模型核心性能对比(DNS Challenge 测试集,无混响场景)
GenSE 在三个关键指标上全面领先:
- DNSMOS-OVL(整体感知质量):3.43,相比 Noisy 的 2.48 提升 17.1%,超过当前 SOTA 扩散模型 DOSE 的 3.31
- SECS(说话人相似度):0.67,相比次优的 DOSE(0.61)高出 9.8%,这是 token chain prompting 的关键成果
- VQScore(生成一致性):0.717 是全表最高,说明生成的语音在特征空间上最接近真实干净语音分布
2. SimCodec 编码器效率突破
SimCodec 打破了'码率 - 质量 - 效率'的三角困境:
- 0.65 kbps 配置:仅需 50 tokens/秒就达到 PESQ 2.45,相比 DAC(1.0 kbps,PESQ 1.32)性能整整高出 86%
- 1.3 kbps 配置:PESQ 3.05 已接近 4 kbps 的 HiFi-Codec,但 token 数仅为后者的 1/4(100 vs 400 tokens/s)
- 这种优势来自'两阶段重组重建'策略,在大 codebook 下仍保持高使用率
3. 跨域泛化能力
从 DNS Challenge 到 CHiME-4 真实噪声环境的转变中:
- GenSE 的性能下跌仅 15.8%(3.43 → 2.89),相比确定性方法的 30% 跌幅优势明显
- 这证明了生成式范式学到的'干净语音先验分布'比确定性映射更鲁棒于噪声类型变化
- CHiME-4 上的 WER 达到 28.4%(相对 Noisy 的 37.9% 降低 25%),说明语义约束同时保护了言语内容
4. 消融研究的定量证明
- 去除 Token Chain Prompting:SECS 从 0.66 急跌到 0.43(-34.8%),这是单点最大的性能损失
- 去除分层建模:DNSMOS-OVL 下跌 5.6%,SECS 更是跌至 0.41,说明'先语义去噪、再声学生成'的两阶段设计对稳定性至关重要
GenSE 实验结果的图表解读
表 1:GenSE 与主流语音增强模型对比(DNS Challenge,无混响场景)
| 模型 | DNSMOS-SIG | DNSMOS-BAK | DNSMOS-OVL | SECS(说话人相似度) | VQScore(生成一致性) | 核心特点 |
|---|---|---|---|---|---|---|
| Noisy | 3.39 | 2.62 | 2.48 | - | 0.566 | 原始带噪,无任何增强 |
| FullSubNet | 3.05 | 3.51 | 2.93 | 0.62 | 0.623 | 确定性全带 - 子带融合方法 |
| Inter-Subnet | 3.17 | 3.15 | 2.98 | 0.62 | 0.616 | 轻量级确定性增强框架 |
| CDiffuSE | 3.37 | 3.52 | 2.84 | 0.58 | 0.624 | 扩散模型 + 条件增强 |
| SGMSE | 3.47 | 3.41 | 3.11 | 0.58 | 0.651 | 改进的扩散方法(从噪声混合启动) |
| StoRM | 3.54 | 3.69 | 3.15 | 0.61 | 0.687 | 随机再生 + 扩散模型 |
| SELM | 3.47 | 3.81 | 3.21 | 0.62 | 0.673 | 首个 LM-based 方法,离散语义 token,但无分层设计 |
| DOSE | 3.58 | 3.98 | 3.31 | 0.61 | 0.692 | 当前 SOTA 扩散方法,高 BAK 和 VQ 得分 |
- GenSE 在 DNSMOS 所有子维度和综合指标上均为最高,说明在'清晰度''噪声抑制''整体感知'三个维度都取得均衡的优势
- SECS 0.67 相比次优的 DOSE(0.61)有 9.8% 的绝对优势,说明 token chain prompting 机制在说话人保持上的效果显著
- VQScore 0.717 相比 DOSE(0.692)的差异说明语义建模使生成的语音在特征空间上更接近真实分布
表 2:带混响场景性能(DNS Challenge,有混响)
| 模型 | DNSMOS-SIG | DNSMOS-BAK | DNSMOS-OVL | SECS | VQScore |
|---|---|---|---|---|---|
| Noisy | 1.76 | 1.50 | 1.39 | - | 0.527 |
| FullSubNet | 2.74 | 3.01 | 2.27 | 0.63 | 0.615 |
| DOSE | 3.23 | 3.79 | 3.13 | 0.63 | 0.668 |
| GenSE | 3.49 (+27.4%) | 3.73 (+23.9%) | 3.19 (+40.5%) | 0.65 | 0.671 |
- 混响场景下 GenSE 的性能提升幅度更大(相对 Noisy 的提升为 +27.4%、+23.9%、+40.5%,vs 无混响的 +19.7%、+19.1%、+17.1%)
- 这表明分层建模框架在处理复杂声学环境(同时存在噪声和混响)时表现出更强的适应能力
- SECS 从无混响的 0.67 降到 0.65,说明混响会影响语义提取,但 GenSE 仍保持最优
表 3:SimCodec 与主流编码器对比
| 编码器 | 带宽 (kbps) | 量化器数 (Nq) | 每秒令牌数 | PESQ | STOI | MCD | UTMOS |
|---|---|---|---|---|---|---|---|
| EnCodec | 6.0 | 8 | 600 | 2.92 | 0.946 | 3.51 | 3.41 |
| HiFi-Codec | 4.0 | 4 | 400 | 3.17 | 0.959 | 3.66 | 3.48 |
| SpeechTokenizer | 6.0 | 8 | 600 | 3.25 | 0.957 | 3.06 | 3.57 |
| Vocos | 6.0 | 8 | 600 | 3.37 | 0.961 | 3.22 | 3.48 |
| DAC | 1.0 | 1 | 100 | 1.32 | 0.784 | 4.91 | 2.06 |
| WavTokenizer | 0.5 | 1 | 40 | 1.92 | 0.857 | 4.72 | 2.77 |
| WavTokenizer | 0.9 | 1 | 75 | 2.58 | 0.911 | 4.14 | 3.15 |
| SimCodec | 0.65 |
- 极低码率突破(0.65 kbps)
- SimCodec 以仅 50 tokens/s 就达到 PESQ 2.45,相比 DAC(1.0 kbps, PESQ 1.32)有显著进步
- 与 WavTokenizer(0.5 kbps)相比,SimCodec 0.65 kbps 虽然码率更高,但 PESQ 高出 27.6%(2.45 vs 1.92),这是'重组重建'策略的直接成果
- 中等码率的 SOTA 地位(1.3 kbps)
- PESQ 3.05 已经接近 4.0 kbps 的 HiFi-Codec(3.17)
- 但 token 数仅为后者的 1/4(100 vs 400 tokens/s),大幅降低了下游语言模型的计算负担
- UTMOS 3.37 相比 WavTokenizer 0.9 kbps(3.15)有明显优势,说明主观感知上也更接近干净语音
- 为什么量化器数量很关键
- 多量化器(8 个)的设计虽然在高码率能达到 PESQ 3.25+,但长序列 token 对 LM 训练和推理都是沉重负担
- SimCodec 的单量化器 + 大 codebook(8192)+ 重组策略巧妙地在量化空间复杂度和序列长度间做了权衡
表 4:跨域泛化能力对比(DNS vs CHiME-4)
| 模型 | DNS DNSMOS-OVL | CHiME-4 DNSMOS-OVL | 性能下跌幅度 | CHiME-4 WER |
|---|---|---|---|---|
| FullSubNet | 2.93 | 2.01 | -31.4% | 34.1% |
| Inter-Subnet | 2.98 | 2.08 | -30.2% | 29.6% |
| CDiffuSE | 2.84 | 2.38 | -16.2% | 40.7% |
| SGMSE | 3.11 | 2.41 | -22.5% | 37.2% |
| StoRM | 3.15 | 2.57 | -18.4% | 35.1% |
| SELM | 3.21 | 2.62 | -18.4% | 29.4% |
| DOSE | 3.31 | 2.61 | -21.1% | 31.2% |
| GenSE | 3.43 | 2.89 | -15.8% (最优) | 28.4% (最优) |
- 确定性 vs 生成式的分界线
- FullSubNet 和 Inter-Subnet 跌幅超过 30%,说明学到的确定性映射 f(x) 对未见过的噪声特征极其敏感
- GenSE 的 15.8% 跌幅是表中最小的,生成模型对干净语音分布的学习比确定性映射更能泛化
- 语义约束的泛化优势
- SELM(纯 LM-based 但无分层)在 CHiME-4 上 WER 为 29.4%,与 GenSE 相同
- 但 GenSE 的 DNSMOS-OVL(2.89)明显优于 SELM(2.62),说明 token chain prompting 提供的音色保持有助于'跨域'还原
- GenSE 在 CHiME-4 上的 WER 28.4%(相对 Noisy 的 37.9% 下降 25%)证明语义建模同时保护了言语内容
表 5:消融研究(Ablation Study)
| 配置 | DNSMOS-SIG | DNSMOS-BAK | DNSMOS-OVL | SECS | VQScore |
|---|---|---|---|---|---|
| Full GenSE | 3.57 | 3.96 | 3.31 | 0.66 | 0.694 |
| w/o Token Chain Prompting | 3.54 (-0.8%) | 4.01 (+1.3%) | 3.28 (-0.9%) | 0.43 (-34.8%) | 0.636 (-8.4%) |
| w/o Hierarchical Modeling | 3.38 (-5.6%) | 3.75 (-9.6%) | 3.17 (-4.4%) | 0.41 (-37.9%) | 0.621 (-10.5%) |
- Token Chain Prompting 的关键作用:说话人保持
- 去除这一机制,SECS 从 0.66 直接跌到 0.43,这是表中最剧烈的单点下跌
- BAK 反而提升 1.3%,说明没有'音色约束'时,模型反而会更激进地去噪声,但以牺牲说话人身份为代价
- 这充分说明原始语音的声学特征信息对 timbre 一致性不可或缺
- 分层建模 vs 单 LM 的权衡
- 去除分层建模(N2S + S2S 改为单 LM 直接预测)时,DNSMOS-OVL 下跌 5.6%
- 更关键的是,这个改变会让 SECS 进一步沦至 0.41,表明单 LM 无法同时稳定地处理'去噪'和'生成'两个不同难度的任务
- 分层建模不是'架构装饰',而是在降低单个模型的预测难度、提高稳定性上有量化意义的必要选择
- 两个约束的协同效应
- 完整框架的 SECS 为 0.66,而两个约束分别移除都会导致大幅下跌
- 说明 token chain prompting(保留音色线索)和分层建模(降低任务复杂度)是互补的设计,共同支撑了说话人一致性
表 6:Codec 替换对 SE 性能的影响
| Codec 配置 | DNSMOS-SIG | DNSMOS-BAK | DNSMOS-OVL | SECS | VQScore |
|---|---|---|---|---|---|
| GenSE (SimCodec) | 3.57 | 3.96 | 3.31 | 0.66 | 0.694 |
| GenSE (DAC 单量化器) | 2.39 (-33.1%) | 2.37 (-40.1%) | 2.18 (-34.1%) | 0.35 (-46.97%) | 0.547 (-21.2%) |
| GenSE (DAC 4 量化器 + AR+NAR) | 3.07 (-14.0%) | 3.46 (-12.6%) | 2.77 (-16.3%) | 0.61 (-7.6%) | 0.656 (-5.5%) |
| GenSE (DAC 4 量化器 + 并行) | 3.21 (-10.1%) | 3.57 (-9.8%) | 2.98 (-10.0%) | 0.63 (-4.5%) | 0.672 (-3.2%) |
- 单量化器 DAC 的失败案例
- 直接替换为 DAC 导致性能崩塌,DNSMOS-OVL 从 3.31 跌至 2.18(-34.1%)
- SECS 从 0.66 降到 0.35 是最惊人的下跌,说明 DAC 的 acoustic token representation 对 timbre 保持很不友好
- 多量化器策略能部分恢复
- 使用 4 量化器的 DAC + 复杂预测策略(AR+NAR 混合或并行)能恢复到更接近原水平
- 最好的结果(并行预测)仍只能达到 DNSMOS-OVL 2.98(相对 SimCodec 仍下跌 10%)、SECS 0.63(下跌 4.5%)
- SimCodec 的不可替代性
- 这说明 SimCodec 的'单量化器 + 大 codebook + 重组策略'并非锦上添花的工程优化
- 而是直接影响下游 LM 生成稳定性和质量的关键因素
- 合理的 codec 设计能让 LM 专注于'预测什么'而不是被长 token 序列或低效表示所累
核心结论总结
GenSE 的三大创新优势
- 分层建模 + 语义约束
- N2S 处理语义去噪,S2S 处理声学生成,降低单个 LM 的预测难度
- Token chain prompting 显式保留原始音色信息
- 消融研究证明两者不可或缺,协同提升说话人一致性
- SimCodec 的压缩效率突破
- 在 0.65-1.3 kbps 超低码率下达到与 4-6 kbps 多量化器方案相近的质量
- token 数显著减少(50-100 vs 400-600),大幅降低 LM 计算负担
- 重组重建策略巧妙解决了大 codebook 的使用率问题
- 生成式范式的泛化优势
- 在 CHiME-4 跨域测试中保持最小性能下跌(15.8%)
- 生成模型学到的干净语音先验分布比确定性映射更鲁棒
- WER 达到 28.4%,说明语义约束同时保护了言语内容
与现有 SOTA 方法的关键区别
| 方法维度 | SELM | DOSE | GenSE |
|---|---|---|---|
| 生成范式 | LM-based | 扩散模型 | LM-based + 分层 |
| 语义利用 | ✓ | ✗ | ✓ (显式约束) |
| 分层建模 | ✗ | ✗ | ✓ |
| 音色保持 | 普通 | 普通 | 优异 (token chain) |
| Codec 设计 | 多量化器 | 多量化器 | 单量化器优化 |
| DNS 性能 | 3.21 OVL | 3.31 OVL | 3.43 OVL |
| CHiME-4 泛化 | 2.62 OVL (-18.4%) | 2.61 OVL (-21.1%) | 2.89 OVL (-15.8%) |
| SECS (说话人相似) | 0.62 | 0.61 | 0.67 |


