GenSE：基于分层建模的生成式语音增强语言模型方法

论文基本信息

标题: GenSE: Generative Speech Enhancement via Language Models using Hierarchical Modeling

发表: ICLR 2025 (arXiv:2502.02942)

领域: 语音增强、语言模型、生成式建模

GenSE 的模型由三部分组成：

SimCodec：一个神经语音编解码器，用于将语音信号压缩为离散声学 token，并通过解码器从这些 token 重建语音信号。
XLSR：一个预训练的自监督模型（Meta AI 开源），用于从语音中提取高维语义信息。
N2S 和 S2S（Two decoder-only LMs）：分别用于两个阶段的生成任务。
- N2S（Noisy-to-Semantic）模块：将带噪语音转换为干净的语义 token。
- S2S（Semantic-to-Speech）模块：基于语义 token 和带噪声学 token 生成干净的声学 token，最终重建出增强后的语音。

SimCodec

SimCodec 是 GenSE 框架中为「语言模型友好」而重新设计的一款神经语音编解码器。

核心功能只有两点：

把连续的语音压缩成尽可能少的离散声学 token。
将这些 token 高质量的还原成原始波形，让后续的语言模型做下一个 token 的预测。

三项主要创新： A. 单量化器（single-quantizer）架构——把传统 8 级残差量化压缩成 1 级； B. 超大码本（8192）+ 两阶段「重排」训练——解决大码本'利用率低、难收敛'的顽疾； C. 端到端 GAN 训练目标——在频域多尺度重建 + 感知对抗 loss 下，把比特率压到 0.65 kbps 仍能打败 4–9 kbps 的强基线。

Q：为什么要重新设计一款编解码器？ A：传统的 RVQ 方案例如 EnCodec 和 DAC 用了 8 个量化器进行逐级残差，每层 1024 条目，一秒钟音频要产生 600–900 个 token。对于自回归 LM 来说，序列长度直接决定推理成本，长一倍 GPU 时间就近乎翻倍。因此 SimCodec 的目标是：仅用 1 个量化器、一秒钟音频产生 token 数量<=100。

为了研究分析单量化器 + 大码本（codesize）的可行性，作者首先做了一个重建质量与码本大小之间关系的实验。可以看到：随着码本大小的增加，码本的利用率是单调下降的；PESQ 在一定范围内可以随着码本大小的增加，但是当码本大小 ≥2^11 后，PESQ 反而开始下降，码本大小达到 2^13 的大小时，大约有一半的码字都没有被激活，码字利用率下降显著的拖低了 PESQ。

那么得到了结论：单纯把码本扩大不可行，必须让'大码本 + 高利用率'同时成立。

为了让'大码本 + 高利用率'同时成立，作者提出了一种两阶段重排训练方法：第一阶段使用两个独立的小组量化器进行训练，按码本的使用频率来筛选高频码本并重组成为新码本；第二阶段则是，基于新码本微调编码器和解码器，确保码本的利用率和重构质量。

Reorganize：训练完成后，对每个小组量化器的码本向量按'码本使用率'排序，分别挑选出使用率最高的 N 个和 K 个量化向量（高频令牌）；重组新码本：将两个量化器筛选出的高频向量成对拼接，构建一个新的大码本，新码本规模为 N×K（最终达到 8192）。

优势：重组后的码本仅保留高频使用的向量，避免了直接训练大码本时的'无效码本'问题，同时继承了两个量化器学到的语音特征，保证了码本的表达能力。

效果：重组后的码本仅包含高频有效令牌，配合单个量化器，让 SimCodec 在低码率（0.65-1.3 kbps）下，既能减少声学令牌数量（50-100 token/s，远低于传统模型的 300-900 token/s），又能保证高质量语音重构。

Nq（Number of Quantizers）：量化器数量 MCD（Mel-Cepstral Distortion）：梅尔倒谱失真核心含义：衡量原始语音与重构语音在梅尔倒谱域的差异，反映音色还原度，数值越小，重构语音与原始语音的音色越接近、失真越小。

UTMOS（UTokyo-SaruLab MOS）：自动主观质量评分系统。核心含义：通过模型预测人类对语音质量的主观评分（模拟 MOS 分数），范围通常为 1~5，分数越高，主观感知质量越好（越接近人类对高质量语音的评价）。

N2S 和 S2S

核心目标：解决带噪语音中噪声对语义提取和声学生成的干扰问题，降低 LM 预测难度：

传统方法将去噪和生成耦合，噪声易传递至后续生成阶段，导致语音质量和说话人一致性下降；
分层框架让每个阶段专注单一任务，先净化语义信息，再基于干净语义生成高质量语音。

两大核心模块（两阶段流程）整个框架分为'带噪到语义（N2S）'和'语义到语音（S2S）'两个串联阶段，流程为：带噪语音 → N2S 模块生成干净语义令牌 → S2S 模块生成干净声学令牌 → SimCodec 解码器重构干净语音。

1. 带噪到语义转换（N2S 模块）：专注去噪

核心任务：将带噪语音的语义令牌转化为干净语义令牌，消除噪声对语义信息的扭曲。

语义提取：采用预训练自监督模型 XLSR，将带噪语音编码为连续特征，再通过 k-means 聚类离散化为语义令牌（聚类中心数 K=1024，每 20ms 输出一个令牌）。得到一个离散化的语义令牌序列。

训练方式：基于自回归语言模型，以'带噪语义令牌'为条件，预测'干净语义令牌'，训练目标为：其中 s^为干净语义令牌，s̄为带噪语义令牌，确保生成的语义令牌时序一致、无噪声干扰。

2. 语义到语音生成（S2S 模块）：专注高质量生成 + 音色一致性

核心任务：基于干净语义令牌，生成干净声学令牌，最终通过 SimCodec 解码器重构语音。

关键机制：令牌链提示机制（Token Chain Prompting）不直接用干净语义令牌生成声学令牌，而是将'带噪语义令牌 + 干净语义令牌 + 带噪声学令牌'拼接为综合提示（Prompt），再输入 LM 预测干净声学令牌。作用：带噪声学令牌包含原始说话人的音色特征，提示机制能捕捉这些特征，保证增强后语音的说话人一致性。

在 GenSE 的令牌链提示机制中：

带噪语义令牌：从带噪语音中提取的语义表示，虽然受噪声影响，但仍保留了语言内容的大致信息
干净语义令牌：由语义语言模型（Semantic LM）预测得到的去噪后语义表示，提供准确的语言内容
带噪声学令牌：从带噪语音中提取的声学表示，虽然包含噪声，但保留了原始说话人的音色、韵律等个性化特征

训练方式：基于自回归语言模型，联合提示信息预测干净声学令牌，训练目标为：其中 a^为干净声学令牌，s̄为带噪声学令牌，SimCodec 的单量化器设计让声学令牌序列简洁，降低 LM 预测复杂度。

核心优势

去噪与生成解耦：N2S 模块提前过滤语义噪声，避免噪声影响 S2S 模块的语音生成，提升 LM 预测稳定性；
音色一致性保障：令牌链提示机制融合带噪声学令牌的说话人特征。
任务专业化：两阶段分别聚焦'语义去噪'和'声学生成'，让模型更高效地学习对应任务的规律，提升整体增强质量。

实验结果

1. GenSE 与主流 SE 模型核心性能对比（DNS Challenge 测试集，无混响场景）

GenSE 在三个关键指标上全面领先：

DNSMOS-OVL（整体感知质量）：3.43，相比 Noisy 的 2.48 提升 17.1%，超过当前 SOTA 扩散模型 DOSE 的 3.31
SECS（说话人相似度）：0.67，相比次优的 DOSE（0.61）高出 9.8%，这是 token chain prompting 的关键成果
VQScore（生成一致性）：0.717 是全表最高，说明生成的语音在特征空间上最接近真实干净语音分布

2. SimCodec 编码器效率突破

SimCodec 打破了'码率 - 质量 - 效率'的三角困境：

0.65 kbps 配置：仅需 50 tokens/秒就达到 PESQ 2.45，相比 DAC（1.0 kbps，PESQ 1.32）性能整整高出 86%
1.3 kbps 配置：PESQ 3.05 已接近 4 kbps 的 HiFi-Codec，但 token 数仅为后者的 1/4（100 vs 400 tokens/s）
这种优势来自'两阶段重组重建'策略，在大 codebook 下仍保持高使用率

3. 跨域泛化能力

从 DNS Challenge 到 CHiME-4 真实噪声环境的转变中：

GenSE 的性能下跌仅 15.8%（3.43 → 2.89），相比确定性方法的 30% 跌幅优势明显
这证明了生成式范式学到的'干净语音先验分布'比确定性映射更鲁棒于噪声类型变化
CHiME-4 上的 WER 达到 28.4%（相对 Noisy 的 37.9% 降低 25%），说明语义约束同时保护了言语内容

4. 消融研究的定量证明

去除 Token Chain Prompting：SECS 从 0.66 急跌到 0.43（-34.8%），这是单点最大的性能损失
去除分层建模：DNSMOS-OVL 下跌 5.6%，SECS 更是跌至 0.41，说明'先语义去噪、再声学生成'的两阶段设计对稳定性至关重要

GenSE 实验结果的图表解读

表 1：GenSE 与主流语音增强模型对比（DNS Challenge，无混响场景）

模型	DNSMOS-SIG	DNSMOS-BAK	DNSMOS-OVL	SECS（说话人相似度）	VQScore（生成一致性）	核心特点
Noisy	3.39	2.62	2.48	-	0.566	原始带噪，无任何增强
FullSubNet	3.05	3.51	2.93	0.62	0.623	确定性全带 - 子带融合方法
Inter-Subnet	3.17	3.15	2.98	0.62	0.616	轻量级确定性增强框架
CDiffuSE	3.37	3.52	2.84	0.58	0.624	扩散模型 + 条件增强
SGMSE	3.47	3.41	3.11	0.58	0.651	改进的扩散方法（从噪声混合启动）
StoRM	3.54	3.69	3.15	0.61	0.687	随机再生 + 扩散模型
SELM	3.47	3.81	3.21	0.62	0.673	首个 LM-based 方法，离散语义 token，但无分层设计
DOSE	3.58	3.98	3.31	0.61	0.692	当前 SOTA 扩散方法，高 BAK 和 VQ 得分
GenSE	3.65 (+19.7%)	4.18 (+19.1%)	3.43 (+17.1%)	0.67 (最优)	0.717 (最优)	分层建模 + SimCodec + 令牌链提示

GenSE 在 DNSMOS 所有子维度和综合指标上均为最高，说明在'清晰度''噪声抑制''整体感知'三个维度都取得均衡的优势
SECS 0.67 相比次优的 DOSE（0.61）有 9.8% 的绝对优势，说明 token chain prompting 机制在说话人保持上的效果显著
VQScore 0.717 相比 DOSE（0.692）的差异说明语义建模使生成的语音在特征空间上更接近真实分布

表 2：带混响场景性能（DNS Challenge，有混响）

模型	DNSMOS-SIG	DNSMOS-BAK	DNSMOS-OVL	SECS	VQScore
Noisy	1.76	1.50	1.39	-	0.527
FullSubNet	2.74	3.01	2.27	0.63	0.615
DOSE	3.23	3.79	3.13	0.63	0.668
GenSE	3.49 (+27.4%)	3.73 (+23.9%)	3.19 (+40.5%)	0.65	0.671

混响场景下 GenSE 的性能提升幅度更大（相对 Noisy 的提升为 +27.4%、+23.9%、+40.5%，vs 无混响的 +19.7%、+19.1%、+17.1%）
这表明分层建模框架在处理复杂声学环境（同时存在噪声和混响）时表现出更强的适应能力
SECS 从无混响的 0.67 降到 0.65，说明混响会影响语义提取，但 GenSE 仍保持最优

表 3：SimCodec 与主流编码器对比

编码器	带宽 (kbps)	量化器数 (Nq)	每秒令牌数	PESQ	STOI	MCD	UTMOS
EnCodec	6.0	8	600	2.92	0.946	3.51	3.41
HiFi-Codec	4.0	4	400	3.17	0.959	3.66	3.48
SpeechTokenizer	6.0	8	600	3.25	0.957	3.06	3.57
Vocos	6.0	8	600	3.37	0.961	3.22	3.48
DAC	1.0	1	100	1.32	0.784	4.91	2.06
WavTokenizer	0.5	1	40	1.92	0.857	4.72	2.77
WavTokenizer	0.9	1	75	2.58	0.911	4.14	3.15
SimCodec	0.65	1	50	2.45	0.903	3.99	3.04
SimCodec	1.3	1	100	3.05	0.954	3.82	3.37

极低码率突破（0.65 kbps）
- SimCodec 以仅 50 tokens/s 就达到 PESQ 2.45，相比 DAC（1.0 kbps, PESQ 1.32）有显著进步
- 与 WavTokenizer（0.5 kbps）相比，SimCodec 0.65 kbps 虽然码率更高，但 PESQ 高出 27.6%（2.45 vs 1.92），这是'重组重建'策略的直接成果
中等码率的 SOTA 地位（1.3 kbps）
- PESQ 3.05 已经接近 4.0 kbps 的 HiFi-Codec（3.17）
- 但 token 数仅为后者的 1/4（100 vs 400 tokens/s），大幅降低了下游语言模型的计算负担
- UTMOS 3.37 相比 WavTokenizer 0.9 kbps（3.15）有明显优势，说明主观感知上也更接近干净语音
为什么量化器数量很关键
- 多量化器（8 个）的设计虽然在高码率能达到 PESQ 3.25+，但长序列 token 对 LM 训练和推理都是沉重负担
- SimCodec 的单量化器 + 大 codebook（8192）+ 重组策略巧妙地在量化空间复杂度和序列长度间做了权衡

表 4：跨域泛化能力对比（DNS vs CHiME-4）

模型	DNS DNSMOS-OVL	CHiME-4 DNSMOS-OVL	性能下跌幅度	CHiME-4 WER
FullSubNet	2.93	2.01	-31.4%	34.1%
Inter-Subnet	2.98	2.08	-30.2%	29.6%
CDiffuSE	2.84	2.38	-16.2%	40.7%
SGMSE	3.11	2.41	-22.5%	37.2%
StoRM	3.15	2.57	-18.4%	35.1%
SELM	3.21	2.62	-18.4%	29.4%
DOSE	3.31	2.61	-21.1%	31.2%
GenSE	3.43	2.89	-15.8% (最优)	28.4% (最优)

确定性 vs 生成式的分界线
- FullSubNet 和 Inter-Subnet 跌幅超过 30%，说明学到的确定性映射 f(x) 对未见过的噪声特征极其敏感
- GenSE 的 15.8% 跌幅是表中最小的，生成模型对干净语音分布的学习比确定性映射更能泛化
语义约束的泛化优势
- SELM（纯 LM-based 但无分层）在 CHiME-4 上 WER 为 29.4%，与 GenSE 相同
- 但 GenSE 的 DNSMOS-OVL（2.89）明显优于 SELM（2.62），说明 token chain prompting 提供的音色保持有助于'跨域'还原
- GenSE 在 CHiME-4 上的 WER 28.4%（相对 Noisy 的 37.9% 下降 25%）证明语义建模同时保护了言语内容

表 5：消融研究（Ablation Study）

配置	DNSMOS-SIG	DNSMOS-BAK	DNSMOS-OVL	SECS	VQScore
Full GenSE	3.57	3.96	3.31	0.66	0.694
w/o Token Chain Prompting	3.54 (-0.8%)	4.01 (+1.3%)	3.28 (-0.9%)	0.43 (-34.8%)	0.636 (-8.4%)
w/o Hierarchical Modeling	3.38 (-5.6%)	3.75 (-9.6%)	3.17 (-4.4%)	0.41 (-37.9%)	0.621 (-10.5%)

Token Chain Prompting 的关键作用：说话人保持
- 去除这一机制，SECS 从 0.66 直接跌到 0.43，这是表中最剧烈的单点下跌
- BAK 反而提升 1.3%，说明没有'音色约束'时，模型反而会更激进地去噪声，但以牺牲说话人身份为代价
- 这充分说明原始语音的声学特征信息对 timbre 一致性不可或缺
分层建模 vs 单 LM 的权衡
- 去除分层建模（N2S + S2S 改为单 LM 直接预测）时，DNSMOS-OVL 下跌 5.6%
- 更关键的是，这个改变会让 SECS 进一步沦至 0.41，表明单 LM 无法同时稳定地处理'去噪'和'生成'两个不同难度的任务
- 分层建模不是'架构装饰'，而是在降低单个模型的预测难度、提高稳定性上有量化意义的必要选择
两个约束的协同效应
- 完整框架的 SECS 为 0.66，而两个约束分别移除都会导致大幅下跌
- 说明 token chain prompting（保留音色线索）和分层建模（降低任务复杂度）是互补的设计，共同支撑了说话人一致性

表 6：Codec 替换对 SE 性能的影响

Codec 配置	DNSMOS-SIG	DNSMOS-BAK	DNSMOS-OVL	SECS	VQScore
GenSE (SimCodec)	3.57	3.96	3.31	0.66	0.694
GenSE (DAC 单量化器)	2.39 (-33.1%)	2.37 (-40.1%)	2.18 (-34.1%)	0.35 (-46.97%)	0.547 (-21.2%)
GenSE (DAC 4 量化器 + AR+NAR)	3.07 (-14.0%)	3.46 (-12.6%)	2.77 (-16.3%)	0.61 (-7.6%)	0.656 (-5.5%)
GenSE (DAC 4 量化器 + 并行)	3.21 (-10.1%)	3.57 (-9.8%)	2.98 (-10.0%)	0.63 (-4.5%)	0.672 (-3.2%)

单量化器 DAC 的失败案例
- 直接替换为 DAC 导致性能崩塌，DNSMOS-OVL 从 3.31 跌至 2.18（-34.1%）
- SECS 从 0.66 降到 0.35 是最惊人的下跌，说明 DAC 的 acoustic token representation 对 timbre 保持很不友好
多量化器策略能部分恢复
- 使用 4 量化器的 DAC + 复杂预测策略（AR+NAR 混合或并行）能恢复到更接近原水平
- 最好的结果（并行预测）仍只能达到 DNSMOS-OVL 2.98（相对 SimCodec 仍下跌 10%）、SECS 0.63（下跌 4.5%）
SimCodec 的不可替代性
- 这说明 SimCodec 的'单量化器 + 大 codebook + 重组策略'并非锦上添花的工程优化
- 而是直接影响下游 LM 生成稳定性和质量的关键因素
- 合理的 codec 设计能让 LM 专注于'预测什么'而不是被长 token 序列或低效表示所累

核心结论总结

GenSE 的三大创新优势

分层建模 + 语义约束
- N2S 处理语义去噪，S2S 处理声学生成，降低单个 LM 的预测难度
- Token chain prompting 显式保留原始音色信息
- 消融研究证明两者不可或缺，协同提升说话人一致性
SimCodec 的压缩效率突破
- 在 0.65-1.3 kbps 超低码率下达到与 4-6 kbps 多量化器方案相近的质量
- token 数显著减少（50-100 vs 400-600），大幅降低 LM 计算负担
- 重组重建策略巧妙解决了大 codebook 的使用率问题
生成式范式的泛化优势
- 在 CHiME-4 跨域测试中保持最小性能下跌（15.8%）
- 生成模型学到的干净语音先验分布比确定性映射更鲁棒
- WER 达到 28.4%，说明语义约束同时保护了言语内容

与现有 SOTA 方法的关键区别

方法维度	SELM	DOSE	GenSE
生成范式	LM-based	扩散模型	LM-based + 分层
语义利用	✓	✗	✓ (显式约束)
分层建模	✗	✗	✓
音色保持	普通	普通	优异 (token chain)
Codec 设计	多量化器	多量化器	单量化器优化
DNS 性能	3.21 OVL	3.31 OVL	3.43 OVL
CHiME-4 泛化	2.62 OVL (-18.4%)	2.61 OVL (-21.1%)	2.89 OVL (-15.8%)
SECS (说话人相似)	0.62	0.61	0.67

论文基本信息

标题: GenSE: Generative Speech Enhancement via Language Models using Hierarchical Modeling

发表: ICLR 2025 (arXiv:2502.02942)

领域: 语音增强、语言模型、生成式建模

GenSE 的模型由三部分组成：

SimCodec：一个神经语音编解码器，用于将语音信号压缩为离散声学 token，并通过解码器从这些 token 重建语音信号。
XLSR：一个预训练的自监督模型（Meta AI 开源），用于从语音中提取高维语义信息。
N2S 和 S2S（Two decoder-only LMs）：分别用于两个阶段的生成任务。
- N2S（Noisy-to-Semantic）模块：将带噪语音转换为干净的语义 token。
- S2S（Semantic-to-Speech）模块：基于语义 token 和带噪声学 token 生成干净的声学 token，最终重建出增强后的语音。

SimCodec

SimCodec 是 GenSE 框架中为「语言模型友好」而重新设计的一款神经语音编解码器。

核心功能只有两点：

把连续的语音压缩成尽可能少的离散声学 token。
将这些 token 高质量的还原成原始波形，让后续的语言模型做下一个 token 的预测。

那么得到了结论：单纯把码本扩大不可行，必须让'大码本 + 高利用率'同时成立。

N2S 和 S2S

核心目标：解决带噪语音中噪声对语义提取和声学生成的干扰问题，降低 LM 预测难度：

传统方法将去噪和生成耦合，噪声易传递至后续生成阶段，导致语音质量和说话人一致性下降；
分层框架让每个阶段专注单一任务，先净化语义信息，再基于干净语义生成高质量语音。

1. 带噪到语义转换（N2S 模块）：专注去噪

核心任务：将带噪语音的语义令牌转化为干净语义令牌，消除噪声对语义信息的扭曲。

2. 语义到语音生成（S2S 模块）：专注高质量生成 + 音色一致性

核心任务：基于干净语义令牌，生成干净声学令牌，最终通过 SimCodec 解码器重构语音。

在 GenSE 的令牌链提示机制中：

带噪语义令牌：从带噪语音中提取的语义表示，虽然受噪声影响，但仍保留了语言内容的大致信息
干净语义令牌：由语义语言模型（Semantic LM）预测得到的去噪后语义表示，提供准确的语言内容
带噪声学令牌：从带噪语音中提取的声学表示，虽然包含噪声，但保留了原始说话人的音色、韵律等个性化特征

核心优势

去噪与生成解耦：N2S 模块提前过滤语义噪声，避免噪声影响 S2S 模块的语音生成，提升 LM 预测稳定性；
音色一致性保障：令牌链提示机制融合带噪声学令牌的说话人特征。
任务专业化：两阶段分别聚焦'语义去噪'和'声学生成'，让模型更高效地学习对应任务的规律，提升整体增强质量。

实验结果

1. GenSE 与主流 SE 模型核心性能对比（DNS Challenge 测试集，无混响场景）

GenSE 在三个关键指标上全面领先：

DNSMOS-OVL（整体感知质量）：3.43，相比 Noisy 的 2.48 提升 17.1%，超过当前 SOTA 扩散模型 DOSE 的 3.31
SECS（说话人相似度）：0.67，相比次优的 DOSE（0.61）高出 9.8%，这是 token chain prompting 的关键成果
VQScore（生成一致性）：0.717 是全表最高，说明生成的语音在特征空间上最接近真实干净语音分布

2. SimCodec 编码器效率突破

SimCodec 打破了'码率 - 质量 - 效率'的三角困境：

0.65 kbps 配置：仅需 50 tokens/秒就达到 PESQ 2.45，相比 DAC（1.0 kbps，PESQ 1.32）性能整整高出 86%
1.3 kbps 配置：PESQ 3.05 已接近 4 kbps 的 HiFi-Codec，但 token 数仅为后者的 1/4（100 vs 400 tokens/s）
这种优势来自'两阶段重组重建'策略，在大 codebook 下仍保持高使用率

3. 跨域泛化能力

从 DNS Challenge 到 CHiME-4 真实噪声环境的转变中：

GenSE 的性能下跌仅 15.8%（3.43 → 2.89），相比确定性方法的 30% 跌幅优势明显
这证明了生成式范式学到的'干净语音先验分布'比确定性映射更鲁棒于噪声类型变化
CHiME-4 上的 WER 达到 28.4%（相对 Noisy 的 37.9% 降低 25%），说明语义约束同时保护了言语内容

4. 消融研究的定量证明

去除 Token Chain Prompting：SECS 从 0.66 急跌到 0.43（-34.8%），这是单点最大的性能损失
去除分层建模：DNSMOS-OVL 下跌 5.6%，SECS 更是跌至 0.41，说明'先语义去噪、再声学生成'的两阶段设计对稳定性至关重要

GenSE 实验结果的图表解读

表 1：GenSE 与主流语音增强模型对比（DNS Challenge，无混响场景）

模型	DNSMOS-SIG	DNSMOS-BAK	DNSMOS-OVL	SECS（说话人相似度）	VQScore（生成一致性）	核心特点
Noisy	3.39	2.62	2.48	-	0.566	原始带噪，无任何增强
FullSubNet	3.05	3.51	2.93	0.62	0.623	确定性全带 - 子带融合方法
Inter-Subnet	3.17	3.15	2.98	0.62	0.616	轻量级确定性增强框架
CDiffuSE	3.37	3.52	2.84	0.58	0.624	扩散模型 + 条件增强
SGMSE	3.47	3.41	3.11	0.58	0.651	改进的扩散方法（从噪声混合启动）
StoRM	3.54	3.69	3.15	0.61	0.687	随机再生 + 扩散模型
SELM	3.47	3.81	3.21	0.62	0.673	首个 LM-based 方法，离散语义 token，但无分层设计
DOSE	3.58	3.98	3.31	0.61	0.692	当前 SOTA 扩散方法，高 BAK 和 VQ 得分
GenSE	3.65 (+19.7%)	4.18 (+19.1%)	3.43 (+17.1%)	0.67 (最优)	0.717 (最优)	分层建模 + SimCodec + 令牌链提示

GenSE 在 DNSMOS 所有子维度和综合指标上均为最高，说明在'清晰度''噪声抑制''整体感知'三个维度都取得均衡的优势
SECS 0.67 相比次优的 DOSE（0.61）有 9.8% 的绝对优势，说明 token chain prompting 机制在说话人保持上的效果显著
VQScore 0.717 相比 DOSE（0.692）的差异说明语义建模使生成的语音在特征空间上更接近真实分布

表 2：带混响场景性能（DNS Challenge，有混响）

模型	DNSMOS-SIG	DNSMOS-BAK	DNSMOS-OVL	SECS	VQScore
Noisy	1.76	1.50	1.39	-	0.527
FullSubNet	2.74	3.01	2.27	0.63	0.615
DOSE	3.23	3.79	3.13	0.63	0.668
GenSE	3.49 (+27.4%)	3.73 (+23.9%)	3.19 (+40.5%)	0.65	0.671

混响场景下 GenSE 的性能提升幅度更大（相对 Noisy 的提升为 +27.4%、+23.9%、+40.5%，vs 无混响的 +19.7%、+19.1%、+17.1%）
这表明分层建模框架在处理复杂声学环境（同时存在噪声和混响）时表现出更强的适应能力
SECS 从无混响的 0.67 降到 0.65，说明混响会影响语义提取，但 GenSE 仍保持最优

表 3：SimCodec 与主流编码器对比

编码器	带宽 (kbps)	量化器数 (Nq)	每秒令牌数	PESQ	STOI	MCD	UTMOS
EnCodec	6.0	8	600	2.92	0.946	3.51	3.41
HiFi-Codec	4.0	4	400	3.17	0.959	3.66	3.48
SpeechTokenizer	6.0	8	600	3.25	0.957	3.06	3.57
Vocos	6.0	8	600	3.37	0.961	3.22	3.48
DAC	1.0	1	100	1.32	0.784	4.91	2.06
WavTokenizer	0.5	1	40	1.92	0.857	4.72	2.77
WavTokenizer	0.9	1	75	2.58	0.911	4.14	3.15
SimCodec	0.65	1	50	2.45	0.903	3.99	3.04
SimCodec	1.3	1	100	3.05	0.954	3.82	3.37

极低码率突破（0.65 kbps）
- SimCodec 以仅 50 tokens/s 就达到 PESQ 2.45，相比 DAC（1.0 kbps, PESQ 1.32）有显著进步
- 与 WavTokenizer（0.5 kbps）相比，SimCodec 0.65 kbps 虽然码率更高，但 PESQ 高出 27.6%（2.45 vs 1.92），这是'重组重建'策略的直接成果
中等码率的 SOTA 地位（1.3 kbps）
- PESQ 3.05 已经接近 4.0 kbps 的 HiFi-Codec（3.17）
- 但 token 数仅为后者的 1/4（100 vs 400 tokens/s），大幅降低了下游语言模型的计算负担
- UTMOS 3.37 相比 WavTokenizer 0.9 kbps（3.15）有明显优势，说明主观感知上也更接近干净语音
为什么量化器数量很关键
- 多量化器（8 个）的设计虽然在高码率能达到 PESQ 3.25+，但长序列 token 对 LM 训练和推理都是沉重负担
- SimCodec 的单量化器 + 大 codebook（8192）+ 重组策略巧妙地在量化空间复杂度和序列长度间做了权衡

表 4：跨域泛化能力对比（DNS vs CHiME-4）

模型	DNS DNSMOS-OVL	CHiME-4 DNSMOS-OVL	性能下跌幅度	CHiME-4 WER
FullSubNet	2.93	2.01	-31.4%	34.1%
Inter-Subnet	2.98	2.08	-30.2%	29.6%
CDiffuSE	2.84	2.38	-16.2%	40.7%
SGMSE	3.11	2.41	-22.5%	37.2%
StoRM	3.15	2.57	-18.4%	35.1%
SELM	3.21	2.62	-18.4%	29.4%
DOSE	3.31	2.61	-21.1%	31.2%
GenSE	3.43	2.89	-15.8% (最优)	28.4% (最优)

确定性 vs 生成式的分界线
- FullSubNet 和 Inter-Subnet 跌幅超过 30%，说明学到的确定性映射 f(x) 对未见过的噪声特征极其敏感
- GenSE 的 15.8% 跌幅是表中最小的，生成模型对干净语音分布的学习比确定性映射更能泛化
语义约束的泛化优势
- SELM（纯 LM-based 但无分层）在 CHiME-4 上 WER 为 29.4%，与 GenSE 相同
- 但 GenSE 的 DNSMOS-OVL（2.89）明显优于 SELM（2.62），说明 token chain prompting 提供的音色保持有助于'跨域'还原
- GenSE 在 CHiME-4 上的 WER 28.4%（相对 Noisy 的 37.9% 下降 25%）证明语义建模同时保护了言语内容

表 5：消融研究（Ablation Study）

配置	DNSMOS-SIG	DNSMOS-BAK	DNSMOS-OVL	SECS	VQScore
Full GenSE	3.57	3.96	3.31	0.66	0.694
w/o Token Chain Prompting	3.54 (-0.8%)	4.01 (+1.3%)	3.28 (-0.9%)	0.43 (-34.8%)	0.636 (-8.4%)
w/o Hierarchical Modeling	3.38 (-5.6%)	3.75 (-9.6%)	3.17 (-4.4%)	0.41 (-37.9%)	0.621 (-10.5%)

Token Chain Prompting 的关键作用：说话人保持
- 去除这一机制，SECS 从 0.66 直接跌到 0.43，这是表中最剧烈的单点下跌
- BAK 反而提升 1.3%，说明没有'音色约束'时，模型反而会更激进地去噪声，但以牺牲说话人身份为代价
- 这充分说明原始语音的声学特征信息对 timbre 一致性不可或缺
分层建模 vs 单 LM 的权衡
- 去除分层建模（N2S + S2S 改为单 LM 直接预测）时，DNSMOS-OVL 下跌 5.6%
- 更关键的是，这个改变会让 SECS 进一步沦至 0.41，表明单 LM 无法同时稳定地处理'去噪'和'生成'两个不同难度的任务
- 分层建模不是'架构装饰'，而是在降低单个模型的预测难度、提高稳定性上有量化意义的必要选择
两个约束的协同效应
- 完整框架的 SECS 为 0.66，而两个约束分别移除都会导致大幅下跌
- 说明 token chain prompting（保留音色线索）和分层建模（降低任务复杂度）是互补的设计，共同支撑了说话人一致性

表 6：Codec 替换对 SE 性能的影响

Codec 配置	DNSMOS-SIG	DNSMOS-BAK	DNSMOS-OVL	SECS	VQScore
GenSE (SimCodec)	3.57	3.96	3.31	0.66	0.694
GenSE (DAC 单量化器)	2.39 (-33.1%)	2.37 (-40.1%)	2.18 (-34.1%)	0.35 (-46.97%)	0.547 (-21.2%)
GenSE (DAC 4 量化器 + AR+NAR)	3.07 (-14.0%)	3.46 (-12.6%)	2.77 (-16.3%)	0.61 (-7.6%)	0.656 (-5.5%)
GenSE (DAC 4 量化器 + 并行)	3.21 (-10.1%)	3.57 (-9.8%)	2.98 (-10.0%)	0.63 (-4.5%)	0.672 (-3.2%)

单量化器 DAC 的失败案例
- 直接替换为 DAC 导致性能崩塌，DNSMOS-OVL 从 3.31 跌至 2.18（-34.1%）
- SECS 从 0.66 降到 0.35 是最惊人的下跌，说明 DAC 的 acoustic token representation 对 timbre 保持很不友好
多量化器策略能部分恢复
- 使用 4 量化器的 DAC + 复杂预测策略（AR+NAR 混合或并行）能恢复到更接近原水平
- 最好的结果（并行预测）仍只能达到 DNSMOS-OVL 2.98（相对 SimCodec 仍下跌 10%）、SECS 0.63（下跌 4.5%）
SimCodec 的不可替代性
- 这说明 SimCodec 的'单量化器 + 大 codebook + 重组策略'并非锦上添花的工程优化
- 而是直接影响下游 LM 生成稳定性和质量的关键因素
- 合理的 codec 设计能让 LM 专注于'预测什么'而不是被长 token 序列或低效表示所累

核心结论总结

GenSE 的三大创新优势

分层建模 + 语义约束
- N2S 处理语义去噪，S2S 处理声学生成，降低单个 LM 的预测难度
- Token chain prompting 显式保留原始音色信息
- 消融研究证明两者不可或缺，协同提升说话人一致性
SimCodec 的压缩效率突破
- 在 0.65-1.3 kbps 超低码率下达到与 4-6 kbps 多量化器方案相近的质量
- token 数显著减少（50-100 vs 400-600），大幅降低 LM 计算负担
- 重组重建策略巧妙解决了大 codebook 的使用率问题
生成式范式的泛化优势
- 在 CHiME-4 跨域测试中保持最小性能下跌（15.8%）
- 生成模型学到的干净语音先验分布比确定性映射更鲁棒
- WER 达到 28.4%，说明语义约束同时保护了言语内容

与现有 SOTA 方法的关键区别

方法维度	SELM	DOSE	GenSE
生成范式	LM-based	扩散模型	LM-based + 分层
语义利用	✓	✗	✓ (显式约束)
分层建模	✗	✗	✓
音色保持	普通	普通	优异 (token chain)
Codec 设计	多量化器	多量化器	单量化器优化
DNS 性能	3.21 OVL	3.31 OVL	3.43 OVL
CHiME-4 泛化	2.62 OVL (-18.4%)	2.61 OVL (-21.1%)	2.89 OVL (-15.8%)
SECS (说话人相似)	0.62	0.61	0.67

GenSE：基于分层建模的生成式语音增强语言模型方法

论文基本信息

SimCodec

N2S 和 S2S

1. 带噪到语义转换（N2S 模块）：专注去噪

2. 语义到语音生成（S2S 模块）：专注高质量生成 + 音色一致性

实验结果

1. GenSE 与主流 SE 模型核心性能对比（DNS Challenge 测试集，无混响场景）

2. SimCodec 编码器效率突破

3. 跨域泛化能力

4. 消融研究的定量证明

GenSE 实验结果的图表解读

表 1：GenSE 与主流语音增强模型对比（DNS Challenge，无混响场景）

表 2：带混响场景性能（DNS Challenge，有混响）

表 3：SimCodec 与主流编码器对比

表 4：跨域泛化能力对比（DNS vs CHiME-4）

表 5：消融研究（Ablation Study）

表 6：Codec 替换对 SE 性能的影响

核心结论总结

GenSE 的三大创新优势

与现有 SOTA 方法的关键区别

GenSE：基于分层建模的生成式语音增强语言模型方法

论文基本信息

SimCodec

N2S 和 S2S

1. 带噪到语义转换（N2S 模块）：专注去噪

2. 语义到语音生成（S2S 模块）：专注高质量生成 + 音色一致性

实验结果

1. GenSE 与主流 SE 模型核心性能对比（DNS Challenge 测试集，无混响场景）

2. SimCodec 编码器效率突破

3. 跨域泛化能力

4. 消融研究的定量证明

GenSE 实验结果的图表解读

表 1：GenSE 与主流语音增强模型对比（DNS Challenge，无混响场景）

表 2：带混响场景性能（DNS Challenge，有混响）

表 3：SimCodec 与主流编码器对比

表 4：跨域泛化能力对比（DNS vs CHiME-4）

表 5：消融研究（Ablation Study）

表 6：Codec 替换对 SE 性能的影响

核心结论总结

GenSE 的三大创新优势

与现有 SOTA 方法的关键区别

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具