跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

GenSE:基于分层建模的生成式语音增强语言模型方法

综述由AI生成GenSE,一种基于分层建模的生成式语音增强语言模型。该方法包含 SimCodec 神经编解码器、XLSR 语义提取以及 N2S 和 S2S 两个解码器模块。通过单量化器架构和两阶段重排训练,SimCodec 实现了低码率下的高质量语音重建。N2S 负责去噪,S2S 利用令牌链提示机制保证音色一致性。实验表明,GenSE 在 DNS Challenge 测试集上优于扩散模型 DOSE,且在跨域泛化能力上表现更鲁棒。

颠三倒四发布于 2026/4/5更新于 2026/5/2828 浏览
GenSE:基于分层建模的生成式语音增强语言模型方法

论文基本信息

标题: GenSE: Generative Speech Enhancement via Language Models using Hierarchical Modeling

发表: ICLR 2025 (arXiv:2502.02942)

领域: 语音增强、语言模型、生成式建模

GenSE 的模型由三部分组成:

  1. SimCodec:一个神经语音编解码器,用于将语音信号压缩为离散声学 token,并通过解码器从这些 token 重建语音信号。
  2. XLSR:一个预训练的自监督模型(Meta AI 开源),用于从语音中提取高维语义信息。
  3. N2S 和 S2S(Two decoder-only LMs):分别用于两个阶段的生成任务。
    • N2S(Noisy-to-Semantic)模块:将带噪语音转换为干净的语义 token。
    • S2S(Semantic-to-Speech)模块:基于语义 token 和带噪声学 token 生成干净的声学 token,最终重建出增强后的语音。

SimCodec

SimCodec 是 GenSE 框架中为「语言模型友好」而重新设计的一款神经语音编解码器。

核心功能只有两点:

  1. 把连续的语音压缩成尽可能少的离散声学 token。
  2. 将这些 token 高质量的还原成原始波形,让后续的语言模型做下一个 token 的预测。

三项主要创新: A. 单量化器(single-quantizer)架构——把传统 8 级残差量化压缩成 1 级; B. 超大码本(8192)+ 两阶段「重排」训练——解决大码本'利用率低、难收敛'的顽疾; C. 端到端 GAN 训练目标——在频域多尺度重建 + 感知对抗 loss 下,把比特率压到 0.65 kbps 仍能打败 4–9 kbps 的强基线。

Q:为什么要重新设计一款编解码器? A:传统的 RVQ 方案例如 EnCodec 和 DAC 用了 8 个量化器进行逐级残差,每层 1024 条目,一秒钟音频要产生 600–900 个 token。对于自回归 LM 来说,序列长度直接决定推理成本,长一倍 GPU 时间就近乎翻倍。 因此 SimCodec 的目标是:仅用 1 个量化器、一秒钟音频产生 token 数量<=100。

为了研究分析单量化器 + 大码本(codesize)的可行性,作者首先做了一个重建质量与码本大小之间关系的实验。 可以看到:随着码本大小的增加,码本的利用率是单调下降的;PESQ 在一定范围内可以随着码本大小的增加,但是当码本大小 ≥2^11 后,PESQ 反而开始下降,码本大小达到 2^13 的大小时,大约有一半的码字都没有被激活,码字利用率下降显著的拖低了 PESQ。

那么得到了结论:单纯把码本扩大不可行,必须让'大码本 + 高利用率'同时成立。

为了让'大码本 + 高利用率'同时成立,作者提出了一种两阶段重排训练方法: 第一阶段使用两个独立的小组量化器进行训练,按码本的使用频率来筛选高频码本并重组成为新码本;第二阶段则是,基于新码本微调编码器和解码器,确保码本的利用率和重构质量。

Reorganize: 训练完成后,对每个小组量化器的码本向量按'码本使用率'排序,分别挑选出使用率最高的 N 个和 K 个量化向量(高频令牌);重组新码本:将两个量化器筛选出的高频向量成对拼接,构建一个新的大码本,新码本规模为 N×K(最终达到 8192)。

优势:重组后的码本仅保留高频使用的向量,避免了直接训练大码本时的'无效码本'问题,同时继承了两个量化器学到的语音特征,保证了码本的表达能力。

效果:重组后的码本仅包含高频有效令牌,配合单个量化器,让 SimCodec 在低码率(0.65-1.3 kbps)下,既能减少声学令牌数量(50-100 token/s,远低于传统模型的 300-900 token/s),又能保证高质量语音重构。

Nq(Number of Quantizers):量化器数量 MCD(Mel-Cepstral Distortion):梅尔倒谱失真 核心含义:衡量原始语音与重构语音在梅尔倒谱域的差异,反映音色还原度,数值越小,重构语音与原始语音的音色越接近、失真越小。

UTMOS(UTokyo-SaruLab MOS):自动主观质量评分系统。 核心含义:通过模型预测人类对语音质量的主观评分(模拟 MOS 分数),范围通常为 1~5,分数越高,主观感知质量越好(越接近人类对高质量语音的评价)。

N2S 和 S2S

核心目标: 解决带噪语音中噪声对语义提取和声学生成的干扰问题,降低 LM 预测难度:

  • 传统方法将去噪和生成耦合,噪声易传递至后续生成阶段,导致语音质量和说话人一致性下降;
  • 分层框架让每个阶段专注单一任务,先净化语义信息,再基于干净语义生成高质量语音。

两大核心模块(两阶段流程) 整个框架分为'带噪到语义(N2S)'和'语义到语音(S2S)'两个串联阶段,流程为:带噪语音 → N2S 模块生成干净语义令牌 → S2S 模块生成干净声学令牌 → SimCodec 解码器重构干净语音。

1. 带噪到语义转换(N2S 模块):专注去噪

核心任务:将带噪语音的语义令牌转化为干净语义令牌,消除噪声对语义信息的扭曲。

语义提取:采用预训练自监督模型 XLSR,将带噪语音编码为连续特征,再通过 k-means 聚类离散化为语义令牌(聚类中心数 K=1024,每 20ms 输出一个令牌)。得到一个离散化的语义令牌序列。

训练方式:基于自回归语言模型,以'带噪语义令牌'为条件,预测'干净语义令牌',训练目标为: 其中 s^为干净语义令牌,s̄为带噪语义令牌,确保生成的语义令牌时序一致、无噪声干扰。

2. 语义到语音生成(S2S 模块):专注高质量生成 + 音色一致性

核心任务:基于干净语义令牌,生成干净声学令牌,最终通过 SimCodec 解码器重构语音。

关键机制:令牌链提示机制(Token Chain Prompting) 不直接用干净语义令牌生成声学令牌,而是将'带噪语义令牌 + 干净语义令牌 + 带噪声学令牌'拼接为综合提示(Prompt),再输入 LM 预测干净声学令牌。 作用:带噪声学令牌包含原始说话人的音色特征,提示机制能捕捉这些特征,保证增强后语音的说话人一致性。

在 GenSE 的令牌链提示机制中:

  • 带噪语义令牌:从带噪语音中提取的语义表示,虽然受噪声影响,但仍保留了语言内容的大致信息
  • 干净语义令牌:由语义语言模型(Semantic LM)预测得到的去噪后语义表示,提供准确的语言内容
  • 带噪声学令牌:从带噪语音中提取的声学表示,虽然包含噪声,但保留了原始说话人的音色、韵律等个性化特征

训练方式:基于自回归语言模型,联合提示信息预测干净声学令牌,训练目标为: 其中 a^为干净声学令牌,s̄为带噪声学令牌,SimCodec 的单量化器设计让声学令牌序列简洁,降低 LM 预测复杂度。

核心优势

  1. 去噪与生成解耦:N2S 模块提前过滤语义噪声,避免噪声影响 S2S 模块的语音生成,提升 LM 预测稳定性;
  2. 音色一致性保障:令牌链提示机制融合带噪声学令牌的说话人特征。
  3. 任务专业化:两阶段分别聚焦'语义去噪'和'声学生成',让模型更高效地学习对应任务的规律,提升整体增强质量。

实验结果

1. GenSE 与主流 SE 模型核心性能对比(DNS Challenge 测试集,无混响场景)

GenSE 在三个关键指标上全面领先:

  • DNSMOS-OVL(整体感知质量):3.43,相比 Noisy 的 2.48 提升 17.1%,超过当前 SOTA 扩散模型 DOSE 的 3.31
  • SECS(说话人相似度):0.67,相比次优的 DOSE(0.61)高出 9.8%,这是 token chain prompting 的关键成果
  • VQScore(生成一致性):0.717 是全表最高,说明生成的语音在特征空间上最接近真实干净语音分布

2. SimCodec 编码器效率突破

SimCodec 打破了'码率 - 质量 - 效率'的三角困境:

  • 0.65 kbps 配置:仅需 50 tokens/秒就达到 PESQ 2.45,相比 DAC(1.0 kbps,PESQ 1.32)性能整整高出 86%
  • 1.3 kbps 配置:PESQ 3.05 已接近 4 kbps 的 HiFi-Codec,但 token 数仅为后者的 1/4(100 vs 400 tokens/s)
  • 这种优势来自'两阶段重组重建'策略,在大 codebook 下仍保持高使用率

3. 跨域泛化能力

从 DNS Challenge 到 CHiME-4 真实噪声环境的转变中:

  • GenSE 的性能下跌仅 15.8%(3.43 → 2.89),相比确定性方法的 30% 跌幅优势明显
  • 这证明了生成式范式学到的'干净语音先验分布'比确定性映射更鲁棒于噪声类型变化
  • CHiME-4 上的 WER 达到 28.4%(相对 Noisy 的 37.9% 降低 25%),说明语义约束同时保护了言语内容

4. 消融研究的定量证明

  • 去除 Token Chain Prompting:SECS 从 0.66 急跌到 0.43(-34.8%),这是单点最大的性能损失
  • 去除分层建模:DNSMOS-OVL 下跌 5.6%,SECS 更是跌至 0.41,说明'先语义去噪、再声学生成'的两阶段设计对稳定性至关重要

GenSE 实验结果的图表解读

表 1:GenSE 与主流语音增强模型对比(DNS Challenge,无混响场景)

模型DNSMOS-SIGDNSMOS-BAKDNSMOS-OVLSECS(说话人相似度)VQScore(生成一致性)核心特点
Noisy3.392.622.48-0.566原始带噪,无任何增强
FullSubNet3.053.512.930.620.623确定性全带 - 子带融合方法
Inter-Subnet3.173.152.980.620.616轻量级确定性增强框架
CDiffuSE3.373.522.840.580.624扩散模型 + 条件增强
SGMSE3.473.413.110.580.651改进的扩散方法(从噪声混合启动)
StoRM3.543.693.150.610.687随机再生 + 扩散模型
SELM3.473.813.210.620.673首个 LM-based 方法,离散语义 token,但无分层设计
DOSE3.583.983.310.610.692当前 SOTA 扩散方法,高 BAK 和 VQ 得分
GenSE3.65 (+19.7%)4.18 (+19.1%)3.43 (+17.1%)0.67 (最优)0.717 (最优)分层建模 + SimCodec + 令牌链提示
  • GenSE 在 DNSMOS 所有子维度和综合指标上均为最高,说明在'清晰度''噪声抑制''整体感知'三个维度都取得均衡的优势
  • SECS 0.67 相比次优的 DOSE(0.61)有 9.8% 的绝对优势,说明 token chain prompting 机制在说话人保持上的效果显著
  • VQScore 0.717 相比 DOSE(0.692)的差异说明语义建模使生成的语音在特征空间上更接近真实分布

表 2:带混响场景性能(DNS Challenge,有混响)

模型DNSMOS-SIGDNSMOS-BAKDNSMOS-OVLSECSVQScore
Noisy1.761.501.39-0.527
FullSubNet2.743.012.270.630.615
DOSE3.233.793.130.630.668
GenSE3.49 (+27.4%)3.73 (+23.9%)3.19 (+40.5%)0.650.671
  • 混响场景下 GenSE 的性能提升幅度更大(相对 Noisy 的提升为 +27.4%、+23.9%、+40.5%,vs 无混响的 +19.7%、+19.1%、+17.1%)
  • 这表明分层建模框架在处理复杂声学环境(同时存在噪声和混响)时表现出更强的适应能力
  • SECS 从无混响的 0.67 降到 0.65,说明混响会影响语义提取,但 GenSE 仍保持最优

表 3:SimCodec 与主流编码器对比

编码器带宽 (kbps)量化器数 (Nq)每秒令牌数PESQSTOIMCDUTMOS
EnCodec6.086002.920.9463.513.41
HiFi-Codec4.044003.170.9593.663.48
SpeechTokenizer6.086003.250.9573.063.57
Vocos6.086003.370.9613.223.48
DAC1.011001.320.7844.912.06
WavTokenizer0.51401.920.8574.722.77
WavTokenizer0.91752.580.9114.143.15
SimCodec0.651502.450.9033.993.04
SimCodec1.311003.050.9543.823.37
  • 极低码率突破(0.65 kbps)
    • SimCodec 以仅 50 tokens/s 就达到 PESQ 2.45,相比 DAC(1.0 kbps, PESQ 1.32)有显著进步
    • 与 WavTokenizer(0.5 kbps)相比,SimCodec 0.65 kbps 虽然码率更高,但 PESQ 高出 27.6%(2.45 vs 1.92),这是'重组重建'策略的直接成果
  • 中等码率的 SOTA 地位(1.3 kbps)
    • PESQ 3.05 已经接近 4.0 kbps 的 HiFi-Codec(3.17)
    • 但 token 数仅为后者的 1/4(100 vs 400 tokens/s),大幅降低了下游语言模型的计算负担
    • UTMOS 3.37 相比 WavTokenizer 0.9 kbps(3.15)有明显优势,说明主观感知上也更接近干净语音
  • 为什么量化器数量很关键
    • 多量化器(8 个)的设计虽然在高码率能达到 PESQ 3.25+,但长序列 token 对 LM 训练和推理都是沉重负担
    • SimCodec 的单量化器 + 大 codebook(8192)+ 重组策略巧妙地在量化空间复杂度和序列长度间做了权衡

表 4:跨域泛化能力对比(DNS vs CHiME-4)

模型DNS DNSMOS-OVLCHiME-4 DNSMOS-OVL性能下跌幅度CHiME-4 WER
FullSubNet2.932.01-31.4%34.1%
Inter-Subnet2.982.08-30.2%29.6%
CDiffuSE2.842.38-16.2%40.7%
SGMSE3.112.41-22.5%37.2%
StoRM3.152.57-18.4%35.1%
SELM3.212.62-18.4%29.4%
DOSE3.312.61-21.1%31.2%
GenSE3.432.89-15.8% (最优)28.4% (最优)
  • 确定性 vs 生成式的分界线
    • FullSubNet 和 Inter-Subnet 跌幅超过 30%,说明学到的确定性映射 f(x) 对未见过的噪声特征极其敏感
    • GenSE 的 15.8% 跌幅是表中最小的,生成模型对干净语音分布的学习比确定性映射更能泛化
  • 语义约束的泛化优势
    • SELM(纯 LM-based 但无分层)在 CHiME-4 上 WER 为 29.4%,与 GenSE 相同
    • 但 GenSE 的 DNSMOS-OVL(2.89)明显优于 SELM(2.62),说明 token chain prompting 提供的音色保持有助于'跨域'还原
    • GenSE 在 CHiME-4 上的 WER 28.4%(相对 Noisy 的 37.9% 下降 25%)证明语义建模同时保护了言语内容

表 5:消融研究(Ablation Study)

配置DNSMOS-SIGDNSMOS-BAKDNSMOS-OVLSECSVQScore
Full GenSE3.573.963.310.660.694
w/o Token Chain Prompting3.54 (-0.8%)4.01 (+1.3%)3.28 (-0.9%)0.43 (-34.8%)0.636 (-8.4%)
w/o Hierarchical Modeling3.38 (-5.6%)3.75 (-9.6%)3.17 (-4.4%)0.41 (-37.9%)0.621 (-10.5%)
  • Token Chain Prompting 的关键作用:说话人保持
    • 去除这一机制,SECS 从 0.66 直接跌到 0.43,这是表中最剧烈的单点下跌
    • BAK 反而提升 1.3%,说明没有'音色约束'时,模型反而会更激进地去噪声,但以牺牲说话人身份为代价
    • 这充分说明原始语音的声学特征信息对 timbre 一致性不可或缺
  • 分层建模 vs 单 LM 的权衡
    • 去除分层建模(N2S + S2S 改为单 LM 直接预测)时,DNSMOS-OVL 下跌 5.6%
    • 更关键的是,这个改变会让 SECS 进一步沦至 0.41,表明单 LM 无法同时稳定地处理'去噪'和'生成'两个不同难度的任务
    • 分层建模不是'架构装饰',而是在降低单个模型的预测难度、提高稳定性上有量化意义的必要选择
  • 两个约束的协同效应
    • 完整框架的 SECS 为 0.66,而两个约束分别移除都会导致大幅下跌
    • 说明 token chain prompting(保留音色线索)和分层建模(降低任务复杂度)是互补的设计,共同支撑了说话人一致性

表 6:Codec 替换对 SE 性能的影响

Codec 配置DNSMOS-SIGDNSMOS-BAKDNSMOS-OVLSECSVQScore
GenSE (SimCodec)3.573.963.310.660.694
GenSE (DAC 单量化器)2.39 (-33.1%)2.37 (-40.1%)2.18 (-34.1%)0.35 (-46.97%)0.547 (-21.2%)
GenSE (DAC 4 量化器 + AR+NAR)3.07 (-14.0%)3.46 (-12.6%)2.77 (-16.3%)0.61 (-7.6%)0.656 (-5.5%)
GenSE (DAC 4 量化器 + 并行)3.21 (-10.1%)3.57 (-9.8%)2.98 (-10.0%)0.63 (-4.5%)0.672 (-3.2%)
  • 单量化器 DAC 的失败案例
    • 直接替换为 DAC 导致性能崩塌,DNSMOS-OVL 从 3.31 跌至 2.18(-34.1%)
    • SECS 从 0.66 降到 0.35 是最惊人的下跌,说明 DAC 的 acoustic token representation 对 timbre 保持很不友好
  • 多量化器策略能部分恢复
    • 使用 4 量化器的 DAC + 复杂预测策略(AR+NAR 混合或并行)能恢复到更接近原水平
    • 最好的结果(并行预测)仍只能达到 DNSMOS-OVL 2.98(相对 SimCodec 仍下跌 10%)、SECS 0.63(下跌 4.5%)
  • SimCodec 的不可替代性
    • 这说明 SimCodec 的'单量化器 + 大 codebook + 重组策略'并非锦上添花的工程优化
    • 而是直接影响下游 LM 生成稳定性和质量的关键因素
    • 合理的 codec 设计能让 LM 专注于'预测什么'而不是被长 token 序列或低效表示所累

核心结论总结

GenSE 的三大创新优势

  • 分层建模 + 语义约束
    • N2S 处理语义去噪,S2S 处理声学生成,降低单个 LM 的预测难度
    • Token chain prompting 显式保留原始音色信息
    • 消融研究证明两者不可或缺,协同提升说话人一致性
  • SimCodec 的压缩效率突破
    • 在 0.65-1.3 kbps 超低码率下达到与 4-6 kbps 多量化器方案相近的质量
    • token 数显著减少(50-100 vs 400-600),大幅降低 LM 计算负担
    • 重组重建策略巧妙解决了大 codebook 的使用率问题
  • 生成式范式的泛化优势
    • 在 CHiME-4 跨域测试中保持最小性能下跌(15.8%)
    • 生成模型学到的干净语音先验分布比确定性映射更鲁棒
    • WER 达到 28.4%,说明语义约束同时保护了言语内容

与现有 SOTA 方法的关键区别

方法维度SELMDOSEGenSE
生成范式LM-based扩散模型LM-based + 分层
语义利用✓✗✓ (显式约束)
分层建模✗✗✓
音色保持普通普通优异 (token chain)
Codec 设计多量化器多量化器单量化器优化
DNS 性能3.21 OVL3.31 OVL3.43 OVL
CHiME-4 泛化2.62 OVL (-18.4%)2.61 OVL (-21.1%)2.89 OVL (-15.8%)
SECS (说话人相似)0.620.610.67

目录

  1. 论文基本信息
  2. SimCodec
  3. N2S 和 S2S
  4. 1. 带噪到语义转换(N2S 模块):专注去噪
  5. 2. 语义到语音生成(S2S 模块):专注高质量生成 + 音色一致性
  6. 实验结果
  7. 1. GenSE 与主流 SE 模型核心性能对比(DNS Challenge 测试集,无混响场景)
  8. 2. SimCodec 编码器效率突破
  9. 3. 跨域泛化能力
  10. 4. 消融研究的定量证明
  11. GenSE 实验结果的图表解读
  12. 表 1:GenSE 与主流语音增强模型对比(DNS Challenge,无混响场景)
  13. 表 2:带混响场景性能(DNS Challenge,有混响)
  14. 表 3:SimCodec 与主流编码器对比
  15. 表 4:跨域泛化能力对比(DNS vs CHiME-4)
  16. 表 5:消融研究(Ablation Study)
  17. 表 6:Codec 替换对 SE 性能的影响
  18. 核心结论总结
  19. GenSE 的三大创新优势
  20. 与现有 SOTA 方法的关键区别
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 转行 Python 开发需知的 11 个核心常识
  • Gazebo 机器人三维物理仿真平台详解
  • Flutter 三方库 whatsapp_bot_flutter 在 OpenHarmony 适配指南
  • 前端常用可视化图表组件选型指南
  • Git 代码上传至 GitHub 完整指南
  • 如何挖掘大模型应用场景及驱动技术发展
  • GLM-5 大模型代码生成能力深度评测与实战
  • 金仓数据库全链路性能优化:从 SQL 到存储的效率提升方案
  • Java RSA 私钥 PKCS1 与 PKCS8 格式互转及对象构建
  • 大模型本地部署的电脑硬件配置指南
  • Flutter for OpenHarmony 实战:通义万相 AIGC 联调与相册持久化
  • C++ 反射内存 (RFM) 双机通讯实战:微秒级同步
  • Java 刷题常用集合类、函数及类型转换指南
  • AI 编程工具深度评测:Trae 3.0, Cursor, Qoder 等五大方案对比
  • RabbitMQ 与 Spring-AMQP 事务及消息限流机制详解
  • TypeScript+React 全栈生态实战:从架构选型到工程落地
  • 桌面机器人情感引擎:ElectronBot 动态表情系统解析与实践
  • LangChain 实战:工具调用与结构化输出指南
  • LogicFlow:前端流程图编辑框架入门与实战
  • llama.cpp Docker 镜像国内加速下载方案

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online