今年 10 月,智谱在 CNCC2024 大会上推出了他们在多模态领域的最新成果——端到端情感语音模型 GLM-4-Voice,让人和机器的交流能够以自然聊天的状态进行。
据介绍,GLM-4-Voice 能够直接理解和生成中英文语音,进行实时语音对话,在情绪感知、情感共鸣、情绪表达、多语言、多方言等方面实现突破,且延时更低,可随时打断。
日前,来自清华大学和智谱的研究团队发布了 GLM-4-Voice 的研究论文,对这一端到端语音模型的核心技术与评估结果进行了详细论述。
论文链接:
https://arxiv.org/abs/2412.02612
GitHub 地址:
https://github.com/THUDM/GLM-4-Voice
GLM-4-Voice 是如何练成的?
与传统的 ASR + LLM + TTS 的级联方案相比,端到端模型以音频 token 的形式直接建模语音,在一个模型里面同时完成语音的理解和生成,避免了级联方案'语音转文字再转语音'的中间过程中带来的信息损失,也解锁了更高的能力上限。
GLM-4-Voice 由三个部分组成:
GLM-4-Voice-Tokenizer:通过在 Whisper 的 Encoder 部分增加 Vector Quantization 并在 ASR 数据上有监督训练,将连续的语音输入转化为离散的 token。每秒音频平均只需要用 12.5 个离散 token 表示。
GLM-4-Voice-Decoder:基于 CosyVoice 的 Flow Matching 模型结构训练的支持流式推理的语音解码器,将离散化的语音 token 转化为连续的语音输出。最少只需要 10 个语音 token 即可开始生成,降低端到端对话延迟。
GLM-4-Voice-9B:在 GLM-4-9B 的基础上进行语音模态的预训练和对齐,从而能够理解和生成离散化的语音 token。
预训练方面,为了攻克模型在语音模态下的智商和合成表现力两个难关,他们将 Speech2Speech 任务解耦合为'根据用户音频做出文本回复'和'根据文本回复和用户语音合成回复语音'两个任务,并设计两种预训练目标,分别基于文本预训练数据和无监督音频数据合成语音 - 文本交错数据以适配这两种任务形式。
具体而言,模型的预训练包括 2 个阶段。
第一阶段为大规模语音 - 文本联合预训练,在该阶段中 GLM-4-Voice 采用了三种类型的语音数据:语音 - 文本交错数据、无监督语音数据和有监督语音 - 文本数据,实现了促进文本和语音模态之间知识迁移、帮助模型学习真实世界语音特征以及提升模型基本任务方面性能方面的效果。尤其,GLM-4-Voice-9B 在 GLM-4-9B 的基座模型基础之上,经过了数百万小时音频和数千亿 token 的音频文本交错数据预训练,拥有很强的音频理解和建模能力。
第二阶段为监督微调阶段,旨在进一步提高 GLM-4-Voice 的对话能力。研究人员使用了两种类型的对话数据,包括多轮对话数据与语音风格控制对话数据。前者主要来自文本数据,经过精心筛选和语音合成,确保对话内容的质量和多样性。而后者包含高质量的对话数据,用于训练模型生成不同风格和语调的语音输出。
此外,在对齐方面,为了支持高质量的语音对话,降低语音生成的延迟,研究团队设计了一套流式思考架构:根据用户语音,GLM-4-Voice 可以流式交替输出文本和语音两个模态的内容,其中语音模态以文本作为参照保证回复内容的高质量,并根据用户的语音指令要求做出相应的声音变化,在最大程度保留语言模型智商的情况下仍然具有端到端建模的能力,同时具备低延迟性,最低只需要输出 20 个 token 便可以合成语音。
效果怎么样?
研究团队在基础模型评估与聊天模型评估两方面对 GLM-4-Voice 进行了性能评估。


