开源实时语音克隆 IndexTTS2：推理加速实测与情绪语速控制 | 极客日志

PythonAI算法

开源实时语音克隆 IndexTTS2：推理加速实测与情绪语速控制

IndexTTS2 是 B 站开源的语音克隆模型，支持情感表达和语速控制。架构包含 T2S、S2M 及 BigVGANv2 声码器。通过 vLLM 和 DeepSpeed 可实现推理加速，DeepSpeed 性价比更高但需处理并发问题。部署采用 FastAPI 串行化 GPU 推理配合 HTTP 异步请求。实测显示在 RTX 4080 上可优化至 RTF 0.5 以下。

赛博行者发布于 2026/3/29更新于 2026/5/2325 浏览

IndexTTS 是 B 站语音团队开源的一系列语音克隆模型。

早期版本，在多场景应用中均表现惊艳，笔者也有过部署实测。

字错率和克隆相似性，均出于当时领先水平。

经过 vLLM 推理加速，RTF 可以低至 0.15，因此也是首选的语音克隆模型服务。

不过还有硬伤：

情感表达不够，AI 味依旧浓郁；
不支持语速控制，更像在读稿。

刚好最近项目中需要解决以上痛点，寻找了一圈解决方案，兜兜转转还是来到了 IndexTTS 。

因为当前市面上，无论开源还是闭源的语音克隆方案，上述两点都没有很好解决。

早在去年 9 月，B 站就开源了 IndexTTS-2.0 ，号称情感丰富和时长可控。

刚好借此机会，实测一番，分享给各位。

1. IndexTTS-2 简介

官方仓库：https://github.com/index-tts/index-tts

1.1 模型架构

相比 v1 版本，模型架构发生了不小变化：

架构图

简言之：

IndexTTS2 由三个核心模块组成：Text-to-Semantic（T2S） 、Semantic-to-Mel（S2M） 以及 BigVGANv2 声码器。

T2S 模块：
- 输入：源文本、风格提示、音色提示、目标语音 token 数；
- 输出：语义 token 序列。
- 模型：GPT2 自回归模型
S2M 模块：
- 输入：语义 token、音色提示；
- 输出：梅尔频谱图。
- 模型：基于流匹配的非回归生成框架
BigVGANv2 声码器：
- 输入：梅尔频谱图
- 输出：高质量的语音波形。

1.2 亮点介绍

论文：https://arxiv.org/abs/2506.21619

有哪些亮点？

支持语速控制：提出一种'时间编码'机制，首次解决了传统 AR 模型难以精确控制语音时长的问题。允许用户显式指定生成的 token 数量，从而实现语速控制。
支持情感表达：提出音色与情感解耦机制，也就是支持用户同时指定音色参考与情感参考，实现更加灵活、细腻的情感表达。

此外，模型还具备基于文本描述的情感控制能力。

如何实现？

首先定义 7 种标准情感，并建立对应的情感 embedding。用户输入自然语言，微调 Qwen3-0.6b 输出情感概率分布，加权得到最终的情感 embedding。

1.3 核心代码解读

对应模型架构部分：

# 核心模块 GPT 模型 (UnifiedVoice)：负责从文本和音色参考生成语义码（codes）。













.qwen_emo = QwenEmotion(os.path.join(.model_dir, .cfg.qwen_emo_path)) 
.gpt = UnifiedVoice(**.cfg.gpt, use_accel=.use_accel) 
.s2mel = MyModel(.cfg.s2mel, use_gpt_latent=) 
.bigvgan = bigvgan.BigVGAN.from_pretrained 
.normalizer = TextNormalizer(enable_glossary=) 
.tokenizer = TextTokenizer(.bpe_path, .normalizer) 
.emo_matrix 
.spk_matrix 
.mel_fn

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

>> RTF: 5.8614 >> RTF: 3.6096 >> RTF: 3.6241 >> RTF: 3.2211 >> RTF: 3.8663

uv sync --extra deepspeed

wget https://github.com/Dao-AILab/flash-attention/releases/download/v2.8.3/flash_attn-2.8.3+cu12torch2.8cxx11abiFALSE-cp310-cp310-linux_x86_64.whl 
uv pip install flash_attn-2.8.3+cu12torch2.8cxx11abiFALSE-cp310-cp310-linux_x86_64.whl

[请求 1] 成功 - 耗时：3.63s [请求 2] 成功 - 耗时：5.99s [请求 6] 成功 - 耗时：9.20s [请求 3] 成功 - 耗时：12.32s [请求 0] 成功 - 耗时：14.61s [请求 4] 成功 - 耗时：17.14s [请求 7] 成功 - 耗时：19.65s [请求 8] 成功 - 耗时：22.03s [请求 5] 成功 - 耗时：24.44s [请求 9] 成功 - 耗时：26.87s

class TTSRequest(BaseModel):
    voice_id: Optional[str] = None # 参考语音的 id
    tts_text: Optional[str] = None # 待合成的文本
    emo_vec: Optional[list] = [0] * 8 # 情绪向量
    max_tokens: Optional[int] = 80 # 单句文本最大长度
    speed: Optional[float] = 1.0

开源实时语音克隆 IndexTTS2：推理加速实测与情绪语速控制

1. IndexTTS-2 简介

1.1 模型架构

1.2 亮点介绍

1.3 核心代码解读

更多推荐文章

相关免费在线工具

1.4 效果展示

2. 推理加速测试

2.1 vLLM 加速推理

2.2 Deepspeed 加速推理

3. 推理服务部署

3.1 方案选型

3.2 请求示例

写在最后

更多推荐文章

相关免费在线工具

开源实时语音克隆 IndexTTS2：推理加速实测与情绪语速控制

1. IndexTTS-2 简介

1.1 模型架构

1.2 亮点介绍

1.3 核心代码解读

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.4 效果展示

2. 推理加速测试

2.1 vLLM 加速推理

2.2 Deepspeed 加速推理

3. 推理服务部署

3.1 方案选型

3.2 请求示例

写在最后

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具