引言
2026 年 1 月,阿里巴巴 Qwen 团队发布了 Qwen3-TTS,一个真正好用的开源文本转语音模型。

Qwen3-TTS 是什么?
Qwen3-TTS 是一个支持跨语言工作的开源文本转语音模型(Apache 2.0 许可),基于 500 多万小时的语音数据训练。提供两个版本:
- 1.7B 版本:功能完整,质量最好,需 6-8GB VRAM
- 0.6B 版本:轻量级选项,硬件要求低(4-6GB VRAM)
两个版本均可在 Hugging Face 和 GitHub 获取。1.7B 占 4.54GB,0.6B 占 2.52GB。
Qwen3-TTS 模型规格与参数详解
模型变体对比
| 方面 | 1.7B 模型 | 0.6B 模型 |
|---|---|---|
| 参数数量 | 17 亿 | 6 亿 |
| 存储大小 | 4.54 GB | 2.52 GB |
| 所需 VRAM | 6-8 GB | 4-6 GB |
| 性能表现 | 峰值质量 | 均衡效率 |
| 适用场景 | 生产环境、高质量 | 演示、资源受限 |

核心技术:Qwen3-TTS-Tokenizer-12Hz
Qwen3-TTS 使用自研分词器,在压缩语音的同时保留质量:
- STOI:0.96(可懂度几乎完美)
- UTMOS:4.16(听起来很自然)
- 说话人相似度:0.95(保留声音特征)
- PESQ 宽带:3.21
- PESQ 窄带:3.68
音频质量几乎无损。
Qwen3-TTS 硬件要求详解
GPU 和 VRAM 要求
Qwen3-TTS-1.7B 模型:
- 最低 VRAM:6 GB
- 推荐 VRAM:8 GB
- 最优 VRAM:12+ GB
Qwen3-TTS-0.6B 模型:



