Qwen3-TTS 开源文本转语音模型详解
本文介绍 Qwen3-TTS 开源文本转语音模型,包含 1.7B 与 0.6B 版本对比、硬件 VRAM 要求、核心功能如语音克隆与多语言支持、安装步骤及应用场景。模型采用 Apache 2.0 协议,支持 10 种语言,具备低延迟流式生成能力,适用于有声书、虚拟助手及无障碍方案。

本文介绍 Qwen3-TTS 开源文本转语音模型,包含 1.7B 与 0.6B 版本对比、硬件 VRAM 要求、核心功能如语音克隆与多语言支持、安装步骤及应用场景。模型采用 Apache 2.0 协议,支持 10 种语言,具备低延迟流式生成能力,适用于有声书、虚拟助手及无障碍方案。

2026 年 1 月,阿里巴巴 Qwen 团队发布了 Qwen3-TTS,一个真正好用的开源文本转语音模型。

Qwen3-TTS 是一个支持跨语言工作的开源文本转语音模型(Apache 2.0 许可),基于 500 多万小时的语音数据训练。提供两个版本:
两个版本均可在 Hugging Face 和 GitHub 获取。1.7B 占 4.54GB,0.6B 占 2.52GB。
| 方面 | 1.7B 模型 | 0.6B 模型 |
|---|---|---|
| 参数数量 | 17 亿 | 6 亿 |
| 存储大小 | 4.54 GB | 2.52 GB |
| 所需 VRAM | 6-8 GB | 4-6 GB |
| 性能表现 | 峰值质量 | 均衡效率 |
| 适用场景 | 生产环境、高质量 | 演示、资源受限 |

Qwen3-TTS 使用自研分词器,在压缩语音的同时保留质量:
音频质量几乎无损。
Qwen3-TTS-1.7B 模型:
Qwen3-TTS-0.6B 模型:

torch.float16 或 torch.bfloat16 加载的模型使用自然语言描述创建自定义声音:
Qwen3-TTS-VC-Flash 支持仅需 3 秒音频输入的快速语音克隆:
双轨混合流式生成架构实现:
支持 10 种主流语言,质量达到母语水平:
提供超过 49 种专业制作的音色:
Qwen3-TTS 在多种语言上实现了最先进的性能:
| 语言 | Qwen3-TTS WER | 性能表现 |
|---|---|---|
| 平均(10 种语言) | 1.835% | 业界最佳 |
| 英语 | 有竞争力 | 母语级别 |
| 中文 | 行业领先 | 卓越准确度 |
| 意大利语 | 同类最佳 | 异常出色 |
| 法语 | 优于竞品 | 超越对手 |
# 从 Hugging Face 安装
pip install transformers torch
# 克隆仓库
git clone https://github.com/QwenLM/Qwen3-TTS.git
cd Qwen3-TTS
# 安装依赖
pip install -r requirements.txt
# 可选:安装 FlashAttention 2 以优化性能
pip install -U flash-attn --no-build-isolation
from qwen_tts import Qwen3TTSModel
import soundfile as sf
# 加载模型
model = Qwen3TTSModel.from_pretrained("Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice")
# 使用自定义音色生成语音
wavs, sr = model.generate_custom_voice(
text="你好,这是 Qwen3-TTS 在说话。",
language="Chinese",
speaker="Xiaoming"
)
# 保存音频
sf.write("output.wav", wavs[0], sr)
from qwen_tts import Qwen3TTSModel
# 加载用于语音克隆的基础模型
model = Qwen3TTSModel.from_pretrained("Qwen/Qwen3-TTS-12Hz-1.7B-Base")
# 从 3 秒音频样本克隆声音
wavs, sr = model.generate_voice_clone(
text="您的文本内容",
voice_sample_path="voice_sample.wav",
language="Chinese"
)
| 功能 | Qwen3-TTS | GPT-4o Audio | ElevenLabs |
|---|---|---|---|
| 开源 | ✅ Apache 2.0 | ❌ 专有 | ❌ 专有 |
| 语言 | 10 种主流语言 | 多语言 | 5000+ 种语言 |
| 音色 | 49+ 种声音 | 多种声音 | 5000+ 种声音 |
| 语音克隆 | 3 秒快速克隆 | 可用 | 高质量克隆 |
| 首包延迟 | 97 毫秒 | 低 | 不定 |
| WER 性能 | 最先进 | 有竞争力 | 良好 |
| 定价 | 免费(自托管) | $0.015/分钟 | 高级定价 |
| 情感控制 | 自然语言指令 | 情感控制功能 | 无与伦比的深度 |
1. 成本效益
2. 多语言卓越性
3. 定制自由度
4. 低延迟性能
可以!Qwen3-TTS 采用 Apache 2.0 许可证发布,允许商业使用。您可以在商业应用中使用它,无需许可费用。
1.7B 模型提供峰值性能和质量,而 0.6B 模型更轻量级,适合资源受限的环境。根据您的硬件能力和质量要求选择。
可以!Qwen3-TTS 的开源性质允许在自定义数据集上进行微调。这使您能够为特定用例或语言创建专门的模型。
Qwen3-TTS 代表了开源文本转语音技术的重要里程碑。凭借其卓越的多语言性能、广泛的音色选项、超低延迟和强大的语音克隆能力,它为专有解决方案提供了令人信服的替代方案。
该模型在 Apache 2.0 许可证下的开源性质使最先进的 TTS 技术民主化,使开发人员、研究人员和企业能够在没有许可限制的情况下构建创新的语音应用。
无论您是创建有声书、构建对话式 AI 还是开发无障碍解决方案,Qwen3-TTS 都提供了成功所需的工具和灵活性。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online