Qwen3-TTS开源TTS模型部署教程：支持流式/非流式双模式语音生成

Ne0inhk

22 Mar 2026 — 10 min read

Qwen3-TTS开源TTS模型部署教程：支持流式/非流式双模式语音生成

想不想让你的应用开口说话，而且声音自然得像真人，还能支持全球10多种语言？今天要聊的Qwen3-TTS，就是一个能帮你实现这个目标的强大开源语音合成模型。

它最吸引人的地方，是一个模型同时支持流式和非流式两种生成模式。简单来说，流式模式就像“边想边说”，你说一个字，它几乎能立刻（最快97毫秒）给你生成对应的语音片段，非常适合实时对话、直播字幕等需要即时反馈的场景。而非流式模式，则是一次性生成整段高质量音频，适合制作播客、有声书等对音质要求高的内容。

更厉害的是，它覆盖了中文、英文、日文等10种主要语言，还能理解文本的深层含义，自动调整语调、语速和情感，让合成的语音听起来更有“人味儿”。接下来，我就手把手带你从零开始，把这个强大的语音助手部署起来，并快速上手使用。

1. 环境准备与快速部署

部署Qwen3-TTS的过程非常简单，我们主要会用到Docker和Docker Compose这两个工具。如果你对它们不熟悉也没关系，跟着步骤走就行。

1.1 系统要求与前置准备

在开始之前，请确保你的电脑或服务器满足以下基本条件：

操作系统：推荐使用Linux（如Ubuntu 20.04+）或macOS。Windows用户可以通过WSL2（Windows Subsystem for Linux）获得类似体验。

Docker与Docker Compose：这是部署的基石。如果你的系统还没有安装，可以参照以下命令快速安装（以Ubuntu为例）：

# 更新软件包列表 sudo apt-get update # 安装Docker sudo apt-get install docker.io # 安装Docker Compose sudo apt-get install docker-compose # 启动Docker服务并设置开机自启 sudo systemctl start docker sudo systemctl enable docker # 将当前用户加入docker组，避免每次使用sudo sudo usermod -aG docker $USER # 退出并重新登录终端使组权限生效

安装完成后，可以运行 docker --version 和 docker-compose --version 来验证是否安装成功。

1.2 一键部署Qwen3-TTS

Qwen3-TTS提供了预配置的Docker镜像，让我们可以跳过复杂的依赖安装和环境配置。部署的核心就是一个 docker-compose.yml 配置文件。

ports: - "7860:7860"：这行配置意味着你可以在浏览器中通过 http://你的服务器IP:7860 来访问Qwen3-TTS的Web界面。
capabilities: [gpu]：这部分是为了使用GPU加速。如果你的机器没有NVIDIA GPU，或者你只想用CPU运行，请将 deploy: 及其下面的所有行删除。用CPU运行速度会慢一些，但功能完全一样。

查看服务状态：启动后，你可以用下面的命令检查容器是否正常运行。

docker-compose ps

如果看到 qwen-tts-service 的状态是 Up，就说明启动成功了。

启动服务：保存并退出编辑器后，在 qwen-tts 目录下执行一条命令即可启动所有服务。

docker-compose up -d

这个命令会从镜像仓库拉取Qwen3-TTS的镜像（第一次运行需要一些时间下载），然后在后台启动一个容器。

创建并编辑docker-compose.yml文件：使用你熟悉的文本编辑器（如 vim, nano 或 code）创建一个新文件。

vim docker-compose.yml

将以下配置内容复制并粘贴到文件中。这个配置指定了要拉取的镜像、容器名称、端口映射以及必要的运行参数。

version: '3.8' services: qwen-tts: image: ZEEKLOGmirrors/qwen3-tts:latest container_name: qwen-tts-service ports: - "7860:7860" # 将容器的7860端口映射到主机的7860端口 restart: unless-stopped deploy: resources: reservations: devices: - driver: nvidia count: all capabilities: [gpu] # 如果使用NVIDIA GPU，请保留此项以启用GPU加速

重要说明：

创建项目目录并进入：首先，在你喜欢的位置创建一个文件夹，比如叫 qwen-tts，然后进入这个文件夹。

mkdir qwen-tts && cd qwen-tts

2. 快速上手：让你的应用“开口说话”

服务启动后，最激动人心的时刻来了——实际使用。Qwen3-TTS提供了一个非常友好的Web界面，让我们无需编写代码就能体验其强大的语音合成能力。

2.1 访问Web用户界面

打开你的浏览器，在地址栏输入：http://localhost:7860。如果你是在远程服务器上部署的，请将 localhost 替换成你的服务器公网IP地址。

首次加载页面时，系统需要从网络加载模型文件，这个过程可能需要几分钟，请耐心等待。加载完成后，你会看到一个清晰的操作界面。

2.2 合成你的第一段语音

界面主要分为三个区域：左侧的文本输入和参数设置区，以及右侧的音频播放和结果展示区。

输入文本：在最大的文本框中，输入你想让模型“说”出来的话。例如，你可以输入：“你好，欢迎使用Qwen3-TTS语音合成模型，这是一个支持多语言和流式生成的开源项目。”
选择语言：在“Language”下拉菜单中，选择你输入文本对应的语言。比如，上面输入的是中文，就选择“Chinese (中文)”。模型支持中文、英文、日文、韩文等10种语言。
选择说话人：在“Speaker”下拉菜单中，选择一个你喜欢的声音。不同的说话人代表了不同的音色和风格，你可以多试几个，找到最符合你需求的那个。
生成语音：点击最下方的 “Generate Audio” 按钮。系统会开始处理你的文本，并将其合成为语音。稍等片刻（通常几秒钟），你就能在右侧看到生成的音频文件，并可以直接点击播放按钮试听。

生成成功后的界面会显示音频播放器和一段提示信息，告诉你音频已保存。你可以下载这个 .wav 文件到本地使用。

2.3 进阶功能：流式生成体验

Qwen3-TTS的核心亮点之一是流式生成。虽然Web界面主要展示非流式（一次性生成）功能，但其后端架构已经为流式调用做好了准备。

流式生成更适合通过API集成到你的应用程序中。其基本原理是，你每输入一部分文本（甚至一个字符），模型就立刻生成对应的音频流返回，从而实现超低延迟的实时语音交互。这对于智能客服、实时翻译、语音交互游戏等场景至关重要。

3. 通过API接口调用模型

对于开发者来说，将Qwen3-TTS集成到自己的应用中，主要通过API接口来实现。服务启动后，默认会在7860端口提供一个标准的HTTP API。

3.1 非流式生成API调用示例

非流式API会接收完整的文本，处理完成后返回整个音频文件。下面是一个使用Python requests 库调用该API的简单例子。

import requests import json # API服务地址，如果不在本地，请替换为正确的IP和端口 api_url = "http://localhost:7860/api/tts" # 准备请求数据 payload = { "text": "Hello, this is a test of the Qwen3-TTS streaming and non-streaming capabilities.", # 要合成的文本 "language": "English", # 语言 "speaker": "en_female_01", # 说话人ID "stream": False # 非流式模式 } # 设置请求头 headers = { "Content-Type": "application/json" } # 发送POST请求 response = requests.post(api_url, data=json.dumps(payload), headers=headers) # 检查请求是否成功 if response.status_code == 200: # 假设API返回的是WAV音频的二进制数据 with open("output_non_stream.wav", "wb") as f: f.write(response.content) print("非流式音频已保存为 output_non_stream.wav") else: print(f"请求失败，状态码：{response.status_code}") print(response.text)

3.2 流式生成API调用示例

流式调用稍微复杂一些，因为它涉及持续的数据接收。以下示例展示了如何通过请求一个流式端点，并逐步接收音频数据块。

import requests import json # 流式API端点（示例，实际端点请参考官方文档） stream_api_url = "http://localhost:7860/api/tts/stream" payload = { "text": "这是一段用于测试流式生成的中文文本。", "language": "Chinese", "speaker": "zh_female_01", "stream": True } headers = { "Content-Type": "application/json", "Accept": "application/x-ndjson" # 通常流式响应使用换行分隔的JSON } response = requests.post(stream_api_url, data=json.dumps(payload), headers=headers, stream=True) if response.status_code == 200: audio_chunks = [] # 迭代处理流式响应的每一行（每个数据块） for line in response.iter_lines(): if line: # 解析每一行JSON数据 chunk_data = json.loads(line) # 假设数据块中包含base64编码的音频数据 audio_chunk = chunk_data.get("audio") if audio_chunk: # 这里需要对base64数据进行解码并拼接 # audio_chunks.append(decode_base64(audio_chunk)) print(f"收到音频数据块，状态：{chunk_data.get('status')}") # 将所有数据块拼接并保存为完整文件 # save_audio(audio_chunks, "output_stream.wav") print("流式音频接收完成。") else: print(f"流式请求失败，状态码：{response.status_code}")

请注意：以上流式API的URL、数据格式和响应结构仅为示例，实际调用时需要查阅Qwen3-TTS项目的官方API文档以获取准确的接口定义。

4. 总结

通过这篇教程，我们完成了Qwen3-TTS从部署到使用的完整旅程。我们来回顾一下关键点：

部署极其简单：借助Docker和预构建的镜像，我们通过一个 docker-compose.yml 文件就能一键拉起一个功能完整的TTS服务，避免了繁琐的环境配置。
开箱即用的Web界面：即使不懂编程，你也可以通过访问 http://localhost:7860，在直观的网页上输入文字、选择语言和音色，立刻生成高质量的语音，体验多语言合成的魅力。
双模式生成是核心优势：Qwen3-TTS创新地在一个模型中融合了流式和非流式两种生成模式。流式模式（低至97ms延迟）为实时交互应用打开了大门，而非流式模式则保证了离线渲染音频的最高质量。
强大的语言与表现力：支持10种主流语言和多种音色，并且模型能智能理解文本，自动调节语调和情感，让合成的语音不再机械，更富有表现力。
易于集成：提供了标准的HTTP API接口，无论是简单的非流式生成，还是复杂的流式交互，都可以方便地集成到你的网站、移动应用或智能硬件项目中。

无论你是想为你的产品添加语音反馈功能，还是制作多语言的有声内容，或者开发需要极低延迟语音交互的创新应用，Qwen3-TTS都是一个值得尝试的优秀开源选择。现在就动手部署一个，听听它为你“说”的第一句话吧。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 ZEEKLOG星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Qwen3-TTS开源TTS模型部署教程：支持流式/非流式双模式语音生成

Ne0inhk