ChatTTS 开源语音模型部署与使用指南
开源语音大模型 ChatTTS 的本地部署流程与使用方法。内容涵盖环境准备、依赖安装、WebUI 启动、高级参数调节(如温度、种子、提示词)以及 API 接口集成示例。文章提供了具体的命令行操作与 Python 代码片段,解决了常见部署问题,旨在帮助开发者快速搭建高质量语音合成服务,实现本地化、低成本的语音生成方案。

开源语音大模型 ChatTTS 的本地部署流程与使用方法。内容涵盖环境准备、依赖安装、WebUI 启动、高级参数调节(如温度、种子、提示词)以及 API 接口集成示例。文章提供了具体的命令行操作与 Python 代码片段,解决了常见部署问题,旨在帮助开发者快速搭建高质量语音合成服务,实现本地化、低成本的语音生成方案。

ChatTTS 是一款开源的文本转语音(Text-to-Speech, TTS)大模型,以其生成的语音自然流畅、支持多情感表达而受到广泛关注。相比传统的 TTS 方案,ChatTTS 在语义理解和韵律控制上表现优异,且支持本地化部署,无需依赖第三方收费接口。它允许用户通过简单的指令生成带有停顿、笑声等丰富情感的语音,非常适合用于播客制作、有声书朗读及智能助手场景。
部署 ChatTTS 需要以下基础环境,建议配置 NVIDIA GPU 以加速推理过程。
在 macOS 环境下,可使用 Homebrew 安装所需库:
brew install libsndfile git [email protected] ffmpeg
export PATH="/usr/local/opt/[email protected]/bin:$PATH"
source ~/.zshrc
在 Linux 环境下,需确保安装了 gcc、g++ 以及 development headers,并安装 ffmpeg 和 libsndfile。
本文以 ChatTTS-ui 为例,这是一个简化了官方交互的 WebUI 项目,适合快速上手。
创建目录并克隆代码仓库:
mkdir -p /data/chattts && cd /data/chattts
git clone https://github.com/jianchang512/chatTTS-ui .
创建独立的 Python 虚拟环境以避免依赖冲突:
python3 -m venv venv
source ./venv/bin/activate
安装项目所需的 Python 包及 PyTorch。注意 PyTorch 版本需根据 CUDA 版本选择。
pip3 install -r requirements.txt
pip3 install torch==2.2.0 torchaudio==2.2.0
若仅使用 CPU 运行,可忽略 CUDA 相关配置,但速度会显著降低。
运行主程序,服务将自动在浏览器中打开:
python3 app.py
默认访问地址为 http://127.0.0.1:9966。
在 WebUI 界面输入文本,选择音色,点击「立即合成声音」即可。支持实时预览和音频下载。生成的音频格式通常为 WAV。
为了获得更高质量的输出,建议调整以下核心参数:
[laugh]、停顿 [break]、口语化标记 [oral] 等。例如 [oral_2][laugh_0][break_6]。注意部分标签可能因版本更新而变化。ChatTTS 支持通过 API 进行程序化调用,便于集成到自动化流程或 Agent 系统中。
以下示例展示了如何使用 requests 库调用本地 API 生成音频:
import requests
import json
url = "http://127.0.0.1:9966/api/generate_audio"
payload = {
"text": "你好,欢迎使用 ChatTTS 语音合成服务",
"voice": "default",
"temperature": 0.3,
"prompt": "[oral_2][laugh_0][break_6]"
}
headers = {"Content-Type": "application/json"}
response = requests.post(url, json=payload, headers=headers)
if response.status_code == 200:
with open("output.wav", "wb") as f:
f.write(response.content)
print("音频生成成功")
else:
print(f"请求失败:{response.text}")
可将 API 封装为工具函数,嵌入到 Agent 或工作流引擎(如 Dify)中。注意处理音频文件的返回格式,部分平台可能需要将二进制数据转换为 Base64 或直接提供文件下载链接。若遇到音频无法直接播放的问题,建议检查 Content-Type 响应头设置。
ChatTTS 为开发者提供了低成本、高质量的语音合成方案。通过本地部署,可以有效保护数据隐私并避免 API 调用限制。随着社区的发展,其功能将持续完善,支持更多语言和情感表达。建议开发者关注官方仓库更新,及时适配新特性。
通过合理配置硬件与参数,ChatTTS 能够胜任从个人娱乐到商业应用的各种语音生成需求。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online