ChatTTS 开源语音模型部署与使用指南
简介
ChatTTS 是一款开源的文本转语音(Text-to-Speech, TTS)大模型,以其生成的语音自然流畅、支持多情感表达而受到广泛关注。相比传统的 TTS 方案,ChatTTS 在语义理解和韵律控制上表现优异,且支持本地化部署,无需依赖第三方收费接口。它允许用户通过简单的指令生成带有停顿、笑声等丰富情感的语音,非常适合用于播客制作、有声书朗读及智能助手场景。
环境准备
部署 ChatTTS 需要以下基础环境,建议配置 NVIDIA GPU 以加速推理过程。
- 操作系统:Linux (Ubuntu/CentOS) 或 macOS。
- Python 版本:3.9 及以上。
- 系统依赖:Git、libsndfile、ffmpeg。
- 深度学习框架:PyTorch (推荐 CUDA 11.8+ 以利用 GPU 加速)。
安装系统级依赖
在 macOS 环境下,可使用 Homebrew 安装所需库:
brew install libsndfile git [email protected] ffmpeg
export PATH="/usr/local/opt/[email protected]/bin:$PATH"
source ~/.zshrc
在 Linux 环境下,需确保安装了 gcc、g++ 以及 development headers,并安装 ffmpeg 和 libsndfile。
项目部署
本文以 ChatTTS-ui 为例,这是一个简化了官方交互的 WebUI 项目,适合快速上手。
1. 获取源码
创建目录并克隆代码仓库:
mkdir -p /data/chattts && cd /data/chattts
git clone https://github.com/jianchang512/chatTTS-ui .
2. 配置虚拟环境
创建独立的 Python 虚拟环境以避免依赖冲突:
python3 -m venv venv
source ./venv/bin/activate
3. 安装 Python 依赖
安装项目所需的 Python 包及 PyTorch。注意 PyTorch 版本需根据 CUDA 版本选择。
pip3 install -r requirements.txt
pip3 install torch==2.2.0 torchaudio==2.2.0
若仅使用 CPU 运行,可忽略 CUDA 相关配置,但速度会显著降低。
4. 启动服务
运行主程序,服务将自动在浏览器中打开:
python3 app.py
默认访问地址为 http://127.0.0.1:9966。
功能使用详解
基础合成
在 WebUI 界面输入文本,选择音色,点击「立即合成声音」即可。支持实时预览和音频下载。生成的音频格式通常为 WAV。
高级参数调节
为了获得更高质量的输出,建议调整以下核心参数:


