Fish-Speech 1.5 语音合成 WebUI 搭建与使用指南
Fish-Speech 1.5 是一款基于双自回归 Transformer 架构的高效语音合成模型。它采用创新架构,计算效率高,生成的声音质量较好。通过现成的镜像可以直接部署,省去了复杂的安装配置过程。
1. 准备工作:理解功能
在开始之前,了解项目的使用方式:
WebUI(网页界面):最推荐的方式。打开浏览器输入文字,点击按钮即可生成声音。界面支持中文,操作直观。
API 接口:适合集成到程序中,如自动播报系统。通过发送 HTTP 请求获取语音文件。
服务启动后占用两个端口:
- 7860 端口:WebUI 访问入口
- 8080 端口:API 访问入口
所有服务由 Supervisor 管理,支持开机自动启动和崩溃自动重启。
2. 快速启动:5 分钟搞定
2.1 第一步:获取并启动镜像
在支持镜像部署的环境(如云平台或本地容器)中,找到'fish-speech - 1.5 开源文本转语音(TTS)模型 Webui'镜像并部署。
镜像启动后会自动完成以下配置:
- 安装 Python 环境和依赖包
- 下载 Fish-Speech 1.5 模型文件
- 配置中文界面
- 启动 WebUI 和 API 服务
2.2 第二步:访问 WebUI 界面
服务启动通常需要 1-2 分钟。确认启动成功后,在浏览器地址栏输入:
http://你的服务器 IP:7860
如果是本地运行,可使用 http://localhost:7860 或 http://127.0.0.1:7860。
成功访问后应看到类似下图的界面:
界面左侧为输入区域,右侧为控制区域,中间显示生成结果。
2.3 第三步:第一次语音合成体验
- 输入文本:在'输入文本'框中输入要合成的文字。
- 等待同步:输入后务必等待实时规范化文本同步完成,提示'同步完成'后再点击生成。
- 生成音频:点击'🎧 生成'按钮。
- 等待结果:根据文本长度,通常几秒到十几秒完成。
- 播放和下载:生成完成后点击播放试听,满意可下载保存。
建议首次使用短文本测试(10-20 字),以便快速查看效果。
3. 核心功能详解
3.1 声音克隆
上传一段参考音频(如自己的声音),让 AI 模仿该音色朗读其他文字。
操作步骤:
- 准备参考音频:选择 5-10 秒清晰人声录音,背景噪音小,格式支持 wav、mp3 等。
- 上传参考音频:在 WebUI 中找到'参考音频'区域上传文件。

