Fish Speech-1.5 语音风格控制:通过描述词定制音色与语调
环境准备与快速部署
系统要求与准备工作
在动手之前,先确认你的环境满足以下基本要求,这能避免后续很多不必要的麻烦:
- 操作系统:Linux、Windows、macOS 均可
- Python 版本:3.8 或更高版本
- 硬件要求:强烈建议配备 GPU,否则生成速度会慢得让人怀疑人生
- 存储空间:模型文件较大,预留至少 10GB 空间
使用 Xinference 快速部署
Xinference 2.0.0 提供了一键部署方案,省去了手动配置依赖的繁琐步骤。直接运行以下命令即可启动服务:
# 安装 Xinference pip install "xinference[all]"==2.0.0
# 启动 Xinference 服务 xinference-local --host 0.0.0.0 --port 9997
服务启动后,浏览器访问 http://localhost:9997 就能进入管理界面。
部署 Fish Speech-1.5 模型
在 Web 界面的'Text-to-Speech'标签页下找到 Fish Speech-1.5 并点击部署。初次加载需要下载权重文件,耐心等待一下。
检查服务状态:
# 查看模型服务日志 cat /root/workspace/model_server.log
看到类似 Model started successfully 的提示,说明服务已经正常跑起来了。
基础概念快速入门
什么是语音风格控制?
同一个句子,不同的人读出来味道完全不同——有的温柔,有的有力,有的语速快,有的慢。Fish Speech-1.5 的核心就是让你通过简单的文字描述,来定制这些声音特性,而不是只能选固定的预设音色。
核心功能特点
它提供了三个层次的语音控制能力:
- 音色控制:改变说话人的声音特质(年轻/成熟,男声/女声)
- 语调控制:调整说话的节奏和情感(欢快/悲伤,激动/平静)
- 语言支持:支持 12 种语言的语音合成
支持的语言列表
| 语言 | 训练数据量 | 语音质量 |
|---|---|---|
| 英语 (en) | >300k 小时 | ⭐⭐⭐⭐⭐ |
| 中文 (zh) | >300k 小时 | ⭐⭐⭐⭐⭐ |
| 日语 (ja) | >100k 小时 | ⭐⭐⭐⭐ |
| 德语 (de) | ~20k 小时 | ⭐⭐⭐ |
| 法语 (fr) | ~20k 小时 | ⭐⭐⭐ |
其他支持的语言还包括西班牙语、韩语、阿拉伯语、俄语、荷兰语、意大利语、波兰语和葡萄牙语。

