Fish Speech-1.5 语音风格控制：通过描述词定制音色与语调 | 极客日志

PythonAI算法

Fish Speech-1.5 语音风格控制：通过描述词定制音色与语调

Fish Speech-1.5 支持通过文本描述词灵活定制语音的音色、语调及情感。本指南涵盖环境部署、Web 界面操作及多语言合成实战。重点讲解如何利用 Xinference 快速启动服务，并通过具体示例演示如何调整年龄、性别、语速等参数。提供批量生成脚本与上下文动态调整方案，帮助开发者在不同场景下实现自然的人声合成效果。

女王发布于 2026/4/8更新于 2026/7/732 浏览

Fish Speech-1.5 语音风格控制：通过描述词定制音色与语调

环境准备与快速部署

系统要求与准备工作

在动手之前，先确认你的环境满足以下基本要求，这能避免后续很多不必要的麻烦：

操作系统：Linux、Windows、macOS 均可
Python 版本：3.8 或更高版本
硬件要求：强烈建议配备 GPU，否则生成速度会慢得让人怀疑人生
存储空间：模型文件较大，预留至少 10GB 空间

使用 Xinference 快速部署

Xinference 2.0.0 提供了一键部署方案，省去了手动配置依赖的繁琐步骤。直接运行以下命令即可启动服务：

# 安装 Xinference pip install "xinference[all]"==2.0.0 
# 启动 Xinference 服务 xinference-local --host 0.0.0.0 --port 9997

服务启动后，浏览器访问 http://localhost:9997 就能进入管理界面。

部署 Fish Speech-1.5 模型

在 Web 界面的'Text-to-Speech'标签页下找到 Fish Speech-1.5 并点击部署。初次加载需要下载权重文件，耐心等待一下。

检查服务状态：

# 查看模型服务日志 cat /root/workspace/model_server.log

看到类似 Model started successfully 的提示，说明服务已经正常跑起来了。

基础概念快速入门

什么是语音风格控制？

同一个句子，不同的人读出来味道完全不同——有的温柔，有的有力，有的语速快，有的慢。Fish Speech-1.5 的核心就是让你通过简单的文字描述，来定制这些声音特性，而不是只能选固定的预设音色。

核心功能特点

它提供了三个层次的语音控制能力：

音色控制：改变说话人的声音特质（年轻/成熟，男声/女声）
语调控制：调整说话的节奏和情感（欢快/悲伤，激动/平静）
语言支持：支持 12 种语言的语音合成

支持的语言列表

语言	训练数据量	语音质量
英语 (en)	>300k 小时	⭐⭐⭐⭐⭐
中文 (zh)	>300k 小时	⭐⭐⭐⭐⭐
日语 (ja)	>100k 小时	⭐⭐⭐⭐
德语 (de)	~20k 小时	⭐⭐⭐
法语 (fr)	~20k 小时	⭐⭐⭐

其他支持的语言还包括西班牙语、韩语、阿拉伯语、俄语、荷兰语、意大利语、波兰语和葡萄牙语。

语音风格控制实战

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 最简单的语音合成示例 text = "欢迎使用 Fish Speech 语音合成系统" style_description = "中性声音，正常语速" # 生成语音 audio = generate_speech(text, style_description)

# 年轻活泼的女声 style1 = "年轻女声，活泼开朗，音调较高" # 成熟稳重的男声 style2 = "成熟男声，声音低沉，语速较慢" # 专业的播音声音 style3 = "播音员声音，标准普通话，清晰有力"

# 开心的生日祝福 birthday_wish = "祝你生日快乐！天天开心！" happy_style = "开心的语气，语速稍快，声音明亮" # 严肃的新闻播报 news_text = "以下是今日重要新闻" serious_style = "严肃的语气，语速平稳，声音沉稳"

# 英语语音 - 美式发音 english_text = "Hello, welcome to Fish Speech system" english_style = "American accent, friendly tone" # 日语语音 - 礼貌语气 japanese_text = "こんにちは、フィッシュスピーチへようこそ" japanese_style = "polite female voice, standard Tokyo accent"

text = "您好，请问有什么可以帮您？" style1 = "专业的客服声音，友好耐心，语速适中" style2 = "机械的电子音，单调乏味，没有情感"

text = "在很久很久以前，有一个美丽的王国" style1 = "讲故事的声音，神秘的语气，语速缓慢" style2 = "新闻播报风格，客观冷静，语速快速"

import json from pathlib import Path # 批量生成配置 batch_config = [ { "text": "欢迎语第一段", "style": "友好欢迎的语气", "output_file": "welcome_1.wav" }, { "text": "产品介绍内容", "style": "专业介绍风格", "output_file": "product_intro.wav" } ] for config in batch_config: audio = generate_speech(config["text"], config["style"]) save_audio(audio, config["output_file"])

def generate_contextual_speech(text, context):
    if context == "高兴":
        style = "开心的语气，音调较高"
    elif context == "严肃":
        style = "严肃的语气，语速平稳"
    elif context == "紧急":
        style = "急促的语气，强调紧迫感"
    else:
        style = "中性声音，正常语速"
    return generate_speech(text, style)

# 与聊天机器人集成 def chatbot_response(user_input):
    # 生成回复内容 response_text = generate_chat_response(user_input)
    # 根据内容决定语音风格 if "高兴" in user_input:
        style = "热情的语气"
    else:
        style = "正常的语气"
    # 生成语音 audio = generate_speech(response_text, style)
    return response_text, audio

Fish Speech-1.5 语音风格控制：通过描述词定制音色与语调

Fish Speech-1.5 语音风格控制：通过描述词定制音色与语调

环境准备与快速部署

系统要求与准备工作

使用 Xinference 快速部署

部署 Fish Speech-1.5 模型

基础概念快速入门

什么是语音风格控制？

核心功能特点

支持的语言列表

语音风格控制实战

更多推荐文章

相关免费在线工具

访问 Web 操作界面

基础语音合成

音色定制技巧

语调与情感控制

多语言语音合成

效果展示与实战

不同风格的语音对比

实用技巧与最佳实践

常见问题解决

进阶应用场景

批量语音生成

动态语音调整

与其他系统集成

总结与建议

学习要点回顾

最佳实践建议

进一步学习方向

更多推荐文章

相关免费在线工具

Fish Speech-1.5 语音风格控制：通过描述词定制音色与语调

Fish Speech-1.5 语音风格控制：通过描述词定制音色与语调

环境准备与快速部署

系统要求与准备工作

使用 Xinference 快速部署

部署 Fish Speech-1.5 模型

基础概念快速入门

什么是语音风格控制？

核心功能特点

支持的语言列表

语音风格控制实战

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

访问 Web 操作界面

基础语音合成

音色定制技巧

语调与情感控制

多语言语音合成

效果展示与实战

不同风格的语音对比

实用技巧与最佳实践

常见问题解决

进阶应用场景

批量语音生成

动态语音调整

与其他系统集成

总结与建议

学习要点回顾

最佳实践建议

进一步学习方向

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具