Fish Speech 1.5 结合 Whisper 实现语音转文本再转语音闭环

想象一下这个场景：你有一段重要的会议录音，但需要快速整理成文字纪要，并让 AI 用某个特定人物的声音朗读出来。或者，你有一段外语视频，想先转成文字，翻译后，再用原说话人的音色合成翻译后的语音。这听起来像是科幻电影里的情节，但现在，通过将 Fish Speech 1.5 与 Whisper 语音识别模型结合，我们就能轻松实现这个'语音→文本→语音'的智能闭环。

Fish Speech 1.5 本身已经是一个强大的文本转语音工具，但它的能力远不止于此。今天，我们不只讲怎么用它合成语音，而是要带你玩点更高级的——把它和另一个 AI'耳朵'Whisper 连接起来，打造一个能听、能理解、能说话的完整语音处理流水线。无论你是内容创作者、开发者，还是对 AI 语音技术感兴趣的探索者，这套组合拳都能为你打开新世界的大门。

1. 为什么需要语音闭环？从单点工具到智能流水线

在深入技术细节之前，我们先搞清楚一个问题：单独用 Fish Speech 合成语音已经很好了，为什么还要大费周章地整合 Whisper？

答案很简单：解放双手，提升效率，创造新可能。

传统的语音处理流程是割裂的。你需要：

用 A 工具把录音转成文字（可能还要校对）。
手动编辑或翻译这段文字。
用 B 工具（比如 Fish Speech）把编辑后的文字再合成语音。

这个过程繁琐、耗时，且容易出错。而构建一个'语音→文本→语音'的闭环，意味着：

自动化处理：上传一段音频，系统自动完成识别、文本处理、再合成的全过程。
音色一致性：在视频配音、多语言内容创作中，可以先用 Whisper 识别原音，再用 Fish Speech 克隆原说话人的音色来合成新语音，保持声音的统一。
无障碍应用：快速为音频内容生成字幕（识别），再为字幕生成语音导读（合成），服务听障或视障用户。
内容再创作：轻松实现语音内容的翻译、摘要、风格转换后再以语音形式输出。

Fish Speech 1.5 负责'说'，Whisper 负责'听'，两者结合，才是一个能'对话'的完整系统。接下来，我们就手把手教你搭建这个系统。

2. 环境搭建与工具准备

在开始连接两大模型之前，我们需要准备好'工作台'。假设你已经能够访问并运行 Fish Speech 1.5 的 Web 服务（通常地址类似 http://localhost:7860），这是我们的语音合成端。

2.1 部署 Whisper 语音识别服务

Whisper 是 OpenAI 开源的强大语音识别模型，识别准确率高，支持多语言。我们有多种轻量级的方式可以调用它。

方案一：使用现成的 Whisper API 服务（最快） 如果你不想在本地部署，可以使用一些提供 Whisper API 的在线服务。这里以一个假设的快速调用方式为例，你需要替换为真实的 API 端点。

# 安装必要的 Python 库 pip install openai-whisper requests soundfile

方案二：本地部署 Whisper（更可控） 对于数据隐私要求高或需要频繁调用的场景，建议本地部署。

# 1. 安装 Whisper（确保你的环境有 Python 和 Pip）pip install -U openai-whisper # 2. 安装 FFmpeg（用于音频处理）# Ubuntu/Debian sudo apt update && sudo apt install ffmpeg # MacOS brew install ffmpeg # Windows: 从官网下载并添加至系统路径 # 3. 验证安装 whisper --help

2.2 搭建桥梁：编写中间脚本

我们需要一个 Python 脚本来充当'调度员'，它要完成三件事：

调用 Whisper，将上传的音频文件识别为文本。
（可选）对识别出的文本进行处理，如翻译、润色、摘要。
调用 Fish Speech 1.5 的 API，将处理后的文本合成为语音。

首先，确保你有 Fish Speech 服务的 API 访问方式。如果 Web 界面不支持直接 API 调用，你可能需要查阅其文档，或通过模拟 Web 请求的方式。这里我们假设一个通用的 POST 请求模式。

import requests import whisper import soundfile as sf import io import json import logging from typing import Optional # 配置日志 logging.basicConfig(level=logging.INFO) logger = logging.getLogger(__name__) class SpeechTextSpeechLoop: def __init__(self, fish_speech_url: str, whisper_model_size: str = "base"): """ 初始化闭环处理器 :param fish_speech_url: Fish Speech 1.5 Web 服务的地址 :param whisper_model_size: Whisper 模型大小，可选 tiny, base, small, medium, large """ self.fish_speech_url = fish_speech_url.rstrip('/') logger.info(f"加载 Whisper 模型：{whisper_model_size}") self.whisper_model = whisper.load_model(whisper_model_size) logger.info("模型加载完毕。") def transcribe_audio(self, audio_path: str, language: Optional[str] = None) -> str: """ 使用 Whisper 将音频文件转写成文本 :param audio_path: 音频文件路径 :param language: 指定音频语言（如 'zh', 'en'），None 为自动检测 :return: 识别出的文本 """ logger.info(f"开始识别音频：{audio_path}") result = self.whisper_model.transcribe(audio_path, language=language, fp16=False) # fp16=False 确保兼容性 text = result["text"].strip() logger.info(f"识别结果：{text[:100]}...") # 打印前 100 字符 return text def process_text(self, text: str, operation: str = "none") -> str: """ （可选）对文本进行中间处理，如翻译、摘要等。这里是一个示例框架，你可以接入真实的翻译 API 或 NLP 模型。 :param text: 原始文本 :param operation: 处理操作，如 'translate_to_en', 'summarize' :return: 处理后的文本 """ if operation == "none": return text elif operation == "translate_to_en": # 此处应接入翻译 API，如 Google Translate, DeepL 等 # 示例：return your_translation_function(text, target_lang='en') logger.warning("翻译功能需接入具体 API，当前返回原文本。") return text elif operation == "summarize": # 此处应接入文本摘要模型 logger.warning("摘要功能需接入具体模型，当前返回原文本。") return text else: logger.error(f"未知的处理操作：{operation}") return text def synthesize_speech(self, text: str, reference_audio_path: Optional[str] = None, ref_text: Optional[str] = None) -> Optional[bytes]: """ 调用 Fish Speech 1.5 服务合成语音注意：此函数需要根据 Fish Speech 服务实际的 API 接口进行调整。这里是一个基于其 Web 界面行为的模拟请求示例。 """ # 准备请求数据，参数需根据 Fish Speech API 文档调整 payload = { "text": text, "language": "zh", # 根据文本语言设置 "top_p": 0.7, "temperature": 0.7, "repetition_penalty": 1.2, } files = {} if reference_audio_path and ref_text: # 如果提供了参考音频和文本，则启用声音克隆 try: files['audio'] = open(reference_audio_path, 'rb') payload['ref_text'] = ref_text logger.info("启用声音克隆模式。") except FileNotFoundError: logger.error(f"参考音频文件未找到：{reference_audio_path}") try: # 假设 Fish Speech 的合成端点为 /api/synthesize # 实际端点请查看服务文档或通过浏览器开发者工具抓取 api_endpoint = f"{self.fish_speech_url}/api/synthesize" logger.info(f"向 {api_endpoint} 发送合成请求...") if files: response = requests.post(api_endpoint, data=payload, files=files) if 'audio' in files: files['audio'].close() else: response = requests.post(api_endpoint, json=payload) response.raise_for_status() # 检查 HTTP 错误 # 假设返回的是 WAV 音频二进制数据 if response.headers.get('Content-Type', '').startswith('audio/'): return response.content else: # 尝试解析为 JSON，可能包含音频数据或 URL result = response.json() logger.info(f"合成请求成功。响应：{result}") # 此处需要根据实际 API 返回结构处理，例如从 result['audio_url'] 下载 return None except requests.exceptions.RequestException as e: logger.error(f"调用 Fish Speech API 失败：{e}") return None def run_pipeline(self, input_audio_path: str, output_audio_path: str, text_operation: str = "none", reference_audio_for_clone: Optional[str] = None, ref_text_for_clone: Optional[str] = None): """ 执行完整的语音->文本->语音流水线 """ logger.info("=== 开始语音闭环处理流程 ===") # 步骤 1: 语音转文本 transcribed_text = self.transcribe_audio(input_audio_path) # 步骤 2: 文本处理（可选）processed_text = self.process_text(transcribed_text, text_operation) logger.info(f"处理后文本：{processed_text[:150]}...") # 步骤 3: 文本转语音 audio_data = self.synthesize_speech(processed_text, reference_audio_for_clone, ref_text_for_clone) if audio_data: # 保存音频文件 with open(output_audio_path, 'wb') as f: f.write(audio_data) logger.info(f"处理完成！输出音频已保存至：{output_audio_path}") return True else: logger.error("语音合成失败，流程终止。") return False if __name__ == "__main__": # ====== 配置区 ====== # 你的 Fish Speech 服务地址 FISH_SPEECH_URL = "http://localhost:7860" # 输入音频 INPUT_AUDIO = "meeting_recording.wav" # 输出音频 OUTPUT_AUDIO = "processed_output.wav" # 文本处理操作（可选）TEXT_OPERATION = "none" # "none", "translate_to_en", "summarize" # 声音克隆参考音频（可选）REF_AUDIO = "reference_speaker.wav" REF_TEXT = "这是参考音频对应的文字内容。" # 必须与参考音频内容一致 # ====== 执行 ====== processor = SpeechTextSpeechLoop(FISH_SPEECH_URL, whisper_model_size="base") # 运行完整流水线（如果不需声音克隆，将后两个参数设为 None）success = processor.run_pipeline( input_audio_path=INPUT_AUDIO, output_audio_path=OUTPUT_AUDIO, text_operation=TEXT_OPERATION, reference_audio_for_clone=REF_AUDIO, # 设为 None 则使用默认音色 ref_text_for_clone=REF_TEXT )

Fish Speech 1.5 结合 Whisper 实现语音转文本再转语音闭环