使用 OpenAI Whisper 与 pyannote.audio 构建说话人分离语音识别系统 | 极客日志

PythonAI算法

使用 OpenAI Whisper 与 pyannote.audio 构建说话人分离语音识别系统

介绍如何结合 OpenAI Whisper 语音识别模型与 pyannote.audio 说话人分离管线，构建完整的语音理解系统。内容涵盖技术思路、工程实现流程（音频输入、ASR 转写、说话人分离、时间轴对齐融合）、代码示例及实战中的工程取舍（云端 vs 本地、身份映射、误差处理）。最终输出带说话人标签的结构化文本，适用于客服质检、会议纪要等场景。

极光发布于 2026/4/6更新于 2026/7/2357 浏览

使用 OpenAI Whisper 与 pyannote.audio 构建说话人分离语音识别系统

本文从工程落地的角度，介绍如何将 OpenAI 的 Whisper 语音识别模型和 pyannote.audio 的说话人分离管线拼成一个'谁在什么时候说了什么'的完整解决方案。

我们会回答三个核心问题：

技术思路：Whisper + pyannote.audio 的组合到底在解决什么问题？
工程实现：从一段音频到'带说话人标签的转写结果'，需要哪些关键步骤？
实战建议：在真实业务里，这种方案要怎么做取舍、怎么优化？

全文尽量站在'要上线一个能工作的系统'的视角，而不是'能跑就行的 demo'。

一、为什么一定要把 Whisper 和 pyannote.audio 拼在一起？

通俗来说，场景如下：

客服中心想知道：客户在什么时候提了哪些问题，座席是怎么回应的？
B 端会议系统想自动生成：带说话人标签的会议纪要，谁提出了什么决策，谁接了什么任务。
播客 / 访谈节目希望自动生成：按嘉宾分角色的文字稿，甚至还能按人检索'这个嘉宾都说了啥'。

这背后的统一问题是：

在一段多说话人的音频 / 视频里，准确回答：谁在 什么时候 说了什么。

拆开来看：

Whisper 负责把「声音 → 文本」，告诉你内容；
pyannote.audio 负责把「声音 → 说话人时间轴」，告诉你结构（谁在什么时候说话）。

如果只用 Whisper，通常拿到的是这样的结构：

[
  {"start": 0.5, "end": 3.2, "text": "大家好，今天我们来聊一下..."},
  {"start": 3.3, "end": 7.8, "text": "我先简单介绍一下项目背景。"}

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

0.20s–2.10s SPEAKER_00 2.30s–5.00s SPEAKER_01 5.20s–8.40s SPEAKER_00 ...

SPEAKER_00 [0.2–2.1] 大家好，今天我们来聊一下...
SPEAKER_01 [2.3–5.0] 我先简单介绍一下项目背景。
SPEAKER_00 [5.2–8.4] 好的，那我先从整体架构开始讲...

pip install openai
pip install python-dotenv  # 用来管理 API Key（可选）

from openai import OpenAI
client = OpenAI(api_key="YOUR_OPENAI_API_KEY")
audio_file_path = "audio.wav"
with open(audio_file_path, "rb") as f:
    transcription = client.audio.transcriptions.create(
        model="whisper-1",              # 或其他支持语音识别的模型
        file=f,
        response_format="verbose_json", # 拿到详细分段和时间戳
        timestamp_granularities=["segment"],
        language="zh"                   # 或 "en" / "auto"
    )
segments = [
    {
        "start": seg["start"],
        "end": seg["end"],
        "text": seg["text"].strip(),
    }
    for seg in transcription.segments
]
for seg in segments:
    print(f"[{seg['start']:.2f}–{seg['end']:.2f}] {seg['text']}")

import whisper
model = whisper.load_model("medium")  # 或 tiny/base/small/large
result = model.transcribe("audio.wav", language="zh")
segments = [
    {
        "start": seg["start"],
        "end": seg["end"],
        "text": seg["text"].strip(),
    }
    for seg in result["segments"]
]

pip install pyannote.audio

from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained(
    "pyannote/speaker-diarization-community-1",
    use_auth_token="YOUR_HF_TOKEN",  # 新版可用 token=...
)
diarization = pipeline("audio.wav")
speaker_turns = []
for turn, speaker in diarization.itertracks(yield_label=True):
    speaker_turns.append({
        "start": float(turn.start),
        "end": float(turn.end),
        "speaker": str(speaker),
    })
for t in speaker_turns:
    print(f"[{t['start']:.2f}–{t['end']:.2f}] {t['speaker']}")

def overlap(a_start, a_end, b_start, b_end) -> float:
    left = max(a_start, b_start)
    right = min(a_end, b_end)
    return max(0.0, right - left)

from typing import List, Dict

def assign_speaker_to_segments(
    segments: List[Dict],
    speaker_turns: List[Dict],
) -> List[Dict]:
    """为每个 Whisper 文本片段分配说话人 ID。
    Parameters
    ----------
    segments : list of dict
      每个元素形如 {"start": float, "end": float, "text": str}
    speaker_turns : list of dict
      每个元素形如 {"start": float, "end": float, "speaker": str}
    Returns
    -------
    list of dict
      每个元素形如 {"start", "end", "text", "speaker"}
    """
    def overlap(a_start, a_end, b_start, b_end) -> float:
        left = max(a_start, b_start)
        right = min(a_end, b_end)
        return max(0.0, right - left)
    
    results = []
    for seg in segments:
        seg_start, seg_end = seg["start"], seg["end"]
        best_speaker = None
        best_overlap = 0.0
        for turn in speaker_turns:
            ov = overlap(seg_start, seg_end, turn["start"], turn["end"])
            if ov > best_overlap:
                best_overlap = ov
                best_speaker = turn["speaker"]
        results.append({
            "start": seg_start,
            "end": seg_end,
            "text": seg["text"],
            "speaker": best_speaker or "UNKNOWN",
        })
    return results

final_segments = assign_speaker_to_segments(segments, speaker_turns)
for seg in final_segments:
    print(f"{seg['speaker']} [{seg['start']:.2f}–{seg['end']:.2f}] {seg['text']}")

[
  {
    "start": 0.5,
    "end": 3.2,
    "text": "大家好，今天我们来聊一下...",
    "speaker": "SPEAKER_00"
  },
  {
    "start": 3.3,
    "end": 7.8,
    "text": "我先简单介绍一下项目背景。",
    "speaker": "SPEAKER_01"
  }
]

from typing import List, Dict
from openai import OpenAI
from pyannote.audio import Pipeline

def transcribe_and_diarize(
    audio_path: str,
    openai_client: OpenAI,
    whisper_model: str,
    diarization_pipeline: Pipeline,
) -> List[Dict]:
    """对单个音频做转写 + 说话人分离，并融合结果。
    返回形如 [{start, end, speaker, text}, ...] 的列表。
    """
    # 1) Whisper 转写
    with open(audio_path, "rb") as f:
        transcription = openai_client.audio.transcriptions.create(
            model=whisper_model,
            file=f,
            response_format="verbose_json",
            timestamp_granularities=["segment"],
        )
    segments = [
        {
            "start": seg["start"],
            "end": seg["end"],
            "text": seg["text"].strip(),
        }
        for seg in transcription.segments
    ]
    # 2) 说话人分离
    diarization = diarization_pipeline(audio_path)
    speaker_turns = [
        {
            "start": float(turn.start),
            "end": float(turn.end),
            "speaker": str(speaker),
        }
        for turn, speaker in diarization.itertracks(yield_label=True)
    ]
    # 3) 时间轴融合
    return assign_speaker_to_segments(segments, speaker_turns)

from openai import OpenAI
from pyannote.audio import Pipeline

client = OpenAI(api_key="YOUR_OPENAI_API_KEY")
diar_pipeline = Pipeline.from_pretrained(
    "pyannote/speaker-diarization-community-1",
    use_auth_token="YOUR_HF_TOKEN",
)
results = transcribe_and_diarize(
    "audio.wav",
    openai_client=client,
    whisper_model="whisper-1",  # 或其他支持的模型
    diarization_pipeline=diar_pipeline,
)
for r in results:
    print(f"{r['speaker']} [{r['start']:.2f}–{r['end']:.2f}] {r['text']}")

SPEAKER_00: 大家好，今天我们来聊一下...
SPEAKER_01: 我先简单介绍一下项目背景。
SPEAKER_00: 好的，那我先从整体架构开始讲...
...

使用 OpenAI Whisper 与 pyannote.audio 构建说话人分离语音识别系统

一、为什么一定要把 Whisper 和 pyannote.audio 拼在一起？

更多推荐文章

相关免费在线工具

二、整体架构：从'原始音频'到'可用数据'的流水线

三、Whisper 部分：要的是'带时间戳的转写结果'

3.1 用 OpenAI 官方 API

3.2 用本地 Whisper（可选）

四、pyannote.audio 部分：要的是'谁在什么时候说话'

4.1 安装和授权

4.2 调用说话人分离管线

五、关键步骤：用时间重叠度给文本片段分配说话人

5.1 计算时间重叠的辅助函数

5.2 完整的融合函数

六、封装成一个可复用的高层 API

6.1 高层封装：`transcribe_and_diarize`

6.2 实际调用长什么样？

七、实战中的几个现实问题与工程取舍

7.1 Whisper：云端 vs 本地

7.2 说话人 ID 与'真实身份'的映射问题

7.3 时间戳误差与边界模糊

7.4 性能与并发

八、延伸玩法：有了'谁在说什么'，还能玩什么花样？

8.1 带说话人语境感知的摘要 & 问答

8.2 会议信息结构化

8.3 客服质检与智能辅导

九、结语：让时间轴长出'人'的轮廓

更多推荐文章

相关免费在线工具

使用 OpenAI Whisper 与 pyannote.audio 构建说话人分离语音识别系统

一、为什么一定要把 Whisper 和 pyannote.audio 拼在一起？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

二、整体架构：从'原始音频'到'可用数据'的流水线

三、Whisper 部分：要的是'带时间戳的转写结果'

3.1 用 OpenAI 官方 API

3.2 用本地 Whisper（可选）

四、pyannote.audio 部分：要的是'谁在什么时候说话'

4.1 安装和授权

4.2 调用说话人分离管线

五、关键步骤：用时间重叠度给文本片段分配说话人

5.1 计算时间重叠的辅助函数

5.2 完整的融合函数

六、封装成一个可复用的高层 API

6.1 高层封装：transcribe_and_diarize

6.2 实际调用长什么样？

七、实战中的几个现实问题与工程取舍

7.1 Whisper：云端 vs 本地

7.2 说话人 ID 与'真实身份'的映射问题

7.3 时间戳误差与边界模糊

7.4 性能与并发

八、延伸玩法：有了'谁在说什么'，还能玩什么花样？

8.1 带说话人语境感知的摘要 & 问答

8.2 会议信息结构化

8.3 客服质检与智能辅导

九、结语：让时间轴长出'人'的轮廓

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

6.1 高层封装：`transcribe_and_diarize`