Whisper-medium.en 模型深度解析与 Python 实现

OpenAI 推出的 Whisper-medium.en 模型在 LibriSpeech 测试中表现优异，clean 数据集词错误率低至 4.12%。基于 68 万小时多语言数据训练，支持零样本泛化。介绍其核心架构、Python 集成方式及长音频处理技巧，同时指出幻觉现象等使用注意事项，为开发者提供可靠的英语语音识别解决方案。

橘子海发布于 2026/3/21更新于 2026/5/44 浏览

Whisper-medium.en 模型深度解析与 Python 实现

OpenAI 发布的 Whisper 系列模型一直是自动语音识别领域的标杆。其中 Whisper-medium.en 作为专为英语优化的版本，凭借 769M 参数规模，在保持推理效率的同时显著提升了识别精度。对于需要高精度英语转写的应用场景，它提供了无需微调的即插即用能力。

性能表现

在权威的 LibriSpeech 测试中，该模型展现了行业领先的准确率。在干净的 "clean" 数据集上，词错误率（WER）低至 4.12%；而在包含更多噪音和口音的 "other" 数据集上，WER 也仅为 7.43%。这意味着每转录 1000 个单词，仅有约 41 个错误，远超传统 ASR 系统的平均水平。

快速集成

基于 Hugging Face Transformers 库，开发者可以非常快速地加载模型。这里需要注意安装 transformers 和 torch 依赖：

from transformers import WhisperProcessor, WhisperForConditionalGeneration

# 加载模型和处理器
processor = WhisperProcessor.from_pretrained("openai/whisper-medium.en")
model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-medium.en")

加载完成后，基础转录流程如下。我们首先处理音频样本，将其转换为模型所需的输入特征，然后生成预测 ID 并解码为文本：

# 假设 sample 已包含音频数组和采样率
input_features = processor(sample["array"], sampling_rate=sample["sampling_rate"], return_tensors="pt").input_features
predicted_ids = model.generate(input_features)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)

进阶用法

在实际业务中，长音频文件往往需要分块处理以避免显存溢出。利用 pipeline 接口配合 chunking 算法，可以轻松支持任意长度的音频输入：

from transformers import pipeline
import torch

pipe = pipeline(
    "automatic-speech-recognition",
    model="openai/whisper-medium.en",
    chunk_length_s=30,
    device="cuda" if torch.cuda.is_available() else "cpu"
)

如果需要制作字幕或进行内容索引，开启时间戳生成功能非常实用。返回结果中的 chunks 字段会包含文本片段及其对应的时间范围：

prediction = pipe(sample.copy(), batch_size=8, return_timestamps=True)[]