Distil-Whisper 快速入门：6 倍加速的语音识别方案 | 极客日志

PythonAI算法

Distil-Whisper 快速入门：6 倍加速的语音识别方案

Distil-Whisper 是 Whisper 的蒸馏版本，专为英语语音识别设计。相比原始模型，它实现了 6 倍推理速度提升和 49% 体积缩减，词错误率增加不超过 1%。支持无缝迁移、推测解码及 Flash Attention 优化。通过 Transformers 库即可安装使用，适用于实时语音转写、视频字幕生成等场景。提供短音频识别、长音频自动分段及结合教师模型的推测解码模式示例。

霸天发布于 2026/3/26更新于 2026/7/1444 浏览

Distil-Whisper 快速入门：6 倍加速的语音识别方案

Distil-Whisper 是 Whisper 的蒸馏版本，专为英语语音识别设计，实现了6 倍加速、49% 体积缩减，同时保持1% 以内的词错误率。作为轻量级语音识别解决方案，它在保留 Whisper 核心能力的同时，显著提升了推理速度和资源效率，是开发者构建实时语音应用的理想选择。

为什么选择 Distil-Whisper？

Distil-Whisper 作为 Whisper 的高效替代方案，具备五大核心优势：

1. ⚡ 极致性能提升

6 倍推理速度：比原始 Whisper 模型快 6 倍，适合实时语音处理场景
49% 模型压缩：体积更小，部署更灵活，尤其适合边缘设备

2. 📊 精度损失极小

在保持 99% 以上识别准确率的同时，词错误率（WER）仅增加不到 1%，完全满足生产环境需求。

3. 🔄 无缝迁移体验

作为 Whisper 的"即插即用"替代方案，无需修改现有代码架构，可直接集成到现有语音识别 pipeline 中。

4. 🚀 支持推测解码

可作为 Whisper 的辅助模型实现2 倍额外加速，同时数学保证输出结果与原始模型一致。

5. 📄 宽松许可协议

采用 MIT 许可证，允许商业用途，适合企业级应用开发。

快速安装指南 🛠️

基础环境准备

确保已安装 Python 3.8+，然后通过 pip 安装核心依赖：

pip install --upgrade pip
pip install --upgrade transformers accelerate datasets[audio]

进阶性能优化（可选）

如需进一步提升速度和降低内存占用，可安装以下优化组件：

Flash Attention 加速

pip install flash-attn --no-build-isolation

Optimum 优化工具

pip install --upgrade optimum

核心功能使用示例 🌟

1. 短音频识别

以下代码展示如何使用 Distil-Whisper 处理短音频文件：

from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor
import torch
from datasets import load_dataset

# 加载模型和处理器
model_id = "distil-whisper/distil-large-v3"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch.float16, low_cpu_mem_usage=True
)

# 加载示例音频
dataset = load_dataset(, , split=)
sample = dataset[][]


inputs = processor(sample[], sampling_rate=sample[], return_tensors=)
inputs = inputs.to(  torch.cuda.is_available()  )
predicted_ids = model.generate(**inputs, max_new_tokens=)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=)[]

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from transformers import pipeline

pipe = pipeline(
    "automatic-speech-recognition",
    model=model_id,
    torch_dtype=torch.float16,
    device="cuda:0" if torch.cuda.is_available() else "cpu",
)

# 处理长音频（自动分段）
result = pipe(sample["array"], max_new_tokens=1024, return_timestamps=True)
print(result["text"])

from transformers import AutoModelForSpeechSeq2Seq

# 加载教师模型和辅助模型
teacher_model_id = "openai/whisper-large-v3"
assistant_model_id = "distil-whisper/distil-large-v3"
teacher_model = AutoModelForSpeechSeq2Seq.from_pretrained(
    teacher_model_id, torch_dtype=torch.float16, low_cpu_mem_usage=True
)
assistant_model = AutoModelForSpeechSeq2Seq.from_pretrained(
    assistant_model_id, torch_dtype=torch.float16, low_cpu_mem_usage=True
)

# 使用推测解码
inputs = processor(sample["array"], sampling_rate=sample["sampling_rate"], return_tensors="pt").to("cuda")
outputs = teacher_model.generate(
    **inputs, assistant_model=assistant_model, do_sample=False,
)
transcription = processor.batch_decode(outputs, skip_special_tokens=True)[0]

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch.float16, low_cpu_mem_usage=True, use_flash_attention_2=True # 启用 Flash Attention
)

@article{distilwhisper,
  title={Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling},
  author={Gandhi, Sanchit and von Werra, Leandro and Xu, Peng-Jen and Ju, Da and Conneau, Alexis},
  journal={arXiv preprint arXiv:2311.00430},
  year={2023}
}

Distil-Whisper 快速入门：6 倍加速的语音识别方案

Distil-Whisper 快速入门：6 倍加速的语音识别方案

为什么选择 Distil-Whisper？

1. ⚡ 极致性能提升

2. 📊 精度损失极小

3. 🔄 无缝迁移体验

4. 🚀 支持推测解码

5. 📄 宽松许可协议

快速安装指南 🛠️

基础环境准备

进阶性能优化（可选）

Flash Attention 加速

Optimum 优化工具

核心功能使用示例 🌟

1. 短音频识别

更多推荐文章

相关免费在线工具

2. 长音频转录

3. 推测解码模式

高级优化技巧 💡

Flash Attention 加速

模型训练与定制

实际应用场景 🚀

引用与致谢

总结

更多推荐文章

相关免费在线工具

Distil-Whisper 快速入门：6 倍加速的语音识别方案

Distil-Whisper 快速入门：6 倍加速的语音识别方案

为什么选择 Distil-Whisper？

1. ⚡ 极致性能提升

2. 📊 精度损失极小

3. 🔄 无缝迁移体验

4. 🚀 支持推测解码

5. 📄 宽松许可协议

快速安装指南 🛠️

基础环境准备

进阶性能优化（可选）

Flash Attention 加速

Optimum 优化工具

核心功能使用示例 🌟

1. 短音频识别

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 长音频转录

3. 推测解码模式

高级优化技巧 💡

Flash Attention 加速

模型训练与定制

实际应用场景 🚀

引用与致谢

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具