1. 模型种类
Whisper 支持多种模型规格,包括 tiny、base、small、medium、large 等。Faster-Whisper 的模型种类与 Whisper 类似。
2. 模型安装
Whisper 和 Faster-Whisper 的模型主要有两种获取方式:
-
通过 pip 安装:
- Whisper: 运行
pip install -U openai-whisper,下载结果为.pt文件。参考文档:OpenAI Whisper。 - Faster-Whisper: 运行
pip install faster-whisper,下载结果为.pt文件。参考文档:SYSTRAN Faster-Whisper。
- Whisper: 运行
-
通过 Hugging Face 下载:
- 访问 Hugging Face 搜索 whisper,可下载 large-v3 和 large-v3-turbo 等模型。文件格式与上述 pip 安装方式有所不同。
3. 模型运行
3.1 使用 pip 安装的模型(Whisper)
参考官方示例代码如下:
import whisper
model = whisper.load_model("turbo")
# load audio and pad/trim it to fit 30 seconds
audio = whisper.load_audio("audio.mp3")
audio = whisper.pad_or_trim(audio)
# make log-Mel spectrogram and move to the same device as the model
mel = whisper.log_mel_spectrogram(audio, n_mels=model.dims.n_mels).to(model.device)
# detect the spoken language
_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")
# decode the audio
options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)
# print the recognized text
print(result.text)
注意:Whisper 模型通常建议音频时长适中,如果音频时间太短,可能识别结果不准确,具体请自行尝试。
3.2 使用 pip 安装的模型(Faster-Whisper)
参考官方示例代码如下:
from faster_whisper WhisperModel
model_size =
model = WhisperModel(model_size, device=, compute_type=)
segments, info = model.transcribe(, beam_size=)
( % (info.language, info.language_probability))
segment segments:
( % (segment.start, segment.end, segment.text))

