Whisper 和 Faster Whisper 模型下载、安装与运行指南

1. 模型种类

whisper：有很多模型，如 tiny、base、small、medium、large 等。 faster_whisper：模型种类与 whisper 类似。

2. 模型安装

特别注意：whisper 和 faster_whisper 中的模型有两种获得方式。

① pip 安装：

在 GitHub 上提示 pip install -U openai-whisper，下载结果为 .pt 文件。
在 GitHub 上提示 pip install faster-whisper，下载结果为 .pt 文件。

② HuggingFace 下载：

在 https://huggingface.co/ 搜索 whisper，可下载 large-v3 和 large-v3-turbo 等文件，格式与上述不同。

3. 模型运行

3.1 使用 pip 安装的模型 (whisper)

参考代码示例：

import whisper

model = whisper.load_model("turbo")

# load audio and pad/trim it to fit 30 seconds
audio = whisper.load_audio("audio.mp3")
audio = whisper.pad_or_trim(audio)

# make log-Mel spectrogram and move to the same device as the model
mel = whisper.log_mel_spectrogram(audio, n_mels=model.dims.n_mels).to(model.device)

# detect the spoken language
_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")

# decode the audio
options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)

# print the recognized text
print(result.text)

注意：whisper 模型建议对音频进行截断或填充以适配 30 秒，如果音频时间太短，可能识别结果不准确。

3.2 使用 pip 安装的模型 (faster_whisper)

参考代码示例：

from faster_whisper import WhisperModel

model_size = "large-v3"

# Run on GPU with FP16
model = WhisperModel(model_size, device="cuda", compute_type="float16")

# or run on GPU with INT8
# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")



segments, info = model.transcribe(, beam_size=)

( % (info.language, info.language_probability))

 segment  segments:
    ( % (segment.start, segment.end, segment.text))

Whisper 和 Faster Whisper 模型下载、安装与运行指南

1. 模型种类

2. 模型安装

3. 模型运行

3.1 使用 pip 安装的模型 (whisper)

3.2 使用 pip 安装的模型 (faster_whisper)

更多推荐文章

相关免费在线工具

3.3 vLLM 集成

更多推荐文章

相关免费在线工具

Whisper 和 Faster Whisper 模型下载、安装与运行指南

1. 模型种类

2. 模型安装

3. 模型运行

3.1 使用 pip 安装的模型 (whisper)

3.2 使用 pip 安装的模型 (faster_whisper)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.3 vLLM 集成

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具