Whisper 和 Faster-Whisper 模型下载与安装方法

1. 模型种类

Whisper 支持多种模型规格，包括 tiny、base、small、medium、large 等。

Faster-Whisper 的模型种类与 Whisper 类似。

2. 模型安装

Whisper 和 Faster-Whisper 的模型主要有两种获取方式：

通过 pip 安装：
- 运行 pip install -U openai-whisper，下载结果为 .pt 文件。
- 运行 pip install faster-whisper，下载结果同样为 .pt 文件。
从 HuggingFace 下载：
- 访问 https://huggingface.co/，搜索 whisper。
- 可下载 large-v3 和 large-v3-turbo 等版本，文件格式与上述不同。

3. 模型运行

3.1 使用 pip 安装的模型（OpenAI Whisper）

参考官方文档，示例代码如下：

import whisper

model = whisper.load_model("turbo")

# load audio and pad/trim it to fit 30 seconds
audio = whisper.load_audio("audio.mp3")
audio = whisper.pad_or_trim(audio)

# make log-Mel spectrogram and move to the same device as the model
mel = whisper.log_mel_spectrogram(audio, n_mels=model.dims.n_mels).to(model.device)

# detect the spoken language
_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")

# decode the audio
options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)

# print the recognized text
print(result.text)

注意：Whisper 模型通常要求音频片段适配一定时长（如 30 秒），如果音频时间太短可能导致识别结果不准确，建议根据实际场景调整。

3.2 使用 pip 安装的模型（Faster-Whisper）

参考官方文档，示例代码如下：

from faster_whisper import WhisperModel

model_size = "large-v3"

# Run on GPU with FP16
model = WhisperModel(model_size, device="cuda", compute_type="float16")

# or run on GPU with INT8
# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")
# or run on CPU with INT8
# model = WhisperModel(model_size, device="cpu", compute_type="int8")

segments, info = model.transcribe("audio.mp3", beam_size=5)

print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

在初始化 WhisperModel 时，可以指定 CUDA 设备编号以合理利用资源。

3.3 基于 vLLM 框架

若使用 vLLM 框架，其中的 Whisper 和 Faster-Whisper 模型通常来自 HuggingFace。关于 vLLM 安装注意事项，建议查阅相关文档。

1. 模型种类

Whisper 支持多种模型规格，包括 tiny、base、small、medium、large 等。

Faster-Whisper 的模型种类与 Whisper 类似。

2. 模型安装

Whisper 和 Faster-Whisper 的模型主要有两种获取方式：

通过 pip 安装：
- 运行 pip install -U openai-whisper，下载结果为 .pt 文件。
- 运行 pip install faster-whisper，下载结果同样为 .pt 文件。
从 HuggingFace 下载：
- 访问 https://huggingface.co/，搜索 whisper。
- 可下载 large-v3 和 large-v3-turbo 等版本，文件格式与上述不同。

3. 模型运行

3.1 使用 pip 安装的模型（OpenAI Whisper）

参考官方文档，示例代码如下：

import whisper

model = whisper.load_model("turbo")

# load audio and pad/trim it to fit 30 seconds
audio = whisper.load_audio("audio.mp3")
audio = whisper.pad_or_trim(audio)

# make log-Mel spectrogram and move to the same device as the model
mel = whisper.log_mel_spectrogram(audio, n_mels=model.dims.n_mels).to(model.device)

# detect the spoken language
_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")

# decode the audio
options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)

# print the recognized text
print(result.text)

注意：Whisper 模型通常要求音频片段适配一定时长（如 30 秒），如果音频时间太短可能导致识别结果不准确，建议根据实际场景调整。

3.2 使用 pip 安装的模型（Faster-Whisper）

参考官方文档，示例代码如下：

from faster_whisper import WhisperModel

model_size = "large-v3"

# Run on GPU with FP16
model = WhisperModel(model_size, device="cuda", compute_type="float16")

# or run on GPU with INT8
# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")
# or run on CPU with INT8
# model = WhisperModel(model_size, device="cpu", compute_type="int8")

segments, info = model.transcribe("audio.mp3", beam_size=5)

print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

在初始化 WhisperModel 时，可以指定 CUDA 设备编号以合理利用资源。

3.3 基于 vLLM 框架

若使用 vLLM 框架，其中的 Whisper 和 Faster-Whisper 模型通常来自 HuggingFace。关于 vLLM 安装注意事项，建议查阅相关文档。

Whisper 和 Faster-Whisper 模型下载与安装方法

1. 模型种类

2. 模型安装

3. 模型运行

3.1 使用 pip 安装的模型（OpenAI Whisper）

3.2 使用 pip 安装的模型（Faster-Whisper）

3.3 基于 vLLM 框架

Whisper 和 Faster-Whisper 模型下载与安装方法

1. 模型种类

2. 模型安装

3. 模型运行

3.1 使用 pip 安装的模型（OpenAI Whisper）

3.2 使用 pip 安装的模型（Faster-Whisper）

3.3 基于 vLLM 框架

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

Whisper 和 Faster-Whisper 模型下载与安装方法

1. 模型种类

2. 模型安装

3. 模型运行

3.1 使用 pip 安装的模型（OpenAI Whisper）

3.2 使用 pip 安装的模型（Faster-Whisper）

3.3 基于 vLLM 框架

Whisper 和 Faster-Whisper 模型下载与安装方法

1. 模型种类

2. 模型安装

3. 模型运行

3.1 使用 pip 安装的模型（OpenAI Whisper）

3.2 使用 pip 安装的模型（Faster-Whisper）

3.3 基于 vLLM 框架

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具