1. 模型种类
Whisper 支持多种模型规格,包括 tiny、base、small、medium、large 等。Faster-Whisper 的模型种类与 Whisper 类似。
2. 模型安装
Whisper 和 Faster-Whisper 的模型主要有两种获取方式:
-
通过 pip 安装:
- Whisper: 运行
pip install -U openai-whisper,下载结果为 文件。参考文档:。
- Whisper: 运行
Whisper 和 Faster-Whisper 两种语音识别模型的分类、安装方法及运行示例。模型可通过 pip 安装获取 .pt 文件,也可从 Hugging Face 下载特定版本。提供了基于 Python 的代码示例,展示了如何在 CPU 或 GPU 环境下加载模型、检测语言及转录音频。对于使用 Hugging Face 模型的部署场景,推荐参考 vLLM 框架。
Whisper 支持多种模型规格,包括 tiny、base、small、medium、large 等。Faster-Whisper 的模型种类与 Whisper 类似。
Whisper 和 Faster-Whisper 的模型主要有两种获取方式:
通过 pip 安装:
pip install -U openai-whisper,下载结果为 文件。参考文档:。.ptpip install faster-whisper,下载结果为 .pt 文件。参考文档:SYSTRAN Faster-Whisper。通过 Hugging Face 下载:
参考官方示例代码如下:
import whisper
model = whisper.load_model("turbo")
# load audio and pad/trim it to fit 30 seconds
audio = whisper.load_audio("audio.mp3")
audio = whisper.pad_or_trim(audio)
# make log-Mel spectrogram and move to the same device as the model
mel = whisper.log_mel_spectrogram(audio, n_mels=model.dims.n_mels).to(model.device)
# detect the spoken language
_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")
# decode the audio
options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)
# print the recognized text
print(result.text)
注意:Whisper 模型通常建议音频时长适中,如果音频时间太短,可能识别结果不准确,具体请自行尝试。
参考官方示例代码如下:
from faster_whisper import WhisperModel
model_size = "large-v3"
# Run on GPU with FP16
model = WhisperModel(model_size, device="cuda", compute_type="float16")
# or run on GPU with INT8
# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")
# or run on CPU with INT8
# model = WhisperModel(model_size, device="cpu", compute_type="int8")
segments, info = model.transcribe("audio.mp3", beam_size=5)
print("Detected language '%s' with probability %f" % (info.language, info.language_probability))
for segment in segments:
print("\[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
在初始化 WhisperModel 时,可以指定 cuda 编号以便合理利用资源。
若采用 Hugging Face 下载的模型,可参考 vLLM 框架。vLLM 框架中的 Whisper 模型和 Faster-Whisper 模型通常来自 Hugging Face。关于 vLLM 安装踩坑问题,后续将另行发布。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online