跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

Whisper 和 Faster-Whisper 模型下载与安装方法

综述由AI生成OpenAI Whisper 和 Faster-Whisper 语音识别模型的下载与安装方法。内容包括通过 pip 安装获取模型文件,以及从 HuggingFace 下载权重的区别。提供了两种库的 Python 代码示例,涵盖音频加载、语言检测和转录功能,并说明了 GPU/CPU 配置选项。此外简要提及了 vLLM 框架中集成 Whisper 模型的情况。

片刻发布于 2026/4/6更新于 2026/5/2225 浏览

1. 模型种类

Whisper 支持多种模型规格,包括 tiny、base、small、medium、large 等。

Faster-Whisper 的模型种类与 Whisper 类似。

2. 模型安装

Whisper 和 Faster-Whisper 的模型主要有两种获取方式:

  1. 通过 pip 安装:
    • 运行 pip install -U openai-whisper,下载结果为 .pt 文件。
    • 运行 pip install faster-whisper,下载结果同样为 .pt 文件。
  2. 从 HuggingFace 下载:
    • 访问 https://huggingface.co/,搜索 whisper。
    • 可下载 large-v3 和 large-v3-turbo 等版本,文件格式与上述不同。

3. 模型运行

3.1 使用 pip 安装的模型(OpenAI Whisper)

参考官方文档,示例代码如下:

import whisper

model = whisper.load_model("turbo")

# load audio and pad/trim it to fit 30 seconds
audio = whisper.load_audio("audio.mp3")
audio = whisper.pad_or_trim(audio)

# make log-Mel spectrogram and move to the same device as the model
mel = whisper.log_mel_spectrogram(audio, n_mels=model.dims.n_mels).to(model.device)

# detect the spoken language
_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")

# decode the audio
options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)

# print the recognized text
print(result.text)

注意:Whisper 模型通常要求音频片段适配一定时长(如 30 秒),如果音频时间太短可能导致识别结果不准确,建议根据实际场景调整。

3.2 使用 pip 安装的模型(Faster-Whisper)

参考官方文档,示例代码如下:

from faster_whisper import WhisperModel

model_size = "large-v3"

# Run on GPU with FP16
model = WhisperModel(model_size, device="cuda", compute_type="float16")

# or run on GPU with INT8
# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")
# or run on CPU with INT8
# model = WhisperModel(model_size, device="cpu", compute_type="int8")

segments, info = model.transcribe("audio.mp3", beam_size=5)

print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

在初始化 WhisperModel 时,可以指定 CUDA 设备编号以合理利用资源。

3.3 基于 vLLM 框架

若使用 vLLM 框架,其中的 Whisper 和 Faster-Whisper 模型通常来自 HuggingFace。关于 vLLM 安装注意事项,建议查阅相关文档。

目录

  1. 1. 模型种类
  2. 2. 模型安装
  3. 3. 模型运行
  4. 3.1 使用 pip 安装的模型(OpenAI Whisper)
  5. load audio and pad/trim it to fit 30 seconds
  6. make log-Mel spectrogram and move to the same device as the model
  7. detect the spoken language
  8. decode the audio
  9. print the recognized text
  10. 3.2 使用 pip 安装的模型(Faster-Whisper)
  11. Run on GPU with FP16
  12. or run on GPU with INT8
  13. model = WhisperModel(modelsize, device="cuda", computetype="int8_float16")
  14. or run on CPU with INT8
  15. model = WhisperModel(modelsize, device="cpu", computetype="int8")
  16. 3.3 基于 vLLM 框架
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 金融类 App 渗透测试实战:从 Weblogic 到 Shiro 反序列化
  • 手机端运行 Stable Diffusion 的开源方案与使用指南
  • C++11 核心新特性详解
  • Kafka 核心架构与分布式存储深度解析
  • TRAE 与 VSCode 的 Git 版本管理指南
  • OpenClaw 系列:16 款 AI Agent 工具选型指南
  • Python Web 框架对比与实战:Django、Flask 与 FastAPI
  • C++ 手搓 AVL 树实现详解
  • Stable Diffusion WebUI 使用指南与参数配置
  • LLM 项目实战:使用 LLaMA-Factory 进行 DPO 训练
  • OpenClaw 开源 AI 助手安装与配置指南
  • 基于 Walsh-Hadamard 变换的量子仿真硬件架构与地址生成器设计
  • FPGA 开发环境搭建:Quartus II 13.1 与 ModelSim 安装配置教程
  • RexUniNLU 零样本 NLU 教程:WebUI 文件上传与 NER 可视化
  • Playwright 结合 MCP AI 实现自动化浏览器操作
  • OpenFPGA FPGA IP 核生成技术指南
  • OpenClaw、MaxClaw、KimiClaw 与 Molili 四大 AI Agent 横向评测
  • Git Clone 命令行临时设置代理的两种方法
  • AI 时代初级开发者的创意生存指南:如何避免被工具化
  • 基于 SpringBoot 的 KTV 在线点歌系统设计与实现

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online