Whisper 音频转录实战

综述由AI生成OpenAI Whisper 模型支持多种音频格式转写。通过 pip 安装后，可直接调用 API 或命令行工具进行转录。示例展示了加载模型、指定语言及任务类型的基本用法，适合处理播客、讲座等语音数据。

极客零度发布于 2026/4/5更新于 2026/4/304 浏览

Whisper 音频转录实战

OpenAI 推出的 Whisper 是目前开源界表现优异的语音识别模型之一。无论是 Podcast、会议录音还是日常语音记录，它都能提供高精度的文本转写服务。本文将介绍如何快速部署并使用 Whisper 完成音频转录任务。

环境准备

确保你的开发环境满足以下基础要求：

Python 版本不低于 3.7
足够的磁盘空间（模型权重文件从几十 MB 到数 GB 不等）
稳定的网络连接（首次运行需自动下载模型）

安装依赖

推荐使用 pip 直接安装官方包，命令如下：

pip install openai-whisper

安装完成后，系统会自动处理相关依赖项。

核心使用方式

Whisper 提供了 Python API 和命令行工具两种交互方式。对于大多数开发者，直接使用 Python 脚本最为灵活。

基础转录示例

下面是一个最小化的 Python 脚本，演示如何加载模型并转换音频文件：

import whisper

# 加载模型，可选 'tiny', 'base', 'small', 'medium', 'large'
model = whisper.load_model("base")

# 执行转录
result = model.transcribe("audio.mp3")

# 输出文本
print(result["text"])

实际运行时，模型会根据音频内容自动检测语言。如果你需要指定语言或任务类型（如翻译），可以传入相应参数：

result = model.transcribe(
    "audio.mp3",
    language="zh",
    task="transcribe"
)

命令行工具

如果不想编写脚本，也可以直接在终端调用内置命令。进入包含音频文件的目录，执行：

whisper audio.mp3 --model base

这将生成对应的 .txt 结果文件。

注意事项

模型选择：大模型精度更高但速度较慢，小模型速度快但精度略低。根据硬件资源权衡选择。
显存占用：在 GPU 环境下运行会显著加速，但需注意显存限制。
文件格式：支持 mp3、wav、m4a、flac 等多种常见格式，无需额外预处理。

通过上述方法，你可以快速集成语音识别能力到自己的项目中。如果有批量处理需求，建议结合循环逻辑封装成独立工具。