基于 OpenAI Whisper 的音频转录实战指南
OpenAI 推出的 Whisper 模型在语音识别领域表现优异,适用于播客、讲座及日常录音转写。它支持多种语言,且对噪声有一定的鲁棒性。
环境准备
确保你的开发环境满足以下要求:
- Python 3.7 或更高版本
- 足够的磁盘空间(模型大小从几十 MB 到几 GB 不等)
- 网络连接(首次运行需下载模型权重)
安装 Whisper
使用 pip 安装官方库非常简单:
pip install openai-whisper
转录脚本实现
为了批量处理音频文件,我们可以编写一个简单的 Python 脚本。相比外部提供的资源,本地化脚本更利于维护和安全。
脚本功能
- 支持 mp3、wav、m4a、flac 等多种格式
- 自动创建结果文件夹
- 可选模型大小(tiny, base, small, medium, large)
- 实时进度显示
代码示例
创建一个名为 transcribe_audio.py 的文件,写入以下内容:
import whisper
import os
def transcribe_audio(file_path, model_size="base"):
print(f"正在加载 {model_size} 模型...")
model = whisper.load_model(model_size)
print(f"开始转录:{file_path}")
result = model.transcribe(file_path)
output_dir = "transcripts"
os.makedirs(output_dir, exist_ok=True)
output_file = os.path.join(output_dir, f"{os.path.basename(file_path)}.txt")
with open(output_file, "w", encoding="utf-8") as f:
f.write(result["text"])
print(f"转录完成,结果已保存至:{output_file}")
return result
if __name__ == "__main__":
audio_file =
os.path.exists(audio_file):
transcribe_audio(audio_file)
:
()

