简介
OpenAI Whisper 是一款开源语音识别模型,可将音频文件高效转换为文本,适用于播客、讲座及录音整理场景。
环境准备
使用前请确认满足以下条件:
- Python 3.7 或更高版本
- 足够的磁盘空间(模型大小从几十 MB 到几 GB 不等)
- 网络连接(首次使用需下载模型权重)
安装 Whisper
通过 pip 安装官方库:
pip install openai-whisper
使用方式
命令行调用
安装完成后,可在终端直接运行以下命令进行转录:
whisper <audio_file> --model medium
脚本处理
如需批量处理或自定义逻辑,可编写 Python 脚本调用 Whisper API。典型流程包括加载模型、读取音频、执行转录并保存结果至指定目录。
功能特性
- 支持多种音频格式(mp3, wav, m4a, flac 等)
- 可选择不同大小的模型以平衡速度与精度
- 实时显示进度条
- 错误提示明确

