Whisper 音频转录
你好呀!今天我们来聊聊如何用 OpenAI 的 Whisper 工具把音频文件变成文字。这东西可厉害了,不管是 podcast、讲座还是自己录的语音,都能轻松转成文本,超方便的!
准备工作 📋
在开始之前,你需要准备好:
- Python 3.7 或更高版本(现在大部分电脑都有了)
- 一点磁盘空间(模型大小从几十MB到几GB不等,看你选哪个)
- 对啦,还要有网络,因为第一次用需要下载模型
安装 Whisper 🚀
安装超级简单,打开命令行,输入这行代码就搞定:
pip install openai-whisper 等着它自己安装完就好啦,是不是很easy?
使用我们的转录脚本 📝
已经为你准备了一个超级好用的脚本transcribe_audio.py,它可以批量处理音频文件,超省时间!
脚本有啥功能?
- 支持各种音频格式:mp3、wav、m4a、flac 都没问题
- 自动创建
transcripts文件夹放结果 - 可以选不同大小的模型,满足不同需求
- 实时显示进度,让你知道到哪一步了
- 遇到问题会告诉你,不会闷头报错
怎么用呢?
基础操作
打开命令行,进入音频文件所在的文件夹,然后输入: