Whisper 音频转录

你好呀!今天我们来聊聊如何用 OpenAI 的 Whisper 工具把音频文件变成文字。这东西可厉害了,不管是 podcast、讲座还是自己录的语音,都能轻松转成文本,超方便的!

准备工作 📋

在开始之前,你需要准备好:

  • Python 3.7 或更高版本(现在大部分电脑都有了)
  • 一点磁盘空间(模型大小从几十MB到几GB不等,看你选哪个)
  • 对啦,还要有网络,因为第一次用需要下载模型

安装 Whisper 🚀

安装超级简单,打开命令行,输入这行代码就搞定:

pip install openai-whisper 

等着它自己安装完就好啦,是不是很easy?

使用我们的转录脚本 📝

已经为你准备了一个超级好用的脚本transcribe_audio.py,它可以批量处理音频文件,超省时间!

脚本有啥功能?

  • 支持各种音频格式:mp3、wav、m4a、flac 都没问题
  • 自动创建 transcripts 文件夹放结果
  • 可以选不同大小的模型,满足不同需求
  • 实时显示进度,让你知道到哪一步了
  • 遇到问题会告诉你,不会闷头报错

怎么用呢?

基础操作

打开命令行,进入音频文件所在的文件夹,然后输入:

Could not load content