跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

基于 OpenAI Whisper 的音频转录实战指南

OpenAI Whisper 是一款强大的开源语音识别工具,支持多语言及多种音频格式。内容涵盖 Python 环境下的库安装方法,以及一个完整的本地转录脚本示例,包括模型选择、文件处理及结果保存流程,助开发者快速实现音频转文字功能。

2177283801发布于 2026/4/9更新于 2026/6/619 浏览

基于 OpenAI Whisper 的音频转录实战指南

OpenAI 推出的 Whisper 模型在语音识别领域表现优异,适用于播客、讲座及日常录音转写。它支持多种语言,且对噪声有一定的鲁棒性。

环境准备

确保你的开发环境满足以下要求:

  • Python 3.7 或更高版本
  • 足够的磁盘空间(模型大小从几十 MB 到几 GB 不等)
  • 网络连接(首次运行需下载模型权重)

安装 Whisper

使用 pip 安装官方库非常简单:

pip install openai-whisper

转录脚本实现

为了批量处理音频文件,我们可以编写一个简单的 Python 脚本。相比外部提供的资源,本地化脚本更利于维护和安全。

脚本功能

  • 支持 mp3、wav、m4a、flac 等多种格式
  • 自动创建结果文件夹
  • 可选模型大小(tiny, base, small, medium, large)
  • 实时进度显示

代码示例

创建一个名为 transcribe_audio.py 的文件,写入以下内容:

import whisper
import os

def transcribe_audio(file_path, model_size="base"):
    print(f"正在加载 {model_size} 模型...")
    model = whisper.load_model(model_size)
    
    print(f"开始转录:{file_path}")
    result = model.transcribe(file_path)
    
    output_dir = "transcripts"
    os.makedirs(output_dir, exist_ok=True)
    output_file = os.path.join(output_dir, f"{os.path.basename(file_path)}.txt")
    
    with open(output_file, "w", encoding="utf-8") as f:
        f.write(result["text"])
        
    print(f"转录完成,结果已保存至:{output_file}")
    return result

if __name__ == "__main__":
    # 替换为你的音频文件路径
    audio_file = "example_audio.mp3"
    if os.path.exists(audio_file):
        transcribe_audio(audio_file)
    else:
        print("未找到音频文件,请检查路径。")

运行说明

进入脚本所在目录,执行命令:

python transcribe_audio.py

注意:首次运行时会自动下载模型,请耐心等待。后续运行将直接调用缓存。

常见问题

  • 显存不足:尝试使用更小的模型(如 tiny 或 base)。
  • 中文识别不准:确保音频清晰,或在参数中指定 language="zh"。

这样我们就完成了基础的音频转录流程。

目录

  1. 基于 OpenAI Whisper 的音频转录实战指南
  2. 环境准备
  3. 安装 Whisper
  4. 转录脚本实现
  5. 脚本功能
  6. 代码示例
  7. 运行说明
  8. 常见问题
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • AI 写作辅助平台评测:炼字工坊与蛙蛙写作
  • 基于 SpringBoot 和 Vue 的社区疫情管理系统源码
  • 前端与服务器时间同步方法及 Vue3 实现示例
  • 25 个实用提示词:有效降低 AI 生成内容的检测率
  • Java 并发常见问题总结
  • Open-WebUI 管理员面板深度拆解与配置指南
  • LlamaIndex 为 LLM 添加个性化数据指南
  • Linux 网络编程实战:基于 C++ 实现 JSON+HTTP Web 计算器服务器
  • 生成式人工智能发展历程、现状与伦理挑战
  • 探索WAAPI:开启Web动画新纪元
  • Spring AI MCP Server 集成与源码解析
  • Llama-Factory 是否支持 FlashAttention 加速
  • Java 基本数据类型、数组与方法详解
  • 基于 STM32 的智能家居环境监测与控制系统
  • 开源工具 Tianji:网站统计与在线监控一体化方案
  • Python 数学可视化:显函数、隐函数及复杂曲线交互绘图
  • Mac mini M4 部署 OpenClaw + Ollama 本地大模型接入飞书机器人
  • Z-Image-Turbo 与 Midjourney 本地部署和云端服务对比
  • JDK 国内常用下载镜像站汇总
  • Java Set 家族详解:HashSet、LinkedHashSet 与 TreeSet 核心差异及选型

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online