使用 Whisper 转写语音的完整教学

Whisper 安装

在常见的 Python 环境中,只需要一条指令即可安装开源版 Whisper:

pip install -U openai-whisper 

如果系统没有 FFmpeg,需要自行安装,否则 Whisper 可能无法处理常见的 .mp3.wav.m4a 文件。

Whisper 的原始仓库中包含模型介绍、支持语言列表与部分示例代码:

Whisper GitHub
https://github.com/openai/whisper


基础转写示例(本地运行)

完成安装后,可以直接在命令行输入下列语句进行一次完整的语音转写:

whisper demo_audio.mp3 \ --model medium \ --language zh \ --task transcribe \ --output_format srt 

执行后,Whisper 会自动解析音频并生成带时间轴的 .srt 文件。这种格式在视频剪辑、字幕生成和内容校对中都非常常用。

为了处理多段录音,可以将音频放入一个文件夹,并使用极简脚本进行批量转写:

#!/usr/bin/env bashset -e AUDIO_PATH="audio_inputs"MODEL="medium"forfin"$AUDIO_PATH"/*.mp3;do whisper "$f" --model "$MODEL" --language zh --task transcribe --output_format srt done

此类脚本可根据需要加入日志、时间标记、自动整理文件等功能。


使用 Whisper 生态工具

随着开源社区不断扩展,已经出现多个针对 Whisper 的加速库、图形工具与 Web UI,其中包含更快的 C++ 推理、更轻量的模型格式等。整理这些扩展的一个社区列表如下:

Whisper 工具生态列表(awesome-whisper)
https://github.com/sindresorhus/awesome-whisper

这类工具通常适合需要更高转写速度、希望图形化操作、或需要部署 Web 服务的场景。


使用 API 方式转写(无需本地模型)

若不希望在本地安装模型,也可以直接通过在线 API 上传音频并获得文本结果。这适合轻量任务、跨平台使用或没有 GPU 的环境。

官方音频处理接口说明文档如下:

OpenAI Audio / Whisper API 文档
https://platform.openai.com/docs/guides/audio

使用 curl 的最小示例结构如下(接口名称可能因版本更新而略有调整,以官方文档为准):

curl https://api.openai.com/v1/audio/transcriptions \ -H "Authorization: Bearer $OPENAI_API_KEY"\ -H "Content-Type: multipart/form-data"\ -F "file=@demo_audio.mp3"\ -F "model=whisper-1"\ -F "response_format=text"

Python 示例也很简单:

import requests url ="https://api.openai.com/v1/audio/transcriptions" headers ={"Authorization":f"Bearer {API_KEY}"}withopen("demo_audio.mp3","rb")as f: files ={"file":("demo_audio.mp3", f,"audio/mpeg")} data ={"model":"whisper-1","response_format":"text"} resp = requests.post(url, headers=headers, data=data, files=files) text = resp.text print(text)

在教学或企业流程中,这种方式通常更容易整合进自动化平台。


输出结果的后处理方式

Whisper 输出的文本有时会包含口语化表达、停顿语气词或背景对话。一般在实际使用中,会进行以下简易处理:

  • 统一标点
  • 校对人名、地名与专业术语
  • 调整字幕显示的时长与行数
  • 按段落拆分用于写文章或整理会议纪要

这种加工方式不依赖任何复杂算法,通常用基础脚本即可完成。例如从 .srt 中抽取长句作为大纲:

from pathlib import Path blocks = Path("demo_audio.srt").read_text(encoding="utf-8").split("\n\n") outline =[]for block in blocks: lines = block.split("\n")iflen(lines)>=3: text =" ".join(lines[2:])iflen(text)>40: outline.append(text)for o in outline:print("-", o)

这些简单方法足以满足日常的课堂记录、播客稿件梳理、内部会议文件生成等场景。

Read more

字节开源 DeerFlow 2.0——登顶 GitHub Trending 1,让 AI 可做任何事情

字节开源 DeerFlow 2.0——登顶 GitHub Trending 1,让 AI 可做任何事情

打开 deerflow 的官网,瞬间被首页的这段文字震撼到了,do anything with deerflow。让 agent 做任何事情,这让我同时想到了 openclaw 刚上线时场景。 字节跳动将 DeerFlow 彻底重写,发布 2.0 版本,并在发布当天登上 GitHub Trending 第一名。这不是一次功能迭代,而是一次从"深度研究框架"到"Super Agent 运行时基础设施"的彻底蜕变。 背景:从 v1 到 v2,发生了什么? DeerFlow(Deep Exploration and Efficient Research Flow)

Flutter 组件 tavily_dart 的适配 鸿蒙Harmony 深度进阶 - 驾驭 AI 原生聚合搜索、实现鸿蒙端跨域知识发现与垂直领域语义降噪方案

Flutter 组件 tavily_dart 的适配 鸿蒙Harmony 深度进阶 - 驾驭 AI 原生聚合搜索、实现鸿蒙端跨域知识发现与垂直领域语义降噪方案

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 组件 tavily_dart 的适配 鸿蒙Harmony 深度进阶 - 驾驭 AI 原生聚合搜索、实现鸿蒙端跨域知识发现与垂直领域语义降噪方案 前言 在前文中,我们领略了 tavily_dart 在鸿蒙(OpenHarmony)生态中实现基础互联网 AI 搜索集成的魅力。但在真正的“跨国科研智能辅助”、“政务决策舆情态势感知”以及“需要接入高精密专业数据库”的场景中。简单的单次查询往往不足以触达知识的核心。面对需要在大规模并发环境下,针对特定行业域名(如 .gov / .edu)执行深层内容的并行嗅探,并且要求对回显的数万字内容执行基于 AI 强语义的重排序(Re-ranking)与引用链路审计的高阶需求。如果缺乏一套完善的聚合搜索策略与语义降噪模型。不仅会导致 AI 智能体出现由于“信息泛滥”

AI + 鸿蒙游戏,会不会是下一个爆点?

AI + 鸿蒙游戏,会不会是下一个爆点?

子玥酱(掘金 / 知乎 / ZEEKLOG / 简书 同名) 大家好,我是子玥酱,一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚焦于业务型系统的工程化建设与长期维护。 我持续输出和沉淀前端领域的实战经验,日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案, 在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。 技术方向:前端 / 跨端 / 小程序 / 移动端工程化 内容平台:掘金、知乎、ZEEKLOG、简书 创作特点:实战导向、源码拆解、少空谈多落地 文章状态:长期稳定更新,大量原创输出 我的内容主要围绕 前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读 展开。文章不会停留在“API 怎么用”,而是更关注为什么这么设计、在什么场景下容易踩坑、

AI 的智能体专栏:手把手教你用豆包打造专属 Python 智能管家,轻松解决编程难题

AI 的智能体专栏:手把手教你用豆包打造专属 Python 智能管家,轻松解决编程难题

AI 的智能体专栏:手把手教你用豆包打造专属 Python 智能管家,轻松解决编程难题 AI 的智能体专栏:手把手教你用豆包打造专属 Python 智能管家,轻松解决编程难题,本文介绍了如何利用豆包平台打造专属Python智能管家。首先简述豆包平台的核心优势,接着说明创建前的准备工作,包括注册账号、明确定位和收集训练资料。随后详细讲解创建流程,从新建智能体、基础设置、能力配置到测试优化,还提及集成代码执行环境等高级功能扩展,以及使用技巧与实际应用案例。该智能官能解决多种Python编程问题,可提升学习效率和问题解决速度,是实用的个性化编程助手。 前言     人工智能学习合集专栏是 AI 学习者的实用工具。它像一个全面的 AI 知识库,把提示词设计、AI 创作、智能绘图等多个细分领域的知识整合起来。无论你是刚接触 AI 的新手,还是有一定基础想提升的人,都能在这里找到合适的内容。从最基础的工具操作方法,到背后深层的技术原理,专栏都有讲解,还搭配了实例教程和实战案例。这些内容能帮助学习者一步步搭建完整的 AI 知识体系,让大家快速从入门进步到精通,