Whisper-WebUI 语音转文字工具部署与使用教程
功能特点
Whisper-WebUI 是一款基于 OpenAI Whisper 模型的现代化语音转文字工具,通过直观的网页界面实现专业级的字幕生成任务。
零技术门槛
无需编程经验,网页界面操作。
多格式支持
MP3、WAV、FLAC、YouTube 链接等。
智能语言识别
自动检测近百种语言。
完整功能生态
字幕生成、背景音乐分离、说话人识别一体化。
快速部署指南
环境准备
开始之前,请确保你的系统已安装以下软件:
- Git 版本控制工具
- Python 3.10-3.12 版本
- FFmpeg 多媒体处理框架
一键安装步骤
Windows 用户:双击运行 Install.bat 文件,系统会自动创建虚拟环境并安装所有依赖。
Linux/Mac 用户:
bash
chmod +x Install.sh ./Install.sh
安装过程会自动下载必要的 AI 模型文件,请确保:
- 至少 10GB 可用磁盘空间
- 稳定的网络连接
启动服务
安装完成后,运行启动脚本:
- Windows:双击
start-webui.bat - Linux/Mac:执行
./start-webui.sh
访问 http://localhost:7860 即可开始使用语音转文字功能!
核心功能详解
智能语音转录
Whisper-WebUI 的核心功能是将音频内容转换为文字字幕。支持多种输入源:
- 本地文件:上传音频或视频文件
- YouTube 视频:直接输入视频链接
- 麦克风录音:实时录制并转录
转录过程完全自动化:
- 上传文件或输入链接
- 选择输出字幕格式(SRT、VTT、TXT)
- 点击开始转录按钮
- 下载生成的字幕文件
背景音乐分离
通过 UVR 技术,系统能够智能分离人声和背景音乐。这对于音乐制作、音频后期处理特别有用:
- 提取纯净人声用于转录
- 分离背景音乐用于其他用途
- 提升嘈杂环境下的转录准确率
说话人识别
会议记录、访谈整理不再困难!说话人识别功能能够自动区分不同发言人的声音,为每个说话人生成独立的字幕轨道。
多语言翻译
生成的字幕文件支持一键翻译:
- 使用 NLLB 模型进行自动翻译
- 集成 DeepL API 提供专业翻译服务
- 支持多种语言互译

