Whisper-WebUI 语音转文字工具使用指南
Whisper-WebUI 是一款基于 Gradio 构建的智能工具,集成了先进的语音识别技术。支持本地文件、YouTube 链接及麦克风录音输入,适用于视频创作者、播客制作人等需要高效字幕生成的用户。
核心优势
- 多源输入:支持本地文件、YouTube 链接、麦克风录音
- 格式丰富:SRT、WebVTT、纯文本格式可选
- 智能处理:内置语音活动检测、背景音乐分离、说话人识别
- 翻译支持:语音直接翻译或字幕多语言互译
快速安装
方法一:Docker 部署
适合所有操作系统用户,无需配置复杂环境:
git clone <repository_url>
cd Whisper-WebUI
docker compose build && docker compose up
完成后,在浏览器访问 http://localhost:7860 即可使用。
方法二:本地脚本安装
Windows 用户:
- 双击运行 Install.bat
- 安装完成后双击 start-webui.bat
macOS/Linux 用户:
- 终端执行:chmod +x Install.sh && ./Install.sh
- 启动程序:./start-webui.sh
注意事项
- Python 版本:确保使用 3.10-3.12 版本
- FFmpeg 配置:提前安装 FFmpeg 并添加到系统 PATH
- 模型下载:首次使用会自动下载所需模型,耐心等待即可
核心功能解析
三大引擎性能对比
| 引擎类型 | 处理速度 | 显存占用 | 推荐场景 |
|---|---|---|---|
| OpenAI Whisper | 标准 | 较高 | 追求最高精度 |
| faster-whisper | 极快 | 中等 | 日常使用首选 |
| insanely-fast-whisper | 超快 | 较低 | 批量处理或低配设备 |
音频预处理流水线
项目采用模块化设计,处理流程清晰高效:
- 语音活动检测:modules/vad/silero_vad.py 自动识别有效语音段
- 背景音乐分离:modules/uvr/music_separator.py 提升识别准确率
- 说话人分离:modules/diarize/diarizer.py 区分不同说话人
- 语音识别:modules/whisper/ 目录下的多种引擎实现

