Whisper-WebUI 本地部署与语音转写实战指南
Whisper-WebUI 是一个基于 OpenAI Whisper 模型的现代化语音转文字工具,通过直观的网页界面降低了使用门槛。它支持多种音频输入源,能够完成从转录到字幕生成的全流程,非常适合需要离线处理或注重隐私的场景。
环境准备
在开始之前,请确保你的系统已安装以下基础软件:
- Git 版本控制工具
- Python 3.10 至 3.12 版本
- FFmpeg 多媒体处理框架
这些依赖是运行 WebUI 后端及处理音视频文件的基础。如果缺少 FFmpeg,部分格式转换功能将无法正常工作。
快速部署步骤
项目提供了针对不同操作系统的自动化安装脚本,无需手动配置虚拟环境。
Windows 用户
直接双击运行 Install.bat 文件,脚本会自动创建虚拟环境并拉取所有依赖包。
Linux / Mac 用户 在终端中执行以下命令赋予权限并运行脚本:
chmod +x Install.sh
./Install.sh
安装过程中会自动下载必要的 AI 模型文件,请确保磁盘至少有 10GB 可用空间并保持网络连接稳定。
启动与服务访问
安装完成后,根据操作系统运行对应的启动脚本:
- Windows:双击
start-webui.bat - Linux / Mac:执行
./start-webui.sh
服务启动后,浏览器访问 http://localhost:7860 即可进入操作界面。
核心功能解析
智能语音转录
这是最基础也是最核心的功能。支持三种主要输入方式:
- 本地文件:上传 MP3、WAV、FLAC、M4A 等格式的音频或视频文件。
- YouTube 链接:直接粘贴视频 URL,系统自动提取音轨。
- 麦克风录音:实时录制并进行流式转录。
输出时可选择 SRT、VTT 或 TXT 格式,方便后续导入剪辑软件或文本编辑器。
高级音频处理
除了基础的转录,该工具还集成了 UVR(Ultimate Vocal Remover)技术,用于处理复杂的音频场景:
- 背景音乐分离:将人声与伴奏分离,提升嘈杂环境下的识别准确率。
- 说话人识别:在会议记录或访谈场景中,自动区分不同发言人的声音,生成带标签的字幕轨道。
多语言翻译
生成的字幕支持一键翻译,内置 NLLB 模型提供基础互译,也可集成 DeepL API 获取更专业的翻译结果。
性能优化建议
为了获得最佳体验,建议关注以下几点:
- 硬件加速:如果有 NVIDIA GPU,务必启用 CUDA 加速,转录速度会有数量级的提升。
- 模型选择:默认使用
faster-whisper平衡速度与精度;若追求极致速度可选insanely-fast-whisper;兼容性要求高则选原始openai/whisper。 - 存储介质:建议使用 SSD 硬盘存放模型文件,减少加载等待时间。
- 长音频处理:对于超过 1 小时的音频,建议分段处理以避免内存溢出。

