Whisper-WebUI 本地部署与核心功能详解

Whisper-WebUI 将 OpenAI Whisper 模型封装为直观的 Web 界面，无需复杂的命令行操作即可实现专业级的音频转文字处理。它支持说话人分离、多语言翻译及字幕生成，适合内容创作者和研究人员快速上手。

环境搭建与启动

获取项目代码

克隆仓库后进入目录：

git clone https://gitcode.com/gh_mirrors/wh/Whisper-WebUI
cd Whisper-WebUI

安装依赖

根据操作系统选择对应的安装脚本：

Windows 用户 直接双击运行 Install.bat，脚本会自动配置 Python 环境。

Linux / macOS 用户 赋予执行权限并运行脚本：

chmod +x Install.sh
./Install.sh

启动服务

安装完成后，在终端执行以下命令启动应用：

python app.py

浏览器访问 http://localhost:7860 即可进入操作界面。首次运行时系统会下载 AI 模型文件，请确保磁盘空间充足（建议预留 10GB）且网络稳定。

核心功能特性

语音识别引擎

转录模块位于 modules/whisper/ 目录下，集成了多种优化版本以适应不同场景：

faster_whisper_inference.py：加速版推理
insanely_fast_whisper_inference.py：极速版推理
whisper_factory.py：统一模型工厂

支持的输入格式包括 MP3、WAV、FLAC 等音频文件，以及自动提取音频的视频文件。部分版本还支持直接解析 YouTube 链接。

人声与背景分离

通过 modules/uvr/music_separator.py 模块，可以实现人声与伴奏的分离。这对于播客剪辑或音乐制作非常有用，能单独保留人声轨道或去除背景音乐。

说话人识别

modules/diarize/diarizer.py 负责区分不同的发言者。在处理会议录音或访谈时，它能自动标记不同参与者的段落，极大简化了纪要整理工作。

典型应用场景

视频字幕制作

上传视频文件后，系统自动提取音轨并转录。生成的字幕文件支持 SRT、VTT 等标准格式，带有精确的时间轴，可直接用于视频编辑软件。

播客内容处理

上传播客音频，系统可完成以下自动化流程：

转写为完整文字稿
区分主持人与嘉宾
分离背景音乐与音效
输出结构化文本便于检索

会议记录整理

针对长会议录音，工具能自动区分发言人并生成带时间戳的纪要。若音频超过 30 分钟，建议分段上传以确保内存稳定，同时优先选用速度优化版本的模型。

性能调优建议

硬件资源决定了模型的选择策略：

高性能设备：推荐加载大参数模型以获得最佳识别准确率。
：选择中小规模模型，平衡速度与精度。

Whisper-WebUI 本地部署与核心功能详解