Whisper-WebUI 语音转文字工具使用指南 | 极客日志

PythonAI算法

Whisper-WebUI 语音转文字工具使用指南

Whisper-WebUI 是一款基于 Gradio 和 Whisper 技术的语音转文字工具。支持本地文件、YouTube 链接及麦克风录音输入。提供 SRT、WebVTT 等格式输出，内置语音活动检测、背景音乐分离及说话人识别功能。支持 OpenAI Whisper、faster-whisper 等多种引擎，可平衡速度与精度。安装方式包括 Docker 一键部署或本地脚本运行。适用于视频创作者、播客制作人及需要批量处理音频的用户。

二进制发布于 2026/4/5更新于 2026/5/2326 浏览

Whisper-WebUI 语音转文字工具使用指南

Whisper-WebUI 是一款基于 Gradio 构建的智能工具，集成了先进的语音识别技术。支持本地文件、YouTube 链接及麦克风录音输入，适用于视频创作者、播客制作人等需要高效字幕生成的用户。

核心优势

多源输入：支持本地文件、YouTube 链接、麦克风录音
格式丰富：SRT、WebVTT、纯文本格式可选
智能处理：内置语音活动检测、背景音乐分离、说话人识别
翻译支持：语音直接翻译或字幕多语言互译

快速安装

方法一：Docker 部署

适合所有操作系统用户，无需配置复杂环境：

git clone <repository_url>
cd Whisper-WebUI
docker compose build && docker compose up

完成后，在浏览器访问 http://localhost:7860 即可使用。

方法二：本地脚本安装

Windows 用户：

双击运行 Install.bat
安装完成后双击 start-webui.bat

macOS/Linux 用户：

终端执行：chmod +x Install.sh && ./Install.sh
启动程序：./start-webui.sh

注意事项

Python 版本：确保使用 3.10-3.12 版本
FFmpeg 配置：提前安装 FFmpeg 并添加到系统 PATH
模型下载：首次使用会自动下载所需模型，耐心等待即可

核心功能解析

三大引擎性能对比

引擎类型	处理速度	显存占用	推荐场景
OpenAI Whisper	标准	较高	追求最高精度
faster-whisper	极快	中等	日常使用首选
insanely-fast-whisper	超快	较低	批量处理或低配设备

音频预处理流水线

项目采用模块化设计，处理流程清晰高效：

语音活动检测：modules/vad/silero_vad.py 自动识别有效语音段
背景音乐分离：modules/uvr/music_separator.py 提升识别准确率
说话人分离：modules/diarize/diarizer.py 区分不同说话人
语音识别：modules/whisper/ 目录下的多种引擎实现

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

./start-webui.sh --whisper_type faster-whisper --device cpu

Whisper-WebUI 语音转文字工具使用指南

Whisper-WebUI 语音转文字工具使用指南

核心优势

快速安装

方法一：Docker 部署

方法二：本地脚本安装

注意事项

核心功能解析

三大引擎性能对比

音频预处理流水线

更多推荐文章

相关免费在线工具

实战操作：制作字幕

第一步：选择输入源

第二步：配置识别参数

第三步：获取结果

进阶玩法

个性化配置

批量处理技巧

输出文件管理

常见问题解决

性能优化建议

更多推荐文章

相关免费在线工具

Whisper-WebUI 语音转文字工具使用指南

Whisper-WebUI 语音转文字工具使用指南

核心优势

快速安装

方法一：Docker 部署

方法二：本地脚本安装

注意事项

核心功能解析

三大引擎性能对比

音频预处理流水线

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

实战操作：制作字幕

第一步：选择输入源

第二步：配置识别参数

第三步：获取结果

进阶玩法

个性化配置

批量处理技巧

输出文件管理

常见问题解决

性能优化建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具