Whisper-WebUI 语音转文字工具使用指南

Whisper-WebUI 基于 OpenAI Whisper 模型提供 Web 界面语音识别服务。支持多语言自动检测、人声与背景音乐分离及实时翻译功能。安装需克隆仓库并配置 Python 3.10/3.11 环境，通过 pip 安装依赖后运行启动脚本。常见问题包括进程崩溃、模型下载失败及 GPU 加速兼容性，可通过虚拟环境隔离、检查网络或切换 CPU 模式解决。输出格式涵盖纯文本、SRT 及 VTT 字幕，适合会议记录与播客处理。

晚风叙旧发布于 2026/4/8更新于 2026/5/2211 浏览

Whisper-WebUI 语音转文字工具使用指南

Whisper-WebUI 是一个基于 OpenAI Whisper 模型的免费语音转文字工具，它将复杂的模型推理封装成了友好的 Web 界面。无论是处理会议录音还是播客内容，它都能提供一套完整的解决方案。

核心功能概览

这个工具不仅仅是简单的识别，还包含了一些实用的音频处理能力：

语音转文字：支持多种常见音频格式输入
多语言识别：能够自动检测并识别不同语言
背景音乐分离：智能分离人声和背景音乐（UVR）
实时翻译：支持多语言之间的翻译功能
Web 界面操作：无需编写代码，通过浏览器即可使用

环境搭建与部署

获取项目代码

首先将项目克隆到本地。注意，克隆后需要进入目录：

git clone https://github.com/jianfch/stable-ts.git
cd stable-ts

注：实际项目中请根据官方仓库地址调整克隆命令，上述为示例结构

配置 Python 环境

建议使用 Python 3.10 或 3.11 版本。虽然新版 Python 功能更强，但 3.12 版本在某些依赖库上可能存在兼容性问题，锁定版本能减少后续排查麻烦。

安装依赖包

准备好环境后，运行以下命令安装所需依赖：

pip install -r requirements.txt

启动 Web 界面

根据你的操作系统选择对应的启动脚本：

Windows 用户：

start-webui.bat

Linux/Mac 用户：

./start-webui.sh

启动成功后，在浏览器访问提示的地址即可开始使用。

常见问题排查

在实际使用中，可能会遇到一些典型问题，这里分享几个解决思路：

Python 进程意外终止 如果遇到崩溃，通常是因为内存不足或依赖冲突。建议尝试使用虚拟环境隔离依赖，或者降低 Python 版本到 3.10，同时确保系统有足够的内存资源。

模型下载失败 首次运行时会自动下载语音识别模型，如果卡住或失败：

检查网络连接是否稳定
确认磁盘空间充足（模型文件较大）
也可以手动下载模型文件放到 models/Whisper/ 目录下

GPU 加速不工作 对于 Mac 用户，特别是 M1/M2 芯片：

确保使用的是最新版本的代码
检查 PyTorch 是否已正确编译支持 Apple Silicon
如果遇到问题，可以暂时切换回 CPU 模式运行，稳定性更高

使用技巧与优化

音频文件准备

为了获得更好的识别效果，建议预处理音频文件：

优先使用 MP3、WAV、M4A 等常见格式
尽量保证音频清晰，减少背景噪音干扰
长音频建议分段处理，能提高整体准确性

输出格式选择

Whisper-WebUI 支持多种导出方式，满足不同场景需求：