Whisper-WebUI 语音转文字工具使用指南
Whisper-WebUI 是一个基于 OpenAI Whisper 模型的免费语音转文字工具,它将复杂的模型推理封装成了友好的 Web 界面。无论是处理会议录音还是播客内容,它都能提供一套完整的解决方案。
核心功能概览
这个工具不仅仅是简单的识别,还包含了一些实用的音频处理能力:
- 语音转文字:支持多种常见音频格式输入
- 多语言识别:能够自动检测并识别不同语言
- 背景音乐分离:智能分离人声和背景音乐(UVR)
- 实时翻译:支持多语言之间的翻译功能
- Web 界面操作:无需编写代码,通过浏览器即可使用
环境搭建与部署
获取项目代码
首先将项目克隆到本地。注意,克隆后需要进入目录:
git clone https://github.com/jianfch/stable-ts.git
cd stable-ts
注:实际项目中请根据官方仓库地址调整克隆命令,上述为示例结构
配置 Python 环境
建议使用 Python 3.10 或 3.11 版本。虽然新版 Python 功能更强,但 3.12 版本在某些依赖库上可能存在兼容性问题,锁定版本能减少后续排查麻烦。
安装依赖包
准备好环境后,运行以下命令安装所需依赖:
pip install -r requirements.txt
启动 Web 界面
根据你的操作系统选择对应的启动脚本:
Windows 用户:
start-webui.bat
Linux/Mac 用户:
./start-webui.sh
启动成功后,在浏览器访问提示的地址即可开始使用。
常见问题排查
在实际使用中,可能会遇到一些典型问题,这里分享几个解决思路:
Python 进程意外终止 如果遇到崩溃,通常是因为内存不足或依赖冲突。建议尝试使用虚拟环境隔离依赖,或者降低 Python 版本到 3.10,同时确保系统有足够的内存资源。
模型下载失败 首次运行时会自动下载语音识别模型,如果卡住或失败:
- 检查网络连接是否稳定
- 确认磁盘空间充足(模型文件较大)
- 也可以手动下载模型文件放到
models/Whisper/目录下
GPU 加速不工作 对于 Mac 用户,特别是 M1/M2 芯片:
- 确保使用的是最新版本的代码
- 检查 PyTorch 是否已正确编译支持 Apple Silicon
- 如果遇到问题,可以暂时切换回 CPU 模式运行,稳定性更高
使用技巧与优化
音频文件准备
为了获得更好的识别效果,建议预处理音频文件:
- 优先使用 MP3、WAV、M4A 等常见格式
- 尽量保证音频清晰,减少背景噪音干扰
- 长音频建议分段处理,能提高整体准确性
输出格式选择
Whisper-WebUI 支持多种导出方式,满足不同场景需求:

