Retrieval-based-Voice-Conversion-WebUI 跨平台语音转换框架使用指南
Retrieval-based-Voice-Conversion-WebUI 是一个基于 VITS 的先进语音转换框架,支持 NVIDIA、AMD、Intel 全平台显卡加速,只需 10 分钟语音数据即可训练出高质量的变声模型。
核心特色功能
这个语音转换框架具有以下突出特点:
- 顶级音质保护:使用 top1 检索技术防止音色泄漏
- 极速训练能力:即使在入门级显卡上也能快速完成训练
- 少量数据需求:10 分钟语音即可获得优秀效果
- 模型融合功能:通过 ckpt-merge 功能灵活调整音色
- 多语言界面支持:完整的中文、英文、日文等多语言界面
全平台兼容配置
环境要求
- Python 3.8+ 环境
- 支持 NVIDIA CUDA、AMD ROCm、Intel IPEX
- 推荐 4GB 以上显存
安装步骤
NVIDIA 显卡用户:
pip install torch torchvision torchaudio
pip install -r requirements.txt
AMD 显卡用户:
pip install -r requirements-dml.txt
Intel 显卡用户:
pip install -r requirements-ipex.txt
source /opt/intel/oneapi/setvars.sh
项目结构详解
Retrieval-based-Voice-Conversion-WebUI 采用模块化设计:
- infer/ - 核心推理模块,包含语音转换的主要算法
- assets/ - 预训练模型资源,存放各种预训练权重文件
- configs/ - 配置文件目录,包含不同版本的模型配置
- tools/ - 实用工具脚本,提供各种辅助功能
- i18n/ - 多语言支持文件,实现国际化界面
快速开始使用
启动 Web 界面
python infer-web.py
系统将自动打开浏览器界面,包含以下主要功能模块:
- 训练选项卡 - 模型训练和数据处理
- 模型推理 - 实时语音转换
- 语音分离 - UVR5 人声伴奏分离
- ckpt 处理 - 模型管理和融合
训练你的第一个模型
- 准备数据:收集 10-50 分钟纯净语音,确保音频质量
- 数据预处理:自动切片和特征提取,准备训练数据
- 开始训练:设置合适的 epoch 数,推荐 20-200

