简介
CosyVoice 是通义实验室开源的自然语音合成大模型,具备多语言、多音色和细腻的情感控制能力。系统支持中文、英文、日文、粤语和韩语五种语言的语音生成,效果远超传统模型。只需 3 到 10 秒的原始音频样本,即可复刻出相似的音色,包括语调和情感等细节,实现跨语种的语音合成。
环境准备
- 硬件要求:建议配备 NVIDIA GPU 以加速推理过程。
- 软件依赖:确保已安装 Git 及 Git LFS 插件,Python 版本推荐 3.8。
- 网络环境:下载模型文件较大,需保持网络稳定。
项目部署
1. 克隆项目仓库
首先克隆官方项目代码:
git clone https://github.com/FunAudioLLM/CosyVoice.git
cd CosyVoice
2. 创建虚拟环境
使用 Conda 创建独立的 Python 环境:
conda create -n cosyvoice python=3.8
conda activate cosyvoice
3. 安装依赖包
激活环境后,安装项目所需的第三方包:
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
注意:PyTorch 安装可能需要较长时间,请耐心等待。
4. 安装额外组件
根据文档要求,需提前安装 pynini 库:
conda install -y -c conda-forge pynini==2.1.5
模型下载
使用 Git LFS 下载预训练模型文件,请确保已安装 git lfs 插件:
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd
模型文件体积较大,下载完成后即可使用。
启动服务
运行 WebUI 脚本启动服务:
python3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M
若需局域网访问,需修改 webui.py 中的 launch 参数,将 server_name 设置为 0.0.0.0:
demo.launch(server_port=args.port, server_name="0.0.0.0")


