Sambert-Hifigan 部署教程：WebUI 与 API 双模式

项目背景与技术价值

在语音合成（TTS）领域，高质量、自然流畅的中文语音生成一直是智能客服、有声阅读、虚拟主播等场景的核心需求。传统的 TTS 系统往往存在音质粗糙、语调生硬、情感单一等问题。而近年来基于深度学习的端到端模型显著提升了语音合成的表现力。

ModelScope 推出的 Sambert-HifiGan 中文多情感语音合成模型，正是这一趋势下的代表性成果。该模型结合了 SAMBERT 的强大学习能力和 HiFi-GAN 的高保真声码器优势，能够生成接近真人发音、富有情感变化的中文语音。

然而，尽管模型性能出色，其本地部署常面临依赖冲突、环境配置复杂、接口缺失等问题。本文介绍的部署方案，基于官方模型进行工程化封装，集成 Flask 构建 WebUI 与 HTTP API 双服务模式，并已解决关键依赖版本冲突（如 datasets、numpy、scipy），实现一键启动、开箱即用的极致体验。

技术架构概览

本项目采用轻量级全栈架构，专为 CPU 推理优化设计，整体结构清晰：

用户层：浏览器 WebUI（输入文本，合成语音播放/下载）、HTTP API 客户端（POST 请求，返回 WAV 音频流）
服务层 (Flask)：根路径渲染前端页面、/tts 接收文本调用 TTS 引擎、/api/synthesize 提供标准 RESTful API
模型层：ModelScope SAMBERT（文本编码 + 声学特征预测）、HiFi-GAN Vocoder（梅尔谱图到高质量波形还原）

架构亮点总结：

前后端分离设计：HTML/CSS/JS 实现现代化交互界面

双入口服务支持：既可通过浏览器操作，也可通过程序调用 API

依赖隔离稳定运行：锁定兼容版本，避免常见报错 AttributeError, ImportError

资源占用低：适合部署于边缘设备或低配服务器

环境准备与镜像启动

前置条件

操作系统：Linux / macOS / Windows（推荐使用 Docker）
Python ≥ 3.8（若非容器化部署）
内存建议 ≥ 8GB（模型加载需约 5~6GB 显存/CPU 内存）
存储空间 ≥ 10GB（含缓存和临时文件）

⚠️ 注意：原始 ModelScope 库对某些包版本敏感，本文所用镜像已修复以下关键依赖问题：

包名修复版本说明
datasets 2.13.0 兼容旧版 huggingface 数据集加载机制
numpy 1.23.5 避免与 PyTorch 不兼容导致的 segfault
scipy <1.13 解决 HiFi-GAN 中 signal.resample 函数异常

包名	修复版本	说明
`datasets`	2.13.0	兼容旧版 huggingface 数据集加载机制
`numpy`	1.23.5	避免与 PyTorch 不兼容导致的 segfault
`scipy`	<1.13	解决 HiFi-GAN 中 signal.resample 函数异常

启动方式一：Docker 镜像（推荐）

# 拉取预构建镜像（假设已发布至私有仓库）
docker pull your-registry/sambert-hifigan:latest
# 启动服务，映射端口 8080
docker run -p 8080:8080 --gpus all --rm sambert-hifigan

✅ 优点：环境纯净、无需手动安装依赖、跨平台一致性高

启动方式二：源码部署（高级用户）

# 克隆项目
git clone https://github.com/your-repo/sambert-hifigan-deploy.git
cd sambert-hifigan-deploy
# 创建虚拟环境
python -m venv venv
source venv/bin/activate # Linux/macOS
# venv\Scripts\activate # Windows
# 安装指定依赖
pip install -r requirements.txt
# 启动 Flask 服务
python app.py

服务默认监听 http://localhost:8080

WebUI 使用详解

访问界面

启动成功后，在浏览器中打开：

http://<your-server-ip>:8080

您将看到如下界面：图 1：WebUI 界面示意图

🔍 界面功能模块说明：

文本输入框：支持中文长文本输入（建议不超过 500 字）

情感选择下拉菜单：可选开心、悲伤、愤怒、平静等多种情感风格

语速调节滑块：控制合成语音速度（0.8x ~ 1.5x）

开始合成语音按钮：触发 TTS 流程

音频播放器：实时播放合成结果，并提供 .wav 下载功能

操作步骤演示

在文本框中输入：今天天气真好，阳光明媚，适合出去散步。
从下拉菜单选择情感：开心
调整语速为 1.2x
点击 开始合成语音
等待约 3~8 秒（取决于文本长度和硬件性能），页面自动播放生成的语音
点击下载按钮保存为本地 .wav 文件

💡 小技巧：支持换行符分段处理，每段独立应用情感参数，可用于制作对话式语音内容。

API 接口调用指南

除了图形化界面，本系统还暴露了标准的 HTTP RESTful API，便于集成到其他系统中。

API 端点信息

方法	路径	功能
GET	`/`	返回 WebUI 首页
POST	`/api/synthesize`	执行语音合成，返回音频流

请求参数（JSON 格式）

{
 "text": "欢迎使用 Sambert-Hifigan 语音合成服务",
 "emotion": "happy",
 "speed": 1.1
}

字段	类型	可选值	默认值	说明
`text`	string	-	必填	待合成的中文文本
`emotion`	string	happy, sad, angry, calm, neutral	neutral	情感风格
`speed`	float	0.8 ~ 1.5	1.0	语速倍率

响应格式

成功时返回 audio/wav 二进制流
失败时返回 JSON 错误信息，状态码 400

Python 调用示例

import requests
import json

# API 地址（根据实际部署修改 IP 和端口）
url = "http://localhost:8080/api/synthesize"

# 请求数据
payload = {
    "text": "这是通过 API 调用生成的语音示例。",
    "emotion": "calm",
    "speed": 1.0
}
headers = {"Content-Type": "application/json"}

try:
    response = requests.post(url, data=json.dumps(payload), headers=headers, timeout=30)
    if response.status_code == 200 and response.headers['content-type'] == 'audio/wav':
        # 保存音频文件
        with open("output.wav", "wb") as f:
            f.write(response.content)
        print("✅ 语音合成成功，已保存为 output.wav")
    else:
        print(f"❌ 请求失败：{response.json()}")
except Exception as e:
    print(f"⚠️ 调用异常：{str(e)}")

✅ 输出结果：当前目录生成 output.wav 文件，可用播放器打开验证。

JavaScript 调用示例（前端集成）

async function synthesizeSpeech() {
    const data = {
        text: "你好，这是 JavaScript 调用的语音合成。",
        emotion: "happy",
        speed: 1.1
    };
    try {
        const response = await fetch('http://localhost:8080/api/synthesize', {
            method: 'POST',
            headers: {
                'Content-Type': 'application/json'
            },
            body: JSON.stringify(data)
        });
        if (response.ok) {
            const blob = await response.blob();
            const audioUrl = URL.createObjectURL(blob);
            const audio = new Audio(audioUrl);
            audio.play(); // 直接播放
        } else {
            const error = await response.json();
            console.error('合成失败:', error);
        }
    } catch (err) {
        console.error('请求出错:', err);
    }
}
// 触发合成
synthesizeSpeech();

🌐 应用场景：可嵌入网页聊天机器人、在线教育平台、AI 助手等前端应用。

核心代码解析

以下是 Flask 后端的关键实现逻辑，位于 app.py 文件中。

from flask import Flask, request, jsonify, send_file, render_template
import torch
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
import numpy as np
import io
import logging

app = Flask(__name__)
logging.basicConfig(level=logging.INFO)

# 初始化 TTS 管道（延迟加载，首次请求时初始化）
tts_pipeline = None

def get_tts_pipeline():
    global tts_pipeline
    if tts_pipeline is None:
        try:
            tts_pipeline = pipeline(
                task=Tasks.text_to_speech,
                model='damo/speech_sambert-hifigan_nanshan_tts_chinese_multispeakers'
            )
            logging.info("✅ TTS 模型加载成功")
        except Exception as e:
            logging.error(f"❌ 模型加载失败：{e}")
            raise
    return tts_pipeline

@app.route('/')
def index():
    return render_template('index.html')

@app.route('/api/synthesize', methods=['POST'])
def api_synthesize():
    data = request.get_json()
    text = data.get('text')
    emotion = data.get('emotion', 'neutral')
    speed = float(data.get('speed', 1.0))

    if not text:
        return jsonify({"error": "缺少文本参数"}), 400

    try:
        # 调用 Sambert-Hifigan 模型
        result = get_tts_pipeline()(
            text=text,
            voice="female", # 固定女声（模型支持多说话人）
            emotion=emotion,
            speed=speed
        )
        # 提取音频数据
        audio_data = result["waveform"]
        sample_rate = result["sample_rate"] # 通常为 24000Hz
        
        # 归一化为 16-bit PCM
        audio_int16 = (audio_data * 32767).astype(np.int16)
        
        # 转为 BytesIO 对象
        byte_io = io.BytesIO()
        import scipy.io.wavfile as wavfile
        wavfile.write(byte_io, rate=sample_rate, data=audio_int16)
        byte_io.seek(0)
        
        return send_file(
            byte_io,
            mimetype='audio/wav',
            as_attachment=True,
            download_name='speech.wav'
        )
    except Exception as e:
        logging.error(f"合成异常：{e}")
        return jsonify({"error": str(e)}), 500

🔍 代码要点说明：

懒加载机制：模型在第一次请求时才加载，避免启动卡顿

异常捕获全面：确保 API 不会因内部错误崩溃

音频格式标准化：输出标准 WAV 文件，兼容绝大多数播放器

日志记录：便于排查生产环境问题

常见问题与解决方案（FAQ）

问题现象	可能原因	解决方法
页面无法访问	端口未开放或服务未启动	检查 Docker 是否正常运行，确认端口映射 `-p 8080:8080`
报错 `ModuleNotFoundError: No module named 'datasets'`	依赖未正确安装	使用提供的 `requirements.txt` 安装，禁止升级 numpy/scipy
合成语音断续或杂音大	音频后处理异常	检查 `scipy` 版本是否低于 1.13，过高会导致 resample 失真
API 返回 400 错误	JSON 格式错误或字段缺失	确保发送的是合法 JSON，`text` 字段必填
首次合成极慢（>30 秒）	模型冷启动加载	属正常现象，后续请求将大幅提速（缓存已加载）

💡 性能优化建议：若用于生产环境，建议增加 模型预热机制：服务启动后立即执行一次空合成，提前加载模型。对并发要求高的场景，可启用 Gunicorn + 多 Worker 模式，但注意 GPU 显存限制。添加 Redis 缓存层：对重复文本做结果缓存，减少计算开销。

总结与扩展建议

本文核心价值回顾

一站式部署方案：基于 ModelScope Sambert-Hifigan 模型，提供稳定、免配置的语音合成服务
双模式交互支持：同时满足人工试听（WebUI）与自动化调用（API）需求
工程级稳定性保障：彻底解决 datasets、numpy、scipy 等经典依赖冲突
完整代码参考：包含前后端实现细节，具备高度可复用性

下一步进阶方向

支持更多情感与音色：微调模型以支持儿童声线、方言合成等
添加语音克隆功能：结合 Voice Conversion 技术实现个性化声音定制
集成 ASR 形成闭环：打造语音识别→语义理解→语音回复完整对话系统
部署至云函数：利用 Serverless 架构实现按需计费、弹性伸缩

附录：完整依赖清单（requirements.txt）

Flask==2.3.3
torch==1.13.1
torchaudio==0.13.1
modelscope==1.11.0
datasets==2.13.0
numpy==1.23.5
scipy==1.12.0
soundfile==0.12.1
gunicorn==21.2.0

PythonAI算法

Sambert-Hifigan 部署教程：WebUI 与 API 双模式

Sambert-Hifigan 是基于 SAMBERT 和 HiFi-GAN 的中文多情感语音合成模型。介绍基于 ModelScope 模型的本地化部署方案，通过 Flask 构建 WebUI 与 HTTP API 双服务模式。涵盖环境准备、依赖冲突解决、界面操作、API 调用示例及核心代码解析，解决常见依赖版本问题，实现开箱即用。

人间过客发布于 2026/3/23更新于 2026/4/2628K 浏览