基于 Meta MMS-TTS 与 Python 的本地藏文语音合成实现 | 极客日志

PythonAI算法

基于 Meta MMS-TTS 与 Python 的本地藏文语音合成实现

介绍如何在本地使用 Python 和 Meta 开源的 MMS-TTS 模型（facebook/mms-tts-khg）进行藏语康方言的语音合成。通过 Hugging Face Transformers 库加载模型，读取藏文文件，生成并保存为 WAV 音频文件。流程包括环境配置、依赖安装、代码实现及结果验证，支持离线运行，适用于学习、教学及语料标注场景。

PgDevote发布于 2026/3/29更新于 2026/7/2146 浏览

关键词：藏语、TTS、本地运行、MMS、VITS、Python

0. 这篇文章要解决什么问题？

这篇文章的目标是：

在本地，用 Python + 开源模型，把藏文文本文件合成一段藏语语音（wav 文件）。

读完后，你能做到这件事：

有一个 tibetan_text.txt，里面写着几行藏文；
运行一个 Python 脚本；
得到一个 tibetan_from_file.wav，可以直接播放，听到藏语朗读。

1. 方案概览：用什么？

我们选用的是 Meta 开源的 MMS-TTS 模型中的一个子模型：

模型名：facebook/mms-tts-khg
作用：针对 藏语康方言（Khams） 的文本转语音（TTS）模型
接口：已经集成进 Hugging Face 的 Transformers 库

你可以简单把它理解为一个'会说藏语康方言的 TTS 小盒子'：

输入：藏文文本（Unicode 藏文字）
输出：语音波形（可以保存为 wav 文件）

我们要做的事情就是：

把文本从文件中读出来；
交给这个模型；
把模型输出的语音保存为一个 .wav 文件。

2. 环境准备

2.1 创建虚拟环境（可选但推荐）

python -m venv venv
source venv/bin/activate  # macOS / Linux
# venv\Scripts\activate   # Windows

2.2 安装依赖

pip install --upgrade transformers accelerate
pip install torch scipy numpy

说明：

transformers：加载 MMS-TTS 模型；
torch：模型推理；
scipy、numpy：处理音频、写 wav 文件。

第一次运行时，会自动从 Hugging Face 下载模型文件，可能几百 MB。

3. 准备藏文文本文件

在你准备放脚本的目录下，新建一个文本文件：

文件名：tibetan_text.txt
编码：UTF-8

示例内容（你可以换成自己的）：

ངའི་མིང་ལ་བཀྲ་ཤིས་ཟེར། ང་སློབ་མ་ཡིན།

脚本会把整个文件内容合成成一段连续语音。

4. 完整代码：从文件读入 → 合成 → 输出 wav

在和 tibetan_text.txt 同一个目录下，新建 Python 文件，比如 mms_tts_from_file.py，内容如下：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from transformers import VitsModel, AutoTokenizer
import torch
import scipy.io.wavfile as wavfile
from pathlib import Path
import os
import numpy as np

def main():
    # 1. 打印当前工作目录，方便排查路径问题
    print("当前工作目录:", os.getcwd())
    # 脚本所在目录（绝对路径，避免跑丢）
    script_dir = Path(__file__).resolve().parent
    # 要读取的文本文件路径（和脚本放一起）
    input_path = script_dir / "tibetan_text.txt"
    if not input_path.exists():
        print(f"找不到文本文件：{input_path}")
        print("请在脚本同目录下创建 tibetan_text.txt，并写入藏文文本。")
        return
    # 2. 读取文件内容（UTF-8）
    with open(input_path, "r", encoding="utf-8") as f:
        text = f.read().strip()
    if not text:
        print("文本文件为空，不进行合成。")
        return
    print("将要合成的文本如下：")
    print(text)
    print("-" * 40)
    # 3. 加载 MMS TTS 模型和分词器（Tibetan, Khams）
    model_name = "facebook/mms-tts-khg"
    print(f"正在加载模型：{model_name} ...")
    model = VitsModel.from_pretrained(model_name)
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model.eval()
    # 如果你有 GPU，可以启用这一段：
    # device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    # model.to(device)
    # 4. 文本 -> token
    inputs = tokenizer(text, return_tensors="pt")
    # 如果用了 GPU，需要把 inputs 也 .to(device)
    # inputs = {k: v.to(device) for k, v in inputs.items()}
    # 5. 推理生成语音（波形）
    print("正在合成语音...")
    with torch.no_grad():
        output = model(**inputs).waveform  # 形状：[1, N]
    # 6. 转为 numpy，并归一化到 int16（标准 wav 格式）
    audio = output.squeeze().cpu().numpy()
    max_val = np.max(np.abs(audio))
    if max_val > 0:
        audio = audio / max_val
        audio = (audio * 32767).astype("int16")
    # 采样率：从模型配置里取
    sr = model.config.sampling_rate
    # 7. 输出 wav 文件到脚本同目录
    out_path = script_dir / "tibetan_from_file.wav"
    wavfile.write(str(out_path), rate=sr, data=audio)
    print("已生成 wav 文件:")
    print(out_path)
    print("文件是否存在:", out_path.exists())

if __name__ == "__main__":
    main()

python mms_tts_from_file.py

当前工作目录：/Users/xxx/Projects/tibetan-tts
将要合成的文本如下：
ངའི་མིང་ལ་བཀྲ་ཤིས་ཟེར། ང་སློབ་མ་ཡིན། ...
----------------------------------------
正在加载模型：facebook/mms-tts-khg ...
正在合成语音...
已生成 wav 文件：/Users/xxx/Projects/tibetan-tts/tibetan_from_file.wav
文件是否存在：True

python tib_tts_cli.py input.txt output.wav

基于 Meta MMS-TTS 与 Python 的本地藏文语音合成实现

0. 这篇文章要解决什么问题？

1. 方案概览：用什么？

2. 环境准备

2.1 创建虚拟环境（可选但推荐）

2.2 安装依赖

3. 准备藏文文本文件

4. 完整代码：从文件读入 → 合成 → 输出 wav

更多推荐文章

相关免费在线工具

5. 运行脚本、检查结果

6. 代码解析

7. 如何使用

7.1 适合用在这些场景：

7.2 可以很容易扩展的几个方向

8. 小结

更多推荐文章

相关免费在线工具

基于 Meta MMS-TTS 与 Python 的本地藏文语音合成实现

0. 这篇文章要解决什么问题？

1. 方案概览：用什么？

2. 环境准备

2.1 创建虚拟环境（可选但推荐）

2.2 安装依赖

3. 准备藏文文本文件

4. 完整代码：从文件读入 → 合成 → 输出 wav

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

5. 运行脚本、检查结果

6. 代码解析

7. 如何使用

7.1 适合用在这些场景：

7.2 可以很容易扩展的几个方向

8. 小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具