whisperX 入门实战：环境搭建与语音识别全流程 | 极客日志

PythonAI算法

whisperX 入门实战：环境搭建与语音识别全流程

whisperX 基于 OpenAI Whisper，提供单词级时间戳与说话人区分。涵盖 Conda 环境配置、PyTorch 安装及 whisperX 部署，演示命令行转录与 Python API 集成流程，包含多语言支持、GPU 内存优化及常见问题解决方案，助开发者快速落地高精度语音识别应用。

奶糖兔发布于 2026/4/9更新于 2026/7/2340 浏览

whisperX 简介

whisperX 是基于 OpenAI Whisper 的语音识别工具，它在 Whisper 的基础上进行了改进，提供了更精准的单词级时间戳和说话人区分功能。whisperX 采用了强制音素对齐（Phoneme-Based ASR）和语音活动检测（VAD）等技术，能够显著提高语音识别的准确性和效率。

主要特点包括：

⚡️ 批处理推理，使用 whisper large-v2 模型可实现 70 倍实时转录
🎯 使用 wav2vec2 对齐实现精准的单词级时间戳
👯‍♂️ 支持多 speaker 语音识别，使用 pyannote-audio 进行说话人区分
🗣️ VAD 预处理，减少幻觉，在不降低 WER 的情况下实现批处理

详细的技术细节可以参考官方 README。

环境搭建

1. 创建 Python 环境

首先，我们需要创建一个 Python 3.10 的环境。打开终端，执行以下命令：

conda create --name whisperx python=3.10
conda activate whisperx

2. 安装 PyTorch

whisperX 需要 PyTorch 的支持。对于 Linux 和 Windows 用户，推荐安装 CUDA 11.8 版本的 PyTorch：

conda install pytorch==2.0.0 torchaudio==2.0.0 pytorch-cuda=11.8 -c pytorch -c nvidia

其他系统或 CUDA 版本的安装方法可以参考 PyTorch 官方文档。

3. 安装 whisperX

whisperX 提供了多种安装方式，你可以根据自己的需求选择：

选项 A：稳定版本（推荐）

从 PyPI 安装最新的稳定版本：

pip install whisperx

选项 B：开发版本

从 GitHub 安装最新的开发版本（可能不稳定）：

pip install git+https://github.com/m-bain/whisperX.git

如果已经安装了 whisperX，可以使用以下命令升级到最新版本：

pip install git+https://github.com/m-bain/whisperX.git --upgrade

选项 C：开发模式

如果你需要修改源码，可以克隆仓库并以可编辑模式安装：

git clone https://github.com/m-bain/whisperX.git
cd whisperX
pip install -e .

注意：开发版本可能包含实验性功能和 bug，生产环境建议使用稳定版本。

此外，你可能还需要安装 ffmpeg、rust 等依赖，可以参考 OpenAI Whisper 的安装指南。

4. 配置 Speaker Diarization（可选）

如果需要使用说话人区分功能，你需要获取 Hugging Face 的访问令牌，并接受相关模型的用户协议。具体步骤如下：

在 Hugging Face 设置页面生成访问令牌
接受 Segmentation 和 Speaker-Diarization 模型的用户协议

命令行使用

基本使用

安装完成后，我们可以使用命令行来调用 whisperX。最简单的用法是：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

whisperx examples/sample01.wav

whisperx examples/sample01.wav --highlight_words True

whisperx examples/sample01.wav --model large-v2 --align_model WAV2VEC2_ASR_LARGE_LV60K_960H --batch_size 4

whisperx examples/sample01.wav --model large-v2 --diarize --highlight_words True --min_speakers 2 --max_speakers 2

whisperx examples/sample01.wav --compute_type int8

whisperx examples/sample_de_01.wav --model large --language de

import whisperx
import gc

device = "cuda"
audio_file = "audio.mp3"
batch_size = 16  # 减少批大小以降低 GPU 内存占用
compute_type = "float16"  # 如果 GPU 内存不足，可以改为 "int8"

# 1. 使用原始 whisper 进行转录（批处理）
model = whisperx.load_model("large-v2", device, compute_type=compute_type)
audio = whisperx.load_audio(audio_file)
result = model.transcribe(audio, batch_size=batch_size)
print(result["segments"])  # 对齐前的结果

# 2. 对齐 whisper 输出
model_a, metadata = whisperx.load_align_model(language_code=result["language"], device=device)
result = whisperx.align(result["segments"], model_a, metadata, audio, device, return_char_alignments=False)
print(result["segments"])  # 对齐后的结果

# 3. 分配说话人标签
diarize_model = whisperx.DiarizationPipeline(use_auth_token="YOUR_HF_TOKEN", device=device)
diarize_segments = diarize_model(audio)
result = whisperx.assign_word_speakers(diarize_segments, result)
print(result["segments"])  # 带有说话人 ID 的结果

whisperX 入门实战：环境搭建与语音识别全流程

whisperX 简介

环境搭建

1. 创建 Python 环境

2. 安装 PyTorch

3. 安装 whisperX

选项 A：稳定版本（推荐）

选项 B：开发版本

选项 C：开发模式

4. 配置 Speaker Diarization（可选）

命令行使用

基本使用

更多推荐文章

相关免费在线工具

提高识别准确率

Speaker 区分

CPU 运行

多语言支持

Python API 使用

常见问题解决

GPU 内存不足

Speaker 区分效果不佳

时间戳不准确

总结

更多推荐文章

相关免费在线工具

whisperX 入门实战：环境搭建与语音识别全流程

whisperX 简介

环境搭建

1. 创建 Python 环境

2. 安装 PyTorch

3. 安装 whisperX

选项 A：稳定版本（推荐）

选项 B：开发版本

选项 C：开发模式

4. 配置 Speaker Diarization（可选）

命令行使用

基本使用

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

提高识别准确率

Speaker 区分

CPU 运行

多语言支持

Python API 使用

常见问题解决

GPU 内存不足

Speaker 区分效果不佳

时间戳不准确

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具