简介
faster-whisper 是 OpenAI Whisper 模型的优化版本,基于 CTranslate2 推理引擎实现加速。相比原版,它在保持相同准确率的同时,识别速度显著提升,适合对实时性有要求的场景。
环境准备
基础依赖包括 Python 3.8 及以上版本。若需发挥最佳性能,建议配备支持 CUDA 的 NVIDIA GPU。
GPU 加速配置
对于 NVIDIA 显卡用户,推荐安装以下组件:
- CUDA 12.0 及以上
- cuDNN 8.x
安装与使用
通过 pip 即可快速安装,包管理器会自动处理依赖:
pip install faster-whisper
加载模型并执行转录时,可以指定设备类型和模型尺寸。以下是一个基础示例:
from faster_whisper import WhisperModel
# 选择模型大小(small, medium, large-v3 等)
model = WhisperModel("large-v3", device="cuda")
# 开始转录音频文件
segments, info = model.transcribe("audio_file.mp3")
print(f"检测到语言:{info.language}")
for segment in segments:
print(f"[{segment.start:.2f}s → {segment.end:.2f}s] {segment.text}")
性能优化
根据硬件条件选择合适的计算类型至关重要。
- GPU FP16 模式:推荐用于大多数 GPU 场景,平衡速度与精度。
- GPU INT8 量化:进一步降低显存占用。
- CPU 模式:无 GPU 时的备选方案。
代码示例如下:
# GPU FP16 模式
model = WhisperModel("large-v3", device="cuda", compute_type="float16")
# GPU INT8 量化
model = WhisperModel("large-v3", device="cuda", compute_type="int8_float16")
# CPU 模式
model = WhisperModel("small", device="cpu", compute_type="int8")
常见问题
CUDA 版本不兼容? 尝试固定 ctranslate2 版本:
pip install ctranslate2==3.24.0
内存不足? 切换至更小模型或启用 INT8 量化。
识别准确率不高? 尝试增大模型尺寸或调整 beam_size 参数。
应用场景
该工具适用于会议记录自动化、视频字幕生成、语音笔记整理及播客内容索引等场景,能有效提升文本化效率。

