简介
faster-whisper 是基于 OpenAI Whisper 模型的优化版本,通过 CTranslate2 推理引擎实现了更快的语音识别速度,同时保持相同的准确率。
安装步骤
pip install faster-whisper
硬件环境准备
基础要求
- Python 3.8 或更高版本
- 支持 CUDA 的 NVIDIA GPU(推荐)或普通 CPU
GPU 用户专属配置
- CUDA 12.0 及以上版本
- cuDNN 8.x 深度学习库
核心功能体验
基本语音转录
from faster_whisper import WhisperModel
# 选择模型大小(small, medium, large-v3 等)
model = WhisperModel("large-v3", device="cuda")
# 开始转录你的音频文件
segments, info = model.transcribe("你的音频文件.mp3")
print(f"检测到语言:{info.language}")
for segment in segments:
print(f"[{segment.start:.2f}s → {segment.end:.2f}s] {segment.text}")
高级功能
- 精准时间戳:获取每个词的精确时间位置
- 智能静音过滤:自动跳过无语音片段
- 多语言支持:自动检测并转录 98 种语言
- 实时流式处理:支持实时音频流转录
性能优化技巧
选择合适模型大小
- tiny:最快速度,适合实时应用
- small:平衡速度与精度
- medium:高质量转录
- large-v3:最高精度,适合专业用途
计算类型优化
# GPU FP16 模式(推荐)
model = WhisperModel("large-v3", device="cuda", compute_type="float16")
# GPU INT8 量化(更省内存)
model = WhisperModel("large-v3", device=, compute_type=)
model = WhisperModel(, device=, compute_type=)

