简介
Whisper-CTranslate2 是基于 CTranslate2 引擎的命令行客户端,完全兼容 OpenAI Whisper API。相比原生实现,它在 CPU 和 GPU 上均能提供更快的推理速度,同时显著降低内存占用。对于需要处理大量音频文件或实时转录的场景,这是一个值得考虑的高性能方案。
安装
使用 pip 即可快速安装稳定版:
pip install -U whisper-ctranslate2
如需体验开发版本,可从仓库直接安装:
pip install git+https://github.com/OpenNMT/whisper-ctranslate2
基础命令
语音转文字
执行基本转录任务,指定模型大小(如 medium):
whisper-ctranslate2 your_audio.mp3 --model medium
跨语言翻译
将外语音频直接转换为英文文本:
whisper-ctranslate2 foreign_audio.mp3 --model medium --task translate
进阶功能
语音活动检测 (VAD)
过滤静音片段,仅保留有效语音内容,适合访谈或讲座录音:
whisper-ctranslate2 myfile.mp3 --vad_filter True
实时麦克风转录
支持从麦克风输入进行实时识别:
whisper-ctranslate2 --live_transcribe True --language en
说话人识别
在多人对话场景中区分不同说话人,需配置 Hugging Face Token:
whisper-ctranslate2 --hf_token YOUR_HF_TOKEN
性能调优
提升速度
若需进一步优化处理速度,可组合以下参数:
- 批处理模式:
--batched True - 量化计算:
--compute_type int8或float16 - 结合 VAD:减少无效数据处理时间
硬件兼容性
- CPU:支持 Intel MKL、oneDNN、OpenBLAS 等后端优化。
- GPU:需 NVIDIA cuBLAS 11.x 和 cuDNN 8.x 库支持。
注意事项
运行结果存在微小差异属于正常现象。当音频触发'温度回退'机制时,模型基于随机采样生成结果,这是设计特性而非缺陷。建议在生产环境中固定随机种子以获得一致性输出。

