Faster Whisper v1.7 本地语音转录工具使用指南
本文系统整理 Faster-Whisper-TransWithAI-ChickenRice v1.7 的版本说明、显卡选择方式以及快速上手流程。
项目简介
- 基于
SYSTRAN/faster-whisper - 集成 VAD 语音活动检测
- 支持 GPU / CPU / 云端推理
- 提供日文 → 中文优化模型
版本区别说明
本次发行主要版本:
集成版
- 约 4.4GB
- 包含 GPU 依赖
- 包含 VAD 模型
- 包含「5000 小时」优化模型
适合:
- 开箱即用
- 日文转中文场景
- 不想单独下载模型
如何选择正确的 CUDA 版本(NVIDIA)
方法一:使用 nvidia-smi
打开命令行:
nvidia-smi
查看:
CUDA Version: 12.8
这是驱动支持的最高 CUDA 版本。
驱动兼容性参考
| CUDA 版本 | Windows 最低驱动 |
|---|---|
| 11.8 | ≥452.39 |
| 12.2 | ≥525.60 |
| 12.8 | ≥570.65 |
显卡推荐对应关系
| 显卡 | 推荐 CUDA |
|---|---|
| GTX 10 / 16 系列 | 11.8 |
| RTX 20 系列 | 11.8 / 12.2 |
| RTX 30 系列 | 12.2 |
| RTX 40 系列 | 12.2 / 12.8 |
| RTX 50 系列 | 🔴 必须 12.8 |
⚠️ RTX 50 系列必须使用 CUDA 12.8。
AMD 显卡用户(v1.7 新增支持)
v1.7 最大更新点:
🔴 新增 AMD ROCm/HIP 支持
支持架构:
- RDNA1 → gfx101x
- RDNA2 → gfx103x
- RDNA3 → gfx110x
- RDNA4 → gfx120x
示例对应关系:
| 显卡 | 下载后缀 |
|---|---|
| RX 5700 | gfx101x_dgpu |
| RX 6600 | gfx103x_dgpu |
| RX 7800 XT | gfx110x_all |
| RX 9070 | gfx120x_all |
特点:
- 已内置 ROCm/HIP 运行时
- 无需单独安装 ROCm
- 命令行仍使用
--device=cuda
基础版如何下载模型
基础版不带 Whisper 模型,需要自行下载。
示例模型:
https://huggingface.co/chickenrice0721/whisper-large-v2-translate-zh-v0.2-st
下载后放入:
faster_whisper_transwithai_chickenrice/ └── models/ └── 模型文件夹/
快速开始
解压后可直接使用批处理文件。
GPU 模式
拖动音视频文件到:
运行 (GPU).bat
低显存模式(4GB 显存)
运行 (GPU,低显存模式).bat
CPU 模式
运行 (CPU).bat
批处理模式(提升速度)
v1.4 之后支持批处理推理:
优点:
- 多片段并行
- 大幅提升速度
- 自动检测批次大小
缺点:
- 极少数场景精度略降
适用场景:
- 噪声较多
- 多说话人
- 长音频文件
v1.7 更新重点
- ✅ AMD GPU 支持(RDNA1–4)
- ✅ 多架构打包
- ✅ ROCm 运行时内置
- ✅ 改进自动设备检测
- ✅ 支持
--device=amd
常见问题
Q1:RTX 4090 用哪个版本?
CUDA 12.2 或 12.8,取决于驱动版本。
Q2:显存不足怎么办?
- 使用低显存模式
- 启用批处理
- 切换 CPU 模式
- 使用 Modal 云端推理
Q3:基础版和集成版选哪个?
- 追求开箱即用 → 集成版
- 自定义模型 → 基础版
文件校验(SHA256)
建议下载后进行校验,确保文件完整。
示例:
60fd157293d7d5033dab3c013ce3d4a083d1af6460157f1303a622f4f931715f
可使用:
certutil -hashfile 文件名 SHA256
总结
v1.7 这一版的核心价值在于:
- 真正补齐了 AMD 显卡支持
- RTX 50 系列适配到位
- 批处理逻辑成熟
- 云端推理完善
如果你做:
- 日语视频翻译
- 会议转录
- 字幕批量生成
- 本地离线语音识别
这一套属于当前比较成熟的 Windows 本地解决方案。


