Faster Whisper v1.7 日语视频本地自动翻译 SRT 字幕生成与 AMD 显卡支持教程
项目简介
Faster Whisper 转录工具基于 SYSTRAN/faster-whisper,集成 VAD 语音活动检测,支持 GPU / CPU / 云端推理,并提供日文 → 中文优化模型。
版本区别说明
本次发行主要版本包括基础版与集成版:
- 集成版(Chickenrice Edition):约 4.4GB,包含 GPU 依赖、VAD 模型及「海南鸡 v2 5000 小时」优化模型。适合开箱即用及日文转中文场景。
- 基础版:需自行下载 Whisper 模型。
硬件与驱动选择
NVIDIA 显卡
通过 nvidia-smi 查看驱动支持的 CUDA 版本。
| CUDA 版本 | Windows 最低驱动 |
|---|---|
| 11.8 | ≥452.39 |
| 12.2 | ≥525.60 |
| 12.8 | ≥570.65 |
| 显卡 | 推荐 CUDA |
|---|---|
| GTX 10 / 16 系列 | 11.8 |
| RTX 20 系列 | 11.8 / 12.2 |
| RTX 30 系列 | 12.2 |
| RTX 40 系列 | 12.2 / 12.8 |
| RTX 50 系列 | 12.8 |
⚠️ RTX 50 系列必须使用 CUDA 12.8。
AMD 显卡(v1.7 新增支持)
新增 AMD ROCm/HIP 支持,无需单独安装 ROCm 运行时。
| 显卡 | 下载后缀 |
|---|---|
| RX 5700 | gfx101x_dgpu |
| RX 6600 | gfx103x_dgpu |
| RX 7800 XT | gfx110x_all |
| RX 9070 | gfx120x_all |
特点:已内置 ROCm/HIP 运行时,命令行仍可使用 --device=cuda 或 --device=amd。
模型下载
基础版不带 Whisper 模型,可从以下地址获取: https://huggingface.co/chickenrice0721/whisper-large-v2-translate-zh-v0.2-st
下载后放入目录结构:
faster_whisper_transwithai_chickenrice/
└── models/
└── 模型文件夹/
快速开始
解压后可直接使用批处理文件。
- GPU 模式:拖动音视频文件到
运行 (GPU).bat - 低显存模式(4GB 显存):拖动文件到
运行 (GPU,低显存模式).bat - CPU 模式:拖动文件到
运行 (CPU).bat
批处理模式
v1.4 之后支持批处理推理,优点包括多片段并行、大幅提升速度、自动检测批次大小。缺点为极少数场景精度略降。适用于噪声较多、多说话人或长音频文件场景。
v1.7 更新重点
- ✅ AMD GPU 支持(RDNA1–4)
- ✅ 多架构打包
- ✅ ROCm 运行时内置
- ✅ 改进自动设备检测
- ✅ 支持
--device=amd
常见问题
Q1:RTX 4090 用哪个版本? CUDA 12.2 或 12.8,取决于驱动版本。
Q2:显存不足怎么办?
- 使用低显存模式
- 启用批处理
- 切换 CPU 模式
- 使用 Modal 云端推理
Q3:基础版和集成版选哪个?
- 追求开箱即用 → 集成版
- 自定义模型 → 基础版
文件校验
建议下载后进行校验,确保文件完整。
certutil -hashfile 文件名 SHA256
总结
v1.7 的核心价值在于补齐了 AMD 显卡支持,适配 RTX 50 系列,批处理逻辑成熟。适用于日语视频翻译、会议转录、字幕批量生成及本地离线语音识别场景。


