引言
在了解 Whisper 的基本概念与发展背景后,接下来我们进入实战环节。本文将详细介绍如何在不同操作系统下完成 Whisper 的安装与配置,确保您能顺利运行语音识别任务。
Whisper 的部署主要涉及 Python 环境、PyTorch 框架、FFmpeg 工具链以及 Whisper 库本身的配置。我们将逐步拆解每个环节,并提供常见问题的排查思路。
系统要求
安装前请确认您的环境满足以下基础条件:
- 操作系统:Windows、macOS 或 Linux
- Python 版本:3.8 - 3.11
- PyTorch 版本:支持最新稳定版
- 硬件资源:
- CPU:x86_64 架构处理器
- GPU(可选):支持 CUDA 的 NVIDIA 显卡(用于加速推理)
- 内存:至少 4GB RAM,推荐 8GB 以上
安装步骤
1. 配置 Python 环境
如果您尚未安装 Python 3.8 至 3.11 之间的版本,请先完成这一步。
下载与安装
访问 Python 官网 下载对应系统的安装包。建议优先选择 3.10 或 3.11 版本,兼容性更佳。
- Windows:运行安装程序时务必勾选 "Add Python to PATH",随后点击 "Install Now"。
- macOS:直接运行下载的
.pkg文件按向导操作。 - Linux:使用包管理器安装,例如 Ubuntu/Debian:
sudo apt update && sudo apt install python3 python3-pip
CentOS/RHEL 用户可使用 yum,Arch Linux 则用 pacman。
验证安装
打开终端输入以下命令检查版本信息:
python --version
pip --version
若返回版本号,说明环境已就绪。
2. 安装 PyTorch
Whisper 基于 PyTorch 构建,需先配置深度学习框架。请访问 PyTorch 官网 获取安装指令。
CPU 版本
无 GPU 或仅需基础功能时,安装 CPU 版即可:
pip3 install torch torchvision torchaudio
GPU 版本
拥有 NVIDIA 显卡可显著提升性能。根据 CUDA 版本选择对应命令:
# CUDA 12.1
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
# CUDA 11.8
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

