1.2 Whisper的安装与配置 | 《Whisper语音识别实战专栏》

引言

在前一篇文章中,我们了解了Whisper的基本概念、发展背景和主要特点。现在,我们将介绍Whisper的安装与配置方法,帮助您快速上手使用Whisper。

Whisper的安装相对简单,主要包括Python环境配置、Whisper库安装和FFmpeg配置三个步骤。在本文章中,我们将详细介绍每个步骤的具体操作方法,并提供常见问题的解决方案。

系统要求

在安装Whisper之前,您需要确保您的系统满足以下要求:

  • 操作系统:Windows、macOS或Linux
  • Python版本:3.8-3.11
  • PyTorch版本:支持最新版本的PyTorch
  • 硬件要求
    • CPU:支持x86_64架构的处理器
    • GPU(可选):支持CUDA的NVIDIA GPU(用于加速模型推理)
    • 内存:至少4GB RAM,推荐8GB以上

安装步骤

1. 配置Python环境

首先,您需要安装Python环境。如果您已经安装了Python 3.8-3.11,可以跳过这一步。

1.1 下载Python

访问Python官方网站,下载适合您操作系统的Python安装包。推荐下载Python 3.10或3.11版本,因为它们与Whisper的兼容性较好。

1.2 安装Python
  • Windows:运行下载的安装程序,勾选"Add Python to PATH"选项,然后点击"Install Now"。
  • macOS:运行下载的.pkg安装包,按照提示完成安装。

Linux:使用系统包管理器安装Python,例如:

# Ubuntu/Debiansudoapt update &&sudoaptinstall python3 python3-pip # CentOS/RHELsudo yum install python3 python3-pip 
1.3 验证Python安装

安装完成后,打开命令行工具,输入以下命令验证Python是否安装成功:

python --version pip --version 

如果输出Python和pip的版本信息,则说明安装成功。

2. 安装PyTorch

Whisper依赖于PyTorch框架,因此您需要安装PyTorch。访问PyTorch官方网站,根据您的操作系统和硬件配置选择合适的安装命令。

2.1 安装CPU版本的PyTorch

如果您没有GPU,或者不想使用GPU加速,可以安装CPU版本的PyTorch:

pip3 install torch torchvision torchaudio 
2.2 安装GPU版本的PyTorch

如果您有支持CUDA的NVIDIA GPU,可以安装GPU版本的PyTorch以获得更好的性能:

# CUDA 12.1 pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 # CUDA 11.8 pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 
2.3 验证PyTorch安装

安装完成后,打开Python交互式环境,输入以下命令验证PyTorch是否安装成功:

import torch print(torch.__version__)# 检查是否支持CUDAprint(torch.cuda.is_available())

如果输出PyTorch的版本信息,并且torch.cuda.is_available()返回True(如果使用GPU版本),则说明安装成功。

3. 安装Whisper

现在,您可以安装Whisper库了。Whisper提供了多种安装方式,您可以选择其中一种适合您的方式。

3.1 使用pip安装(推荐)

最简单的安装方式是使用pip安装Whisper的最新稳定版本:

pip install -U openai-whisper 
3.2 从GitHub仓库安装

如果您想安装最新的开发版本,可以从GitHub仓库直接安装:

pip install git+https://github.com/openai/whisper.git 
3.3 更新Whisper

如果您已经安装了Whisper,想要更新到最新版本,可以使用以下命令:

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git 

4. 配置FFmpeg

Whisper需要使用FFmpeg来处理音频文件,因此您需要安装FFmpeg并将其添加到系统PATH中。

4.1 下载FFmpeg

访问FFmpeg官方网站,下载适合您操作系统的FFmpeg安装包。

4.2 安装FFmpeg
  • Windows
    1. 下载FFmpeg的Windows构建版本(推荐从gyan.dev下载)
    2. 解压下载的zip文件到一个目录,例如C:\ffmpeg
    3. 将FFmpeg的bin目录(例如C:\ffmpeg\bin)添加到系统PATH环境变量中

Linux
使用系统包管理器安装FFmpeg:

# Ubuntu/Debiansudoapt update &&sudoaptinstall ffmpeg # CentOS/RHELsudo yum install ffmpeg # Arch Linuxsudo pacman -S ffmpeg 

macOS
使用Homebrew安装FFmpeg:

brew install ffmpeg 
4.3 验证FFmpeg安装

安装完成后,打开命令行工具,输入以下命令验证FFmpeg是否安装成功:

ffmpeg -version 

如果输出FFmpeg的版本信息,则说明安装成功。

5. 安装其他依赖(可选)

在某些情况下,您可能需要安装额外的依赖项:

5.1 Rust(可选)

如果您在安装Whisper时遇到关于tiktoken的错误,可能需要安装Rust开发环境:

  1. 访问Rust官方网站,按照提示安装Rust
  2. 重新安装Whisper

安装完成后,将Rust添加到系统PATH中:

# Linux/macOSexportPATH="$HOME/.cargo/bin:$PATH"
5.2 setuptools_rust(可选)

如果您遇到No module named 'setuptools_rust'错误,可以安装setuptools_rust

pip install setuptools-rust 

验证安装

安装完成后,您可以使用以下方法验证Whisper是否安装成功:

1. 使用命令行工具

打开命令行工具,输入以下命令:

whisper --help 

如果输出Whisper的帮助信息,则说明命令行工具安装成功。

2. 使用Python API

创建一个Python脚本,例如test_whisper.py,内容如下:

import whisper # 加载tiny模型try: model = whisper.load_model("tiny")print("模型加载成功!")# 查看可用模型print("可用模型:", whisper.available_models())print("Whisper安装成功!")except Exception as e:print(f"安装失败:{e}")

运行脚本:

python test_whisper.py 

如果输出"Whisper安装成功!",则说明Python API安装成功。

常见问题解决方案

1. 安装Whisper时遇到权限问题

解决方案:使用管理员权限运行命令行工具,或者使用--user选项安装:

pip install -U openai-whisper --user 

2. 模型下载失败

解决方案

  • 检查网络连接是否正常
  • 使用代理服务器下载
  • 手动下载模型文件并放置到默认缓存目录(~/.cache/whisper

3. FFmpeg未找到

解决方案

  • 检查FFmpeg是否正确安装
  • 确保FFmpeg的bin目录已添加到系统PATH中
  • 重新启动命令行工具或计算机

4. CUDA相关错误

解决方案

  • 确保安装了与PyTorch版本匹配的CUDA驱动
  • 检查GPU是否支持CUDA
  • 尝试使用CPU版本的PyTorch

5. Python版本不兼容

解决方案

  • 安装Python 3.8-3.11版本
  • 使用虚拟环境隔离不同版本的Python

最佳实践

1. 使用虚拟环境

为了避免依赖冲突,推荐使用虚拟环境安装Whisper:

# 创建虚拟环境 python -m venv whisper-env # 激活虚拟环境# Windows whisper-env\Scripts\activate # Linux/macOSsource whisper-env/bin/activate # 在虚拟环境中安装Whisper pip install -U openai-whisper 

2. 选择合适的模型

根据您的硬件配置和需求选择合适的模型:

  • 如果您的设备内存较小(<4GB),推荐使用tinybase模型
  • 如果您需要更好的识别准确率,推荐使用mediumlarge模型
  • 如果您需要更快的转录速度,推荐使用turbo模型

3. 定期更新Whisper

Whisper的开发者会定期更新模型和代码,修复bug并添加新功能。建议您定期更新Whisper:

pip install -U openai-whisper 

总结

在本文章中,我们详细介绍了Whisper的安装与配置方法,包括:

  1. 配置Python环境
  2. 安装PyTorch
  3. 安装Whisper库
  4. 配置FFmpeg
  5. 安装其他依赖(可选)
  6. 验证安装

我们还提供了常见问题的解决方案和最佳实践建议,帮助您顺利安装和使用Whisper。

在下一篇文章中,我们将介绍Whisper的基本使用方法,包括命令行工具和Python API的使用,帮助您快速上手Whisper语音识别。


思考问题

  1. 为什么推荐使用虚拟环境安装Whisper?
  2. 如何根据自己的硬件配置选择合适的Whisper模型?
  3. 如果遇到模型下载失败,应该如何解决?

扩展阅读

Read more

TWIST2——全身VR遥操控制:采集人形全身数据后,可训练视觉base的自主策略(基于视觉观测预测全身关节位置)

TWIST2——全身VR遥操控制:采集人形全身数据后,可训练视觉base的自主策略(基于视觉观测预测全身关节位置)

前言 我司内部在让机器人做一些行走-操作任务时,不可避免的需要全身遥操机器人采集一些任务数据,而对于全身摇操控制,目前看起来效果比较好的,并不多 * 之前有个CLONE(之前本博客内也解读过),但他们尚未完全开源 * 于此,便关注到了本文要解读的TWIST2,其核心创新是:无动捕下的全身控制 PS,如果你也在做loco-mani相关的工作,欢迎私我你的一两句简介,邀你加入『七月:人形loco-mani(行走-操作)』交流群 第一部分 TWIST2:可扩展、可移植且全面的人形数据采集系统 1.1 引言与相关工作 1.1.1 引言 如TWIST2原论文所说,现有的人形机器人远程操作系统主要分为三大类: 全身控制,直接跟踪人体姿态,包括手臂、躯干和腿部在内的所有关节以统一方式进行控制(如 HumanPlus [12],TWIST [1] ———— TWIST的介绍详见此文《TWIST——基于动捕的全身遥操模仿学习:教师策略RL训练,学生策略结合RL和BC联合优化(可训练搬箱子)》 部分全身控制,

Ubuntu搭建PX4无人机仿真环境(5) —— 仿真环境搭建(以Ubuntu 22.04,ROS2 Humble,Micro XRCE-DDS Agent为例)

Ubuntu搭建PX4无人机仿真环境(5) —— 仿真环境搭建(以Ubuntu 22.04,ROS2 Humble,Micro XRCE-DDS Agent为例)

目录 * 前言 * 1. 准备 * 1.1 下载 PX4 源码 * 方式一: * 方式二: * 1.2 安装仿真依赖 * 1.3 安装 Gazebo * 2. 安装 Micro XRCE-DDS Agent * 3. 编译 PX4 * 4. 通信测试 * 5. 官方 offboard 程序 * 6. offboard 测试 * 参考 前言 本教程基于 ROS2 ,在搭建之前,需要把 ROS2、QGC 等基础环境安装配置完成。但是这块的资料相比较于 ROS1 下的少很多,不利于快速上手和后期开发,小白慎选! 小白必看:

基于Matlab/Simulink平台的FPGA开发

基于Matlab/Simulink平台的FPGA开发

基于 Matlab/Simulink 平台进行 FPGA 开发是一种高效的 "算法驱动" 设计方法,尤其适合从算法原型到硬件实现的快速迭代,广泛应用于电力电子、通信、控制、图像处理等领域。其核心优势在于通过可视化建模和自动代码生成,减少手动编写 HDL(硬件描述语言)的工作量,同时保证算法与硬件实现的一致性。 一、FPGA建模与仿真 基于Simulink建模:使用Simulink搭建算法模型(如信号处理、控制系统等),通过仿真验证功能正确性。 定点化处理:通过Fixed-Point Designer工具将浮点算法转换为定点模型,优化硬件资源占用。 仿真验证:通过 Simulink 仿真验证模型功能正确性,重点测试边界条件和异常场景,确保算法逻辑无误。 二、FPGA代码生成 HDL Coder 是 MathWorks 公司推出的一款核心工具,主要用于将 MATLAB 算法和 Simulink 模型自动转换为可综合的硬件描述语言(