Whisper v0.2 核心介绍
Whisper v0.2 是一款基于通用语音识别模型开发的本地语音转文字工具。它支持多语言语音识别、语音翻译及语言识别,基于 Faster Whisper 模型优化,在普通 CPU 设备上也能实现高效、精准的语音转文字效果。
详细安装步骤
解压安装包
找到下载好的 Whisper v0.2 安装包,右键点击选择'解压到当前文件夹'或自定义解压路径,等待解压完成。
启动软件
进入解压后的文件夹,找到软件主程序(通常以.exe 结尾),右键点击选择'以管理员身份运行',确保软件正常启动。若需后续快速打开,可右键点击主程序,选择'发送到'→'桌面快捷方式'。
功能设置与使用教程
核心功能参数说明
模型选择
软件默认集成'medium 模型',无需额外下载,直接选择即可满足日常语音转文字需求。若需更高精度(如 large 模型)或更快速识别(如 small 模型),需手动选择对应模型,等待下载完成后即可使用。
GPU 选项设置
若电脑配备支持 CUDA 的独立显卡,可选择'GPU'模式提升识别速度;若电脑无独立显卡或显卡不支持 CUDA,建议默认使用 CPU 模式,避免程序崩溃。
推理方式与精度选择
普通 CPU 用户:推荐选择'int8'精度模式,能大幅提升识别速度,同时保证识别准确率。 使用'large 模型'时:建议将精度设置为'float32',避免因精度不足导致识别误差。
语音转文字操作步骤
- 添加音频文件:点击软件界面中的'选择文件'按钮,支持导入 wav、mp3 两种常见音频格式,选择需要转换的文件并确认。
- 设置参数并启动识别:模型选择'medium'(无需下载),根据电脑配置设置 GPU/CPU 模式及精度,确认无误后点击'开始识别'。
- 保存识别结果:等待识别完成后,点击界面中的'保存结果'按钮,选择保存路径,即可将文字结果保存为本地文件(通常为 txt 格式)。


