本地离线部署 Whisper 模型实现语音转写 | 极客日志

PythonAI算法

本地离线部署 Whisper 模型实现语音转写

本地部署 Whisper 模型可实现离线语音转写，避免网络依赖与隐私风险。文章涵盖 Python 环境配置、FFmpeg 安装、模型选择及命令行与 Python 脚本调用方法。通过指定语言参数与繁简转换优化中文识别效果，同时提供内存不足或格式错误的常见故障排查方案，适合需要私有化语音处理技术的开发者参考。

steve发布于 2026/4/5更新于 2026/7/2030 浏览

本地离线部署 Whisper 模型实现语音转写

在本地搭建 Whisper 语音转写环境相对简单，无需依赖云端 API，既能保护隐私又能节省成本。以下流程适用于 Windows、macOS 和 Linux 系统，其中 Windows 环境已验证可用。

基础环境准备

首先确保开发环境就绪：

安装 Python 请安装 Python 3.8 及以上版本。下载地址为 python.org/downloads。
- 安装过程中务必勾选 "Add Python to PATH"，否则后续命令行调用会报错。
验证安装 打开终端（CMD/PowerShell/Terminal），输入 python --version 或 python3 --version。若显示版本号，说明环境配置成功。

安装 Whisper 核心库

Whisper 基于 Python 生态，安装过程较为直接。国内用户建议使用镜像加速以提升下载速度。

pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple

音频处理依赖

Whisper 底层依赖 FFmpeg 处理多种音频格式。如果缺少该工具，转写时可能会报错。

Windows 用户：下载并安装 FFmpeg，将 ffmpeg.exe 所在目录添加到系统环境变量 PATH 中。
macOS/Linux 用户：通常可通过包管理器安装（如 brew install ffmpeg 或 apt install ffmpeg）。

模型选择与下载

首次运行时，Whisper 会自动下载默认模型。对于中文场景，推荐手动指定 large-v3 以获得最佳识别效果。

pip install "openai-whisper[large-v3]"

模型文件默认保存在缓存目录，也可手动管理：

Windows: C:\Users\你的用户名\.cache\whisper\
macOS/Linux: ~/.cache/whisper/

基本使用方法

命令行直接转写

适合快速测试单个文件。支持 WAV、MP3、MP4 等常见格式。

whisper 你的音频文件路径.wav --model large-v3 --language Chinese

示例命令：

whisper D:\Net_Program\test\whisper-test.wav --model large-v3 --language Chinese

关键参数说明

--model：指定模型大小（tiny/base/small/medium/large-v3）。越大精度越高，但资源消耗也越大。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import whisper
import os
import pathlib
import subprocess
from zhconv import convert

def check_ffmpeg():
    """检查 FFmpeg 是否安装并配置正确"""
    try:
        subprocess.run(
            ["ffmpeg", "-version"],
            check=True,
            stdout=subprocess.PIPE,
            stderr=subprocess.PIPE,
            text=True
        )
        return True
    except FileNotFoundError:
        print("错误：未找到 FFmpeg 工具，请先安装并配置环境变量")
        return False
    except Exception as e:
        print(f"FFmpeg 检查失败：{str(e)}")
        return False

def transcribe_audio(audio_path, model_name="large-v3", language="Chinese"):
    # 检查 FFmpeg
    if not check_ffmpeg():
        return None

    # 验证音频文件路径
    audio_path = str(pathlib.Path(audio_path).resolve())
    
    if not os.path.exists(audio_path):
        print(f"错误：音频文件不存在 '{audio_path}'")
        return None
    
    if not os.path.isfile(audio_path):
        print(f"错误：'{audio_path}' 不是有效的文件")
        return None

    # 加载模型并转写
    try:
        print(f"开始加载模型 {model_name}...")
        model = whisper.load_model(model_name, device="cpu")
        
        print(f"开始转写文件：{audio_path}")
        # 关键设置：明确指定中文，并关闭自动语言检测
        result = model.transcribe(
            audio=audio_path,
            language="Chinese",  # 强制指定中文
            verbose=True,
            fp16=False,
            initial_prompt="请用简体中文转写，不要使用繁体中文。"  # 提示模型使用简体
        )
        
        # 强制将结果转换为简体中文（双重保险）
        simplified_text = convert(result["text"], 'zh-cn')
        
        # 保存结果
        output_dir = "whisper_results"
        os.makedirs(output_dir, exist_ok=True)
        audio_name = os.path.splitext(os.path.basename(audio_path))[0]
        output_path = os.path.join(output_dir, f"{audio_name}_transcript.txt")
        
        with open(output_path, "w", encoding="utf-8") as f:
            f.write(simplified_text)
        
        print(f"\n✅ 转写完成（已转换为简体中文），结果保存至：{output_path}")
        return simplified_text
        
    except Exception as e:
        print(f"转写过程出错：{str(e)}")
        return None

if __name__ == "__main__":
    # 安装繁转简依赖（首次运行需要）
    try:
        import zhconv
    except ImportError:
        print("正在安装繁转简依赖...")
        subprocess.run(["pip", "install", "zhconv"], check=True)
        import zhconv

    # 替换为你的音频文件路径
    audio_file = r"D:\Net_Program\test\whisper-test.wav"
    transcribe_audio(audio_file)

内存不足 若提示 OutOfMemoryError，建议换用更小的模型（如 medium 或 small）。large-v3 建议至少配备 16GB 内存，并关闭其他占用程序。
音频格式错误 部分非标准格式可能无法识别。可使用 FFmpeg 预处理：
```
ffmpeg -i 输入文件.mp3 -ar 16000 -ac 1 输出文件.wav
```
转为 16kHz 单声道 WAV 格式兼容性最好。
模型下载慢 若自动下载超时，可手动从 Hugging Face 下载模型文件，放入 .cache/whisper/ 目录即可。

本地离线部署 Whisper 模型实现语音转写

本地离线部署 Whisper 模型实现语音转写

基础环境准备

安装 Whisper 核心库

音频处理依赖

模型选择与下载

基本使用方法

命令行直接转写

关键参数说明

更多推荐文章

相关免费在线工具

Python 脚本调用

常见问题解决

更多推荐文章

相关免费在线工具

本地离线部署 Whisper 模型实现语音转写

本地离线部署 Whisper 模型实现语音转写

基础环境准备

安装 Whisper 核心库

音频处理依赖

模型选择与下载

基本使用方法

命令行直接转写

关键参数说明

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Python 脚本调用

常见问题解决

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具