本地离线部署 Whisper 语音转写 | 极客日志

PythonVScodeAI

本地离线部署 Whisper 语音转写

在本地部署 Whisper 做语音转写并不复杂，核心是准备好 Python、Whisper、FFmpeg 和模型文件。文章给出了命令行转写与 Python 脚本两种用法，并补充了繁简转换、输出保存和常见问题处理思路，适合在 Windows、macOS、Linux 上直接搭建离线转写环境。

wanderer发布于 2026/4/8更新于 2026/7/2027 浏览

本地离线部署 Whisper 语音转写

Whisper 做本地语音转写并不复杂，环境搭起来之后，基本就是'装依赖、下模型、跑转写'这几步。下面按 Windows、macOS 和 Linux 都通用的思路整理一遍，Windows 下我实际验证过，流程是可行的。

基础环境准备

安装 Python

先确认机器上有 Python 3.8 及以上版本。

下载地址：https://www.python.org/downloads/
安装时记得勾选 Add Python to PATH，这一步很关键，不然后面命令行里可能找不到 python。

验证安装

打开命令行或终端，执行：

python --version

如果是 macOS 或 Linux，也可以试试：

python3 --version

能正常输出版本号，就说明 Python 没问题了。

安装 Whisper

Whisper 的安装比较直接，国内环境下如果拉取速度慢，可以顺手加上镜像源。

pip install openai-whisper

如果想用清华镜像加速，也可以这样装：

pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple

安装音频处理依赖

Whisper 处理音频时依赖 FFmpeg，这一步别省。

Windows：去 FFmpeg 官网下载并安装，把 ffmpeg.exe 所在目录加入系统环境变量 PATH
macOS：通常可以通过包管理工具安装
Linux：使用发行版对应的包管理器安装即可

装完以后，建议在命令行里跑一下 ffmpeg -version，确认工具链是通的。

下载 Whisper 模型

Whisper 会在首次使用时自动下载模型文件。如果你想提前准备，也可以手动控制模型的选择。

一般来说，模型越大，识别效果通常越好，但占用的资源也更多。比如 large-v3 精度更高，适合对结果要求比较严的场景；如果机器资源有限，small 或 base 会更轻一些。

模型缓存通常会放在下面这些目录：

Windows：C:\Users\你的用户名\.cache\whisper\
macOS/Linux：~/.cache/whisper/

命令行直接转写

最省事的方式，就是直接在命令行里处理音频文件。Whisper 支持常见的音频和视频格式，比如 WAV、MP3、MP4 等。

whisper 你的音频文件路径.wav --model large-v3 --language Chinese

如果是 Windows 路径，写法可以类似这样：

whisper D:\Net_Program\test\whisper-test.wav --model large-v3 --language Chinese

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

import whisper
import os
import pathlib
import subprocess
from zhconv import convert  # 用于繁转简


def check_ffmpeg():
    """检查FFmpeg是否安装并配置正确"""
    try:
        subprocess.run(
            ["ffmpeg", "-version"],
            check=True,
            stdout=subprocess.PIPE,
            stderr=subprocess.PIPE,
            text=True
        )
        return True
    except FileNotFoundError:
        print("错误：未找到FFmpeg工具，请先安装并配置环境变量")
        return False
    except Exception as e:
        print(f"FFmpeg检查失败：{str(e)}")
        return False


def transcribe_audio(audio_path, model_name="large-v3", language="Chinese"):
    # 检查FFmpeg
    if not check_ffmpeg():
        return None

    # 验证音频文件路径
    audio_path = str(pathlib.Path(audio_path).resolve())

    if not os.path.exists(audio_path):
        print(f"错误：音频文件不存在 '{audio_path}'")
        return None

    if not os.path.isfile(audio_path):
        print(f"错误：'{audio_path}' 不是有效的文件")
        return None

    # 加载模型并转写
    try:
        print(f"开始加载模型 {model_name}...")
        model = whisper.load_model(model_name, device="cpu")

        print(f"开始转写文件：{audio_path}")
        # 这里明确指定中文，并关闭自动语言检测带来的不确定性
        result = model.transcribe(
            audio=audio_path,
            language="Chinese",
            verbose=True,
            fp16=False,
            initial_prompt="请用简体中文转写，不要使用繁体中文。"
        )

        # 将结果统一转换为简体中文
        simplified_text = convert(result["text"], 'zh-cn')

        # 保存结果
        output_dir = "whisper_results"
        os.makedirs(output_dir, exist_ok=True)
        audio_name = os.path.splitext(os.path.basename(audio_path))[0]
        output_path = os.path.join(output_dir, f"{audio_name}_transcript.txt")

        with open(output_path, "w", encoding="utf-8") as f:
            f.write(simplified_text)

        print(f"\n✅ 转写完成（已转换为简体中文），结果保存至：{output_path}")
        return simplified_text

    except Exception as e:
        print(f"转写过程出错：{str(e)}")
        return None


if __name__ == "__main__":
    # 安装繁转简依赖（首次运行需要）
    try:
        import zhconv
    except ImportError:
        print("正在安装繁转简依赖...")
        subprocess.run(["pip", "install", "zhconv"], check=True)
        import zhconv

    # 替换为你的音频文件路径
    audio_file = r"D:\Net_Program\test\whisper-test.wav"
    transcribe_audio(audio_file)

ffmpeg -i 输入文件.mp3 -ar 16000 -ac 1 输出文件.wav

本地离线部署 Whisper 语音转写

本地离线部署 Whisper 语音转写

基础环境准备

安装 Python

验证安装

安装 Whisper

安装音频处理依赖

下载 Whisper 模型

命令行直接转写

更多推荐文章

相关免费在线工具

通过 Python 脚本调用

常见问题处理

内存不足

音频格式不兼容

模型下载速度慢

小结

更多推荐文章

相关免费在线工具

本地离线部署 Whisper 语音转写

本地离线部署 Whisper 语音转写

基础环境准备

安装 Python

验证安装

安装 Whisper

安装音频处理依赖

下载 Whisper 模型

命令行直接转写

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

通过 Python 脚本调用

常见问题处理

内存不足

音频格式不兼容

模型下载速度慢

小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具