本地离线部署whisper模型进行话音转写,亲测可用

在本地搭建 Whisper 语音转写环境比较简单,以下是详细步骤,适用于 Windows、macOS 和 Linux 系统,其中windows系统亲测可用:

一、基础环境准备

  1. 安装 Python
    确保安装 Python 3.8+:
  2. 验证 Python 安装
    打开命令行(CMD/PowerShell/ 终端),输入:python --version # 或 python3 --version(macOS/Linux),显示版本号即表示安装成功。

二、安装 Whisper

         # 国内镜像加速(可选)

          pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple

  1. 安装核心库
    命令行输入以下命令(国内用户可加镜像加速):
    # 基础安装(默认包含轻量模型支持) pip install openai-whisper
  2. 安装音频处理依赖
    Whisper 需要额外工具处理音频格式:Windows:下载并安装 FFmpeg,将 ffmpeg.exe 所在目录添加到系统环境变量 PATH

三、下载 Whisper 模型(可选)

Whisper 会自动下载所需模型,也可提前手动下载(推荐大型模型 large-v3 以获得最佳效果):

# 安装时指定模型(自动下载) pip install "openai-whisper[large-v3]"

模型会保存在以下路径(可手动替换或管理):

  • Windows:C:\Users\你的用户名\.cache\whisper\
  • macOS/Linux:~/.cache/whisper/

四、基本使用方法

1. 命令行直接转写

# 转写音频文件(支持 WAV/MP3/MP4 等格式)

whisper 你的音频文件路径.wav --model large-v3 --language Chinese

# 示例(替换为你的文件路径)

whisper D:\Net_Program\test\whisper-test.wav --model large-v3 --language Chinese

2. 关键参数说明
  • --model:指定模型(tiny/base/small/medium/large-v3,越大精度越高,需求资源越多)
  • --language Chinese:指定语言为中文(避免自动检测错误)
  • --output_dir 输出目录:指定结果保存路径
  • --format txt:输出格式(支持 txt/srt/vtt 等)

五、Python 脚本调用(进阶)

import whisper
import os
import pathlib
import subprocess
from zhconv import convert  # 用于繁转简

def check_ffmpeg():
    """检查FFmpeg是否安装并配置正确"""
    try:
        subprocess.run(
            ["ffmpeg", "-version"],
            check=True,
            stdout=subprocess.PIPE,
            stderr=subprocess.PIPE,
            text=True
        )
        return True
    except FileNotFoundError:
        print("错误:未找到FFmpeg工具,请先安装并配置环境变量")
        return False
    except Exception as e:
        print(f"FFmpeg检查失败:{str(e)}")
        return False

def transcribe_audio(audio_path, model_name="large-v3", language="Chinese"):
    # 检查FFmpeg
    if not check_ffmpeg():
        return None

    # 验证音频文件路径
    audio_path = str(pathlib.Path(audio_path).resolve())
    
    if not os.path.exists(audio_path):
        print(f"错误:音频文件不存在 '{audio_path}'")
        return None
    
    if not os.path.isfile(audio_path):
        print(f"错误:'{audio_path}' 不是有效的文件")
        return None

    # 加载模型并转写
    try:
        print(f"开始加载模型 {model_name}...")
        model = whisper.load_model(model_name, device="cpu")
        
        print(f"开始转写文件:{audio_path}")
        # 关键设置:明确指定中文,并关闭自动语言检测
        result = model.transcribe(
            audio=audio_path,
            language="Chinese",  # 强制指定中文
            verbose=True,
            fp16=False,
            initial_prompt="请用简体中文转写,不要使用繁体中文。"  # 提示模型使用简体
        )
        
        # 强制将结果转换为简体中文(双重保险)
        simplified_text = convert(result["text"], 'zh-cn')
        
        # 保存结果
        output_dir = "whisper_results"
        os.makedirs(output_dir, exist_ok=True)
        audio_name = os.path.splitext(os.path.basename(audio_path))[0]
        output_path = os.path.join(output_dir, f"{audio_name}_transcript.txt")
        
        with open(output_path, "w", encoding="utf-8") as f:
            f.write(simplified_text)
        
        print(f"\n✅ 转写完成(已转换为简体中文),结果保存至:{output_path}")
        return simplified_text
        
    except Exception as e:
        print(f"转写过程出错:{str(e)}")
        return None

if __name__ == "__main__":
    # 安装繁转简依赖(首次运行需要)
    try:
        import zhconv
    except ImportError:
        print("正在安装繁转简依赖...")
        subprocess.run(["pip", "install", "zhconv"], check=True)
        import zhconv

    # 替换为你的音频文件路径
    audio_file = r"D:\Net_Program\test\whisper-test.wav"
    transcribe_audio(audio_file)
    

六、常见问题解决

  1. 内存不足
    • 若提示 OutOfMemoryError,换用更小的模型(如 medium 或 small
    • 关闭其他占用内存的程序(large-v3 建议至少 16GB 内存)
  2. 音频格式错误
    • 用 FFmpeg 转换格式:ffmpeg -i 输入文件.mp3 -ar 16000 -ac 1 输出文件.wav(转为 16kHz 单声道 WAV)
  3. 模型下载慢
    • 手动下载模型文件(可在 Hugging Face 找到),放入 .cache/whisper/ 目录

通过以上步骤,你可以在本地搭建一个稳定的 Whisper 转写环境,无需依赖 Ollama,直接调用模型进行语音转写。如果追求更高精度,优先使用 large-v3 模型;若注重速度或资源有限,可选择 small 或 base 模型。

Read more

从0到1彻底掌握Trae:手把手带你实战开发AI Chatbot,提升开发效率的必备指南!

从0到1彻底掌握Trae:手把手带你实战开发AI Chatbot,提升开发效率的必备指南!

我正在参加Trae「超级体验官」创意实践征文,本文所使用的 Trae 免费下载链接:www.trae.ai/?utm_source… 暴富技巧 比特鹰作为国内领先的 AI+Web3 领域企业,团队充满年轻活力 ——95% 成员为 00 后,不仅技术氛围浓厚,还会为每位成员量身定制成长规划;在职业发展层面,公司前景广阔,提供餐饮补贴、租房补贴、年底奖金、股票期权及额外假期等多重福利,助力员工在 35 岁前实现财富自由 目前公司正招聘海外运营、前端、后端、智能合约、AI 开发、HR 等岗位,有意向者可加微信联系: ai_lianqq 前言 大家好,我是小Q,字节跳动近期推出了一款 AI IDE—— Trae,

WebKit Insie: WebKit 调试(二)

览郴竿谂1.什么是 Roslyn 聊起 Roslyn 可能对于有部分小伙伴有些陌生,有些小伙听过但是没接触过,有些小伙伴可能比较擅长,其实在这之前我也是个懵的,听过但是没深入了解,因为我不知道并不影响我做一些增删改查,但是如果你要深入,或者写一些框架底层或者提升效率的工具以及扩展,那这个是必须掌握的技术。 年初时,我在与技术大牛 痴者工良 交流的过程中,算是正式接触到 Roslyn,瞬间被它的强大能力所吸引。他深入浅出的讲解让我意识到,这不仅是编译器黑科技,更是提升代码质量与开发效率的利器。受他启发,我开始系统学习,虽断断续续折腾了一阵,但一直未做总结。最近终于得空,便将所学梳理成文,分享出来,既是记录,也是致敬好朋友严架的帮助。 在正式认识 Roslyn 之前,我们必须先对咱们 C# .NET 的编译流程有个大概了解,当然 VB.NET 也适用,但是接受不来他的语法,有些小伙伴可能知道或者了解,简单的给个图感受一下。 image 1. C#

如何有效解决 Trae 上下文丢失问题——让 AI 记住你的代码与需求

在日常使用 Trae(AI 编程助手或 IDE 插件)进行开发时,许多开发者会遇到一个典型困扰:上下文丢失。具体表现为:当我们切换到另一个文件、开启新对话,或者在一次长会话中讨论多个主题后,AI 似乎“忘了”之前提到的代码结构、变量定义、函数用途,甚至是项目的业务规则和约束。这会导致重复解释、生成不符合需求的代码,甚至需要反复澄清,影响工作效率。 一、为什么会出现上下文丢失? 1. 模型 token 长度限制 Trae 背后的 AI 模型在一次推理中能处理的上下文长度是有限的(即 token 上限)。一旦对话或代码量超出这个限制,较早的内容会被截断或丢弃,AI 就无法再引用它们。 2. 会话与文件的切换 在不同的文件、标签页或对话主题之间切换时,如果没有显式传递原有背景,Trae 并不会自动将这些历史信息带入新场景。 3. 缺乏显式的上下文注入

Claude Code安装与使用完全指南:2026 年最前沿的 AI 编程助手

Claude Code安装与使用完全指南:2026 年最前沿的 AI 编程助手

文章目录 * 前言 * 一、什么是 Claude Code? * 1.1 定义与定位 * 1.2 技术优势 * 二、安装前的环境准备 * 2.1 系统要求 * 2.2 前置依赖 * 三、Claude Code 全平台安装教程 * 3.1 安装方式对比 * 3.2 Windows 系统安装 * 3.3 macOS 系统安装 * 3.5 安装后初始化 * 四、配置与优化 * 4.1 配置文件位置 * 4.2 跳过新手引导 * 4.3 接入国产大模型(免翻墙方案)