本地离线部署whisper模型进行话音转写，亲测可用

优质文章学习记录

09 Apr 2026 — 5 min read

在本地搭建 Whisper 语音转写环境比较简单，以下是详细步骤，适用于 Windows、macOS 和 Linux 系统，其中windows系统亲测可用：

一、基础环境准备

安装 Python
确保安装 Python 3.8+：
- 下载地址：python.org/downloads
- 安装时勾选 "Add Python to PATH"（关键步骤）
验证 Python 安装
打开命令行（CMD/PowerShell/ 终端），输入：python --version # 或 python3 --version（macOS/Linux），显示版本号即表示安装成功。

二、安装 Whisper

# 国内镜像加速（可选）

pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple

安装核心库
命令行输入以下命令（国内用户可加镜像加速）：
# 基础安装（默认包含轻量模型支持） pip install openai-whisper
安装音频处理依赖
Whisper 需要额外工具处理音频格式：Windows：下载并安装 FFmpeg，将 ffmpeg.exe 所在目录添加到系统环境变量 PATH。

三、下载 Whisper 模型（可选）

Whisper 会自动下载所需模型，也可提前手动下载（推荐大型模型 large-v3 以获得最佳效果）：

# 安装时指定模型（自动下载） pip install "openai-whisper[large-v3]"

模型会保存在以下路径（可手动替换或管理）：

Windows：C:\Users\你的用户名\.cache\whisper\
macOS/Linux：~/.cache/whisper/

四、基本使用方法

1. 命令行直接转写

# 转写音频文件（支持 WAV/MP3/MP4 等格式）

whisper 你的音频文件路径.wav --model large-v3 --language Chinese

# 示例（替换为你的文件路径）

whisper D:\Net_Program\test\whisper-test.wav --model large-v3 --language Chinese

2. 关键参数说明

--model：指定模型（tiny/base/small/medium/large-v3，越大精度越高，需求资源越多）
--language Chinese：指定语言为中文（避免自动检测错误）
--output_dir 输出目录：指定结果保存路径
--format txt：输出格式（支持 txt/srt/vtt 等）

五、Python 脚本调用（进阶）

import whisper
import os
import pathlib
import subprocess
from zhconv import convert # 用于繁转简

def check_ffmpeg():
"""检查FFmpeg是否安装并配置正确"""
try:
subprocess.run(
["ffmpeg", "-version"],
check=True,
stdout=subprocess.PIPE,
stderr=subprocess.PIPE,
text=True
)
return True
except FileNotFoundError:
print("错误：未找到FFmpeg工具，请先安装并配置环境变量")
return False
except Exception as e:
print(f"FFmpeg检查失败：{str(e)}")
return False

def transcribe_audio(audio_path, model_name="large-v3", language="Chinese"):
# 检查FFmpeg
if not check_ffmpeg():
return None

# 验证音频文件路径
audio_path = str(pathlib.Path(audio_path).resolve())

if not os.path.exists(audio_path):
print(f"错误：音频文件不存在 '{audio_path}'")
return None

if not os.path.isfile(audio_path):
print(f"错误：'{audio_path}' 不是有效的文件")
return None

# 加载模型并转写
try:
print(f"开始加载模型 {model_name}...")
model = whisper.load_model(model_name, device="cpu")

print(f"开始转写文件：{audio_path}")
# 关键设置：明确指定中文，并关闭自动语言检测
result = model.transcribe(
audio=audio_path,
language="Chinese", # 强制指定中文
verbose=True,
fp16=False,
initial_prompt="请用简体中文转写，不要使用繁体中文。" # 提示模型使用简体
)

# 强制将结果转换为简体中文（双重保险）
simplified_text = convert(result["text"], 'zh-cn')

# 保存结果
output_dir = "whisper_results"
os.makedirs(output_dir, exist_ok=True)
audio_name = os.path.splitext(os.path.basename(audio_path))[0]
output_path = os.path.join(output_dir, f"{audio_name}_transcript.txt")

with open(output_path, "w", encoding="utf-8") as f:
f.write(simplified_text)

print(f"\n✅ 转写完成（已转换为简体中文），结果保存至：{output_path}")
return simplified_text

except Exception as e:
print(f"转写过程出错：{str(e)}")
return None

if __name__ == "__main__":
# 安装繁转简依赖（首次运行需要）
try:
import zhconv
except ImportError:
print("正在安装繁转简依赖...")
subprocess.run(["pip", "install", "zhconv"], check=True)
import zhconv

# 替换为你的音频文件路径
audio_file = r"D:\Net_Program\test\whisper-test.wav"
transcribe_audio(audio_file)

六、常见问题解决

内存不足
- 若提示 OutOfMemoryError，换用更小的模型（如 medium 或 small）
- 关闭其他占用内存的程序（large-v3 建议至少 16GB 内存）
音频格式错误
- 用 FFmpeg 转换格式：ffmpeg -i 输入文件.mp3 -ar 16000 -ac 1 输出文件.wav（转为 16kHz 单声道 WAV）
模型下载慢
- 手动下载模型文件（可在 Hugging Face 找到），放入 .cache/whisper/ 目录

通过以上步骤，你可以在本地搭建一个稳定的 Whisper 转写环境，无需依赖 Ollama，直接调用模型进行语音转写。如果追求更高精度，优先使用 large-v3 模型；若注重速度或资源有限，可选择 small 或 base 模型。

语音识别效率革命：whisper-large-v3-turbo一键部署指南

语音识别效率革命：whisper-large-v3-turbo一键部署指南【免费下载链接】whisper-large-v3-turbo 项目地址: https://ai.gitcode.com/hf_mirrors/openai/whisper-large-v3-turbo 在人工智能语音识别领域，模型的性能与效率往往难以兼得。然而，最新发布的whisper-large-v3-turbo模型彻底打破了这一困境，在保持与whisper-large-v3近乎一致的识别质量基础上，实现了高达8倍的速度提升。对于需要处理大量语音数据的开发者、企业用户以及研究人员而言，这一突破性进展意味着更低的时间成本、更高的工作效率和更广泛的应用可能性。本教程将详细介绍如何通过极简的一键部署流程，快速将这一高效能模型应用到实际业务场景中。模型优势深度解析：为何选择whisper-large-v3-turbo whisper-large-v3-turbo的核心竞争力来源于其创新性的模型架构优化。相较于前代模型，开发团队通过动态注意力机制调整、量化参数压缩以及推理流程重构三大技术手段，在保证语音识别

AI小说创作神器：5分钟快速部署本地自动写作平台

AI小说创作神器：5分钟快速部署本地自动写作平台【免费下载链接】AI_NovelGenerator使用ai生成多章节的长篇小说，自动衔接上下文、伏笔项目地址: https://gitcode.com/GitHub_Trending/ai/AI_NovelGenerator 还在为灵感枯竭而烦恼？想拥有一个能自动生成长篇小说的AI助手吗？今天就来教你如何在5分钟内搭建AI_NovelGenerator，开启AI辅助小说创作之旅。这款开源工具能够自动衔接上下文、埋设伏笔，让你的创作效率提升10倍！ 🚀 环境准备：零基础也能轻松搞定 Python环境检查与安装首先确保你的电脑已安装Python 3.9或更高版本。打开命令行输入以下命令检查Python版本： python --version 如果显示版本号低于3.9，请前往Python官网下载最新版本。推荐使用Python 3.10-3.12，这些版本兼容性最佳。获取AI模型API密钥你需要一个有效的API密钥来连接AI模型。支持多种服务商： * OpenAI系列（GPT-4、GPT-3.5等） * D

Java在AI时代的崛起：从传统机器学习到AIGC的全栈解决方案

个人名片 🎓作者简介：java领域优质创作者 🌐个人主页：码农阿豪 📞工作室：新空间代码工作室（提供各种软件服务) 💌个人邮箱：[[email protected]] 📱个人微信：15279484656 🌐个人导航网站：www.forff.top 💡座右铭：总有人要赢。为什么不能是我呢？ * 专栏导航：码农阿豪系列专栏导航面试专栏：收集了java相关高频面试题，面试实战总结🍻🎉🖥️ Spring5系列专栏：整理了Spring5重要知识点与实战演练，有案例可直接使用🚀🔧💻 Redis专栏：Redis从零到一学习分享，经验总结，案例实战💐📝💡 全栈系列专栏：海纳百川有容乃大，可能你想要的东西里面都有🤸🌱🚀 目录 * Java在AI时代的崛起：从传统机器学习到AIGC的全栈解决方案 * 一、Java AI生态概览：多样化的技术选择 * 1.1 深度学习框架：接轨主流AI技术 * Deep Java Library

【AIGC文生图】通义万相2.1应用拓展与蓝耘云平台实践

探索调参之道：通义万相2.1应用拓展与平台调优实践近年来，随着生成模型不断迭代升级，通义万相在图像生成领域的表现愈发引人瞩目。相比于基础的文生图使用，如何在平台应用拓展和参数调优上发掘更大潜力，已成为众多开发者与工程师关注的热点。本文将从实际应用案例出发，分享一些调参心得与平台优化策略，并着重探讨蓝耘GPU平台在这方面的独特优势，力求帮助读者快速上手并走上创新之路。一、通义万相2.1来临前几日，通义官方发布了万相最新文生图模型2.1。通义万相2.1在模型底层和交互体验上都有显著升级，具体来说： * 模型参数与语义理解升级新版本参数规模已经突破千亿级别，使得对输入文本的语义捕捉更为精准，能更好地理解复杂描述，生成的图像在细节和质感上都有明显提升。与此同时，内置的智能改写功能可以自动优化用户输入，使得图像风格和表现更符合预期。 * 生成速度与细节表现的提升得益于优化的算法和模型架构，生成速度大幅加快，尤其在高分辨率（最高支持200万像素）输出时，依然能保持流畅高效。同时，细节表现力增强后，无论是人物表情、光影效果还是场景布置，都能呈现得更加生动自