本地离线部署whisper模型进行话音转写，亲测可用

优质文章学习记录

07 Apr 2026 — 5 min read

在本地搭建 Whisper 语音转写环境比较简单，以下是详细步骤，适用于 Windows、macOS 和 Linux 系统，其中windows系统亲测可用：

一、基础环境准备

安装 Python
确保安装 Python 3.8+：
- 下载地址：python.org/downloads
- 安装时勾选 "Add Python to PATH"（关键步骤）
验证 Python 安装
打开命令行（CMD/PowerShell/ 终端），输入：python --version # 或 python3 --version（macOS/Linux），显示版本号即表示安装成功。

二、安装 Whisper

# 国内镜像加速（可选）

pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple

安装核心库
命令行输入以下命令（国内用户可加镜像加速）：
# 基础安装（默认包含轻量模型支持） pip install openai-whisper
安装音频处理依赖
Whisper 需要额外工具处理音频格式：Windows：下载并安装 FFmpeg，将 ffmpeg.exe 所在目录添加到系统环境变量 PATH。

三、下载 Whisper 模型（可选）

Whisper 会自动下载所需模型，也可提前手动下载（推荐大型模型 large-v3 以获得最佳效果）：

# 安装时指定模型（自动下载） pip install "openai-whisper[large-v3]"

模型会保存在以下路径（可手动替换或管理）：

Windows：C:\Users\你的用户名\.cache\whisper\
macOS/Linux：~/.cache/whisper/

四、基本使用方法

1. 命令行直接转写

# 转写音频文件（支持 WAV/MP3/MP4 等格式）

whisper 你的音频文件路径.wav --model large-v3 --language Chinese

# 示例（替换为你的文件路径）

whisper D:\Net_Program\test\whisper-test.wav --model large-v3 --language Chinese

2. 关键参数说明

--model：指定模型（tiny/base/small/medium/large-v3，越大精度越高，需求资源越多）
--language Chinese：指定语言为中文（避免自动检测错误）
--output_dir 输出目录：指定结果保存路径
--format txt：输出格式（支持 txt/srt/vtt 等）

五、Python 脚本调用（进阶）

import whisper
import os
import pathlib
import subprocess
from zhconv import convert # 用于繁转简

def check_ffmpeg():
"""检查FFmpeg是否安装并配置正确"""
try:
subprocess.run(
["ffmpeg", "-version"],
check=True,
stdout=subprocess.PIPE,
stderr=subprocess.PIPE,
text=True
)
return True
except FileNotFoundError:
print("错误：未找到FFmpeg工具，请先安装并配置环境变量")
return False
except Exception as e:
print(f"FFmpeg检查失败：{str(e)}")
return False

def transcribe_audio(audio_path, model_name="large-v3", language="Chinese"):
# 检查FFmpeg
if not check_ffmpeg():
return None

# 验证音频文件路径
audio_path = str(pathlib.Path(audio_path).resolve())

if not os.path.exists(audio_path):
print(f"错误：音频文件不存在 '{audio_path}'")
return None

if not os.path.isfile(audio_path):
print(f"错误：'{audio_path}' 不是有效的文件")
return None

# 加载模型并转写
try:
print(f"开始加载模型 {model_name}...")
model = whisper.load_model(model_name, device="cpu")

print(f"开始转写文件：{audio_path}")
# 关键设置：明确指定中文，并关闭自动语言检测
result = model.transcribe(
audio=audio_path,
language="Chinese", # 强制指定中文
verbose=True,
fp16=False,
initial_prompt="请用简体中文转写，不要使用繁体中文。" # 提示模型使用简体
)

# 强制将结果转换为简体中文（双重保险）
simplified_text = convert(result["text"], 'zh-cn')

# 保存结果
output_dir = "whisper_results"
os.makedirs(output_dir, exist_ok=True)
audio_name = os.path.splitext(os.path.basename(audio_path))[0]
output_path = os.path.join(output_dir, f"{audio_name}_transcript.txt")

with open(output_path, "w", encoding="utf-8") as f:
f.write(simplified_text)

print(f"\n✅ 转写完成（已转换为简体中文），结果保存至：{output_path}")
return simplified_text

except Exception as e:
print(f"转写过程出错：{str(e)}")
return None

if __name__ == "__main__":
# 安装繁转简依赖（首次运行需要）
try:
import zhconv
except ImportError:
print("正在安装繁转简依赖...")
subprocess.run(["pip", "install", "zhconv"], check=True)
import zhconv

# 替换为你的音频文件路径
audio_file = r"D:\Net_Program\test\whisper-test.wav"
transcribe_audio(audio_file)

六、常见问题解决

内存不足
- 若提示 OutOfMemoryError，换用更小的模型（如 medium 或 small）
- 关闭其他占用内存的程序（large-v3 建议至少 16GB 内存）
音频格式错误
- 用 FFmpeg 转换格式：ffmpeg -i 输入文件.mp3 -ar 16000 -ac 1 输出文件.wav（转为 16kHz 单声道 WAV）
模型下载慢
- 手动下载模型文件（可在 Hugging Face 找到），放入 .cache/whisper/ 目录

通过以上步骤，你可以在本地搭建一个稳定的 Whisper 转写环境，无需依赖 Ollama，直接调用模型进行语音转写。如果追求更高精度，优先使用 large-v3 模型；若注重速度或资源有限，可选择 small 或 base 模型。

【GitHub Copilot】Figma MCP还原设计稿生成前端代码

这里写自定义目录标题 * Step1：让AI给你配置MCP * Step2：替换成自己的Figma密钥 * Step3：如何使用 Cursor+Figma MCP的教程已经很多了，由于我所在的公司采购的是GitHub Copilot，我研究了一下直接在vscode里利用GitHub Copilot接入Figma MCP进行设计稿还原代码，大获成功，这里分享我的步骤，希望能帮到你。 Step1：让AI给你配置MCP 在vscode中打开你的项目（我的例子是一个微信小程序），呼出github copilot对话框，模式选择Agent，模型建议Claude 3.7 Sonnet，提问： https://github.com/GLips/Figma-Context-MCP 如何配置能让你在vscode里使用这个mcp 之后跟着提示狂点下一步即可完成配置，如果有什么需要装的vscode插件它会自动帮你装，甚至自动生成了配置说明文档。由于不能保证AI每次生成的答案都一致，这里附上我的运行结果作为参考，可以看到它在项目文件夹最外层建了一个.vscode文件夹，在sett

【大模型部署实战】Llama.cpp部署教程（四）：极致轻量化，老旧电脑也能部署大模型

前言你是否想体验大模型却被硬件门槛拦住？本教程专为老旧电脑、低配置办公本、无独显设备打造——通过llama.cpp工具，我们能将大模型运行门槛压到极致，实现10年前的设备也能流畅本地对话。 llama.cpp是目前最主流的轻量化推理框架，核心优势在于纯CPU优化、极低内存占用、GGUF高效模型格式。本教程区分「新手极简版（免编译）」和「进阶优化版」，无论你是电脑小白还是技术爱好者，都能跟着步骤完成部署。一、前置准备与核心认知 1.1 最低硬件配置要求先明确你的设备能不能跑，这里给出绝对最低门槛和推荐配置：硬件类型绝对最低门槛（能跑）推荐配置（流畅）处理器 Intel Core 2 Duo E8400 / AMD Athlon II X2 250 Intel i3-4130 / AMD FX-6300 及以上内存

从 0 到 1：解决 VsCode 远程连服务器后 Github Copilot 无法使用问题

从 0 到 1：解决 VS Code 远程连服务器后 GitHub Copilot 无法使用问题当您使用 VS Code 的远程功能（如 SSH 或容器）连接到服务器时，GitHub Copilot 可能无法正常工作，这通常是由于远程环境中的网络、扩展安装或身份验证问题导致的。我将一步步引导您解决这个问题，确保过程清晰可靠。请按照顺序操作，并测试每个步骤。步骤 1: 确认本地 Copilot 正常工作在开始远程连接前，先确保 Copilot 在您的本地 VS Code 中工作正常。 * 打开本地 VS Code。 * 创建一个新文件（如 test.py），输入一些代码（如 def

AIGC赋能Java编程：智能工具引领效率、创新与理解的新纪元

文章目录 * 1. AIGC驱动的智能代码补全与生成 * 2. AIGC助力错误检测与即时修复 * 3. AIGC推动代码优化与智能重构 * 4. AIGC在自动化测试中的应用 * 5. AIGC在智能文档生成与代码理解中的作用 * 《Java面向对象程序设计：AI大模型给程序员插上翅膀》 * 亮点 * 内容简介 * 目录 * 《Python金融大数据分析》 * 亮点 * 内容简介 * 目录在软件开发领域，Java作为一种历史悠久且广泛应用的编程语言，凭借其强大的跨平台能力、丰富的API和广泛的社区支持，一直是众多开发者的首选。近年来，随着人工智能生成内容（AIGC, Artificial Intelligence Generated Content）技术的迅猛发展，AI工具正逐步渗透到Java编程的各个环节，从代码编写、调试、优化到文档生成，为开发者提供了前所未有的便利和创新机会。 1. AIGC驱动的智能代码补全与生成 AIGC工具利用深度学习和自然语言处理技术，能够准确理解开发者的意图，提供智能的代码补全建议，甚至