本地离线部署whisper模型进行话音转写，亲测可用

优质文章学习记录

10 Apr 2026 — 5 min read

在本地搭建 Whisper 语音转写环境比较简单，以下是详细步骤，适用于 Windows、macOS 和 Linux 系统，其中windows系统亲测可用：

一、基础环境准备

安装 Python
确保安装 Python 3.8+：
- 下载地址：python.org/downloads
- 安装时勾选 "Add Python to PATH"（关键步骤）
验证 Python 安装
打开命令行（CMD/PowerShell/ 终端），输入：python --version # 或 python3 --version（macOS/Linux），显示版本号即表示安装成功。

二、安装 Whisper

# 国内镜像加速（可选）

pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple

安装核心库
命令行输入以下命令（国内用户可加镜像加速）：
# 基础安装（默认包含轻量模型支持） pip install openai-whisper
安装音频处理依赖
Whisper 需要额外工具处理音频格式：Windows：下载并安装 FFmpeg，将 ffmpeg.exe 所在目录添加到系统环境变量 PATH。

三、下载 Whisper 模型（可选）

Whisper 会自动下载所需模型，也可提前手动下载（推荐大型模型 large-v3 以获得最佳效果）：

# 安装时指定模型（自动下载） pip install "openai-whisper[large-v3]"

模型会保存在以下路径（可手动替换或管理）：

Windows：C:\Users\你的用户名\.cache\whisper\
macOS/Linux：~/.cache/whisper/

四、基本使用方法

1. 命令行直接转写

# 转写音频文件（支持 WAV/MP3/MP4 等格式）

whisper 你的音频文件路径.wav --model large-v3 --language Chinese

# 示例（替换为你的文件路径）

whisper D:\Net_Program\test\whisper-test.wav --model large-v3 --language Chinese

2. 关键参数说明

--model：指定模型（tiny/base/small/medium/large-v3，越大精度越高，需求资源越多）
--language Chinese：指定语言为中文（避免自动检测错误）
--output_dir 输出目录：指定结果保存路径
--format txt：输出格式（支持 txt/srt/vtt 等）

五、Python 脚本调用（进阶）

import whisper
import os
import pathlib
import subprocess
from zhconv import convert # 用于繁转简

def check_ffmpeg():
"""检查FFmpeg是否安装并配置正确"""
try:
subprocess.run(
["ffmpeg", "-version"],
check=True,
stdout=subprocess.PIPE,
stderr=subprocess.PIPE,
text=True
)
return True
except FileNotFoundError:
print("错误：未找到FFmpeg工具，请先安装并配置环境变量")
return False
except Exception as e:
print(f"FFmpeg检查失败：{str(e)}")
return False

def transcribe_audio(audio_path, model_name="large-v3", language="Chinese"):
# 检查FFmpeg
if not check_ffmpeg():
return None

# 验证音频文件路径
audio_path = str(pathlib.Path(audio_path).resolve())

if not os.path.exists(audio_path):
print(f"错误：音频文件不存在 '{audio_path}'")
return None

if not os.path.isfile(audio_path):
print(f"错误：'{audio_path}' 不是有效的文件")
return None

# 加载模型并转写
try:
print(f"开始加载模型 {model_name}...")
model = whisper.load_model(model_name, device="cpu")

print(f"开始转写文件：{audio_path}")
# 关键设置：明确指定中文，并关闭自动语言检测
result = model.transcribe(
audio=audio_path,
language="Chinese", # 强制指定中文
verbose=True,
fp16=False,
initial_prompt="请用简体中文转写，不要使用繁体中文。" # 提示模型使用简体
)

# 强制将结果转换为简体中文（双重保险）
simplified_text = convert(result["text"], 'zh-cn')

# 保存结果
output_dir = "whisper_results"
os.makedirs(output_dir, exist_ok=True)
audio_name = os.path.splitext(os.path.basename(audio_path))[0]
output_path = os.path.join(output_dir, f"{audio_name}_transcript.txt")

with open(output_path, "w", encoding="utf-8") as f:
f.write(simplified_text)

print(f"\n✅ 转写完成（已转换为简体中文），结果保存至：{output_path}")
return simplified_text

except Exception as e:
print(f"转写过程出错：{str(e)}")
return None

if __name__ == "__main__":
# 安装繁转简依赖（首次运行需要）
try:
import zhconv
except ImportError:
print("正在安装繁转简依赖...")
subprocess.run(["pip", "install", "zhconv"], check=True)
import zhconv

# 替换为你的音频文件路径
audio_file = r"D:\Net_Program\test\whisper-test.wav"
transcribe_audio(audio_file)

六、常见问题解决

内存不足
- 若提示 OutOfMemoryError，换用更小的模型（如 medium 或 small）
- 关闭其他占用内存的程序（large-v3 建议至少 16GB 内存）
音频格式错误
- 用 FFmpeg 转换格式：ffmpeg -i 输入文件.mp3 -ar 16000 -ac 1 输出文件.wav（转为 16kHz 单声道 WAV）
模型下载慢
- 手动下载模型文件（可在 Hugging Face 找到），放入 .cache/whisper/ 目录

通过以上步骤，你可以在本地搭建一个稳定的 Whisper 转写环境，无需依赖 Ollama，直接调用模型进行语音转写。如果追求更高精度，优先使用 large-v3 模型；若注重速度或资源有限，可选择 small 或 base 模型。

纯文本大模型训练：从BERT到LLaMA系列全覆盖

纯文本大模型训练：从BERT到LLaMA系列的高效实践在AI技术飞速演进的今天，大模型已不再是实验室里的稀有物种，而是逐步走向企业应用和开发者日常工具链的核心组件。无论是智能客服、自动代码生成，还是知识问答系统，背后都离不开像LLaMA、Qwen、ChatGLM这类大规模语言模型的支持。然而，真正让这些“巨无霸”落地，并非简单加载权重就能完成——训练、微调、对齐、推理、部署，每一个环节都可能成为拦路虎。尤其是在资源有限的情况下，如何用一张24GB显存的消费级GPU跑通70B参数的模型？如何在不写一行分布式代码的前提下实现跨多卡训练？又该如何快速将一个微调后的模型发布为可用API服务？这些问题，正是 ms-swift 框架试图解决的核心挑战。作为魔搭社区推出的开源大模型开发框架，它不像传统工具那样只聚焦于某一个环节，而是提供了一套覆盖“预训练→微调→对齐→推理→评测→部署”全生命周期的一站式解决方案。更重要的是，它通过高度抽象的设计，把原本复杂的底层细节封装成简洁接口，让开发者可以专注于任务本身，而非工程实现。为什么我们需要一个统一的大模型开发框架？过去几年，Hugg

VS Code+GitHub Copilot避坑指南：从安装配置到最佳实践的完整手册

VS Code + GitHub Copilot 深度驾驭手册：从避坑到精通的实战心法如果你是一名 Visual Studio Code 的用户，并且对那个传说中能“读懂你心思”的 AI 编程伙伴 GitHub Copilot 感到好奇，甚至已经跃跃欲试，那么这篇文章就是为你准备的。我们不再重复那些泛泛而谈的“AI 将改变编程”的论调，而是直接切入核心：如何在你最熟悉的 VS Code 环境中，真正驯服 Copilot，让它从一个偶尔“胡言乱语”的助手，变成你编码流中如臂使指的高效组件。我们将聚焦于从安装配置的第一分钟开始，到融入你日常工作流的每一个细节，过程中你会遇到哪些真实的“坑”，以及如何优雅地跨过它们。这不是一篇简单的功能罗列，而是一份融合了配置技巧、心智模型和实战策略的深度指南。 1. 环境搭建与初始配置：奠定高效协作的基石在兴奋地敲下第一行代码之前，一个稳固且经过优化的起点至关重要。许多初次使用者遇到的挫折，

Llama-3.2-3B开箱体验：Ollama部署+多语言对话实测

Llama-3.2-3B开箱体验：Ollama部署+多语言对话实测 1. 快速了解Llama-3.2-3B Llama-3.2-3B是Meta最新推出的轻量级多语言大模型，专门针对对话场景进行了优化。这个3B参数的模型在保持较小体积的同时，提供了相当不错的文本生成能力，特别适合本地部署和快速响应场景。与之前版本相比，Llama-3.2-3B有几个明显优势： * 多语言支持更好：在中文、英文、法文、德文等多种语言上都有不错的表现 * 对话优化：专门针对聊天场景进行了指令微调，回答更加自然 * 部署简单：通过Ollama可以一键部署，无需复杂配置 * 资源友好：3B参数规模在消费级硬件上也能流畅运行 2. 环境准备与快速部署 2.1 准备工作部署Llama-3.2-3B前，确保你的设备满足以下要求： * 内存：至少8GB RAM（推荐16GB） * 存储：需要约2GB空间存放模型文件 * 系统：支持Windows、macOS、Linux主流系统 2.2 一键部署步骤

LLaMA Factory 核心原理讲解

大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了LLaMA Factory 核心原理讲解，希望能对学习大模型的同学们有所帮助。文章目录 * 1. 前言 * 2. 核心模块讲解 * 3. SFT流程讲解 1. 前言在之前的文章主要介绍了LLaMA Factory的操作方法，其中包括： * LLaMA Factory多卡微调的实战教程 * 基于华为昇腾910B和LLaMA Factory多卡微调的实战教程 * LLaMA Factory添加新模型template的实战解析 * LLaMA Factory在预测阶段时添加原有问题的实战代码 * 详解大模型多轮对话的数据组织形式但也有同学提出疑问