本地离线部署whisper模型进行话音转写，亲测可用

Ne0inhk

23 Mar 2026 — 5 min read

在本地搭建 Whisper 语音转写环境比较简单，以下是详细步骤，适用于 Windows、macOS 和 Linux 系统，其中windows系统亲测可用：

一、基础环境准备

安装 Python
确保安装 Python 3.8+：
- 下载地址：python.org/downloads
- 安装时勾选 "Add Python to PATH"（关键步骤）
验证 Python 安装
打开命令行（CMD/PowerShell/ 终端），输入：python --version # 或 python3 --version（macOS/Linux），显示版本号即表示安装成功。

二、安装 Whisper

# 国内镜像加速（可选）

pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple

安装核心库
命令行输入以下命令（国内用户可加镜像加速）：
# 基础安装（默认包含轻量模型支持） pip install openai-whisper
安装音频处理依赖
Whisper 需要额外工具处理音频格式：Windows：下载并安装 FFmpeg，将 ffmpeg.exe 所在目录添加到系统环境变量 PATH。

三、下载 Whisper 模型（可选）

Whisper 会自动下载所需模型，也可提前手动下载（推荐大型模型 large-v3 以获得最佳效果）：

# 安装时指定模型（自动下载） pip install "openai-whisper[large-v3]"

模型会保存在以下路径（可手动替换或管理）：

Windows：C:\Users\你的用户名\.cache\whisper\
macOS/Linux：~/.cache/whisper/

四、基本使用方法

1. 命令行直接转写

# 转写音频文件（支持 WAV/MP3/MP4 等格式）

whisper 你的音频文件路径.wav --model large-v3 --language Chinese

# 示例（替换为你的文件路径）

whisper D:\Net_Program\test\whisper-test.wav --model large-v3 --language Chinese

2. 关键参数说明

--model：指定模型（tiny/base/small/medium/large-v3，越大精度越高，需求资源越多）
--language Chinese：指定语言为中文（避免自动检测错误）
--output_dir 输出目录：指定结果保存路径
--format txt：输出格式（支持 txt/srt/vtt 等）

五、Python 脚本调用（进阶）

import whisper
import os
import pathlib
import subprocess
from zhconv import convert # 用于繁转简

def check_ffmpeg():
"""检查FFmpeg是否安装并配置正确"""
try:
subprocess.run(
["ffmpeg", "-version"],
check=True,
stdout=subprocess.PIPE,
stderr=subprocess.PIPE,
text=True
)
return True
except FileNotFoundError:
print("错误：未找到FFmpeg工具，请先安装并配置环境变量")
return False
except Exception as e:
print(f"FFmpeg检查失败：{str(e)}")
return False

def transcribe_audio(audio_path, model_name="large-v3", language="Chinese"):
# 检查FFmpeg
if not check_ffmpeg():
return None

# 验证音频文件路径
audio_path = str(pathlib.Path(audio_path).resolve())

if not os.path.exists(audio_path):
print(f"错误：音频文件不存在 '{audio_path}'")
return None

if not os.path.isfile(audio_path):
print(f"错误：'{audio_path}' 不是有效的文件")
return None

# 加载模型并转写
try:
print(f"开始加载模型 {model_name}...")
model = whisper.load_model(model_name, device="cpu")

print(f"开始转写文件：{audio_path}")
# 关键设置：明确指定中文，并关闭自动语言检测
result = model.transcribe(
audio=audio_path,
language="Chinese", # 强制指定中文
verbose=True,
fp16=False,
initial_prompt="请用简体中文转写，不要使用繁体中文。" # 提示模型使用简体
)

# 强制将结果转换为简体中文（双重保险）
simplified_text = convert(result["text"], 'zh-cn')

# 保存结果
output_dir = "whisper_results"
os.makedirs(output_dir, exist_ok=True)
audio_name = os.path.splitext(os.path.basename(audio_path))[0]
output_path = os.path.join(output_dir, f"{audio_name}_transcript.txt")

with open(output_path, "w", encoding="utf-8") as f:
f.write(simplified_text)

print(f"\n✅ 转写完成（已转换为简体中文），结果保存至：{output_path}")
return simplified_text

except Exception as e:
print(f"转写过程出错：{str(e)}")
return None

if __name__ == "__main__":
# 安装繁转简依赖（首次运行需要）
try:
import zhconv
except ImportError:
print("正在安装繁转简依赖...")
subprocess.run(["pip", "install", "zhconv"], check=True)
import zhconv

# 替换为你的音频文件路径
audio_file = r"D:\Net_Program\test\whisper-test.wav"
transcribe_audio(audio_file)

六、常见问题解决

内存不足
- 若提示 OutOfMemoryError，换用更小的模型（如 medium 或 small）
- 关闭其他占用内存的程序（large-v3 建议至少 16GB 内存）
音频格式错误
- 用 FFmpeg 转换格式：ffmpeg -i 输入文件.mp3 -ar 16000 -ac 1 输出文件.wav（转为 16kHz 单声道 WAV）
模型下载慢
- 手动下载模型文件（可在 Hugging Face 找到），放入 .cache/whisper/ 目录

通过以上步骤，你可以在本地搭建一个稳定的 Whisper 转写环境，无需依赖 Ollama，直接调用模型进行语音转写。如果追求更高精度，优先使用 large-v3 模型；若注重速度或资源有限，可选择 small 或 base 模型。

Llama.cpp

Llama.cpp * 1. Llama.cpp 概述 * 主要特性 * 2. Python 绑定 API * 2.1 安装和导入 * 2.2 核心类和方法 * 3. 模型加载和初始化 * 3.1 基础初始化 * 3.2 完整初始化参数 * 3.3 GPU支持配置 * 4. 文本生成 API * 4.1 基础文本生成 * 4.2 生成参数详解 * 4.3 流式生成 * 4.4 带参数的生成示例 * 5. 聊天对话 API * 5.1 基础聊天 * 5.

ClawdBot真实案例：树莓派4上同时运行OCR/Whisper/vLLM，15用户并发无卡顿

ClawdBot真实案例：树莓派4上同时运行OCR/Whisper/vLLM，15用户并发无卡顿 1. 什么是ClawdBot？一个真正属于你的本地AI助手 ClawdBot不是另一个云端API包装器，也不是需要注册账号、绑定手机号的SaaS服务。它是一个你完全掌控的个人AI助手——所有计算发生在你自己的设备上，消息不上传、模型不调用第三方服务、对话历史默认不留存。你可以把它装在树莓派4里放在书桌角落，也可以部署在老旧笔记本上作为家庭AI中枢，甚至塞进一台闲置的NUC里变成办公室智能前台。它的核心设计哲学很朴素：AI能力应该像电和水一样，成为你设备的底层能力，而不是需要反复登录的远程服务。当你在终端输入clawdbot devices list，看到的是真实连接到你本地机器的设备列表；当你执行clawdbot models list，列出的是正在你内存中运行的vLLM实例；当你在Telegram里发一条语音，转写、翻译、响应全过程都在你家里的树莓派上完成——没有数据离开你的局域网。这种“本地即服务”的模式，带来三个实实在在的好处：一是隐私可控，聊天内容、图片、语音全部留在

【AIGC】ChatGPT 记忆功能揭秘：使用与管理的全方位指南

博客主页： [小ᶻ☡꙳ᵃⁱᵍᶜ꙳]本文专栏: AIGC |ChatGPT 文章目录 * 💯前言 * 💯记忆功能的概念与作用 * 概念解析 * 作用详述 * 总结 * 💯记忆功能的开启与关闭 * 开启记忆功能 * 关闭记忆功能 * 关闭记忆功能的影响 * 注意事项 * 总结 * 💯查看与管理记忆 * 查看已保存的记忆： * 删除特定记忆 * 删除全部记忆 * 记忆的隐私保护 * 总结 * 💯记忆功能的隐私保护 * 用户控制权 * 安全与隐私保障 * 隐私政策的透明度 * 后端操作的透明度 * 总结 * 💯记忆功能与GPTs的关系 * 当前状态 * 拓展理解 * 未来展望 * 潜在影响 * 隐私与安全考虑 * 总结 * 💯记忆功能的训练应用 * 记忆数据的训练用途 * 行为模式识别 * 记忆功能的训练影响 * 用户选择与数据使用 * 长期影响和道德考量 * 总结 *

AI小说创作革命：5分钟从创意到完整作品的智能写作神器

AI小说创作革命：5分钟从创意到完整作品的智能写作神器【免费下载链接】AI_NovelGenerator使用ai生成多章节的长篇小说，自动衔接上下文、伏笔项目地址: https://gitcode.com/GitHub_Trending/ai/AI_NovelGenerator 你是否曾经梦想创作一部属于自己的长篇小说，却苦于无从下笔？现在，AI_NovelGenerator将彻底改变你的创作方式，让写作从零到一变得前所未有的简单！ 🎨 创作新体验：告别传统写作的三大痛点创意枯竭不再是问题还在为剧情发展发愁吗？AI_NovelGenerator内置的智能剧情引擎能够根据你的初始设定，自动生成逻辑严密、情节丰富的发展路线。无论你是想要创作科幻史诗还是都市情感故事，系统都能为你提供源源不断的创意支持。角色塑造变得轻而易举每个角色的成长轨迹、性格变化、人际关系发展都被系统精确记录。当生成新章节时，AI会基于角色的当前状态创作符合逻辑的行为和对话，确保角色形象立体鲜活。前后一致性的完美保障你是否遇到过这样的困扰：主角在第三章受伤，到了第四章却毫发无损？AI_No