本地离线部署whisper模型进行话音转写，亲测可用

优质文章学习记录

11 Apr 2026 — 5 min read

在本地搭建 Whisper 语音转写环境比较简单，以下是详细步骤，适用于 Windows、macOS 和 Linux 系统，其中windows系统亲测可用：

一、基础环境准备

安装 Python
确保安装 Python 3.8+：
- 下载地址：python.org/downloads
- 安装时勾选 "Add Python to PATH"（关键步骤）
验证 Python 安装
打开命令行（CMD/PowerShell/ 终端），输入：python --version # 或 python3 --version（macOS/Linux），显示版本号即表示安装成功。

二、安装 Whisper

# 国内镜像加速（可选）

pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple

安装核心库
命令行输入以下命令（国内用户可加镜像加速）：
# 基础安装（默认包含轻量模型支持） pip install openai-whisper
安装音频处理依赖
Whisper 需要额外工具处理音频格式：Windows：下载并安装 FFmpeg，将 ffmpeg.exe 所在目录添加到系统环境变量 PATH。

三、下载 Whisper 模型（可选）

Whisper 会自动下载所需模型，也可提前手动下载（推荐大型模型 large-v3 以获得最佳效果）：

# 安装时指定模型（自动下载） pip install "openai-whisper[large-v3]"

模型会保存在以下路径（可手动替换或管理）：

Windows：C:\Users\你的用户名\.cache\whisper\
macOS/Linux：~/.cache/whisper/

四、基本使用方法

1. 命令行直接转写

# 转写音频文件（支持 WAV/MP3/MP4 等格式）

whisper 你的音频文件路径.wav --model large-v3 --language Chinese

# 示例（替换为你的文件路径）

whisper D:\Net_Program\test\whisper-test.wav --model large-v3 --language Chinese

2. 关键参数说明

--model：指定模型（tiny/base/small/medium/large-v3，越大精度越高，需求资源越多）
--language Chinese：指定语言为中文（避免自动检测错误）
--output_dir 输出目录：指定结果保存路径
--format txt：输出格式（支持 txt/srt/vtt 等）

五、Python 脚本调用（进阶）

import whisper
import os
import pathlib
import subprocess
from zhconv import convert # 用于繁转简

def check_ffmpeg():
"""检查FFmpeg是否安装并配置正确"""
try:
subprocess.run(
["ffmpeg", "-version"],
check=True,
stdout=subprocess.PIPE,
stderr=subprocess.PIPE,
text=True
)
return True
except FileNotFoundError:
print("错误：未找到FFmpeg工具，请先安装并配置环境变量")
return False
except Exception as e:
print(f"FFmpeg检查失败：{str(e)}")
return False

def transcribe_audio(audio_path, model_name="large-v3", language="Chinese"):
# 检查FFmpeg
if not check_ffmpeg():
return None

# 验证音频文件路径
audio_path = str(pathlib.Path(audio_path).resolve())

if not os.path.exists(audio_path):
print(f"错误：音频文件不存在 '{audio_path}'")
return None

if not os.path.isfile(audio_path):
print(f"错误：'{audio_path}' 不是有效的文件")
return None

# 加载模型并转写
try:
print(f"开始加载模型 {model_name}...")
model = whisper.load_model(model_name, device="cpu")

print(f"开始转写文件：{audio_path}")
# 关键设置：明确指定中文，并关闭自动语言检测
result = model.transcribe(
audio=audio_path,
language="Chinese", # 强制指定中文
verbose=True,
fp16=False,
initial_prompt="请用简体中文转写，不要使用繁体中文。" # 提示模型使用简体
)

# 强制将结果转换为简体中文（双重保险）
simplified_text = convert(result["text"], 'zh-cn')

# 保存结果
output_dir = "whisper_results"
os.makedirs(output_dir, exist_ok=True)
audio_name = os.path.splitext(os.path.basename(audio_path))[0]
output_path = os.path.join(output_dir, f"{audio_name}_transcript.txt")

with open(output_path, "w", encoding="utf-8") as f:
f.write(simplified_text)

print(f"\n✅ 转写完成（已转换为简体中文），结果保存至：{output_path}")
return simplified_text

except Exception as e:
print(f"转写过程出错：{str(e)}")
return None

if __name__ == "__main__":
# 安装繁转简依赖（首次运行需要）
try:
import zhconv
except ImportError:
print("正在安装繁转简依赖...")
subprocess.run(["pip", "install", "zhconv"], check=True)
import zhconv

# 替换为你的音频文件路径
audio_file = r"D:\Net_Program\test\whisper-test.wav"
transcribe_audio(audio_file)

六、常见问题解决

内存不足
- 若提示 OutOfMemoryError，换用更小的模型（如 medium 或 small）
- 关闭其他占用内存的程序（large-v3 建议至少 16GB 内存）
音频格式错误
- 用 FFmpeg 转换格式：ffmpeg -i 输入文件.mp3 -ar 16000 -ac 1 输出文件.wav（转为 16kHz 单声道 WAV）
模型下载慢
- 手动下载模型文件（可在 Hugging Face 找到），放入 .cache/whisper/ 目录

通过以上步骤，你可以在本地搭建一个稳定的 Whisper 转写环境，无需依赖 Ollama，直接调用模型进行语音转写。如果追求更高精度，优先使用 large-v3 模型；若注重速度或资源有限，可选择 small 或 base 模型。

教你一步步在服务器/本地(Linux/Windows) 部署鸣潮QQ机器人，并将其接入大语言模型，实现通过机器人进行库街区签到、练度查询、攻略查询等功能（1）

准备工作一台轻量级服务器/ 本地windows/linux能够在服务器/本地科学上网环境部署笔者所演示的环境为阿里云服务器（2核CPU，2GIB内存，40GIB系统盘），操作系统为 Ubuntu 24.04. 确保已成功安装Python环境（版本须>3.8，建议>=3.12，不建议>=3.13）确保已成功安装git 如果你没有安装git且的系统是ubuntu，安装git只需要输入如果系统为Windows，则自行前往 🔗官网下载安装包安装即可创建虚拟环境从 Python 3.11 开始，Debian 和 Ubuntu 默认启用了 "Externally-Managed-Environment"（外部管理环境）保护机制，

IoT DevOps实战：基于设备影子（Shadow）的万级机器人梯控集群自动化运维架构

摘要：当机器人梯控设备数量突破 10,000 台，传统的“SSH/VPN 单点登录”维护模式将成为运维灾难。如何确保分布在不同网络环境下的电梯网关配置一致性？如何实现固件的灰度发布（Canary Release）与回滚？本文将从架构设计角度，探讨一种基于“期望状态（Desired） vs 报告状态（Reported）”的自动化运维模型。我们将利用鲁邦通EC6200机器人梯控产品对 Python 与 MQTT 的原生支持，构建一套 Infrastructure as Code（基础设施即代码）的垂直交通管理系统。导语：在 DevOps 领域，管理成千上万个 Docker 容器已是常态。但在物理世界，管理分散在全国楼宇井道内的机器人梯控网关却依然原始。网络抖动、IP 变动、固件版本碎片化是架构师必须面对的挑战。本文将展示如何利用

基于阿里云ASR的AI电销机器人源码解析与部署指南

快速体验在开始今天关于基于阿里云ASR的AI电销机器人源码解析与部署指南的探讨之前，我想先分享一个最近让我觉得很有意思的全栈技术挑战。我们常说 AI 是未来，但作为开发者，如何将大模型（LLM）真正落地为一个低延迟、可交互的实时系统，而不仅仅是调个 API？这里有一个非常硬核的动手实验：基于火山引擎豆包大模型，从零搭建一个实时语音通话应用。它不是简单的问答，而是需要你亲手打通 ASR（语音识别）→ LLM（大脑思考）→ TTS（语音合成）的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学来说，这是个绝佳的练手项目。从0到1构建生产级别应用，脱离Demo，点击打开从0打造个人豆包实时通话AI动手实验基于阿里云ASR的AI电销机器人源码解析与部署指南一、为什么需要AI电销机器人？传统电销团队面临两个核心痛点： * 人力成本居高不下：一个电销专员日均拨打量约100-200通，有效通话时长不足30%，薪资+培训成本约占企业营收的15%-20% * ASR接入门槛高：各云厂商API文档分散，音频编码、

Techub News 專訪高鋒集團合夥人、Web3Labs行政總裁黃俊瑯：以資本與生態，賦能傳統企業Web3轉型

本次專訪聚焦高鋒集團如何透過資本投入與生態資源，助力傳統企業邁向Web3轉型。從近期戰略參與上市公司德祥地產的配股出發，高鋒集團合夥人、Web3Labs CEO黃俊瑯（Caspar）分享了集團的戰略思考、核心優勢、執行機制，以及對傳統企業轉型痛點的觀察與未來願景。這場對話展現了高鋒集團與Web3Labs在「實物資產代幣化」（RWA）等領域的創新實踐，以及他們致力成為傳統企業數字化轉型可靠夥伴的定位。戰略投資德祥地產：搭建Web3與傳統實體經濟的橋樑 Techub News：Caspar您好。我們注意到高鋒集團近期戰略性參與了上市公司德祥地產的配股。這在市場看來頗為創新，能否請您談談這次投資背後的戰略思考？黃俊瑯：這次對德祥地產的投資，對我們而言，遠超一次單純的財務投資。它是一個清晰的信號，也是我們戰略的關鍵落子。高鋒集團的核心使命之一，是搭建Web3前沿科技與傳統實體經濟之間的橋樑。德祥擁有紮實的房地產業務與實物資產，這正是探索「實物資產代幣化」（RWA）最具潛力的領域。我們這次參與，是協助其啟動轉型的第一步，未來將結合我們的專業生態，共同探索如何利用區塊鏈技術提升資產流