Whisper-large-v3 语音识别服务部署与开发指南 | 极客日志

PythonAI算法

Whisper-large-v3 语音识别服务部署与开发指南

Whisper-large-v3 模型支持多语言语音识别。本文介绍基于该模型的镜像部署流程，涵盖环境配置、Web 界面使用及 Python API 二次开发方法。包含硬件要求、命令行操作、常见故障排查及性能优化建议，帮助开发者快速集成语音转录功能。

神经兮兮发布于 2026/4/9更新于 2026/7/428 浏览

Whisper-large-v3 语音识别服务部署与开发指南

1. 引言

1.1 语音识别的实际价值

整理多语言会议录音、提取外语视频字幕，或是将语音笔记转为文字，这些场景在传统方法下往往费时费力。借助 Whisper-large-v3，我们可以轻松实现自动化处理。

本教程基于 OpenAI Whisper Large v3 模型构建的镜像，支持自动识别 99 种语言，提供音频上传和实时录音功能，并配有友好的 Web 界面。无论是开发者还是普通用户，都能快速上手。

1.2 教程目标

通过本文，你将掌握：

快速部署语音识别服务的方法
Web 界面的核心功能使用
通过 API 进行二次开发的流程
常见问题的排查思路

整个过程无需深厚的技术背景，按步骤操作即可完成。

2. 环境准备与快速部署

2.1 硬件和系统要求

为了保证服务顺畅运行，建议设备满足以下配置：

资源类型	推荐配置	最低要求
GPU	NVIDIA RTX 4090 D (23GB 显存)	任何支持 CUDA 的 GPU
内存	16GB 以上	8GB
存储空间	10GB 以上	5GB
操作系统	Ubuntu 24.04 LTS	Linux 系统均可

如果显卡显存有限（例如只有 8GB），不必担心。Whisper 提供了不同大小的模型版本，可以选择较小的版本，虽然识别精度略有下降，但依然可用。

2.2 三步搞定部署

部署过程非常简洁，主要包含三个步骤：

# 第一步：安装 Python 依赖包
pip install -r /root/Whisper-large-v3/requirements.txt

# 第二步：确保 FFmpeg 已安装（处理音频必备）
sudo apt-get update && sudo apt-get install -y ffmpeg

# 第三步：启动 Web 服务
python3 /root/Whisper-large-v3/app.py

执行完成后，终端会输出类似如下信息：

Running on local URL: http://127.0.0.1:7860 
Running on public URL: http://<你的 IP 地址>:7860

此时打开浏览器访问对应地址，即可进入语音识别的 Web 界面。

3. 功能详解与使用指南

3.1 Web 界面全方位介绍

Web 界面设计直观，主要功能区域包括：

音频输入区：支持上传音频文件或直接使用麦克风录音
模式选择：提供'转录'和'翻译'两种模式可选
：点击后即刻开始处理音频

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import whisper
import torch

# 自动选择 GPU 或 CPU
device = "cuda" if torch.cuda.is_available() else "cpu"

# 加载模型（首次运行会自动下载）
model = whisper.load_model("large-v3").to(device)

def transcribe_audio(file_path, task="transcribe"):
    # 加载并预处理音频
    audio = whisper.load_audio(file_path)
    audio = whisper.pad_or_trim(audio)
    mel = whisper.log_mel_spectrogram(audio).to(device)
    
    # 自动检测语言
    _, probs = model.detect_language(mel)
    detected_lang = max(probs, key=probs.get)
    
    # 执行转录或翻译
    options = dict(task=task, language=None if task == "translate" else detected_lang)
    result = model.transcribe(file_path, **options)
    return result["text"], f"检测语言：{detected_lang.upper()}"

import whisper

# 初始化模型（只需要做一次）
model = whisper.load_model("large-v3", device="cuda")

def speech_to_text(audio_path, lang=None):
    result = model.transcribe(
        audio_path,
        language=lang,  # 可以指定语言，如"zh"表示中文
        beam_size=5,    # 影响识别质量的参数
        temperature=0.0 # 设置为 0 让输出更稳定
    )
    return result["text"]

# 使用示例
text = speech_to_text("我的音频.wav", lang="zh")
print(f"识别结果：{text}")

import os
from pathlib import Path

# 设置音频文件夹路径
audio_dir = Path("我的音频文件/")
results = []

# 遍历处理所有 mp3 文件
for audio_file in audio_dir.glob("*.mp3"):
    print(f"正在处理：{audio_file.name}")
    text = speech_to_text(str(audio_file))
    results.append(f"{audio_file.name}\t{text}")

# 保存结果
with open("识别结果.txt", "w", encoding="utf-8") as f:
    f.write("文件名\t识别内容\n")
    f.write("\n".join(results))

print("批量处理完成！")

问题现象	可能原因	解决方法
提示"ffmpeg not found"	系统未安装 FFmpeg	执行：`sudo apt-get install -y ffmpeg`
显存不足报错	模型太大或音频太长	换用 medium 或 small 模型，或缩短音频
端口 7860 被占用	其他程序占用了该端口	修改 app.py 中的 server_port 换一个端口
语言检测不准	音频质量差或语种少见	手动指定 language 参数

# 查看服务是否在运行
ps aux | grep app.py

# 查看 GPU 使用情况
nvidia-smi

# 检查端口监听状态
netstat -tlnp | grep 7860

# 停止服务（替换<PID>为实际进程号）
kill <PID>

# 清理缓存（需要重新下载模型时用）
rm -rf /root/.cache/whisper/

Whisper-large-v3 语音识别服务部署与开发指南

Whisper-large-v3 语音识别服务部署与开发指南

1. 引言

1.1 语音识别的实际价值

1.2 教程目标

2. 环境准备与快速部署

2.1 硬件和系统要求

2.2 三步搞定部署

3. 功能详解与使用指南

3.1 Web 界面全方位介绍

更多推荐文章

相关免费在线工具

3.2 支持的音频格式

3.3 实际使用演示

4. 代码解析与二次开发

4.1 核心代码解读

4.2 如何集成到自己的项目

4.3 批量处理技巧

5. 常见问题与解决方案

5.1 安装和运行问题

5.2 性能优化建议

5.3 常用维护命令

6. 总结

6.1 核心价值回顾

6.2 下一步学习建议

更多推荐文章

相关免费在线工具

Whisper-large-v3 语音识别服务部署与开发指南

Whisper-large-v3 语音识别服务部署与开发指南

1. 引言

1.1 语音识别的实际价值

1.2 教程目标

2. 环境准备与快速部署

2.1 硬件和系统要求

2.2 三步搞定部署

3. 功能详解与使用指南

3.1 Web 界面全方位介绍

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 支持的音频格式

3.3 实际使用演示

4. 代码解析与二次开发

4.1 核心代码解读

4.2 如何集成到自己的项目

4.3 批量处理技巧

5. 常见问题与解决方案

5.1 安装和运行问题

5.2 性能优化建议

5.3 常用维护命令

6. 总结

6.1 核心价值回顾

6.2 下一步学习建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具