Whisper-large-v3 语音转文字部署与使用教程 | 极客日志

PythonAI算法

Whisper-large-v3 语音转文字部署与使用教程

Whisper-large-v3 是一款支持多语言的语音识别模型。基于该模型的镜像部署流程，涵盖环境配置、Web 界面操作及 API 二次开发指南。内容包括硬件要求、安装命令、功能说明、核心代码解析、批量处理技巧及常见问题解决方案，帮助开发者快速集成语音识别功能。

橘子海发布于 2026/4/6更新于 2026/7/640 浏览

Whisper-large-v3 语音转文字部署与使用教程

1. 引言

1.1 语音识别的实际价值

想象一下这样的场景：你需要整理一场多语言会议的录音，或者想把外语视频的字幕提取出来，又或者需要将语音笔记转为文字。传统方法要么费时费力，要么需要专业软件。现在，有了 Whisper-large-v3，这些都能轻松搞定。

这个教程要介绍的镜像，基于 OpenAI Whisper Large v3 模型，能自动识别 99 种语言，支持音频上传和实时录音，还有 Web 界面让你点点鼠标就能用。无论你是开发者还是普通用户，都能快速上手。

1.2 教程能带给你什么

看完这篇教程，你将学会：

怎么快速部署这个语音识别服务
怎么通过 Web 界面使用各种功能
怎么用代码调用 API 进行二次开发
遇到问题怎么解决

最重要的是，整个过程非常简单，不需要深厚的技术背景，跟着步骤做就行。

2. 环境准备与快速部署

2.1 硬件和系统要求

想要顺畅运行这个服务，你的设备最好满足这些条件：

资源类型	推荐配置	最低要求
GPU	NVIDIA RTX 4090 D (23GB 显存)	任何支持 CUDA 的 GPU
内存	16GB 以上	8GB
存储空间	10GB 以上	5GB
操作系统	Ubuntu 24.04 LTS	Linux 系统均可

如果你的显卡显存不够大（比如只有 8GB），也不用担心。Whisper 提供了不同大小的模型，你可以选择小一点的版本，虽然识别精度会稍微低一点，但依然能用。

2.2 三步搞定部署

部署过程非常简单，只需要三步：

# 第一步：安装 Python 依赖包
pip install -r /root/Whisper-large-v3/requirements.txt

# 第二步：确保 FFmpeg 已安装（处理音频必备）
sudo apt-get update && sudo apt-get install -y ffmpeg

# 第三步：启动 Web 服务
python3 /root/Whisper-large-v3/app.py

执行完这些命令，你会看到类似这样的输出：

Running on local URL: http://127.0.0.1:7860 Running on public URL: http://<你的 IP 地址>:7860

现在打开浏览器，访问那个地址，就能看到语音识别的 Web 界面了。

3. 功能详解与使用指南

3.1 Web 界面全方位介绍

打开 Web 界面，你会发现设计得很直观，主要功能区域包括：

音频输入区：可以上传音频文件或者直接用麦克风录音
模式选择：有"转录"和"翻译"两种模式可选
开始按钮：点击就开始处理音频
：显示识别出来的文字和检测到的语言

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import whisper
import torch

# 自动选择 GPU 或 CPU
device = "cuda" if torch.cuda.is_available() else "cpu"

# 加载模型（首次运行会自动下载）
model = whisper.load_model("large-v3").to(device)

def transcribe_audio(file_path, task="transcribe"):
    # 加载并预处理音频
    audio = whisper.load_audio(file_path)
    audio = whisper.pad_or_trim(audio)
    mel = whisper.log_mel_spectrogram(audio).to(device)
    
    # 自动检测语言
    _, probs = model.detect_language(mel)
    detected_lang = max(probs, key=probs.get)
    
    # 执行转录或翻译
    options = dict(task=task, language=None if task == "translate" else detected_lang)
    result = model.transcribe(file_path, **options)
    return result["text"], f"检测语言：{detected_lang.upper()}"

import whisper

# 初始化模型（只需要做一次）
model = whisper.load_model("large-v3", device="cuda")

def speech_to_text(audio_path, lang=None):
    result = model.transcribe(
        audio_path,
        language=lang,  # 可以指定语言，如"zh"表示中文
        beam_size=5,    # 影响识别质量的参数
        temperature=0.0 # 设置为 0 让输出更稳定
    )
    return result["text"]

# 使用示例
text = speech_to_text("我的音频.wav", lang="zh")
print(f"识别结果：{text}")

import os
from pathlib import Path

# 设置音频文件夹路径
audio_dir = Path("我的音频文件/")
results = []

# 遍历处理所有 mp3 文件
for audio_file in audio_dir.glob("*.mp3"):
    print(f"正在处理：{audio_file.name}")
    text = speech_to_text(str(audio_file))
    results.append(f"{audio_file.name}\t{text}")

# 保存结果
with open("识别结果.txt", "w", encoding="utf-8") as f:
    f.write("文件名\t识别内容\n")
    f.write("\n".join(results))
print("批量处理完成！")

问题现象	可能原因	解决方法
提示"ffmpeg not found"	系统没安装 FFmpeg	执行：`sudo apt-get install -y ffmpeg`
显存不足报错	模型太大或音频太长	换用 medium 或 small 模型，或缩短音频
端口 7860 被占用	其他程序用了这个端口	修改 app.py 中的 server_port 换一个端口
语言检测不准	音频质量差或语种少见	手动指定 language 参数

# 查看服务是否在运行
ps aux | grep app.py

# 查看 GPU 使用情况
nvidia-smi

# 检查端口监听状态
netstat -tlnp | grep 7860

# 停止服务（替换<PID>为实际进程号）
kill <PID>

# 清理缓存（需要重新下载模型时用）
rm -rf /root/.cache/whisper/

Whisper-large-v3 语音转文字部署与使用教程

Whisper-large-v3 语音转文字部署与使用教程

1. 引言

1.1 语音识别的实际价值

1.2 教程能带给你什么

2. 环境准备与快速部署

2.1 硬件和系统要求

2.2 三步搞定部署

3. 功能详解与使用指南

3.1 Web 界面全方位介绍

更多推荐文章

相关免费在线工具

3.2 支持哪些音频格式

3.3 实际使用演示

4. 代码解析与二次开发

4.1 核心代码解读

4.2 如何集成到自己的项目

4.3 批量处理技巧

5. 常见问题与解决方案

5.1 安装和运行问题

5.2 性能优化建议

5.3 常用维护命令

6. 总结

6.1 核心价值回顾

6.2 下一步学习建议

更多推荐文章

相关免费在线工具

Whisper-large-v3 语音转文字部署与使用教程

Whisper-large-v3 语音转文字部署与使用教程

1. 引言

1.1 语音识别的实际价值

1.2 教程能带给你什么

2. 环境准备与快速部署

2.1 硬件和系统要求

2.2 三步搞定部署

3. 功能详解与使用指南

3.1 Web 界面全方位介绍

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 支持哪些音频格式

3.3 实际使用演示

4. 代码解析与二次开发

4.1 核心代码解读

4.2 如何集成到自己的项目

4.3 批量处理技巧

5. 常见问题与解决方案

5.1 安装和运行问题

5.2 性能优化建议

5.3 常用维护命令

6. 总结

6.1 核心价值回顾

6.2 下一步学习建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具