基于 Docker Compose 在 Ubuntu 本地部署 Whisper 语音识别服务

Whisper 开源自动语音识别模型，支持多语言及高鲁棒性。演示如何在 Ubuntu 环境下利用 Docker Compose 快速部署 Whisper 服务，提供 FastAPI 接口与 Gradio 界面两种方案。涵盖音频预处理、模型加载优化及容器化配置细节，适合本地离线语音转录需求。

星云发布于 2026/4/5更新于 2026/4/263 浏览

简介

Whisper 是 OpenAI 于 2022 年开源的自动语音识别系统，其核心优势在于强大的鲁棒性。即便面对口音、背景噪音或专业术语等复杂场景，它也能保持较高的识别准确性，在英语语音识别上已接近人类水平。

核心技术与工作原理

Whisper 的强大能力源于其独特的技术设计：

端到端的 Transformer 架构：采用编码器 - 解码器结构。输入音频被分割成 30 秒片段并转换为对数梅尔频谱图，由编码器提取特征，解码器预测对应文本。
大规模多任务训练：模型在高达 68 万小时的多语言（支持近百种语言）和多任务监督数据上训练。训练时交替执行转录、翻译、语言识别及生成时间戳等任务。
统一的多任务格式：通过引入特殊标记，单个模型即可处理所有任务，替代传统流程中的多个阶段。

模型规格与选择

不同规模的模型适用于不同的速度与精度权衡需求：

模型名称	参数量	磁盘空间	适用场景
tiny	约 39 M	~75 MB	快速演示，资源极度敏感
base	约 74 M	~140 MB	平衡速度与基本准确率
small	约 244 M	~480 MB	良好准确率与速度的折中
medium	约 769 M	~1.5 GB	追求较高准确率
large	约 1550 M	~3 GB	最高准确率，支持所有任务

主要应用场景

会议记录与转录：自动生成会议纪要，将音频转为可编辑文本。
视频字幕生成：为视频内容自动生成字幕，提升可访问性。
多语言翻译与转录：支持多种语言直接转录或翻译成英文。
语音助手与智能客服：作为语音接口核心，提升指令理解准确性。
无障碍技术：实时语音转文本服务，便利听障人士沟通。

本地部署实践

在实际部署中，我们通常有两种服务模式：提供 RESTful API 的 FastAPI 后端，以及提供 Web 交互界面的 Gradio 前端。以下是基于 Docker Compose 的完整落地方案。

1. FastAPI 服务实现

如果你需要集成到现有系统中，FastAPI 是首选。它提供了高性能的异步处理能力。

依赖准备

确保 requirements.txt 包含以下核心库：

torch
openai-whisper
fastapi
uvicorn
python-multipart
scipy
librosa
numpy
soundfile

核心代码逻辑

这里的关键在于音频预处理和模型加载优化。我们增加了高通滤波器去除低频噪声，并标准化了音频幅度。同时，使用 beam_size 和 best_of 参数来平衡识别准确率与速度。

from fastapi import FastAPI, File, UploadFile, HTTPException
 fastapi.responses  JSONResponse
 whisper
 tempfile
 os
 numpy  np
 scipy  signal
 librosa
 uvicorn
 soundfile  sf

app = FastAPI(
    title=,
    description=,
    version=
)

model = 

 ():
     model
     model  :
        model = whisper.load_model()
     model

 ():
    
    :
        
        y, sr = librosa.load(audio_path, sr=)
        
        b, a = signal.butter(, , , fs=sr)
        y = signal.filtfilt(b, a, y)
        
        y = y / np.(np.(y))
        
        temp_path = tempfile.mktemp(suffix=)
        sf.write(temp_path, y, sr)
         temp_path
     Exception  e:
        ()
         audio_path


  ():
    
    ()
    load_whisper_model()
    ()


  ():
    
    valid_extensions = {, , , , , , }
    file_extension = os.path.splitext(file.filename)[].lower()
    
     file_extension   valid_extensions:
         HTTPException(status_code=, detail=)

    temp_path = 
    processed_audio = 
    
    :
        
         tempfile.NamedTemporaryFile(delete=, suffix=file_extension)  temp_file:
            content =  file.read()
            temp_file.write(content)
            temp_path = temp_file.name

        
        processed_audio = preprocess_audio(temp_path)
        
        
        model = load_whisper_model()
        
        
        result = model.transcribe(
            processed_audio,
            language=,
            task=,
            beam_size=,
            best_of=,
            temperature=,
            patience=,
            suppress_tokens=[-]
        )
        
         JSONResponse(content={
            : ,
            : result[],
            : result.get(, ),
            : file.filename
        })
     Exception  e:
         HTTPException(status_code=, detail=)
    :
        
         temp_path  os.path.exists(temp_path):
            os.unlink(temp_path)
         processed_audio  processed_audio != temp_path  os.path.exists(processed_audio):
            os.unlink(processed_audio)


  ():
     JSONResponse(content={: , : model   })

 __name__ == :
    uvicorn.run(app, host=, port=)

相关免费在线工具

加密/解密文本

使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online

RSA密钥对生成器

生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online

Mermaid 预览与可视化编辑

基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online

随机西班牙地址生成器

随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online

Gemini 图片去水印

基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online

curl 转代码

解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import gradio as gr import whisper import tempfile import os import numpy as np from scipy import signal import librosa model = None def load_whisper_model(): global model if model is None: model = whisper.load_model("medium") return model def preprocess_audio(audio_path): try: y, sr = librosa.load(audio_path, sr=16000) b, a = signal.butter(4, 100, 'highpass', fs=sr) y = signal.filtfilt(b, a, y) y = y / np.max(np.abs(y)) temp_path = tempfile.mktemp(suffix='.wav') librosa.output.write_wav(temp_path, y, sr) return temp_path except Exception as e: print(f"音频预处理失败：{str(e)}") return audio_path def transcribe_audio(audio_file): if audio_file is None: return "错误：请上传一个音频文件。" model = load_whisper_model() try: processed_audio = preprocess_audio(audio_file) result = model.transcribe( processed_audio, language="zh", task="transcribe", beam_size=5, best_of=5, temperature=0.0, patience=1.0, suppress_tokens=[-1] ) if processed_audio != audio_file: try: os.unlink(processed_audio) except: pass return result["text"] except Exception as e: return f"转录过程中出现错误：{str(e)}" with gr.Blocks(title="Whisper 音频转录") as demo: gr.Markdown("# 🎤 Whisper 音频转录") gr.Markdown("上传 MP3、WAV、OGG 等音频文件，使用优化的参数将其转换为文本") with gr.Row(): with gr.Column(): audio_input = gr.Audio(sources=["upload"], type="filepath", label="上传音频文件", interactive=True) submit_btn = gr.Button("开始转录", variant="primary") with gr.Column(): text_output = gr.Textbox(label="转录结果", placeholder="转录文本将显示在这里...", lines=10, max_lines=15) submit_btn.click(fn=transcribe_audio, inputs=audio_input, outputs=text_output) gr.Markdown(""" ### 使用说明 1. 点击"上传音频文件"或拖放文件到上传区域 2. 支持格式：MP3, WAV, OGG, M4A, FLAC 等 3. 点击"开始转录"按钮 4. 等待转录结果出现在右侧文本框中 **注意**：首次使用需要下载 Whisper Large 模型，请耐心等待。 """) if __name__ == "__main__": demo.launch(server_name="0.0.0.0", server_port=7862, share=False)

基于 Docker Compose 在 Ubuntu 本地部署 Whisper 语音识别服务

简介

核心技术与工作原理

模型规格与选择

主要应用场景

本地部署实践

1. FastAPI 服务实现

更多推荐文章

相关免费在线工具

2. Gradio 界面服务

3. Docker 容器化配置

部署体验与优化建议

更多推荐文章

相关免费在线工具

基于 Docker Compose 在 Ubuntu 本地部署 Whisper 语音识别服务

简介

核心技术与工作原理

模型规格与选择

主要应用场景

本地部署实践

1. FastAPI 服务实现

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. Gradio 界面服务

3. Docker 容器化配置

部署体验与优化建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具