Ubuntu24.04/Whisper/Docker Compose 本地部署

Ubuntu24.04/Whisper/Docker Compose 本地部署

简介

Whisper 是 OpenAI 于 2022 年 9 月开源的一款自动语音识别系统。它最突出的特点在于其鲁棒性,即使在面对口音、背景噪音或专业术语等复杂场景时,也能保持较高的识别准确性,在英语语音识别上已接近人类水平 。

核心技术与工作原理

Whisper 的强大能力源于其独特的技术设计,主要包括以下几点:

  • 端到端的 Transformer 架构:Whisper 采用编码器-解码器的 Transformer 模型架构 。输入音频被分割成30秒的片段并转换为对数梅尔频谱图,然后由编码器提取特征,解码器根据这些特征预测对应的文本 。
  • 大规模多任务训练:模型在从互联网收集的、高达68万小时的多语言(支持近百种语言)和多任务监督数据上进行训练,数据集的巨大规模和多样性是其强大泛化能力的基础 。训练时,模型会交替执行多项任务,如多语言语音转录、语音翻译(到英语)、语言识别以及生成带短语级时间戳的文本等 。
  • 统一的多任务格式:通过引入特殊的标记,Whisper 使用一个统一的模型来处理所有任务。这些标记指示模型当前需要执行的具体任务,这种设计使得单个模型能够替代传统语音处理流程中的多个阶段 。

模型规格与选择

Whisper 提供了多种规模的模型,以适应不同场景下对速度和精度的权衡需求 。下面的表格整理了可用的模型及其大致参数,你可以根据实际需求(如对准确率的要求、可用的计算资源)进行选择。

模型名称参数量磁盘空间适用场景
tiny约 39 M~75 MB快速演示,对资源极度敏感
base约 74 M~140 MB平衡速度与基本准确率
small约 244 M~480 MB良好准确率与速度的折中
medium约 769 M~1.5 GB追求较高准确率
large约 1550 M~3 GB最高准确率,支持所有任务

主要应用场景

凭借其高准确率和多语言支持,Whisper 可应用于多种场景:

  • 会议记录与转录:自动生成会议纪要,将音频内容转换为可编辑的文本,提高效率 。
  • 视频字幕生成:为视频内容自动生成字幕,提升内容的可访问性和传播效果 。
  • 多语言翻译与转录:支持将多种语言的语音直接转录或翻译成英语文本,便于跨语言沟通 。
  • 语音助手与智能客服:作为语音接口的核心,提升语音助手对指令理解的准确性 。
  • 无障碍技术:通过实时语音转文本服务,为听障人士提供沟通便利 。

如何使用 Whisper

Whisper 的使用非常灵活,主要有以下几种方式:

  • 命令行直接使用:安装后,可通过简单的命令处理音频文件,例如 whisper audio.wav --model small --language Chinese
  • 在 Python 代码中调用:在 Python 项目中集成语音识别功能通常只需几行代码,非常方便 。
  • 通过 API 调用:OpenAI 也提供了 Whisper 的 API 接口,适合不希望本地部署的云端应用 。

总结与优势

总而言之,Whisper 的核心优势可以概括为三点:

  1. 高鲁棒性:得益于海量多样的训练数据,在嘈杂环境、口音等方面表现出色 。
  2. 多功能性:一个模型支持转录、翻译、时间戳等多种任务,覆盖近百种语言 。
  3. 开放与便捷:完全开源,支持本地部署以保护数据隐私,并提供从命令行到 API 的多种易用接口 。

本地部署

  • 运行效果:使用 small 模型以及使用精确的转录参数;整体识别还可以,但依旧有很多同韵母的字和同音字会识别错误;使用 medium 模型会出现一个奇怪的问题,转录文字为繁体字;large 模型运行时间较长(3060 显卡)
  • 优化:音频预处理、优化转录参数、阶段处理
    • 结果也大差不差,最终生成的文本或多或少都有点问题,还是直接交给大模型根据语义做修正并分析吧
  • 转 FastAPI 服务
      • 增加 fastapi、uvicorn、python-multipart 依赖
      • 修改 Dockerfile 程序挂载
      • 修改 docker-compose.yml 端口映射

测试语句:

curl -X POST "http://localhost:7862/transcribe" -F "[email protected]"

更新配置:

# whisper_fastapi.pyfrom fastapi import FastAPI, File, UploadFile, HTTPException from fastapi.responses import JSONResponse import whisper import tempfile import os import numpy as np from scipy import signal import librosa import uvicorn import soundfile as sf # 初始化FastAPI应用 app = FastAPI( title="Whisper音频转录API", description="基于OpenAI Whisper的高级音频转录服务", version="1.0.0")# 初始化全局变量 model =Nonedefload_whisper_model():global model if model isNone: model = whisper.load_model("large")return model defpreprocess_audio(audio_path):""" 音频预处理:重采样、降噪、标准化 """try:# 加载音频 y, sr = librosa.load(audio_path, sr=16000)# 重采样到16kHz# 应用高通滤波器去除低频噪声 b, a = signal.butter(4,100,'highpass', fs=sr) y = signal.filtfilt(b, a, y)# 音频标准化 y = y / np.max(np.abs(y))# 保存处理后的临时文件 temp_path = tempfile.mktemp(suffix='.wav') sf.write(temp_path, y, sr)return temp_path except Exception as e:print(f"音频预处理失败: {str(e)}")return audio_path # 如果预处理失败,返回原始文件@app.on_event("startup")asyncdefstartup_event():"""应用启动时加载模型"""print("正在加载Whisper模型...") load_whisper_model()print("Whisper模型加载完成!")@app.post("/transcribe", summary="音频转录", description="上传音频文件并返回转录文本")asyncdeftranscribe_audio(file: UploadFile = File(...)):""" 转录音频文件为文本,使用优化参数 - **file**:音频文件,支持MP3、WAV、OGG、M4A、FLAC等格式 """# 更灵活的文件类型检查 valid_extensions ={'.mp3','.wav','.ogg','.m4a','.flac','.aac','.m4b'} file_extension = os.path.splitext(file.filename)[1].lower()if file_extension notin valid_extensions:raise HTTPException( status_code=400, detail=f"不支持的文件类型: {file_extension}。请上传音频文件: {valid_extensions}") temp_path =None processed_audio =Nonetry:# 保存上传文件到临时位置with tempfile.NamedTemporaryFile( delete=False, suffix=file_extension )as temp_file: content =awaitfile.read() temp_file.write(content) temp_path = temp_file.name # 音频预处理 processed_audio = preprocess_audio(temp_path)# 加载模型 model = load_whisper_model()# 使用优化的转录参数 result = model.transcribe( processed_audio, language="zh",# 指定中文语言 task="transcribe", beam_size=5,# 增加束搜索大小以提高准确性 best_of=5,# 生成多个候选结果选择最佳 temperature=0.0,# 使用确定性输出 patience=1.0,# 束搜索耐心参数 suppress_tokens=[-1]# 抑制不必要的token)# 返回转录结果return JSONResponse(content={"status":"success","text": result["text"],"language": result.get("language","zh"),"file_name":file.filename })except Exception as e:raise HTTPException(status_code=500, detail=f"转录过程中出现错误: {str(e)}")finally:# 清理临时文件if temp_path and os.path.exists(temp_path): os.unlink(temp_path)if processed_audio and processed_audio != temp_path and os.path.exists(processed_audio): os.unlink(processed_audio)@app.get("/health", summary="健康检查", description="检查服务是否正常运行")asyncdefhealth_check():"""健康检查端点"""return JSONResponse(content={"status":"healthy","model_loaded": model isnotNone})@app.get("/", summary="根端点", description="API基本信息")asyncdefroot():"""根端点,返回API基本信息"""return{"message":"Whisper音频转录API服务","version":"1.0.0","endpoints":{"transcribe":"/transcribe (POST)","health":"/health (GET)","docs":"/docs (GET)","redoc":"/redoc (GET)"},"model":"large","supported_languages":"近百种语言,支持中文转录"}if __name__ =="__main__": uvicorn.run( app, host="0.0.0.0", port=7862)
FROM nvidia/cuda:12.4.1-cudnn-devel-ubuntu22.04 # 设置工作目录 WORKDIR /app RUN sed -i 's/archive.ubuntu.com/mirrors.aliyun.com/g' /etc/apt/sources.list && \ sed -i 's/security.ubuntu.com/mirrors.aliyun.com/g' /etc/apt/sources.list # 安装系统依赖 RUN apt-get update && apt-get install -y \ ffmpeg \ python3 \ python3-pip \ python3-venv \ && rm -rf /var/lib/apt/lists/* \ && ln -sf /usr/bin/python3 /usr/bin/python # 复制依赖文件 COPY requirements.txt . # 安装Python依赖 RUN pip install --no-cache-dir -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ # 复制应用代码(修改为 FastAPI 文件) COPY whisper_fastapi.py . # 暴露 FastAPI 端口 EXPOSE 7862 # 设置环境变量:模型缓存路径 ENV WHISPER_MODEL_CACHE=/root/.cache/whisper # 启动应用(修改为 FastAPI 启动命令) CMD ["uvicorn", "whisper_fastapi:app", "--host", "0.0.0.0", "--port", "7862"] 
# docker-compose.ymlservices:whisper-api:build: . container_name: whisper-fastapi ports:-"7862:7862"volumes:# 持久化缓存模型- ./model_cache:/root/.cache/whisper # 可选:挂载音频文件目录- ./audio_files:/app/audio_files environment:- WHISPER_MODEL=medium restart: unless-stopped # 可选:设置资源限制deploy:resources:reservations:devices:-driver: nvidia count:2capabilities:[gpu]
在这里插入图片描述


在这里插入图片描述

Gradio 服务

# whisper_gradio.pyimport gradio as gr import whisper import tempfile import os import numpy as np from scipy import signal import librosa # 初始化全局变量 model =Nonedefload_whisper_model():global model if model isNone: model = whisper.load_model("medium")return model defpreprocess_audio(audio_path):""" 音频预处理:重采样、降噪、标准化 """try:# 加载音频 y, sr = librosa.load(audio_path, sr=16000)# 重采样到16kHz# 应用高通滤波器去除低频噪声 b, a = signal.butter(4,100,'highpass', fs=sr) y = signal.filtfilt(b, a, y)# 音频标准化 y = y / np.max(np.abs(y))# 保存处理后的临时文件 temp_path = tempfile.mktemp(suffix='.wav') librosa.output.write_wav(temp_path, y, sr)return temp_path except Exception as e:print(f"音频预处理失败: {str(e)}")return audio_path # 如果预处理失败,返回原始文件deftranscribe_audio(audio_file):""" 转录音频文件为文本,使用优化参数 """# 加载模型 model = load_whisper_model()# 安全检查上传的文件if audio_file isNone:return"错误:请上传一个音频文件。"try:# 音频预处理 processed_audio = preprocess_audio(audio_file)# 使用优化的转录参数 result = model.transcribe( processed_audio, language="zh",# 指定中文语言 task="transcribe", beam_size=5,# 增加束搜索大小以提高准确性 best_of=5,# 生成多个候选结果选择最佳 temperature=0.0,# 使用确定性输出 patience=1.0,# 束搜索耐心参数 suppress_tokens=[-1]# 抑制不必要的token)# 清理临时文件if processed_audio != audio_file:try: os.unlink(processed_audio)except:passreturn result["text"]except Exception as e:returnf"转录过程中出现错误:{str(e)}"# 创建Gradio界面with gr.Blocks(title="Whisper音频转录")as demo: gr.Markdown("# 🎤 Whisper音频转录") gr.Markdown("上传MP3、WAV、OGG等音频文件,使用优化的参数将其转换为文本")with gr.Row():with gr.Column(): audio_input = gr.Audio( sources=["upload"],type="filepath", label="上传音频文件", interactive=True) submit_btn = gr.Button("开始转录", variant="primary")with gr.Column(): text_output = gr.Textbox( label="转录结果", placeholder="转录文本将显示在这里...", lines=10, max_lines=15)# 处理提交动作 submit_btn.click( fn=transcribe_audio, inputs=audio_input, outputs=text_output )# 附加说明 gr.Markdown(""" ### 使用说明 1. 点击"上传音频文件"或拖放文件到上传区域 2. 支持格式:MP3, WAV, OGG, M4A, FLAC等 3. 点击"开始转录"按钮 4. 等待转录结果出现在右侧文本框中 **注意**:首次使用需要下载Whisper Large模型,请耐心等待。转录过程可能需要较长时间。 """)if __name__ =="__main__": demo.launch( server_name="0.0.0.0", server_port=7862, share=False)

Docker 配置

FROM nvidia/cuda:12.4.1-cudnn-devel-ubuntu22.04 # 设置工作目录 WORKDIR /app RUN sed -i 's/archive.ubuntu.com/mirrors.aliyun.com/g' /etc/apt/sources.list && \ sed -i 's/security.ubuntu.com/mirrors.aliyun.com/g' /etc/apt/sources.list # 安装系统依赖 RUN apt-get update && apt-get install -y \ ffmpeg \ python3 \ python3-pip \ python3-venv \ && rm -rf /var/lib/apt/lists/* \ && ln -sf /usr/bin/python3 /usr/bin/python # 复制依赖文件 COPY requirements.txt . # 安装Python依赖 RUN pip install --no-cache-dir -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ # 复制应用代码 COPY whisper_gradio.py . # 暴露Gradio默认端口 EXPOSE 7862 # 设置环境变量:禁用Gradio分析,缓存模型 ENV GRADIO_ANALYTICS_ENABLED=False ENV WHISPER_MODEL_CACHE=/root/.cache/whisper # 启动应用 CMD ["python", "whisper_gradio.py"] 
# docker-compose.ymlservices:whisper-app:build: . ports:-"29999:7862"volumes:# 可选:持久化缓存模型,避免每次重启下载- ./cache:/root/.cache/whisper environment:- GRADIO_SERVER_NAME=0.0.0.0 - GRADIO_SERVER_PORT=7862 restart: unless-stopped 
# requirements.txt torch openai-whisper gradio ffmpeg-python pydub scipy librosa numpy soundfile fastapi uvicorn python-multipart 

Read more

10分钟搞定影视解说:剪映AI剪辑实操+全自动化电影解说工具,看完就会剪

10分钟搞定影视解说:剪映AI剪辑实操+全自动化电影解说工具,看完就会剪

剪映AI智能解说粗剪实操教程,10分钟搞定影视解说视频 做影视解说看原片2小时、写文案1小时、找片段1小时,一天忙下来只出1条视频?其实用这2个超好用的工具,不用逐帧看片、不用费心写稿,跟着步骤走,10分钟就能搞定,新手也能直接上手! 一、前期准备:只需2个工具,不用额外准备 • 核心素材:完整的电影/剧集原片(支持MP4、MOV等常见格式,建议画质1080P以上,避免后期模糊) • 工具:剪映(手机端、电脑端均可,功能完全一致,电脑端操作更便捷)AI解说大师 二、详细操作步骤:保姆级教学 步骤1:导入原片,找到“智能解说粗剪”功能 1. 打开剪映,点击首页“开始创作”,选择“导入素材”,找到提前存好的原片,点击“添加”(支持批量导入,一次可剪多部片子); 2.

【2026最新Python+AI入门指南】:从零基础到实操落地,避开90%新手坑

【2026最新Python+AI入门指南】:从零基础到实操落地,避开90%新手坑

🎁个人主页:User_芊芊君子 🎉欢迎大家点赞👍评论📝收藏⭐文章 🔍系列专栏:AI 【前言】 2026年AI技术持续爆发,大模型应用普及、边缘AI轻量化,Python作为AI开发的“第一语言”,成为零基础入门者的最优选择。作为深耕AI领域3年的开发者,我深知“选对方向+找对方法”比盲目跟风更重要。 不同于千篇一律的入门教程,本篇博客结合2026年AI热门趋势,拆解Python+AI零基础入门完整路径,包含热门实操案例、极简代码、避坑指南,附带流程图、表格,全程贴合新手节奏,帮你少走弯路、快速上手。 适合人群:零基础编程小白、转行AI职场人、非计算机专业大学生;核心收获:掌握Python必备语法、了解AI热门方向、实现2个AI入门案例、获取全套学习工具资料。 文章目录: * 一、先搞懂:为什么2026年入门AI,必须先学Python? * 1. 生态碾压:AI开发“

使用VS Code插件搭建AI开发环境完全指南

使用VS Code插件搭建AI开发环境完全指南

前篇: AI编程教学:手把手搭建AI编程环境(IDE/插件/CLI方案) Claude code免费体验+安装方式,对接国产大模型,Node + 配置教程 01. AI编程工具概述 目前主流的AI编程工具主要分为三类:集成IDE、插件模式和独立CLI。 其中,插件模式以其轻量级和高兼容性成为许多开发者的首选。通过在VSCode中安装相应插件,开发者可以在不离开熟悉的编辑器环境的情况下,享受到AI辅助编程的便利。 插件模式的优势在于: * 无需切换编辑器,保持开发环境一致性 * 可根据需求灵活选择不同AI模型 * 资源占用小,启动速度快 * 支持与本地开发环境深度集成 02. VS Code AI插件选择 目前市场上有多种VS Code AI插件可供选择,各有特色。以下是几款主流插件的对比分析: 添加图片注释,不超过 140 字(可选) 综合对比下来,RooCode是目前最推荐的VS Code AI插件,它不仅支持多种模型和模式切换,而且对中文的支持非常友好,适合国内开发者使用。

神的泪水-构建与解析:基于多AI模型并行的内容生成与对比分析工作流

神的泪水-构建与解析:基于多AI模型并行的内容生成与对比分析工作流

摘要 在人工智能迅猛发展的今天,大型语言模型(LLM)已成为内容创作、数据分析和自动化任务的核心驱动力。然而,不同模型在架构、训练数据和优化目标上的差异,导致其在处理相同任务时会产生风格、侧重点和准确性各不相同的输出。因此,如何高效、直观地对不同模型的输出进行横向对比,以选择最适合特定场景的模型,成为了一个亟待解决的课题。本文将详细拆解一个专为AI内容对比输出而设计的工作流,通过具体实例分析其构建逻辑、运行机制和应用价值,并进一步探讨其在模型评估、提示词工程优化及未来多智能体协作系统中的广阔前景。 1. 引言:从单一模型到多模型并行处理的范式转变 过去,我们与AI的交互多是“单线程”的:向一个特定的AI模型提出问题,然后接收并评估其返回的唯一答案。这种模式虽然直接,但存在明显的局限性。用户无法即时获知其他模型可能提供的不同见解或更优答案,评估过程也因此变得线性而低效。为了打破这一瓶颈,一种新的范式——多模型并行处理——应运而生。 多模型并行处理的核心思想是,将同一个输入或指令同时分发给多个不同的AI模型,并收集它们各自的输出。这种方法不仅能够实现对模型能力和特性的“同场竞技”