基于大模型的语音转文字应用实现指南 | 极客日志

PythonAI算法

基于大模型的语音转文字应用实现指南

综述由AI生成基于 Whisper 大模型和 Gradio 框架构建语音转文字应用的完整方案。内容涵盖环境依赖安装、CUDA 硬件检测、实时录音与 VAD 语音分段处理、多语言及字幕格式支持、AI 文本润色接口集成以及 Gradio 界面搭建。文章还提供了关于内存管理、并发部署及错误处理的优化建议，旨在帮助开发者快速落地高质量的语音识别项目。

刀狂发布于 2025/2/6更新于 2026/6/322 浏览

基于大模型实现语音转文字应用

概述

本文介绍如何使用 Whisper 大模型结合 faster-whisper 和 Gradio 构建一个支持实时转录、多语言识别及 AI 润色的语音转文字应用。该项目展示了从模型加载到前端交互的完整流程，适用于本地部署或轻量级服务场景。

主要功能

实时音频转录：通过麦克风录音并进行实时的语音识别。
音频文件上传：支持上传音频或视频文件进行离线转录。
多语言支持：支持中文、英语、法语、西班牙语等多种语言切换。
字幕生成：可选输出 SRT 等字幕格式。
AI 文本润色：集成 LLM 接口对识别结果进行纠错和语句优化。

环境配置与依赖安装

首先确保 Python 环境已就绪，并安装以下核心依赖：

faster-whisper：高效的 Whisper 推理库。
gradio：快速构建 Web UI 的框架。
zhconv：中文简繁转换工具（可选）。
av：音视频处理库。
requests：用于调用外部 AI 接口。

安装命令：

pip install faster-whisper gradio zhconv av requests

硬件检测与模型加载

为提升性能，程序会检测 CUDA 是否可用。若检测到 GPU，则加载量化后的 float16 模型；否则使用 CPU 模式下的 int8 量化模型。

import subprocess
from faster_whisper import WhisperModel

def check_cuda_available():
    try:
        result = subprocess.run(['nvidia-smi'], capture_output=True, text=True)
        return result.returncode == 0
    except FileNotFoundError:
        return False

cuda_available = check_cuda_available()
model_path = "./models/faster-whisper-large-v2"

if cuda_available:
    model = WhisperModel(model_size_or_path=model_path, device="cuda", compute_type="float16")
else:
    model = WhisperModel(model_size_or_path=model_path, device="cpu", compute_type=)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import threading
import numpy as np

def start_recording():
    global recording, total_frames, text_arr
    recording = True
    total_frames = np.array([], dtype=np.float32)
    text_arr = []
    threading.Thread(target=transcribe_process, daemon=True).start()

def transcribe_process():
    global recording
    while recording:
        time.sleep(0.5)
        if not data_queue.empty():
            datas = [data_queue.get() for _ in range(data_queue.qsize())]
            audio_data = resample_audio(np.concatenate(datas), 16000)
            audio_data = audio_data.astype(np.float32) / 32768.0
            total_frames = np.concatenate((total_frames, audio_data))
            
            # 获取语音时间戳
            speech_chunks = get_speech_timestamps(total_frames, vad_parameters)
            if speech_chunks:
                transcribe_frames = collect_chunks(total_frames, [speech_chunks[0]])
                result = transcribe(transcribe_frames)
                if text_arr: 
                    text_arr.pop()
                text_arr.append(result)

language_arr = ["zh", "en", "fr", "es"]
language_label = ["中文", "英语", "法语", "西班牙语"]
output_type_checkbox = gr.Checkbox(label="字幕格式", value=False, interactive=True)

def ai_summary(text):
    headers = {'Content-Type': 'application/json', 'Authorization': 'Bearer <YOUR_TOKEN>'}
    sys_prompt = "你是一个专业的文本校对助手，请修正错别字并优化句子流畅度。"
    data = {
        "messages": [
            {"role": "system", "content": sys_prompt},
            {"role": "user", "content": text}
        ],
        "model": "gpt-4o-mini"
    }
    response = requests.post(ai_service_url, headers=headers, json=data)
    ai_text = ''.join([json.loads(line)["choices"][0]["delta"].get("content", '') for line in response.iter_lines() if line])
    return ai_text

with gr.Blocks() as iface:
    gr.Markdown("# 语音转文字应用")
    with gr.Row():
        input_record = gr.Audio(label="实时转录", sources=["microphone"], streaming=True)
        upload_file = gr.File(label="上传音频或视频")
        with gr.Column():
            beam_size_slider = gr.Slider(2, 10, step=1.0, value=5, label="Beam Size")
            language_selector = gr.Dropdown(language_label, type="index", value=0, label="输出语言")
            output_type_checkbox = gr.Checkbox(label="字幕格式", value=False)
    
    with gr.Row():
        output_text = gr.Textbox(label="转录结果", interactive=True)
        summary_button = gr.Button("AI 润色", variant="primary")
        summary_output = gr.Textbox(label="AI 润色结果", interactive=True)
    
    summary_button.click(ai_summary, inputs=output_text, outputs=summary_output)
    upload_file.upload(file_uploaded, inputs=upload_file, outputs=[play_audio, output_text])
    input_record.change(input_audio_change, inputs=input_record)
    input_record.start_recording(start_recording, outputs=output_text)
    input_record.stop_recording(stop_recording, outputs=play_audio)

iface.launch()

基于大模型的语音转文字应用实现指南

基于大模型实现语音转文字应用

概述

主要功能

环境配置与依赖安装

硬件检测与模型加载

更多推荐文章

相关免费在线工具

实时录音与转录逻辑

1. 音频采集与队列管理

2. VAD 语音分段

3. 转录处理流程

多语言与字幕支持

AI 文本润色功能

用户界面实现

优化与部署建议

1. 内存管理

2. 并发控制

3. 模型缓存

4. 错误处理

总结

更多推荐文章

相关免费在线工具

基于大模型的语音转文字应用实现指南

基于大模型实现语音转文字应用

概述

主要功能

环境配置与依赖安装

硬件检测与模型加载

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

实时录音与转录逻辑

1. 音频采集与队列管理

2. VAD 语音分段

3. 转录处理流程

多语言与字幕支持

AI 文本润色功能

用户界面实现

优化与部署建议

1. 内存管理

2. 并发控制

3. 模型缓存

4. 错误处理

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具