Faster-Whisper 本地实时语音转文本部署指南

前言

实现类似豆包或微信的语音输入功能，通常有两种主流方案：云端 API（轻量、准确度高）和本地模型（免费、隐私好、无需联网）。如果你需要在本地构建语音识别能力，Faster-Whisper 是一个极佳的选择。它基于 Whisper 模型优化，推理速度更快，资源占用更低。

本文记录如何在本地部署 Faster-Whisper 实现实时录音转文本，涵盖环境搭建、脚本编写及常见报错处理。

环境准备

首先确保你的开发环境已安装 Python 和虚拟环境工具。若需使用 GPU 加速，请提前配置好 CUDA 和 cuDNN 驱动。

在虚拟环境中安装核心依赖：

pip install faster-whisper pyaudio

注意：原教程中提到的 pyaudiowpatch 并非标准库，建议直接使用标准的 pyaudio 以获得更好的兼容性。

模型下载与加载

Faster-Whisper 支持多种模型规格，可根据硬件性能选择：

Tiny / Base / Small：速度快，适合低配设备
Medium / Large-v2：平衡速度与精度
Large-v3：效果最佳，但资源消耗较大
Distil-Large-v3：蒸馏版，兼顾速度与质量

如果服务器无法联网，可手动从 Hugging Face 下载模型文件（如 config.json, model.bin, tokenizer.json 等），放入指定目录后设置 local_files_only=True 加载。

实时录音转文本实现

下面是一个完整的示例脚本，实现了音频采集、静音过滤（VAD）及转录输出。代码采用多线程设计，录音与转录并行处理，减少延迟。

# -*- coding: utf-8 -*-
import os
import sys
import time
import wave
import tempfile
import threading
import torch
import pyaudio
from faster_whisper import WhisperModel

# 录音切片时长（秒）
AUDIO_BUFFER = 5

def record_audio(p, device):
    """创建临时 WAV 文件并录制音频"""
    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as f:
        filename = f.name
        wave_file = wave.open(filename, "wb")
        wave_file.setnchannels((device[]))
        wave_file.setsampwidth(p.get_sample_size(pyaudio.paInt16))
        wave_file.setframerate((device[]))

         ():
            wave_file.writeframes(in_data)
             (in_data, pyaudio.paContinue)

        :
            stream = p.(
                =pyaudio.paInt16,
                channels=(device[]),
                rate=(device[]),
                frames_per_buffer=,
                =,
                input_device_index=device[],
                stream_callback=callback
            )
            stream.start_stream()
            time.sleep(AUDIO_BUFFER)
         Exception  e:
            ()
        :
               ():
                stream.stop_stream()
                stream.close()
            wave_file.close()
             filename

 ():
    
    :
        
        segments, info = model.transcribe(
            filename,
            beam_size=,
            language=,
            vad_filter=,
            vad_parameters=(min_silence_duration_ms=)
        )
         segment  segments:
            ( % (segment.start, segment.end, segment.text))
     Exception  e:
        ()
    :
         os.path.exists(filename):
            os.remove(filename)

 ():
    ()
    
    
     torch.cuda.is_available():
        device = 
        compute_type =   
        ()
    :
        device = 
        compute_type =   
        ()

    
    model_path = 
    :
        model = WhisperModel(model_path, device=device, compute_type=compute_type, local_files_only=)
        ()
     Exception  e:
        ()
        

     pyaudio.PyAudio()  p:
        :
            default_mic = p.get_default_input_device_info()
            ()
            ()
            ( * )
            ()

             :
                filename = record_audio(p, default_mic)
                thread = threading.Thread(target=whisper_audio, args=(filename, model))
                thread.start()
         OSError:
            ()
         KeyboardInterrupt:
            ()
         Exception  e:
            ()

 __name__ == :
    main()

Faster-Whisper 本地实时语音转文本部署指南

前言

环境准备

模型下载与加载

实时录音转文本实现

更多推荐文章

相关免费在线工具

常见问题与解决

1. cuDNN 版本冲突

2. cuBLAS 动态库缺失

3. VAD 过滤器报错

更多推荐文章

相关免费在线工具

Faster-Whisper 本地实时语音转文本部署指南

前言

环境准备

模型下载与加载

实时录音转文本实现

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

常见问题与解决

1. cuDNN 版本冲突

2. cuBLAS 动态库缺失

3. VAD 过滤器报错

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具