手把手教你使用 Faster-Whisper 实时语音输入转文本，本地部署教程

Ne0inhk

23 Mar 2026 — 6 min read

文章目录

前言
一、安装环境
二、使用步骤
总结

前言

要想实现像豆包、微信等一样的语音输入功能，通常有两种主流方案：云端 API（轻量、准确度极高）和本地模型（免费、隐私、无需联网）。由于目前开发的系统需要添加一个语音识别功能，刚好记录一下使用 Faster-Whisper 实时语音输入转文本。Faster-Whisper官网地址链接: Faster-Whisper官网地址

复现成功如下图所示，请看下文教程就能部署本地实时语音输入转文本模型：

电脑有显卡的话可以参考下面这篇文章安装 cuda 和 cudnn

cuda和cudnn的安装教程: cuda和cudnn的安装教程(全网最详细保姆级教程)

一、安装环境

在你的虚拟环境安装 faster-whisper，命令如下：

pip install faster-whisper

安装录音库

pip install pyaudiowpatch

二、使用步骤

1.下载模型

手动下载（离线使用）
如果你的服务器无法联网，或者你想把模型放在指定文件夹，可以手动下载。根据需求点击链接下载：

Tiny (最小/最快):Systran/faster-whisper-tiny
Base:Systran/faster-whisper-base
Small:Systran/faster-whisper-small
Medium:Systran/faster-whisper-medium
Large-v2:Systran/faster-whisper-large-v2
Large-v3 (效果最好):Systran/faster-whisper-large-v3
Distil-Large-v3 (蒸馏版/速度快):Systran/faster-distil-whisper-large-v3

在 Hugging Face 的 “Files and versions” 页面中，下载以下几个关键文件（放入同一个文件夹）：

config.json
model.bin
tokenizer.json
vocabulary.json
preprocessor_config.json

我是下载 faster-whisper-large-v3 的模型下载链接： faster-whisper-large-v3 模型下载地址

把下载的模型文件放到一个文件夹内：

2.实时录音转文本脚本

代码如下（示例）：

# -*- coding: utf-8 -*-""" @Auth ：落花不写码 @File ：mian.py @IDE ：PyCharm @Motto :学习新思想，争做新青年 """import os import sys import time import wave import tempfile import threading import torch import pyaudiowpatch as pyaudio from faster_whisper import WhisperModel # 录音切片时长（秒） AUDIO_BUFFER =5defrecord_audio(p, device):# 创建临时文件with tempfile.NamedTemporaryFile(suffix=".wav", delete=False)as f: filename = f.name wave_file = wave.open(filename,"wb") wave_file.setnchannels(int(device["maxInputChannels"])) wave_file.setsampwidth(p.get_sample_size(pyaudio.paInt16)) wave_file.setframerate(int(device["defaultSampleRate"]))defcallback(in_data, frame_count, time_info, status):"""写入音频帧""" wave_file.writeframes(in_data)return(in_data, pyaudio.paContinue)try: stream = p.open(format=pyaudio.paInt16, channels=int(device["maxInputChannels"]), rate=int(device["defaultSampleRate"]), frames_per_buffer=1024,input=True, input_device_index=device["index"], stream_callback=callback,) time.sleep(AUDIO_BUFFER)# 阻塞主线程进行录音except Exception as e:print(f"录音出错: {e}")finally:if'stream'inlocals(): stream.stop_stream() stream.close() wave_file.close()return filename defwhisper_audio(filename, model):""" 调用模型进行转录 """try:# vad_filter=True 可以去掉没说话的静音片段 segments, info = model.transcribe( filename, beam_size=5, language="zh", vad_filter=True, vad_parameters=dict(min_silence_duration_ms=500))for segment in segments:print("[%.2fs -> %.2fs] %s"%(segment.start, segment.end, segment.text))except Exception as e:print(f"转录出错: {e}")finally:# 转录完成后删除临时文件if os.path.exists(filename): os.remove(filename)defmain():print("正在加载 Whisper 模型...")# 检查 GPUif torch.cuda.is_available(): device ="cuda" compute_type ="float16"# 或者 "int8_float16"print("使用 GPU (CUDA) 进行推理")else: device ="cpu" compute_type ="int8"# CPU 上推荐用 int8print("使用 CPU 进行推理")# 模型路径 model_path ="large-v3"try: model = WhisperModel(model_path, device=device, compute_type=compute_type,local_files_only=True)print("模型加载成功！")except Exception as e:print(f"模型加载失败: {e}")returnwith pyaudio.PyAudio()as p:try: default_mic = p.get_default_input_device_info()print(f"\n当前使用的麦克风: {default_mic['name']} (Index: {default_mic['index']})")print(f"采样率: {default_mic['defaultSampleRate']}, 通道数: {default_mic['maxInputChannels']}")print("-"*50)print("开始持续录音 (按 Ctrl+C 停止)...")whileTrue: filename = record_audio(p, default_mic) thread = threading.Thread(target=whisper_audio, args=(filename, model)) thread.start()except OSError:print("未找到默认麦克风，请检查系统声音设置。")except KeyboardInterrupt:print("\n停止录音，程序退出。")except Exception as e:print(f"\n发生未知错误: {e}")if __name__ =='__main__': main()

3.报错解决方法

报错：

Could not locate cudnn_ops64_9.dll. Please make sure it is in your library path!
Invalid handle. Cannot load symbol cudnnCreateTensorDescriptor

Faster-Whisper 所依赖的 CTranslate2 引擎是基于 cuDNN 9.x 版本编译的，我电脑上没有找到 cuDNN v9，看了一下官网的解释如下：

安装旧版本：

pip install --force-reinstall ctranslate2==4.4.0

还是报错：

找到你的 CUDA 安装在其他位置，我的在 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.3\bin

找到 cublas64_11.dll，复制出来，改成 cublas64_12.dll

当我换了一个虚拟环境，使用 CUDA11.8 时候，虚拟环境已经安装了 CUDA11.8，报错：cuBLAS failed with status CUBLAS_STATUS_NOT_SUPPORTED

这是因为调用虚拟环境的 CUDA 11.8 ，PyTorch 安装的是 2.2.2+ cu118（自带 CUDA 11.8）如下图

报错因为你虚拟环境没有 cublas64_12.dll ，那么跟之前的操作一样，找到你的虚拟环境 cublas64_11.dll 所在的位置，我的在 D:\1-Python\ProgramFiles\Miniconda\envs\paddle_torch\Lib\site-packages\torch\lib

把 cublas64_11.dll 复制一份，改成 cublas64_12.dll

报错：Applying the VAD filter requires the onnxruntime package
把 onnxruntime 库版本降低就行，我安装 1.19.2

pip install onnxruntime==1.19.2

参考文章：
报错RuntimeError: Library cublas64_12.dll is not found or cannot be loaded

最后成功了

总结

对你有帮助请帮我一键三连。

C语言Web开发：CGI、FastCGI、Nginx深度解析

C语言Web开发：CGI、FastCGI、Nginx深度解析一、前言：为什么Web开发是C语言开发的重要技能？学习目标 * 理解Web开发的本质：编写程序实现Web应用、服务器端逻辑和客户端交互 * 明确Web开发的重要性：支撑互联网、电子商务、社交网络等领域的发展 * 掌握本章学习重点：CGI、FastCGI、Nginx的开发方法、避坑指南、实战案例分析 * 学会使用C语言开发Web应用，实现服务器端逻辑和客户端交互重点提示 💡 Web开发是C语言开发的重要技能！随着互联网的普及，Web开发的需求越来越大，C语言的高性能和可移植性使其在Web开发中具有重要地位。二、模块1：CGI（通用网关接口）基础 2.1 学习目标 * 理解CGI的本质：通用网关接口，用于Web服务器与服务器端程序之间的通信 * 掌握CGI的核心架构：Web服务器、CGI程序、客户端 * 掌握CGI的开发方法：使用C语言编写CGI程序 * 掌握CGI的避坑指南：避免环境变量未设置、避免输出格式错误、避免资源泄漏 * 避开CGI使用的3大常见坑

Go map 底层原理

Go map 底层原理 * 1. 一语戳破哈希表 * 2. 经典版：Go map 到底长什么样 * 2.1 `hmap` 解决什么问题 * 2.2 `bmap` 解决什么问题 * 2.3 `tophash[8]` 到底在干什么 * 2.4 `overflow bucket` 是怎么来的 * 3. 扩容不是“多加几个桶”那么简单 * 3.1 为什么旧桶必须搬 * 3.2 为什么 Go 要做渐进式扩容 * 3.3 增量扩容和等量扩容 * 4. 并发安全：原生 map 为什么不能裸奔 * 5. 现版本的Go

PostgreSQL动态分区裁剪技术：查询性能优化解析（2026年版）

PostgreSQL动态分区裁剪技术：从原理到实战的查询性能优化一、引言 1.1 研究背景与意义随着企业数据量从TB级向PB级演进，数据库管理系统面临着严峻的挑战。PostgreSQL作为一款功能强大的开源关系型数据库，凭借其高度的可扩展性和标准兼容性，在金融、电商、物联网等领域得到了广泛应用。然而，在处理海量数据时，如何通过分区裁剪技术精准定位目标数据，避免无关分区的无效扫描，已成为查询性能优化的关键突破口。在实际应用中，许多场景对查询性能有着极高要求。以电商行业为例，订单数据量庞大，每天可能产生数百万甚至数千万条订单记录。在进行订单查询、统计分析等操作时，如果不能有效利用分区裁剪技术，查询可能会耗费大量时间，严重影响用户体验。又如在金融领域，交易数据的实时查询对于风险控制至关重要，动态分区裁剪技术能够帮助金融机构快速获取所需数据。 1.2 研究目标与范围本文旨在深入研究PostgreSQL声明式分区表的动态裁剪机制，通过结合源码分析与实际案例，系统地阐述其实现原理、优化策略及性能影响因素。研究目标包括： * 从源码层面深入剖析动态分区裁剪的实现原理 *

黑马点评完整代码(RabbitMQ优化)+简历编写+面试重点 ⭐

简历上展示黑马点评完整代码地址微服务学成在线项目前言当初就是当作一个学习笔记和个人面试记录发的，没想到这么多人收藏浏览，还是感慨学Java的人确实多啊。适合什么人看呢，我仅仅说说我个人的理解，因为我现在也是个经历秋招的双非学生。 1.初学者学习完Redis基础，想来个实战，黑马点评还是特别好的一个项目，基本包含了所有数据类型的运用和redis其他功能的扩展，这篇文章可以带你提炼重点，很好的走下流程。 2.但大部分人是冲着找实习和秋招去的，像我这种学历不高的秋招就不要写黑马点评了，即使包装，也会很容易看出来，我找实习的时候就被面试官问到这是不是黑马点评过，我们可以把其中的闪光点迁移到你找的其他项目中，比如缓存穿透雪崩击穿的解决方法，redisson分布式锁解决一人一单，这种在大多项目中都可以添加，自圆其说就行。 3.对于找实习的像大二，大三上的，想找个小厂试试手垂直向上升的，可以吃透它，面试官问你遇到的困难或者是你觉得难点，就可以重点讲一人一单这个解决方法和流程，越详细越好。 4.前提是大家不用直接用这套模板，太多人用了，这也是我从网上找的别人的，巧用AI让它改改项