手把手教你使用 Faster-Whisper 实时语音输入转文本，本地部署教程

优质文章学习记录

11 Apr 2026 — 6 min read

文章目录

前言
一、安装环境
二、使用步骤
总结

前言

要想实现像豆包、微信等一样的语音输入功能，通常有两种主流方案：云端 API（轻量、准确度极高）和本地模型（免费、隐私、无需联网）。由于目前开发的系统需要添加一个语音识别功能，刚好记录一下使用 Faster-Whisper 实时语音输入转文本。Faster-Whisper官网地址链接: Faster-Whisper官网地址

复现成功如下图所示，请看下文教程就能部署本地实时语音输入转文本模型：

电脑有显卡的话可以参考下面这篇文章安装 cuda 和 cudnn

cuda和cudnn的安装教程: cuda和cudnn的安装教程(全网最详细保姆级教程)

一、安装环境

在你的虚拟环境安装 faster-whisper，命令如下：

pip install faster-whisper

安装录音库

pip install pyaudiowpatch

二、使用步骤

1.下载模型

手动下载（离线使用）
如果你的服务器无法联网，或者你想把模型放在指定文件夹，可以手动下载。根据需求点击链接下载：

Tiny (最小/最快):Systran/faster-whisper-tiny
Base:Systran/faster-whisper-base
Small:Systran/faster-whisper-small
Medium:Systran/faster-whisper-medium
Large-v2:Systran/faster-whisper-large-v2
Large-v3 (效果最好):Systran/faster-whisper-large-v3
Distil-Large-v3 (蒸馏版/速度快):Systran/faster-distil-whisper-large-v3

在 Hugging Face 的 “Files and versions” 页面中，下载以下几个关键文件（放入同一个文件夹）：

config.json
model.bin
tokenizer.json
vocabulary.json
preprocessor_config.json

我是下载 faster-whisper-large-v3 的模型下载链接： faster-whisper-large-v3 模型下载地址

把下载的模型文件放到一个文件夹内：

2.实时录音转文本脚本

代码如下（示例）：

# -*- coding: utf-8 -*-""" @Auth ：落花不写码 @File ：mian.py @IDE ：PyCharm @Motto :学习新思想，争做新青年 """import os import sys import time import wave import tempfile import threading import torch import pyaudiowpatch as pyaudio from faster_whisper import WhisperModel # 录音切片时长（秒） AUDIO_BUFFER =5defrecord_audio(p, device):# 创建临时文件with tempfile.NamedTemporaryFile(suffix=".wav", delete=False)as f: filename = f.name wave_file = wave.open(filename,"wb") wave_file.setnchannels(int(device["maxInputChannels"])) wave_file.setsampwidth(p.get_sample_size(pyaudio.paInt16)) wave_file.setframerate(int(device["defaultSampleRate"]))defcallback(in_data, frame_count, time_info, status):"""写入音频帧""" wave_file.writeframes(in_data)return(in_data, pyaudio.paContinue)try: stream = p.open(format=pyaudio.paInt16, channels=int(device["maxInputChannels"]), rate=int(device["defaultSampleRate"]), frames_per_buffer=1024,input=True, input_device_index=device["index"], stream_callback=callback,) time.sleep(AUDIO_BUFFER)# 阻塞主线程进行录音except Exception as e:print(f"录音出错: {e}")finally:if'stream'inlocals(): stream.stop_stream() stream.close() wave_file.close()return filename defwhisper_audio(filename, model):""" 调用模型进行转录 """try:# vad_filter=True 可以去掉没说话的静音片段 segments, info = model.transcribe( filename, beam_size=5, language="zh", vad_filter=True, vad_parameters=dict(min_silence_duration_ms=500))for segment in segments:print("[%.2fs -> %.2fs] %s"%(segment.start, segment.end, segment.text))except Exception as e:print(f"转录出错: {e}")finally:# 转录完成后删除临时文件if os.path.exists(filename): os.remove(filename)defmain():print("正在加载 Whisper 模型...")# 检查 GPUif torch.cuda.is_available(): device ="cuda" compute_type ="float16"# 或者 "int8_float16"print("使用 GPU (CUDA) 进行推理")else: device ="cpu" compute_type ="int8"# CPU 上推荐用 int8print("使用 CPU 进行推理")# 模型路径 model_path ="large-v3"try: model = WhisperModel(model_path, device=device, compute_type=compute_type,local_files_only=True)print("模型加载成功！")except Exception as e:print(f"模型加载失败: {e}")returnwith pyaudio.PyAudio()as p:try: default_mic = p.get_default_input_device_info()print(f"\n当前使用的麦克风: {default_mic['name']} (Index: {default_mic['index']})")print(f"采样率: {default_mic['defaultSampleRate']}, 通道数: {default_mic['maxInputChannels']}")print("-"*50)print("开始持续录音 (按 Ctrl+C 停止)...")whileTrue: filename = record_audio(p, default_mic) thread = threading.Thread(target=whisper_audio, args=(filename, model)) thread.start()except OSError:print("未找到默认麦克风，请检查系统声音设置。")except KeyboardInterrupt:print("\n停止录音，程序退出。")except Exception as e:print(f"\n发生未知错误: {e}")if __name__ =='__main__': main()

3.报错解决方法

报错：

Could not locate cudnn_ops64_9.dll. Please make sure it is in your library path!
Invalid handle. Cannot load symbol cudnnCreateTensorDescriptor

Faster-Whisper 所依赖的 CTranslate2 引擎是基于 cuDNN 9.x 版本编译的，我电脑上没有找到 cuDNN v9，看了一下官网的解释如下：

安装旧版本：

pip install --force-reinstall ctranslate2==4.4.0

还是报错：

找到你的 CUDA 安装在其他位置，我的在 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.3\bin

找到 cublas64_11.dll，复制出来，改成 cublas64_12.dll

当我换了一个虚拟环境，使用 CUDA11.8 时候，虚拟环境已经安装了 CUDA11.8，报错：cuBLAS failed with status CUBLAS_STATUS_NOT_SUPPORTED

这是因为调用虚拟环境的 CUDA 11.8 ，PyTorch 安装的是 2.2.2+ cu118（自带 CUDA 11.8）如下图

报错因为你虚拟环境没有 cublas64_12.dll ，那么跟之前的操作一样，找到你的虚拟环境 cublas64_11.dll 所在的位置，我的在 D:\1-Python\ProgramFiles\Miniconda\envs\paddle_torch\Lib\site-packages\torch\lib

把 cublas64_11.dll 复制一份，改成 cublas64_12.dll

报错：Applying the VAD filter requires the onnxruntime package
把 onnxruntime 库版本降低就行，我安装 1.19.2

pip install onnxruntime==1.19.2

参考文章：
报错RuntimeError: Library cublas64_12.dll is not found or cannot be loaded

最后成功了

总结

对你有帮助请帮我一键三连。

Paperzz 期刊论文智能写作：让学术投稿从 “难产” 到 “高产” 的破局之道

Paperzz-AI官网免费论文查重复率AIGC检测/开题报告/文献综述/论文初稿paperzz - 期刊论文https://www.paperzz.cc/journalArticle 在学术研究的金字塔中，期刊论文是衡量研究者能力的核心标尺，也是学术成果走向同行认可的必经之路。然而，对于大多数科研人而言，期刊论文写作与投稿始终是一道难以逾越的鸿沟：从选题构思到框架搭建，从文献梳理到内容填充，从格式规范到语言润色，每一个环节都充满了挑战。传统的写作模式不仅效率低下，还容易陷入 “反复修改、屡屡被拒” 的循环，让不少研究者在学术道路上步履维艰。 Paperzz 的期刊论文智能写作功能，正是为破解这一困境而生。它以 AI 技术为核心，重构了期刊论文的创作全流程，将选题、框架、内容、格式、润色等环节深度整合，让学术写作从 “个体攻坚” 升级为 “智能协同”。无论是初出茅庐的青年学者，还是经验丰富的资深研究者，都能借助这一工具，大幅提升写作效率与投稿成功率，让学术成果更快、更稳地走向学术舞台。一、期刊论文写作的

Whisper-WebUI语音转文字工具：2025年最值得投资的效率革命

Whisper-WebUI语音转文字工具：2025年最值得投资的效率革命【免费下载链接】Whisper-WebUI 项目地址: https://gitcode.com/gh_mirrors/wh/Whisper-WebUI 在数字内容爆炸式增长的时代，语音转文字技术正成为内容创作者、教育工作者和企业用户的必备工具。面对市场上琳琅满目的解决方案，Whisper-WebUI以其独特的技术架构和卓越的性能表现，正在重新定义语音识别的行业标准。这款基于Gradio构建的开源工具，通过深度优化的处理流水线，让语音转录效率实现了质的飞跃。 🔍 传统语音识别面临的三大核心痛点性能瓶颈问题：传统语音识别工具在处理长音频时往往面临显存占用过高、处理速度缓慢的困扰。原生Whisper在处理10分钟音频时需要消耗超过11GB显存，耗时长达4分30秒，严重制约了实际应用场景。多源兼容性挑战：从本地文件到在线视频，从实时录音到流媒体内容，用户需要的是能够无缝对接各类音源的一站式解决方案。后期处理复杂度：单纯的语音转文字远远不够，用户更需要完整的字幕制作、说话人分离、背景音乐处理等配套功能

GLM-4-9B开源大模型：性能超越Llama-3-8B的AI新选择

导语：智谱AI推出的开源大模型GLM-4-9B在多项关键指标上超越Meta的Llama-3-8B，为开发者提供了兼具高性能与多语言能力的新选择，标志着开源大模型竞争进入新阶段。【免费下载链接】glm-4-9b-hf 项目地址: https://ai.gitcode.com/zai-org/glm-4-9b-hf 行业现状：开源大模型进入性能与功能全面竞争时代 2024年以来，大语言模型领域呈现出"闭源引领方向，开源快速追赶"的格局。随着Meta Llama-3系列的发布，开源社区再次掀起技术迭代热潮。根据行业研究数据，全球已有超过200个参数量超过10亿的开源大模型，其中能够达到商用标准的高性能模型不足15%。开发者对兼具强性能、多模态能力和长上下文支持的开源模型需求持续攀升，尤其在中文处理能力和本地化部署场景中，对国产开源模型的期待显著提升。模型亮点：六大核心优势重塑开源大模型标准 GLM-4-9B作为GLM-4系列的开源版本，展现出多维度的技术突破：性能全面领先：在权威评测中，GLM-4-9B基础模型表现亮眼。MMLU（多任务语言理解）测试得分74.7分，超越

使用 LLaMA-Factory 微调 Qwen2.5 模型，并转换为 GGUF 格式部署

在开源大模型领域，Qwen 系列凭借强大的中文能力和友好的协议受到广泛欢迎。然而，直接使用基座模型往往无法满足特定业务场景的需求，需要通过微调来注入领域知识。微调后的模型如何高效部署？GGUF 格式是目前 llama.cpp 等推理后端广泛支持的格式，具有跨平台、内存映射等优点。本文将完整记录使用 LLaMA-Factory 微调 Qwen2.5-7B-Instruct 模型，并通过 llama.cpp 将微调后的模型转换为 GGUF 格式的全过程，并分享在转换过程中遇到的经典错误及其解决方案。 1.环境准备我们在一台 Linux 服务器上操作，安装了 Conda 用于环境隔离。需要准备以下组件： Python 3.10 LLaMA-Factory（用于微调） llama.cpp（用于格式转换） transformers、peft、accelerate 等依赖库 1.1