手把手教你使用 Faster-Whisper 实时语音输入转文本，本地部署教程

优质文章学习记录

09 Apr 2026 — 6 min read

文章目录

前言
一、安装环境
二、使用步骤
总结

前言

要想实现像豆包、微信等一样的语音输入功能，通常有两种主流方案：云端 API（轻量、准确度极高）和本地模型（免费、隐私、无需联网）。由于目前开发的系统需要添加一个语音识别功能，刚好记录一下使用 Faster-Whisper 实时语音输入转文本。Faster-Whisper官网地址链接: Faster-Whisper官网地址

复现成功如下图所示，请看下文教程就能部署本地实时语音输入转文本模型：

电脑有显卡的话可以参考下面这篇文章安装 cuda 和 cudnn

cuda和cudnn的安装教程: cuda和cudnn的安装教程(全网最详细保姆级教程)

一、安装环境

在你的虚拟环境安装 faster-whisper，命令如下：

pip install faster-whisper

安装录音库

pip install pyaudiowpatch

二、使用步骤

1.下载模型

手动下载（离线使用）
如果你的服务器无法联网，或者你想把模型放在指定文件夹，可以手动下载。根据需求点击链接下载：

Tiny (最小/最快):Systran/faster-whisper-tiny
Base:Systran/faster-whisper-base
Small:Systran/faster-whisper-small
Medium:Systran/faster-whisper-medium
Large-v2:Systran/faster-whisper-large-v2
Large-v3 (效果最好):Systran/faster-whisper-large-v3
Distil-Large-v3 (蒸馏版/速度快):Systran/faster-distil-whisper-large-v3

在 Hugging Face 的 “Files and versions” 页面中，下载以下几个关键文件（放入同一个文件夹）：

config.json
model.bin
tokenizer.json
vocabulary.json
preprocessor_config.json

我是下载 faster-whisper-large-v3 的模型下载链接： faster-whisper-large-v3 模型下载地址

把下载的模型文件放到一个文件夹内：

2.实时录音转文本脚本

代码如下（示例）：

# -*- coding: utf-8 -*-""" @Auth ：落花不写码 @File ：mian.py @IDE ：PyCharm @Motto :学习新思想，争做新青年 """import os import sys import time import wave import tempfile import threading import torch import pyaudiowpatch as pyaudio from faster_whisper import WhisperModel # 录音切片时长（秒） AUDIO_BUFFER =5defrecord_audio(p, device):# 创建临时文件with tempfile.NamedTemporaryFile(suffix=".wav", delete=False)as f: filename = f.name wave_file = wave.open(filename,"wb") wave_file.setnchannels(int(device["maxInputChannels"])) wave_file.setsampwidth(p.get_sample_size(pyaudio.paInt16)) wave_file.setframerate(int(device["defaultSampleRate"]))defcallback(in_data, frame_count, time_info, status):"""写入音频帧""" wave_file.writeframes(in_data)return(in_data, pyaudio.paContinue)try: stream = p.open(format=pyaudio.paInt16, channels=int(device["maxInputChannels"]), rate=int(device["defaultSampleRate"]), frames_per_buffer=1024,input=True, input_device_index=device["index"], stream_callback=callback,) time.sleep(AUDIO_BUFFER)# 阻塞主线程进行录音except Exception as e:print(f"录音出错: {e}")finally:if'stream'inlocals(): stream.stop_stream() stream.close() wave_file.close()return filename defwhisper_audio(filename, model):""" 调用模型进行转录 """try:# vad_filter=True 可以去掉没说话的静音片段 segments, info = model.transcribe( filename, beam_size=5, language="zh", vad_filter=True, vad_parameters=dict(min_silence_duration_ms=500))for segment in segments:print("[%.2fs -> %.2fs] %s"%(segment.start, segment.end, segment.text))except Exception as e:print(f"转录出错: {e}")finally:# 转录完成后删除临时文件if os.path.exists(filename): os.remove(filename)defmain():print("正在加载 Whisper 模型...")# 检查 GPUif torch.cuda.is_available(): device ="cuda" compute_type ="float16"# 或者 "int8_float16"print("使用 GPU (CUDA) 进行推理")else: device ="cpu" compute_type ="int8"# CPU 上推荐用 int8print("使用 CPU 进行推理")# 模型路径 model_path ="large-v3"try: model = WhisperModel(model_path, device=device, compute_type=compute_type,local_files_only=True)print("模型加载成功！")except Exception as e:print(f"模型加载失败: {e}")returnwith pyaudio.PyAudio()as p:try: default_mic = p.get_default_input_device_info()print(f"\n当前使用的麦克风: {default_mic['name']} (Index: {default_mic['index']})")print(f"采样率: {default_mic['defaultSampleRate']}, 通道数: {default_mic['maxInputChannels']}")print("-"*50)print("开始持续录音 (按 Ctrl+C 停止)...")whileTrue: filename = record_audio(p, default_mic) thread = threading.Thread(target=whisper_audio, args=(filename, model)) thread.start()except OSError:print("未找到默认麦克风，请检查系统声音设置。")except KeyboardInterrupt:print("\n停止录音，程序退出。")except Exception as e:print(f"\n发生未知错误: {e}")if __name__ =='__main__': main()

3.报错解决方法

报错：

Could not locate cudnn_ops64_9.dll. Please make sure it is in your library path!
Invalid handle. Cannot load symbol cudnnCreateTensorDescriptor

Faster-Whisper 所依赖的 CTranslate2 引擎是基于 cuDNN 9.x 版本编译的，我电脑上没有找到 cuDNN v9，看了一下官网的解释如下：

安装旧版本：

pip install --force-reinstall ctranslate2==4.4.0

还是报错：

找到你的 CUDA 安装在其他位置，我的在 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.3\bin

找到 cublas64_11.dll，复制出来，改成 cublas64_12.dll

当我换了一个虚拟环境，使用 CUDA11.8 时候，虚拟环境已经安装了 CUDA11.8，报错：cuBLAS failed with status CUBLAS_STATUS_NOT_SUPPORTED

这是因为调用虚拟环境的 CUDA 11.8 ，PyTorch 安装的是 2.2.2+ cu118（自带 CUDA 11.8）如下图

报错因为你虚拟环境没有 cublas64_12.dll ，那么跟之前的操作一样，找到你的虚拟环境 cublas64_11.dll 所在的位置，我的在 D:\1-Python\ProgramFiles\Miniconda\envs\paddle_torch\Lib\site-packages\torch\lib

把 cublas64_11.dll 复制一份，改成 cublas64_12.dll

报错：Applying the VAD filter requires the onnxruntime package
把 onnxruntime 库版本降低就行，我安装 1.19.2

pip install onnxruntime==1.19.2

参考文章：
报错RuntimeError: Library cublas64_12.dll is not found or cannot be loaded

最后成功了

总结

对你有帮助请帮我一键三连。

2026年UI设计师必备10款AI工具，从新手到大神都够用

回望UI设计软件的迭代之路，每年都有新工具冒尖，也有曾经的经典慢慢淡出视野。如今市面上的UI设计工具越来越多，选择范围广了，可不少设计师反而犯了难——到底该选哪款才适配自己的工作？下面我就结合实际使用体验，整理了10款实用UI设计工具，每款在功能、协作性和创新性上各有侧重，不管是刚入门的新手，还是追求高效的资深设计师，都能找到合适的款，一起来看看吧！ 1. UXbot 这是一款很懂国内设计师需求的国产新工具，上手完全没有难度。UXbot 聚焦产品原型、UI 设计与前端开发全链路的 AI智能平台。用户无需代码基础，通过文字描述即可生成高保真多页面原型，支持像素级编辑与沉浸式交互设计；基于云端共享功能，可实现跨角色高效协同，显著提升团队沟通与迭代效率。核心亮点： * 多页面项目生成：输入文字描述或示例截图，UXbot 即可智能解析需求、构建用户旅程图谱并自主选择生成页面，一次性输出整套界面体系，大幅提升构想落地效率。 * 自由编辑：集成自然语言交互与专业级精密编辑器，支持像素级细节调整，兼顾创意灵活性与设计专业性。 * 即时交互原型：一键生成含真实用户流程的可交互演示

【博客之星2025年度总评选】2025年度技术博客总结：从Python基础到AI前沿的进阶之旅

本文目录一、个人成长与突破盘点 1.1 技术深度与广度的双重突破 1.2 问题解决能力的显著提升 1.3 技术视野的前瞻性拓展二、年度创作历程回顾 2.1 从基础到高级的系统化梳理 2.2 内容质量的持续提升三、个人生活与博客事业的融合与平衡四、结语 2025年对于我而言，是技术深耕与突破的关键一年。作为一位专注于Python技术栈的开发者，在这一年中不仅实现了个人技术能力的飞跃，更通过高质量的博客内容为众多开发者提供了实用的技术指南。以下是对2025年度博客创作的全面总结。一、个人成长与突破盘点 1.1 技术深度与广度的双重突破 2025年的技术探索从Python基础逐步深入到高级应用与前沿领域。年初，专注于Python核心模块的深度解析，如random、math、operator等模块的高级用法，展现了扎实的Python基础功底。随着年份推进和技术视野不断拓展，逐步覆盖了AI绘画、OpenAI API集成、Gemini 3.0等前沿技术领域。特别值得一提的是，

引爆2025的AI办公神器TOP5：一键PPT、远程操控

文章目录 * 引言 * 一、ToDesk AI百宝箱 - 全能型AI办公平台 * 1.1 产品概述 * 1.2 AI PPT 功能深度实战 * 1.2.1 智能主题识别与大纲生成 * 1.2.2 专业设计模板库 * 1.2.3 亮点：AI智能生图和二次编辑 * 1.2.4 实战案例验证 * 1.3 其他AI工具功能 * 1.3.1 文档办公类工具 * 1.3.2 图像创意类工具 * 1.4 远程桌面控制功能 * 二、讯飞听见 - 专业语音办公平台

Agent Skills：2026年最值得关注的AI大模型使用方式（Agent vs MCP深度解析）

2026年，AI不再只是“会聊天”的助手。如果你还在用大模型干“问一句、复制粘贴、关掉窗口”这种事，那你可能已经落后了整整一个时代。真正改变游戏规则的，是 Agent Skills（智能体技能） —— 它正成为2026年最值得关注、最具实战价值的大模型使用方式。但与此同时，另一个概念也频繁出现在技术圈：MCP（Model Context Protocol）。很多人混淆二者，甚至误以为它们是竞争关系。其实，它们是互补的“上下层”架构。今天，我们就来彻底讲清楚： * 什么是 Agent Skills？ * 什么是 MCP？ * 它们有何区别与联系？ * 以及你该如何利用它们提升效率？一、从“问问题”到“派任务”：AI使用范式的根本转变过去一年，我给上百家企业做过AI落地培训。我发现一个残酷的事实： 88%的企业声称在用AI，但只有6%