手把手教你使用 Faster-Whisper 实时语音输入转文本，本地部署教程

优质文章学习记录

11 Apr 2026 — 6 min read

文章目录

前言
一、安装环境
二、使用步骤
总结

前言

要想实现像豆包、微信等一样的语音输入功能，通常有两种主流方案：云端 API（轻量、准确度极高）和本地模型（免费、隐私、无需联网）。由于目前开发的系统需要添加一个语音识别功能，刚好记录一下使用 Faster-Whisper 实时语音输入转文本。Faster-Whisper官网地址链接: Faster-Whisper官网地址

复现成功如下图所示，请看下文教程就能部署本地实时语音输入转文本模型：

电脑有显卡的话可以参考下面这篇文章安装 cuda 和 cudnn

cuda和cudnn的安装教程: cuda和cudnn的安装教程(全网最详细保姆级教程)

一、安装环境

在你的虚拟环境安装 faster-whisper，命令如下：

pip install faster-whisper

安装录音库

pip install pyaudiowpatch

二、使用步骤

1.下载模型

手动下载（离线使用）
如果你的服务器无法联网，或者你想把模型放在指定文件夹，可以手动下载。根据需求点击链接下载：

Tiny (最小/最快):Systran/faster-whisper-tiny
Base:Systran/faster-whisper-base
Small:Systran/faster-whisper-small
Medium:Systran/faster-whisper-medium
Large-v2:Systran/faster-whisper-large-v2
Large-v3 (效果最好):Systran/faster-whisper-large-v3
Distil-Large-v3 (蒸馏版/速度快):Systran/faster-distil-whisper-large-v3

在 Hugging Face 的 “Files and versions” 页面中，下载以下几个关键文件（放入同一个文件夹）：

config.json
model.bin
tokenizer.json
vocabulary.json
preprocessor_config.json

我是下载 faster-whisper-large-v3 的模型下载链接： faster-whisper-large-v3 模型下载地址

把下载的模型文件放到一个文件夹内：

2.实时录音转文本脚本

代码如下（示例）：

# -*- coding: utf-8 -*-""" @Auth ：落花不写码 @File ：mian.py @IDE ：PyCharm @Motto :学习新思想，争做新青年 """import os import sys import time import wave import tempfile import threading import torch import pyaudiowpatch as pyaudio from faster_whisper import WhisperModel # 录音切片时长（秒） AUDIO_BUFFER =5defrecord_audio(p, device):# 创建临时文件with tempfile.NamedTemporaryFile(suffix=".wav", delete=False)as f: filename = f.name wave_file = wave.open(filename,"wb") wave_file.setnchannels(int(device["maxInputChannels"])) wave_file.setsampwidth(p.get_sample_size(pyaudio.paInt16)) wave_file.setframerate(int(device["defaultSampleRate"]))defcallback(in_data, frame_count, time_info, status):"""写入音频帧""" wave_file.writeframes(in_data)return(in_data, pyaudio.paContinue)try: stream = p.open(format=pyaudio.paInt16, channels=int(device["maxInputChannels"]), rate=int(device["defaultSampleRate"]), frames_per_buffer=1024,input=True, input_device_index=device["index"], stream_callback=callback,) time.sleep(AUDIO_BUFFER)# 阻塞主线程进行录音except Exception as e:print(f"录音出错: {e}")finally:if'stream'inlocals(): stream.stop_stream() stream.close() wave_file.close()return filename defwhisper_audio(filename, model):""" 调用模型进行转录 """try:# vad_filter=True 可以去掉没说话的静音片段 segments, info = model.transcribe( filename, beam_size=5, language="zh", vad_filter=True, vad_parameters=dict(min_silence_duration_ms=500))for segment in segments:print("[%.2fs -> %.2fs] %s"%(segment.start, segment.end, segment.text))except Exception as e:print(f"转录出错: {e}")finally:# 转录完成后删除临时文件if os.path.exists(filename): os.remove(filename)defmain():print("正在加载 Whisper 模型...")# 检查 GPUif torch.cuda.is_available(): device ="cuda" compute_type ="float16"# 或者 "int8_float16"print("使用 GPU (CUDA) 进行推理")else: device ="cpu" compute_type ="int8"# CPU 上推荐用 int8print("使用 CPU 进行推理")# 模型路径 model_path ="large-v3"try: model = WhisperModel(model_path, device=device, compute_type=compute_type,local_files_only=True)print("模型加载成功！")except Exception as e:print(f"模型加载失败: {e}")returnwith pyaudio.PyAudio()as p:try: default_mic = p.get_default_input_device_info()print(f"\n当前使用的麦克风: {default_mic['name']} (Index: {default_mic['index']})")print(f"采样率: {default_mic['defaultSampleRate']}, 通道数: {default_mic['maxInputChannels']}")print("-"*50)print("开始持续录音 (按 Ctrl+C 停止)...")whileTrue: filename = record_audio(p, default_mic) thread = threading.Thread(target=whisper_audio, args=(filename, model)) thread.start()except OSError:print("未找到默认麦克风，请检查系统声音设置。")except KeyboardInterrupt:print("\n停止录音，程序退出。")except Exception as e:print(f"\n发生未知错误: {e}")if __name__ =='__main__': main()

3.报错解决方法

报错：

Could not locate cudnn_ops64_9.dll. Please make sure it is in your library path!
Invalid handle. Cannot load symbol cudnnCreateTensorDescriptor

Faster-Whisper 所依赖的 CTranslate2 引擎是基于 cuDNN 9.x 版本编译的，我电脑上没有找到 cuDNN v9，看了一下官网的解释如下：

安装旧版本：

pip install --force-reinstall ctranslate2==4.4.0

还是报错：

找到你的 CUDA 安装在其他位置，我的在 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.3\bin

找到 cublas64_11.dll，复制出来，改成 cublas64_12.dll

当我换了一个虚拟环境，使用 CUDA11.8 时候，虚拟环境已经安装了 CUDA11.8，报错：cuBLAS failed with status CUBLAS_STATUS_NOT_SUPPORTED

这是因为调用虚拟环境的 CUDA 11.8 ，PyTorch 安装的是 2.2.2+ cu118（自带 CUDA 11.8）如下图

报错因为你虚拟环境没有 cublas64_12.dll ，那么跟之前的操作一样，找到你的虚拟环境 cublas64_11.dll 所在的位置，我的在 D:\1-Python\ProgramFiles\Miniconda\envs\paddle_torch\Lib\site-packages\torch\lib

把 cublas64_11.dll 复制一份，改成 cublas64_12.dll

报错：Applying the VAD filter requires the onnxruntime package
把 onnxruntime 库版本降低就行，我安装 1.19.2

pip install onnxruntime==1.19.2

参考文章：
报错RuntimeError: Library cublas64_12.dll is not found or cannot be loaded

最后成功了

总结

对你有帮助请帮我一键三连。

第二章-AIGC入门-AIGC工具全解析：技术控的效率神器，DeepSeek国产大模型的骄傲（8/36）

一、引言：AIGC 时代的浪潮在数字化时代的浪潮中，人工智能生成内容（AIGC）技术正以迅猛之势席卷而来，深刻地改变着我们的生活和工作方式。从日常的社交媒体互动，到专业的内容创作、设计、教育、医疗等领域，AIGC 工具无处不在，展现出强大的影响力和无限的潜力。 AIGC 技术的核心在于利用人工智能算法，通过对海量数据的学习和分析，自动生成各种形式的内容，包括文本、图像、音频、视频等。这一技术的突破，打破了传统内容创作的边界，使得内容生产变得更加高效、智能和多样化。无论是创作一篇新闻报道、设计一幅精美的海报，还是制作一段引人入胜的视频，AIGC 工具都能提供有力的支持，帮助创作者节省时间和精力，激发更多的创意灵感。如今，AIGC 工具已经广泛应用于各个行业。在新闻媒体领域，自动化新闻写作工具能够快速生成体育赛事、财经新闻等报道，大大提高了新闻的时效性；在广告营销行业，AIGC 可以根据产品特点和目标受众，生成极具吸引力的广告文案和创意设计，提升营销效果；在影视游戏制作中，AIGC

无需翻墙！国内直连的3款AI绘画工具保姆级教程（含Stable Diffusion替代方案）

无需跨域，触手可及：面向国内创作者的AI绘画工具深度实践指南对于许多创意工作者和数字艺术爱好者而言，AI绘画工具的出现无疑打开了一扇新世界的大门。然而，当热情遭遇网络环境的现实壁垒，那份创作的冲动往往被复杂的配置和连接问题所冷却。我们理解，真正的灵感不应被技术门槛所束缚。因此，本文将聚焦于那些能够在国内网络环境下直接、稳定、高效运行的AI绘画解决方案。无论你是插画师、设计师、社交媒体内容创作者，还是纯粹对AI艺术充满好奇的探索者，这里没有晦涩的术语和繁琐的翻越步骤，只有从零开始、一步到位的实操指南。我们将深入探讨不同工具的特性、本地部署的优劣、云端服务的便捷，以及如何将这些工具无缝融入你的实际工作流，释放被压抑的创造力。 1. 核心工具选择：云端直连与本地部署的权衡在选择AI绘画工具时，我们首先需要明确两个核心路径：云端服务和本地部署。这两条路径在易用性、性能、隐私和成本上各有千秋，理解它们的区别是做出明智选择的第一步。云端服务通常以网页应用或轻量级客户端的形式提供。其最大优势在于 “开箱即用” 。你无需关心复杂的模型下载、显卡驱动或显存大小，只需一个浏览器，注册账号

解锁AIGC新时代：通义万相2.1与蓝耘智算平台的完美结合引领AI内容生成革命

前言通义万相2.1作为一个开源的视频生成AI模型，在发布当天便荣登了VBench排行榜的榜首，超越了Sora和Runway等业内巨头，展现出惊人的潜力。模型不仅能够生成1080P分辨率的视频，而且没有时长限制，能够模拟自然动作，甚至还可以还原物理规律，这在AIGC领域中简直堪称革命性突破。通过蓝耘智算平台，我们能够轻松部署这个模型，创建属于自己的AI视频生成工具。今天，我将为大家深入探讨通义万相2.1的强大功能，并分享如何利用蓝耘智算平台快速入门。蓝耘智算平台 1. 平台概述蓝耘智算平台是一个为高性能计算需求设计的云计算平台，提供强大的计算能力与灵活服务。平台基于领先的基础设施和大规模GPU算力，采用现代化的Kubernetes架构，专为大规模GPU加速工作负载而设计，满足用户多样化的需求。 2. 核心优势 * 硬件层：蓝耘智算平台支持多型号GPU，包括NVIDIA A100、V100、H100等高性能显卡，能够通过高速网络实现多机多卡并行计算，突破单机算力瓶颈。 * 软件层：集成Kubernetes与Docker技术，便于任务迁移与隔离；支持PyTo

终极对决！文心一言 vs 通义千问 vs Kimi vs 豆包，四大国产巨头正面硬刚，技术、性能、生态全方位拆解！

写在前面上周我们对比了一下目前最流行的AI工具，不过三款工具都是国外的，对于国内用户来说，有些需要一些魔法才能访问，终究是有些不便。最近身边越来越多人问我：国产AI到底选哪个？文心一言、通义千问、Kimi、豆包……看着都差不多，但用起来又各有千秋。说实话，我自己也是这四款都在用。文心一言帮我写文案，Kimi帮我整理资料，豆包拿来写代码等。有个挺有意思的消息：苹果在中国选了通义千问和文心一言做合作伙伴，要把它们整合进 Siri。虽然不知道能整合成啥样，但至少说明国产AI这两年确实长进不少。这篇文章我会从实际使用感受出发，聊聊这四款工具到底怎么样、适合什么场景，顺便吐槽一下各自的坑。毕竟用AI嘛，最重要的是找到适合自己的那一款。一、四大主流AI大模型概览文心一言 4.0（百度）先说文心一言，这是我用得最早的国产AI。最大的感受就是文笔确实好，写出来的东西有点"文绉绉"的味道，特别适合写公众号文章、营销文案这类需要点文采的内容。百度把自家搜索引擎接进去了，所以查实时信息还挺方便。支持128K的上下文，