OpenAI Whisper 生态工具与流式处理技术解析 | 极客日志

PythonAI算法

OpenAI Whisper 生态工具与流式处理技术解析

OpenAI Whisper 的生态系统，涵盖 whisper.cpp、Faster-Whisper、WhisperX 等多个开源项目及其特点与实战用法。重点分析了基于 CarelessWhisper 的流式处理方案，包括因果掩码、KV 缓存、稳定 Token 推理机制及 LoRA 微调策略，旨在实现低延迟且接近离线精度的实时语音转录。

监控大屏发布于 2026/4/6更新于 2026/7/1753 浏览

概述

在语音转文本 ASR 工具合集中介绍 ASR 基础概念，汇总几款语音识别模型和项目，其中就包括 OpenAI 开源的 Whisper。OpenAI Whisper 则是技术原理和实战。

围绕 Whisper 有着非常庞大的生态，本文试图介绍几个，不够深入。

whisper.cpp

Whisper 模型的开源（GitHub）C++ 实现版本，核心优势：

几乎无依赖：最大亮点，不同于其他需通过 pip 安装一大堆 Python 库的项目，whisper.cpp 几乎没有依赖；
性能卓越：C++ 原生性能优势，转录速度非常快，资源占用也相对较低；
跨平台与硬件支持：支持多种硬件加速，从主流的 NVIDIA(CUDA)、AMD(OpenCL) 显卡，到苹果的 Metal 框架，甚至是专用 NPU，都能利用起来进一步提速；
部署简单：可以直接下载官方编译好的可执行文件，解压即用，整个程序包非常小巧。

实战

HF 模型地址。

模型名称	文件大小	推荐场景
`ggml-small.bin`	~488MB	电脑配置较低，对速度要求高，能接受少量错误
`ggml-medium.bin`	~1.5GB	平衡之选
`ggml-large-v2.bin`	~3.0GB	追求高准确率，电脑配置较好
`ggml-large-v3.bin`	~3.1GB	最高准确率，目前效果最好的模型，推荐给追求极致效果的用户
`ggml-large-v3-turbo.bin`	~1.6GB	large-v3 的优化版本，速度比 v2/v3 更快，准确率相差不大，适合大多数用户

whisper.cpp 本身只处理标准格式 .wav 文件，对于 mp3、m4a、mp4、mkv 等格式，直接处理可能会报错或得到空白结果。可使用 FFmpeg 预先转换。

Faster-Whisper

开源，使用 CTranslate2 技术。

没有提供图形用户界面 GUI，也没提供命令行接口，只能作为一个 Python 库被调用。

模型：

tiny.en
tiny
base.en
base
small.en
small
medium.en
medium
large-v1
large-v2
large-v3
distil-large-v2
distil-medium.en
distil-small.en
distil-large-v3
large-v3-turbo
turbo

实战

安装：pip install faster-whisper

实例：

from faster_whisper import WhisperModel 

# GPU + FP16 
model = WhisperModel("medium", device=, compute_type=) 

model = WhisperModel(, device=, compute_type=) 
model = WhisperModel(, device=, compute_type=) 

segments, info = model.transcribe(, beam_size=, language=, condition_on_previous_text=)
(%(info.language, info.language_probability))
 segment  segments:
    (%(segment.start, segment.end, segment.text))

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from faster_whisper import WhisperModel, BatchedInferencePipeline 
model = WhisperModel("turbo", device="cuda", compute_type="float16") 
batched_model = BatchedInferencePipeline(model=model) 
segments, info = batched_model.transcribe("audio.mp3", batch_size=16)
for segment in segments:
    print("[%.2fs -> %.2fs] %s"%(segment.start, segment.end, segment.text))

import asyncio 
from contextlib import asynccontextmanager 
from fastapi import FastAPI, WebSocket, WebSocketDisconnect 
from fastapi.responses import HTMLResponse 
from whisperlivekit import AudioProcessor, TranscriptionEngine, parse_args 
transcription_engine = None

@asynccontextmanager
async def lifespan(app: FastAPI):
    global transcription_engine 
    transcription_engine = TranscriptionEngine(model="medium", diarization=True, lan="en")
    yield 

app = FastAPI(lifespan=lifespan)

async def handle_websocket_results(websocket: WebSocket, results_generator):
    async for response in results_generator:
        await websocket.send_json(response)
    await websocket.send_json({"type":"ready_to_stop"})

@app.websocket("/asr")
async def websocket_endpoint(websocket: WebSocket):
    global transcription_engine 
    # Create a new AudioProcessor for each connection, passing the shared engine 
    audio_processor = AudioProcessor(transcription_engine=transcription_engine) 
    results_generator = await audio_processor.create_tasks() 
    results_task = asyncio.create_task(handle_websocket_results(websocket, results_generator))
    await websocket.accept()
    while True:
        message = await websocket.receive_bytes()
        await audio_processor.process_audio(message)

转写参数
- audio：输入文件的路径，或类似文件的对象，或音频波形；
- language：音频语言，如 en。如果未设置，则在音频前 30 秒内检测语言；
- task：要执行的任务，转录或翻译；
- beam_size：用于解码的 beam 大小；
- best_of：采样时使用非零温度的候选数；
- patience：Beam 搜索耐心因子；
- length_penalty：指数长度惩罚常数；
- temperature：采样温度，可以是温度元组，如果根据 compression_ratio_threshold 或 log_prob_threshold 失败，则会依次使用；
- compression_ratio_threshold：如果 gzip 压缩比高于此值，则视为失败；
- log_prob_threshold：如果对采样标记的平均对数概率低于此值，则视为失败；
- no_speech_threshold：如果无话音概率高于此值，并且对采样标记的平均对数概率低于 log_prob_threshold，则将该段视为静音；
- condition_on_previous_text：如果为 True，则将模型的前一个输出作为下一个窗口的提示提供；禁用可能会导致文本在窗口之间不一致，但模型不太容易陷入失败循环，比如重复循环或时间戳失去同步；
- initial_prompt：为第一个窗口提供的可选文本字符串或词元 id 可迭代项；
- prefix：为第一个窗口提供的可选文本前缀；
- suppress_blank：在采样开始时抑制空白输出；
- suppress_tokens：要抑制的标记 ID 列表。-1 将抑制配置文件 config.json 中定义的默认符号集；
- without_timestamps：仅对文本标记进行采样；
- max_initial_timestamp：初始时间戳不能晚于此时间；
- word_timestamps：使用交叉注意力模式和动态时间规整提取单词级时间戳，并在每个段的每个单词中包含时间戳；
- prepend_punctuations：如果 word_timestamps 为 True，则将这些标点符号与下一个单词合并；
- append_punctuations：如果 word_timestamps 为 True，则将这些标点符号与前一个单词合并；
- vad_filter：启用语音活动检测 (VAD) 以过滤掉没有语音的音频部分，使用 Silero VAD 模型；
- vad_parameters：Silero VAD 参数字典或 VadOptions 类；
- max_new_tokens：每个区块生成的新令牌的最大数量。未设置，最大值将通过默认 max_size 设置；
- chunk_length：音频段的长度。如果不是 None，将覆盖 FeatureExtractor 的默认 chunk_size；
- clip_timestamps：逗号分隔的要处理的剪辑的时间戳列表（以秒为单位）开始，结束，开始，结束......。最后一个结束时间戳默认为文件的结束。如果使用 clip_timestamps，将忽略 VAD 设置；
- hallucination_silence_threshold：当 word_timestamps 为 True 时，当检测到可能的幻觉时，跳过长于此阈值（以秒为单位）的静默期；
- hotwords：为模型提供的热词/提示短语。如果 prefix 不是 None，则无效；
- language_detection_threshold：如果语言标记的最大概率高于此值，则会检测为该语言；
- language_detection_segments：语言检测需要考虑的分段数量。
VAD 参数
- threshold：语音阈值。Silero VAD 为每个音频块输出语音概率，概率高于此值的认为是语音。最好对每个数据集单独调整此参数，0.5 对大多数数据集来说都非常好；
- min_speech_duration_ms：短于 min_speech_duration_ms 的最终语音块会被抛弃；
- max_speech_duration_s：语音块的最大持续时间 (秒)。比 max_speech_duration_s 更长的块将在最后一个持续时间超过 100ms 的静音时间戳拆分 (如果有的话)，以防止过度切割。否则，它们将在 max_speech_duration_s 之前强制拆分；
- min_silence_duration_ms：在每个语音块结束时等待 min_silence_duration_ms 再拆分它；
- window_size_samples：window_size_samples 大小的音频块被馈送到 Silero VAD 模型。Silero VAD 模型使用 16000 采样率训练得到 512，1024、1536 样本，其他值可能会影响模型性能；
- speech_pad_ms：最终的语音块每边都由 speech_pad_ms 填充。
模型参数
- model_size_or_path：使用的模型大小 (tiny，tiny.en，base，base.en，small，small.en，medium，medium.en，large-v1 或 large-v2)，转换后的模型目录路径，或来自 HuggingFace 的 CTranslate2 转换的 Whisper 模型 ID。当配置了大小或模型 ID 时，转换后的模型将从 HuggingFace 下载。
- device：转写设备 ("cpu"，"cuda"，"auto")。
- device_index：要使用的设备 ID。也可以通过传递 ID 列表 (如 [0,1,2]) 在多 GPU 上加载模型。在这种情况下，当从多个 Python 线程调用 transcribe() 时，可以并行运行多个转录；
- compute_type：计算类型。
- cpu_threads：在 CPU 上运行时使用的线程数（默认为 4）。非零值会覆盖 OMP_NUM_THREADS 环境变量。
- num_workers：当从多个 Python 线程调用 transcribe() 时，具有多个工作线程可以在运行模型时实现真正的并行性 (对 self.model.generate() 的并发调用将并行运行)。可以以增加内存使用为代价提高整体吞吐量。
- download_root：模型应该保存的目录。如果未设置，模型将保存在标准 HuggingFace 缓存目录中。
- local_files_only：如果为 True，避免下载文件，并在本地缓存的文件存在时返回其路径。

OpenAI Whisper 生态工具与流式处理技术解析

概述

whisper.cpp

实战

Faster-Whisper

实战

更多推荐文章

相关免费在线工具

WhisperX

实战

Whisper

WhisperLiveKit

Whisper-Diarization

WhisperLive

Faster-Whisper-GUI

whisper-timestamped

whisper-ctranslate2

stable-ts

echogarden

CarelessWhisper

更多推荐文章

相关免费在线工具

OpenAI Whisper 生态工具与流式处理技术解析

概述

whisper.cpp

实战

Faster-Whisper

实战

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

WhisperX

实战

Whisper

WhisperLiveKit

Whisper-Diarization

WhisperLive

Faster-Whisper-GUI

whisper-timestamped

whisper-ctranslate2

stable-ts

echogarden

CarelessWhisper

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具