ASR 是自动语音识别技术,现代端到端的主流 ASR 架构为:
音频 → [预处理 → 神经网络编码 → 解码] → 文本 ↑ ↑ 信号处理 深度学习
Whisper 是由 OpenAI 于 2022 年发布的开源语音识别模型。它是一个基于 Transformer 架构的端到端模型,具有以下核心特点:多任务模型、多语言支持、多种格式、强鲁棒性和无需微调开箱即用。
一、ASR
音频输入与预处理一般通过 ffmpeg 与 VAD 配合完成。
ASR(自动语音识别)的基本架构,包括音频预处理、特征提取(MFCC、梅尔频谱)、解码方式(CTC、RNN-T、Attention、Transformer)及后处理流程。重点讲解了 OpenAI 开源的 Whisper 模型,涵盖其多语言支持、鲁棒性及不同版本(tiny 到 large)的权衡。此外,对比了 openai-whisper、faster-whisper、whisper.cpp 及 whisperX 等工具包的返回数据结构与适用场景,为实际部署提供技术参考。
ASR 是自动语音识别技术,现代端到端的主流 ASR 架构为:
音频 → [预处理 → 神经网络编码 → 解码] → 文本 ↑ ↑ 信号处理 深度学习
Whisper 是由 OpenAI 于 2022 年发布的开源语音识别模型。它是一个基于 Transformer 架构的端到端模型,具有以下核心特点:多任务模型、多语言支持、多种格式、强鲁棒性和无需微调开箱即用。
音频输入与预处理一般通过 ffmpeg 与 VAD 配合完成。
现在的 ASR 通常使用声学特征直接输入神经网络。
常见的声学特征有以下四种,但是现在一般直接使用神经网络自动学习特征,例如 Conformer 编码器就是神经网络组成的。
Conformer 编码器结构如下:
def mel_filter_bank(magnitude_spectrum, sr=16000, n_mels=80):
# 1. 创建梅尔尺度滤波器
mel_filters = librosa.filters.mel(sr=sr, n_fft=512, n_mels=n_mels)
# 2. 应用滤波器组
mel_spectrum = np.dot(magnitude_spectrum, mel_filters.T)
# 3. 取对数(人耳对声音强度的感知是对数的)
log_mel_spectrum = np.log(mel_spectrum + 1e-10)
return log_mel_spectrum # shape: (帧数,80)
# 梅尔频率:模拟人耳听觉特性
# 低频分辨率高,高频分辨率低
# 现代 ASR(如 Whisper)直接使用梅尔频谱图
def extract_mel_spectrogram(audio, sr=16000):
mel_spec = librosa.feature.melspectrogram(
y=audio, sr=sr, n_mels=80, # Whisper 使用 80 维
n_fft=400, # 400 个样本(25ms)
hop_length=160, # 160 个样本(10ms)
fmin=0, fmax=8000
)
log_mel_spec = np.log(np.clip(mel_spec, a_min=1e-10))
return log_mel_spec.T # shape: (时间帧数,80)
def compute_mfcc(log_mel_spectrum, n_mfcc=13):
# 离散余弦变换(DCT)
mfcc = dct(log_mel_spectrum, type=2, axis=1, norm='ortho')
mfcc = mfcc[:, :n_mfcc] # 取前 13 个系数
return mfcc # shape: (帧数,13)
# MFCC 包含:
# 0 阶:能量
# 1-2 阶:谱斜率
# 3-13 阶:谱包络细节
解码器类型比较
| 模型类型 | CTC | RNN-T | Attention-based Seq2Seq | Transformer-based |
|---|---|---|---|---|
| 全称 | 连接时序分类 | 循环神经网络转换器 | 基于注意力的序列到序列 | 基于 Transformer |
| 特点 | 每个时间步独立预测 | 结合 RNN 和 CTC | 编码器 - 解码器 + 注意力 | 纯注意力机制 |
| 优点 | 训练简单、推理快 | 流式友好,考虑上下文 | 效果好、适合长语音 | 并行计算、效果最好 |
| 缺点 | 假设输出独立,不考虑上下文 | 训练复杂,推理慢 | 非流式,需要看到完整语音 | 需要大量数据、计算资源多 |
# CTC class CTC_Decoder:
def decode(self, encoder_output):
# 1. 每个时间步独立预测
# encoder_output shape: (T, 512)
logits = self.output_layer(encoder_output) # (T, vocab_size)
# 2. 得到每个时间步的字符概率
# 例如:T=100 个时间步,每个步有 5000 个字符的概率
# 3. 移除重复字符和空白符
# 原始:- a a - - b b - c c → "a b c"
# 空白符"-"表示静音或过渡
# 4. 选择概率最高的序列
return best_sequence
# Attention Seq2Seq class AttentionDecoder:
def decode(self, encoder_output):
# 初始化
hidden = init_hidden()
output = ["<sos>"] # 开始标记
# 自回归生成
for step in range(max_length):
# 1. 当前输出词转向量
embed = self.embedding(output[-1])
# 2. 注意力机制
# 计算注意力权重:哪些音频帧对当前词最重要
attn_weights = softmax(
self.attention(query=hidden, key=encoder_output)
)
# 3. 上下文向量(加权和)
context = sum(attn_weights[i] * encoder_output[i] for i in range(T))
# 4. 解码器 RNN
hidden = self.decoder_rnn(embed, hidden, context)
# 5. 预测下一个词
next_word_probs = softmax(
self.output_projection(hidden)
)
# 6. 选择最可能的词
next_word = argmax(next_word_probs)
output.append(next_word)
if next_word == "<eos>": # 结束标记
break
return output[1:-1] # 去掉开始/结束标记
# Transformer 解码器(如 Whisper)class TransformerDecoder:
def decode(self, encoder_output):
# 1. 初始化:开始标记
tokens = [self.sos_token]
# 2. 自回归生成
for i in range(max_length):
# 嵌入层
token_embeds = self.embedding(tokens)
# 解码器自注意力(掩码,防止看到未来)
dec_output = self.decoder_blocks(
token_embeds, encoder_output
)
# 预测下一个词
logits = self.output_layer(dec_output[:, -1, :])
next_token = argmax(logits)
tokens.append(next_token)
if next_token == self.eos_token:
break
return tokens[1:-1]
好的后处理可以让 ASR 系统的实用价值提升 30-50%,是工业级 ASR 系统中不可或缺的一环。
后处理包括的操作类型有:标点恢复、数字标准化、实体标准化、语法修正、领域适配、流畅性改进等等。
def postprocess_asr_text(raw_text):
# 1. 标点恢复
text = add_punctuation(raw_text) # "你好我是语音助手" → "你好,我是语音助手。"
# 2. 大小写恢复
text = restore_capitalization(text) # "i live in beijing" → "I live in Beijing"
# 3. 数字标准化
text = normalize_numbers(text) # "一二三" → "123", "two hundred" → "200"
# 4. 口语化处理
text = normalize_spoken_text(text) # "gonna" → "going to", "um", "ah" → 删除
# 5. 专有名词校正
text = correct_proper_nouns(text) # "open ai" → "OpenAI"
# 6. 空格规范化
text = re.sub(r'\s+', ' ', text).strip()
return text
文本的格式化输出有利于信息抽取等操作。
def format_asr_output(text, segments, timestamps):
output = {
'text': text, # 完整文本
'segments': [
{
'id': i,
'start': seg['start'],
'end': seg['end'],
'text': seg['text'],
'confidence': seg['confidence']
} for i, seg in enumerate(segments)
],
'language': detected_language,
'duration_ms': total_duration,
'word_timestamps': [
{
'word': word,
'start': start_ms,
'end': end_ms
} for word, start_ms, end_ms in timestamps
]
}
return output
Whisper 虽然开箱即用,但是首次使用的时候需要下载模型。下载的时候可以选择不同大小的模型 tiny、base、small、medium、large,他们的准确率与模型的大小成正比(越大准确率越高),速度与模型大小成反比(越大速度越慢)。
Whisper 生态系统以 OpenAI 的 Whisper 模型为核心,由社区驱动的工具、框架、应用和服务组成。
| 生态工具 | 场景 | 理由 |
|---|---|---|
openai/whisper | 研究和实验 | 功能完整,调试方便 |
faster-whisper | 生产环境部署 | 平衡性能与功能 |
whisper.cpp 或 faster-whisper | 实时转写/直播 | 延迟低,资源占用少 |
whisperX | 需要说话人分离 | 集成 diarization |
whisper-jax 或 faster-whisper | 云端大批量处理 | 吞吐量高 |
whisper.cpp | 移动端/嵌入式 | 内存小,无 GPU 依赖 |
whisperX | 需要词级时间戳 | 词对齐准确 |
针对 Whisper 衍生出的工具包在调用 transcribe() 函数的时候会返回不同的结构内容。
openai-whisper 包返回的是以下格式:其中 text 是所有的文本,segments 表示每一段的信息(包括文本、开始/结束时间、偏移量),words 表示每个词/字的信息。
{
"text": "完整文本,所有分段合并",
"segments": [
{
"id": 0,
"seek": 0,
"start": 0.0,
"end": 4.0,
"text": "你好,",
"avg_logprob": -0.2,
"no_speech_prob": 0.02,
"compression_ratio": 1.2,
"temperature": 0.0,
"tokens": [50364, 1234, ...],
"words": [
{ "word": "你", "start": 0.0, "end": 0.2, "probability": 0.95 }
]
}
],
"language": "zh"
}
whisper.cpp 返回 json 格式,以下是返回示例:transcription 表示转录文本。
{
"transcription": [
{
"timestamps": { "from": "00:00:00,000", "to": "00:00:04,000" },
"offsets": { "from": 0, "to": 3 },
"text": "你好,",
"tokens": [50364, 1234, ...]
}
],
"text": "完整文本",
"language": "zh",
"response_time": 2.3
}
faster-whisper 中使用 transcribe() 函数一般返回两个对象:生成器和信息对象。
# 返回两个对象:生成器和信息对象
segments, info = model.transcribe("audio.mp3")
# 📊 info 对象(TranscriptionInfo)
print(info.__dict__)
# {
# 'language': 'zh',
# 'language_probability': 0.98,
# 'duration': 30.5,
# 'all_language_probs': {'zh': 0.98, 'en': 0.01},
# 'transcription_time': 2.3,
# 'initial_prompt': None
# }
# 🔄 segments 生成器(迭代获取 Segment 对象)
for segment in segments:
print(segment.__dict__)
# {
# 'start': 0.0, 'end': 4.0, 'text': '你好,',
# 'words': [{'start': 0.0, 'end': 0.2, 'word': '你', 'probability': 0.95}]
# }
{
"segments": [
{
"start": 0.0, "end": 4.0, "text": "你好,",
"words": [
{ "word": "你", "start": 0.0, "end": 0.2, "score": 0.95, "speaker": null }
]
}
],
"word_segments": [
{ "word": "你", "start": 0.0, "end": 0.2, "score": 0.95 }
],
"speaker_segments": [
{ "start": 0.0, "end": 10.0, "speaker": "SPEAKER_00", "text": "第一段话..." }
],
"language": "zh"
}
| 工具包 | 返回类型 | 主要字段 | 额外特性 | 语言检测 |
|---|---|---|---|---|
| openai-whisper | dict | text, segments, language | 官方实现,功能完整 | 返回语言代码 |
| faster-whisper | tuple + Generator | (segments_generator, info) | 速度快,内存小 | 包含概率值 |
| whisper.cpp | JSON/文本 | 各种自定义格式 | 可嵌入式部署 | 需要参数指定 |
| whisper-jax | dict | text, chunks | GPU 利用率高 | HF 格式 |
| whisperX | dict | segments, word_segments | 词级对齐,说话人分离 | 同官方 |

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online