ASR 自动语音识别技术与 Whisper 模型详解 | 极客日志

PythonAI算法

ASR 自动语音识别技术与 Whisper 模型详解

综述由AI生成ASR（自动语音识别）的基本架构，包括音频预处理、特征提取（MFCC、梅尔频谱）、解码方式（CTC、RNN-T、Attention、Transformer）及后处理流程。重点讲解了 OpenAI 开源的 Whisper 模型，涵盖其多语言支持、鲁棒性及不同版本（tiny 到 large）的权衡。此外，对比了 openai-whisper、faster-whisper、whisper.cpp 及 whisperX 等工具包的返回数据结构与适用场景，为实际部署提供技术参考。

雪落无声发布于 2026/4/5更新于 2026/5/2425 浏览

ASR 是自动语音识别技术，现代端到端的主流 ASR 架构为：

音频 → [预处理 → 神经网络编码 → 解码] → 文本 ↑ ↑ 信号处理深度学习

Whisper 是由 OpenAI 于 2022 年发布的开源语音识别模型。它是一个基于 Transformer 架构的端到端模型，具有以下核心特点：多任务模型、多语言支持、多种格式、强鲁棒性和无需微调开箱即用。

一、ASR

音频输入与预处理一般通过 ffmpeg 与 VAD 配合完成。

1. 特征提取与编码

现在的 ASR 通常使用声学特征直接输入神经网络。

常见的声学特征有以下四种，但是现在一般直接使用神经网络自动学习特征，例如 Conformer 编码器就是神经网络组成的。

MFCC（梅尔频率倒谱系数）：13-40 维
梅尔频谱（Mel-Spectrogram）：80-128 维
滤波器组（Filter Bank）：40-80 维
原始波形（Raw Waveform）：端到端模型直接使用
Conformer 编码器：输入 (T, 80) # T 个时间帧，每帧 80 维梅尔特征

Conformer 编码器结构如下：

子采样卷积层：(T, 80) → (T/4, 512)
位置编码：加入时序信息
N 个 Conformer Block：
- 前馈网络（Feed Forward）
- 多头自注意力（Multi-Head Self-Attention）
- 卷积模块（捕捉局部特征）
- 残差连接 + 层归一化输出：(T/4, 512) # 高层声学表示

def mel_filter_bank(magnitude_spectrum, sr=16000, n_mels=80):
    # 1. 创建梅尔尺度滤波器
    mel_filters = librosa.filters.mel(sr=sr, n_fft=512, n_mels=n_mels)
    # 2. 应用滤波器组
    mel_spectrum = np.dot(magnitude_spectrum, mel_filters.T)
    # 3. 取对数（人耳对声音强度的感知是对数的）
    log_mel_spectrum = np.log(mel_spectrum + 1e-10)
    return log_mel_spectrum  # shape: (帧数，80)
# 梅尔频率：模拟人耳听觉特性
# 低频分辨率高，高频分辨率低

# 现代 ASR（如 Whisper）直接使用梅尔频谱图
def extract_mel_spectrogram(audio, sr=16000):
    mel_spec = librosa.feature.melspectrogram(
        y=audio, sr=sr, n_mels=80,  # Whisper 使用 80 维
        n_fft=400,                   
        hop_length=,              
        fmin=, fmax=
    )
    log_mel_spec = np.log(np.clip(mel_spec, a_min=))
     log_mel_spec.T

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

def compute_mfcc(log_mel_spectrum, n_mfcc=13):
    # 离散余弦变换（DCT）
    mfcc = dct(log_mel_spectrum, type=2, axis=1, norm='ortho')
    mfcc = mfcc[:, :n_mfcc]  # 取前 13 个系数
    return mfcc  # shape: (帧数，13)
# MFCC 包含：
# 0 阶：能量
# 1-2 阶：谱斜率
# 3-13 阶：谱包络细节

模型类型	CTC	RNN-T	Attention-based Seq2Seq	Transformer-based
全称	连接时序分类	循环神经网络转换器	基于注意力的序列到序列	基于 Transformer
特点	每个时间步独立预测	结合 RNN 和 CTC	编码器 - 解码器 + 注意力	纯注意力机制
优点	训练简单、推理快	流式友好，考虑上下文	效果好、适合长语音	并行计算、效果最好
缺点	假设输出独立，不考虑上下文	训练复杂，推理慢	非流式，需要看到完整语音	需要大量数据、计算资源多

# CTC class CTC_Decoder:
def decode(self, encoder_output):
    # 1. 每个时间步独立预测
    # encoder_output shape: (T, 512)
    logits = self.output_layer(encoder_output)  # (T, vocab_size)
    # 2. 得到每个时间步的字符概率
    # 例如：T=100 个时间步，每个步有 5000 个字符的概率
    # 3. 移除重复字符和空白符
    # 原始：- a a - - b b - c c → "a b c"
    # 空白符"-"表示静音或过渡
    # 4. 选择概率最高的序列
    return best_sequence

# Attention Seq2Seq class AttentionDecoder:
def decode(self, encoder_output):
    # 初始化
    hidden = init_hidden()
    output = ["<sos>"]  # 开始标记
    # 自回归生成
    for step in range(max_length):
        # 1. 当前输出词转向量
        embed = self.embedding(output[-1])
        # 2. 注意力机制
        # 计算注意力权重：哪些音频帧对当前词最重要
        attn_weights = softmax(
            self.attention(query=hidden, key=encoder_output)
        )
        # 3. 上下文向量（加权和）
        context = sum(attn_weights[i] * encoder_output[i] for i in range(T))
        # 4. 解码器 RNN
        hidden = self.decoder_rnn(embed, hidden, context)
        # 5. 预测下一个词
        next_word_probs = softmax(
            self.output_projection(hidden)
        )
        # 6. 选择最可能的词
        next_word = argmax(next_word_probs)
        output.append(next_word)
        if next_word == "<eos>":  # 结束标记
            break
    return output[1:-1]  # 去掉开始/结束标记

# Transformer 解码器（如 Whisper）class TransformerDecoder:
def decode(self, encoder_output):
    # 1. 初始化：开始标记
    tokens = [self.sos_token]
    # 2. 自回归生成
    for i in range(max_length):
        # 嵌入层
        token_embeds = self.embedding(tokens)
        # 解码器自注意力（掩码，防止看到未来）
        dec_output = self.decoder_blocks(
            token_embeds, encoder_output
        )
        # 预测下一个词
        logits = self.output_layer(dec_output[:, -1, :])
        next_token = argmax(logits)
        tokens.append(next_token)
        if next_token == self.eos_token:
            break
    return tokens[1:-1]

def postprocess_asr_text(raw_text):
    # 1. 标点恢复
    text = add_punctuation(raw_text)  # "你好我是语音助手" → "你好，我是语音助手。"
    # 2. 大小写恢复
    text = restore_capitalization(text)  # "i live in beijing" → "I live in Beijing"
    # 3. 数字标准化
    text = normalize_numbers(text)  # "一二三" → "123", "two hundred" → "200"
    # 4. 口语化处理
    text = normalize_spoken_text(text)  # "gonna" → "going to", "um", "ah" → 删除
    # 5. 专有名词校正
    text = correct_proper_nouns(text)  # "open ai" → "OpenAI"
    # 6. 空格规范化
    text = re.sub(r'\s+', ' ', text).strip()
    return text

def format_asr_output(text, segments, timestamps):
    output = {
        'text': text,  # 完整文本
        'segments': [
            {
                'id': i,
                'start': seg['start'],
                'end': seg['end'],
                'text': seg['text'],
                'confidence': seg['confidence']
            } for i, seg in enumerate(segments)
        ],
        'language': detected_language,
        'duration_ms': total_duration,
        'word_timestamps': [
            {
                'word': word,
                'start': start_ms,
                'end': end_ms
            } for word, start_ms, end_ms in timestamps
        ]
    }
    return output

生态工具	场景	理由
`openai/whisper`	研究和实验	功能完整，调试方便
`faster-whisper`	生产环境部署	平衡性能与功能
`whisper.cpp` 或 `faster-whisper`	实时转写/直播	延迟低，资源占用少
`whisperX`	需要说话人分离	集成 diarization
`whisper-jax` 或 `faster-whisper`	云端大批量处理	吞吐量高
`whisper.cpp`	移动端/嵌入式	内存小，无 GPU 依赖
`whisperX`	需要词级时间戳	词对齐准确

{
  "text": "完整文本，所有分段合并",
  "segments": [
    {
      "id": 0,
      "seek": 0,
      "start": 0.0,
      "end": 4.0,
      "text": "你好，",
      "avg_logprob": -0.2,
      "no_speech_prob": 0.02,
      "compression_ratio": 1.2,
      "temperature": 0.0,
      "tokens": [50364, 1234, ...],
      "words": [
        { "word": "你", "start": 0.0, "end": 0.2, "probability": 0.95 }
      ]
    }
  ],
  "language": "zh"
}

{
  "transcription": [
    {
      "timestamps": { "from": "00:00:00,000", "to": "00:00:04,000" },
      "offsets": { "from": 0, "to": 3 },
      "text": "你好，",
      "tokens": [50364, 1234, ...]
    }
  ],
  "text": "完整文本",
  "language": "zh",
  "response_time": 2.3
}

# 返回两个对象：生成器和信息对象
segments, info = model.transcribe("audio.mp3")

# 📊 info 对象（TranscriptionInfo）
print(info.__dict__)
# {
#   'language': 'zh',
#   'language_probability': 0.98,
#   'duration': 30.5,
#   'all_language_probs': {'zh': 0.98, 'en': 0.01},
#   'transcription_time': 2.3,
#   'initial_prompt': None
# }

# 🔄 segments 生成器（迭代获取 Segment 对象）
for segment in segments:
    print(segment.__dict__)
    # {
    #   'start': 0.0, 'end': 4.0, 'text': '你好，',
    #   'words': [{'start': 0.0, 'end': 0.2, 'word': '你', 'probability': 0.95}]
    # }

{
  "segments": [
    {
      "start": 0.0, "end": 4.0, "text": "你好，",
      "words": [
        { "word": "你", "start": 0.0, "end": 0.2, "score": 0.95, "speaker": null }
      ]
    }
  ],
  "word_segments": [
    { "word": "你", "start": 0.0, "end": 0.2, "score": 0.95 }
  ],
  "speaker_segments": [
    { "start": 0.0, "end": 10.0, "speaker": "SPEAKER_00", "text": "第一段话..." }
  ],
  "language": "zh"
}

工具包	返回类型	主要字段	额外特性	语言检测
openai-whisper	dict	`text`, `segments`, `language`	官方实现，功能完整	返回语言代码
faster-whisper	tuple + Generator	`(segments_generator, info)`	速度快，内存小	包含概率值
whisper.cpp	JSON/文本	各种自定义格式	可嵌入式部署	需要参数指定
whisper-jax	dict	`text`, `chunks`	GPU 利用率高	HF 格式
whisperX	dict	`segments`, `word_segments`	词级对齐，说话人分离	同官方

ASR 自动语音识别技术与 Whisper 模型详解

一、ASR

1. 特征提取与编码

更多推荐文章

相关免费在线工具

2. 解码

CTC 解码过程详解

Attention Seq2Seq 解码

Transformer 解码器（如 Whisper）

3. 后处理和格式化输出

二、Whisper

1. 官方实现——openai-whisper / whisper.cpp 的返回结构

2. 推理优化——faster-whisper 的返回结构

3. 功能增强——whisperX 的返回结构

更多推荐文章

相关免费在线工具

ASR 自动语音识别技术与 Whisper 模型详解

一、ASR

1. 特征提取与编码

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 解码

CTC 解码过程详解

Attention Seq2Seq 解码

Transformer 解码器（如 Whisper）

3. 后处理和格式化输出

二、Whisper

1. 官方实现——openai-whisper / whisper.cpp 的返回结构

2. 推理优化——faster-whisper 的返回结构

3. 功能增强——whisperX 的返回结构

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具