ASR 自动语音识别技术与 Whisper 模型详解 | 极客日志

PythonAI算法

ASR 自动语音识别技术与 Whisper 模型详解

介绍 ASR 技术架构，包括音频预处理、特征提取（MFCC、梅尔频谱）、解码方式（CTC、Attention、Transformer）及后处理。重点解析 OpenAI Whisper 模型的多任务与多语言特性，对比 openai-whisper、faster-whisper、whisperX 等工具包的返回结构差异与适用场景，并提供 Python 代码示例辅助理解。

编程诗人发布于 2026/4/6更新于 2026/7/1543 浏览

ASR 与 Whisper 模型

ASR 是自动语音识别技术，现代端到端的主流 ASR 架构为：

音频 → [预处理 → 神经网络编码 → 解码] → 文本

信号处理 → 深度学习

Whisper 是由 OpenAI 于 2022 年发布的开源语音识别模型。它是一个基于 Transformer 架构的端到端模型，具有以下核心特点：多任务模型、多语言支持、多种格式、强鲁棒性和无需微调开箱即用。

一、ASR

音频输入与预处理一般通过 ffmpeg 与 VAD 配合完成。

1. 特征提取与编码

现在的 ASR 通常使用声学特征直接输入神经网络。

常见的声学特征有以下四种，但是现在一般直接使用神经网络自动学习特征，例如 Conformer 编码器就是神经网络组成的。

MFCC（梅尔频率倒谱系数）：13-40 维
梅尔频谱（Mel-Spectrogram）：80-128 维
滤波器组（Filter Bank）：40-80 维
原始波形（Raw Waveform）：端到端模型直接使用
Conformer 编码器：输入 (T, 80) # T 个时间帧，每帧 80 维梅尔特征

Conformer 编码器结构：

子采样卷积层：(T, 80) → (T/4, 512)
位置编码：加入时序信息
N 个 Conformer Block：
- 前馈网络（Feed Forward）
- 多头自注意力（Multi-Head Self-Attention）
- 卷积模块（捕捉局部特征）
- 残差连接 + 层归一化
输出：(T/4, 512) # 高层声学表示

def mel_filter_bank(magnitude_spectrum, sr=16000, n_mels=80):
    # 1. 创建梅尔尺度滤波器
    mel_filters = librosa.filters.mel(sr=sr, n_fft=512, n_mels=n_mels)
    # 2. 应用滤波器组
    mel_spectrum = np.dot(magnitude_spectrum, mel_filters.T)
    # 3. 取对数（人耳对声音强度的感知是对数的）
    log_mel_spectrum = np.log(mel_spectrum + 1e-10)
    return log_mel_spectrum  # shape: (帧数，80)
# 梅尔频率：模拟人耳听觉特性
# 低频分辨率高，高频分辨率低

# 现代 ASR（如 Whisper）直接使用梅尔频谱图
def extract_mel_spectrogram(audio, sr=16000):
    mel_spec = librosa.feature.melspectrogram(
        y=audio, sr=sr, n_mels=80,  # Whisper 使用 80 维
        n_fft=,                  
        hop_length=,             
        fmin=, fmax=
    )
    log_mel_spec = np.log(np.clip(mel_spec, a_min=))
     log_mel_spec.T

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

def compute_mfcc(log_mel_spectrum, n_mfcc=13):
    # 离散余弦变换（DCT）
    mfcc = dct(log_mel_spectrum, type=2, axis=1, norm='ortho')
    mfcc = mfcc[:, :n_mfcc]  # 取前 13 个系数
    return mfcc  # shape: (帧数，13)
# MFCC 包含：
# 0 阶：能量
# 1-2 阶：谱斜率
# 3-13 阶：谱包络细节

类型	CTC (连接时序分类)	RNN-T (循环神经网络转换器)	Attention-based Seq2Seq	Transformer-based
特点	每个时间步独立预测	结合 RNN 和 CTC	编码器 - 解码器 + 注意力	纯注意力机制
优点	训练简单、推理快	流式友好，考虑上下文	效果好、适合长语音	并行计算、效果最好
缺点	假设输出独立，不考虑上下文	训练复杂，推理慢	非流式，需要看到完整语音	需要大量数据、计算资源多

# CTC class CTC_Decoder:
def decode(self, encoder_output):
    # 1. 每个时间步独立预测
    # encoder_output shape: (T, 512)
    logits = self.output_layer(encoder_output)  # (T, vocab_size)
    # 2. 得到每个时间步的字符概率
    # 例如：T=100 个时间步，每个步有 5000 个字符的概率
    # 3. 移除重复字符和空白符
    # 原始：- a a - - b b - c c → "a b c"
    # 空白符"-"表示静音或过渡
    # 4. 选择概率最高的序列
    return best_sequence

# Attention Seq2Seq class AttentionDecoder:
def decode(self, encoder_output):
    # 初始化
    hidden = init_hidden()
    output = ["<sos>"]  # 开始标记
    # 自回归生成
    for step in range(max_length):
        # 1. 当前输出词转向量
        embed = self.embedding(output[-1])
        # 2. 注意力机制
        # 计算注意力权重：哪些音频帧对当前词最重要
        attn_weights = softmax(
            self.attention(query=hidden, key=encoder_output)
        )
        # 3. 上下文向量（加权和）
        context = sum(attn_weights[i] * encoder_output[i] for i in range(T))
        # 4. 解码器 RNN
        hidden = self.decoder_rnn(embed, hidden, context)
        # 5. 预测下一个词
        next_word_probs = softmax(
            self.output_projection(hidden)
        )
        # 6. 选择最可能的词
        next_word = argmax(next_word_probs)
        output.append(next_word)
        if next_word == "<eos>":  # 结束标记
            break
    return output[1:-1]  # 去掉开始/结束标记

# Transformer 解码器（如 Whisper）class TransformerDecoder:
def decode(self, encoder_output):
    # 1. 初始化：开始标记
    tokens = [self.sos_token]
    # 2. 自回归生成
    for i in range(max_length):
        # 嵌入层
        token_embeds = self.embedding(tokens)
        # 解码器自注意力（掩码，防止看到未来）
        dec_output = self.decoder_blocks(token_embeds, encoder_output)
        # 预测下一个词
        logits = self.output_layer(dec_output[:, -1, :])
        next_token = argmax(logits)
        tokens.append(next_token)
        if next_token == self.eos_token:
            break
    return tokens[1:-1]

def postprocess_asr_text(raw_text):
    # 1. 标点恢复
    text = add_punctuation(raw_text)  # "你好我是语音助手" → "你好，我是语音助手。"
    # 2. 大小写恢复
    text = restore_capitalization(text)  # "i live in beijing" → "I live in Beijing"
    # 3. 数字标准化
    text = normalize_numbers(text)  # "一二三" → "123", "two hundred" → "200"
    # 4. 口语化处理
    text = normalize_spoken_text(text)  # "gonna" → "going to", "um", "ah" → 删除
    # 5. 专有名词校正
    text = correct_proper_nouns(text)  # "open ai" → "OpenAI"
    # 6. 空格规范化
    text = re.sub(r'\s+', ' ', text).strip()
    return text

def format_asr_output(text, segments, timestamps):
    output = {
        'text': text,  # 完整文本
        'segments': [
            {
                'id': i,
                'start': seg['start'],
                'end': seg['end'],
                'text': seg['text'],
                'confidence': seg['confidence']
            }
            for i, seg in enumerate(segments)
        ],
        'language': detected_language,
        'duration_ms': total_duration,
        'word_timestamps': [
            {'word': word, 'start': start_ms, 'end': end_ms}
            for word, start_ms, end_ms in timestamps
        ]
    }
    return output

生态工具	场景	理由
`openai/whisper`	研究和实验	功能完整，调试方便
`faster-whisper`	生产环境部署	平衡性能与功能
`whisper.cpp` 或 `faster-whisper`	实时转写/直播	延迟低，资源占用少
`whisperX`	需要说话人分离	集成 diarization
`whisper-jax` 或 `faster-whisper`	云端大批量处理	吞吐量高
`whisper.cpp`	移动端/嵌入式	内存小，无 GPU 依赖
`whisperX`	需要词级时间戳	词对齐准确

{
  "text": "完整文本，所有分段合并",
  "segments": [
    {
      "id": 0,
      "seek": 0,
      "start": 0.0,
      "end": 4.0,
      "text": "你好，",
      "avg_logprob": -0.2,
      "no_speech_prob": 0.02,
      "compression_ratio": 1.2,
      "temperature": 0.0,
      "tokens": [50364, 1234, ...],
      "words": [
        { "word": "你", "start": 0.0, "end": 0.2, "probability": 0.95 }
      ]
    }
  ],
  "language": "zh"
}

{
  "transcription": [
    {
      "timestamps": { "from": "00:00:00,000", "to": "00:00:04,000" },
      "offsets": { "from": 0, "to": 3 },
      "text": "你好，",
      "tokens": [50364, 1234, ...]
    }
  ],
  "text": "完整文本",
  "language": "zh",
  "response_time": 2.3
}

# 返回两个对象：生成器和信息对象
segments, info = model.transcribe("audio.mp3")

# 📊 info 对象（TranscriptionInfo）
print(info.__dict__)
# {
#   'language': 'zh',
#   'language_probability': 0.98,
#   'duration': 30.5,
#   'all_language_probs': { 'zh': 0.98, 'en': 0.01, ... },
#   'transcription_time': 2.3,
#   'initial_prompt': None
# }

# 🔄 segments 生成器（迭代获取 Segment 对象）
for segment in segments:
    print(segment.__dict__)
    # {
    #   'start': 0.0,
    #   'end': 4.0,
    #   'text': '你好，',
    #   'words': [Word(start=0.0, end=0.2, word='你', probability=0.95)]
    # }

result = {
    "segments": [
        {
            "start": 0.0,
            "end": 4.0,
            "text": "你好，",
            "words": [
                { "word": "你", "start": 0.0, "end": 0.2, "score": 0.95, "speaker": None }
            ]
        }
    ],
    "word_segments": [
        { "word": "你", "start": 0.0, "end": 0.2, "score": 0.95 }
    ],
    "speaker_segments": [
        { "start": 0.0, "end": 10.0, "speaker": "SPEAKER_00", "text": "第一段话..." }
    ],
    "language": "zh"
}

工具包	返回类型	主要字段	额外特性	语言检测
openai-whisper	dict	`text`, `segments`, `language`	官方实现，功能完整	返回语言代码
faster-whisper	tuple + Generator	`(segments_generator, info)`	速度快，内存小	包含概率值
whisper.cpp	JSON/文本	各种自定义格式	可嵌入式部署	需要参数指定
whisper-jax	dict	`text`, `chunks`	GPU 利用率高	HF 格式
whisperX	dict	`segments`, `word_segments`	词级对齐，说话人分离	同官方

ASR 自动语音识别技术与 Whisper 模型详解

ASR 与 Whisper 模型

一、ASR

1. 特征提取与编码

更多推荐文章

相关免费在线工具

2. 解码

3. 后处理和格式化输出

二、Whisper

1. 官方实现——openai-whisper / whisper.cpp 的返回结构

2. 推理优化——faster-whisper 的返回结构

3. 功能增强——whisperX 的返回结构

更多推荐文章

相关免费在线工具

ASR 自动语音识别技术与 Whisper 模型详解

ASR 与 Whisper 模型

一、ASR

1. 特征提取与编码

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 解码

3. 后处理和格式化输出

二、Whisper

1. 官方实现——openai-whisper / whisper.cpp 的返回结构

2. 推理优化——faster-whisper 的返回结构

3. 功能增强——whisperX 的返回结构

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具