什么是词级时间戳?
词级时间戳是 faster-whisper 提供的一项高级功能,能够在语音转写过程中为每个词语生成精确的起止时间。不同于传统的段落级时间戳,词级时间戳能够实现毫秒级的语音内容定位,让语音检索变得前所未有的精准。
快速上手:三行代码启用词级时间戳
想要体验词级时间戳的强大功能?只需要三行代码:
from faster_whisper import WhisperModel
model = WhisperModel("base")
segments, info = model.transcribe("audio.wav", word_timestamps=True)
通过设置 word_timestamps=True 参数,即可开启词级时间戳生成功能。
核心概念解析
时间戳生成原理
faster-whisper 通过智能算法将转录文本与音频特征进行精确对齐。这个过程类似于电影字幕的同步技术,但精度更高,能够定位到每个独立的词语。
数据结构设计
生成的时间戳数据采用清晰的层级结构:
# 段落级别信息
段落开始时间:0.0 秒
段落结束时间:5.2 秒
段落文本:"这是一个示例句子"
# 词语级别信息
词语 1:[0.0 秒->1.5 秒] "这"
词语 2:[1.5 秒->2.3 秒] "是"
词语 3:[2.3 秒->3.1 秒] "一个"
词语 4:[3.1 秒->4.0 秒] "示例"
词语 5:[4.0 秒->5.2 秒] "句子"
实践指南:从安装到使用
环境准备
首先需要安装 faster-whisper:
pip install faster-whisper
基础使用示例
以下是完整的词级时间戳使用示例:
from faster_whisper import WhisperModel
# 加载模型
model = WhisperModel("medium", device="cpu")
# 转录音频并获取词级时间戳
segments, info = model.transcribe(
"your_audio.wav",
word_timestamps=True,
language="zh",
beam_size=5
)
# 输出结果
for segment in segments:
print(f"段落 [{segment.start:.2f}s-{segment.end:.2f}s]: {segment.text}")
word segment.words:
()

