ClawdBot 语音翻译:Whisper tiny 在带口音英语/粤语转写中的 WER 对比
1. ClawdBot 环境背景
ClawdBot 是一个本地 AI 助手,所有模型运行在用户自己的设备上,数据不出本地。它通过 vLLM 作为后端推理引擎,将大模型的能力部署在笔记本、台式机甚至树莓派里。
核心定位为一个可离线、可定制、可审计的 AI 工作台。即使断网,只要本地服务在运行,它依然能响应、思考、生成、翻译。
对比了 Whisper tiny 模型在处理带口音英语和粤语语音时的词错误率(WER)。测试集包含粤语口音英语、普通话口音英语、纯粤语及混合语码。结果显示,默认配置下粤语相关语音 WER 较高,启用 language=zh 参数可显著降低错误率,尤其在处理语气词和特有词汇时。文章还分析了错误类型分布,并提供了在 ClawdBot 和 MoltBot 中优化配置的具体步骤,建议开发者使用真实用户语音而非公开数据集进行评测。
ClawdBot 是一个本地 AI 助手,所有模型运行在用户自己的设备上,数据不出本地。它通过 vLLM 作为后端推理引擎,将大模型的能力部署在笔记本、台式机甚至树莓派里。
核心定位为一个可离线、可定制、可审计的 AI 工作台。即使断网,只要本地服务在运行,它依然能响应、思考、生成、翻译。
MoltBot 是开源的轻量级多模态 Telegram 机器人,主打'多语言、多平台、零配置'。它集成语音转写、OCR 识别、双引擎翻译、快捷查询等功能。
通过一条 docker run 命令,就能在树莓派 4 上跑起来,支持 15 人并发群聊。
MoltBot 把 Whisper tiny 模型直接打包进了 Docker 镜像,且做了深度适配:
例如,广东同事发来一段夹杂粤语词汇的英文语音,MoltBot 能听懂'make it quick lah'里的'lah',并正确转写为'make it quick lah',而不是生硬地拼成'make it quick la'。
WER(Word Error Rate,词错误率)是衡量语音转写质量的量化指标。计算公式为:
WER = (替换数 + 删除数 + 插入数) ÷ 标准答案总词数
注意:WER 低 ≠ 听感自然。有些模型能把'gonna'强行转成'going to',但反而丢失了口语的真实节奏和语气。
我们构建了更贴近国内用户真实场景的测试集:
| 类别 | 样本数量 | 特点说明 |
|---|---|---|
| 带粤语口音英语 | 47 条 | 广东、香港用户日常语音,含'lah'、'mah'、'hor'等语气词,语速偏快,辅音弱化明显 |
| 普通话口音英语 | 32 条 | 北方、华东用户常见发音,/v/与/w/混淆、th 音替代 |
| 纯粤语短句 | 28 条 | '呢个几钱?'、'落雨啦,收衫啦!'等生活化表达 |
| 混合语码 | 23 条 | 英文主干 + 粤语结尾、中英夹杂 |
所有音频均为手机实录,采样率 16kHz,未降噪、未增强。测试模型:Whisper tiny(openai/whisper-tiny.en),运行于 Ubuntu 22.04 + Python 3.10 + PyTorch 2.3。
| 语音类型 | Whisper tiny(默认) | Whisper tiny(启用 language=zh) | Whisper tiny(启用 task=transcribe) | 备注 |
|---|---|---|---|---|
| 带粤语口音英语 | 28.6 | 26.1 | 27.3 | 强制设 language=zh 小幅提升 |
| 普通话口音英语 | 19.4 | 18.7 | 19.1 | 口音规律性强,提升有限 |
| 纯粤语短句 | 41.2 | 32.8 | 39.5 | language=zh 效果显著 |
| 混合语码 | 35.7 | 29.3 | 34.1 | language=zh 让模型更适应中英混排结构 |
关键发现:对粤语相关语音,language=zh 激活了模型对中文语序、虚词、语气助词的建模能力。例如原始语音:'This one cost $120…啱嘛?'默认转写 WER 33.3%,language=zh 转写 WER 16.7%。
我们人工标注了全部错误样本,发现三类错误对后续翻译影响最大:
| 错误类型 | 占比 | 典型案例 | 对翻译的影响 |
|---|---|---|---|
| 语气词误删/误替 | 42% | 'lah'→'la'、'hor'→'or' | 导致语义偏差,忽略情绪信号 |
| 数字/符号格式错乱 | 29% | '$80'→'eighty dollar' | 导致价格、折扣等关键信息失真 |
| 粤语特有词识别失败 | 29% | '咗'→'zo'、'嘅'→'ge' | 造成语法断裂,机器翻译无法还原 |
有趣的是:Whisper tiny 在纯英文新闻朗读测试中 WER 仅 8.2%,但在真实用户语音中飙升至 28.6%——这说明实验室指标≠真实体验。
MoltBot 的 Whisper 配置位于 docker-compose.yml 中环境变量部分:
services:
moltbot:
image: moltbot/moltbot:latest
environment:
- WHISPER_MODEL=tiny
- WHISPER_LANGUAGE=zh
- WHISPER_TASK=transcribe
- WHISPER_BEAM_SIZE=5
实测建议:WHISPER_LANGUAGE=zh + WHISPER_BEAM_SIZE=5 组合,比默认配置 WER 平均降低 6.2 个百分点,且推理延迟仅增加 120ms。
若使用 ClawdBot 对接外部 Whisper 服务,可在 /app/clawdbot.json 配置自定义 API 端点:
{
"services": {
"speech": {
"enabled": true,
"provider": "openai",
"baseUrl": "http://localhost:8001/v1",
"apiKey": "sk-whisper-local"
}
}
}
然后在 Agent 提示词中明确指定语音处理链路。
当 WER 仍高于 20% 时,可以用轻量规则补救:
这些规则代码不到 50 行,却能让最终输出的可用率提升 40% 以上。
language=zh 参数,WER 可降至 26.1%~29.3% 区间,对粤语短句和混合语码提升最明显;
微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online