ClawdBot 语音翻译:Whisper tiny 在带口音英语/粤语转写中的 WER 对比
1. ClawdBot 环境背景
ClawdBot 是一个本地 AI 助手,所有模型运行在用户自己的设备上,数据不出本地。它通过 vLLM 作为后端推理引擎,将大模型的能力部署在笔记本、台式机甚至树莓派里。
核心定位为一个可离线、可定制、可审计的 AI 工作台。即使断网,只要本地服务在运行,它依然能响应、思考、生成、翻译。
2. MoltBot:Telegram 上的全能翻译官
2.1 功能概述
MoltBot 是开源的轻量级多模态 Telegram 机器人,主打'多语言、多平台、零配置'。它集成语音转写、OCR 识别、双引擎翻译、快捷查询等功能。
通过一条 docker run 命令,就能在树莓派 4 上跑起来,支持 15 人并发群聊。
2.2 语音翻译场景适配
MoltBot 把 Whisper tiny 模型直接打包进了 Docker 镜像,且做了深度适配:
- 语音输入 → Whisper tiny 本地转写 → LibreTranslate/Google 双引擎翻译,全程离线完成;
- 不需要上传音频到任何第三方服务器,不产生额外费用;
- Whisper tiny 虽小(仅 39MB),但对中低信噪比、带口音的语音仍有不错鲁棒性;
- 镜像总大小仅 300MB,树莓派 4 内存占用峰值<1.2GB,CPU 负载平稳。
例如,广东同事发来一段夹杂粤语词汇的英文语音,MoltBot 能听懂'make it quick lah'里的'lah',并正确转写为'make it quick lah',而不是生硬地拼成'make it quick la'。
3. Whisper tiny 在真实语音场景中的 WER 表现对比
3.1 WER 指标说明
WER(Word Error Rate,词错误率)是衡量语音转写质量的量化指标。计算公式为:
WER = (替换数 + 删除数 + 插入数) ÷ 标准答案总词数
- WER = 0%:完美匹配;
- WER = 15%:平均每 100 个词里,有 15 个地方出错;
- WER > 25%:转写结果已难以直接使用,需大量人工校对。
注意:WER 低 ≠ 听感自然。有些模型能把'gonna'强行转成'going to',但反而丢失了口语的真实节奏和语气。
3.2 测试环境与数据集
我们构建了更贴近国内用户真实场景的测试集:
| 类别 | 样本数量 | 特点说明 |
|---|---|---|
| 带粤语口音英语 | 47 条 | 广东、香港用户日常语音,含'lah'、'mah'、'hor'等语气词,语速偏快,辅音弱化明显 |
| 普通话口音英语 | 32 条 | 北方、华东用户常见发音,/v/与/w/混淆、th 音替代 |
| 纯粤语短句 | 28 条 | '呢个几钱?'、'落雨啦,收衫啦!'等生活化表达 |
| 混合语码 | 23 条 | 英文主干 + 粤语结尾、中英夹杂 |
所有音频均为手机实录,采样率 16kHz,未降噪、未增强。测试模型:Whisper tiny(openai/whisper-tiny.en),运行于 Ubuntu 22.04 + Python 3.10 + PyTorch 2.3。
3.3 实测 WER 对比结果
| 语音类型 | Whisper tiny(默认) | Whisper tiny(启用 language=zh) |
|---|

