ClawdBot 语音翻译：Whisper tiny 带口音英语与粤语 WER 对比

ClawdBot 语音翻译：Whisper tiny 在带口音英语/粤语转写中的 WER 对比

1. ClawdBot 环境背景

ClawdBot 是一个本地 AI 助手，所有模型运行在用户自己的设备上，数据不出本地。它通过 vLLM 作为后端推理引擎，将大模型的能力部署在笔记本、台式机甚至树莓派里。

核心定位为一个可离线、可定制、可审计的 AI 工作台。即使断网，只要本地服务在运行，它依然能响应、思考、生成、翻译。

2. MoltBot：Telegram 上的全能翻译官

2.1 功能概述

MoltBot 是开源的轻量级多模态 Telegram 机器人，主打'多语言、多平台、零配置'。它集成语音转写、OCR 识别、双引擎翻译、快捷查询等功能。

通过一条 docker run 命令，就能在树莓派 4 上跑起来，支持 15 人并发群聊。

2.2 语音翻译场景适配

MoltBot 把 Whisper tiny 模型直接打包进了 Docker 镜像，且做了深度适配：

语音输入 → Whisper tiny 本地转写 → LibreTranslate/Google 双引擎翻译，全程离线完成；
不需要上传音频到任何第三方服务器，不产生额外费用；
Whisper tiny 虽小（仅 39MB），但对中低信噪比、带口音的语音仍有不错鲁棒性；
镜像总大小仅 300MB，树莓派 4 内存占用峰值<1.2GB，CPU 负载平稳。

例如，广东同事发来一段夹杂粤语词汇的英文语音，MoltBot 能听懂'make it quick lah'里的'lah'，并正确转写为'make it quick lah'，而不是生硬地拼成'make it quick la'。

3. Whisper tiny 在真实语音场景中的 WER 表现对比

3.1 WER 指标说明

WER（Word Error Rate，词错误率）是衡量语音转写质量的量化指标。计算公式为：

WER = （替换数 + 删除数 + 插入数） ÷ 标准答案总词数

WER = 0%：完美匹配；
WER = 15%：平均每 100 个词里，有 15 个地方出错；
WER > 25%：转写结果已难以直接使用，需大量人工校对。

注意：WER 低 ≠ 听感自然。有些模型能把'gonna'强行转成'going to'，但反而丢失了口语的真实节奏和语气。

3.2 测试环境与数据集

我们构建了更贴近国内用户真实场景的测试集：

类别	样本数量	特点说明
带粤语口音英语	47 条	广东、香港用户日常语音，含'lah'、'mah'、'hor'等语气词，语速偏快，辅音弱化明显
普通话口音英语	32 条	北方、华东用户常见发音，/v/与/w/混淆、th 音替代
纯粤语短句	28 条	'呢个几钱？'、'落雨啦，收衫啦！'等生活化表达
混合语码	23 条	英文主干 + 粤语结尾、中英夹杂

所有音频均为手机实录，采样率 16kHz，未降噪、未增强。测试模型：Whisper tiny（openai/whisper-tiny.en），运行于 Ubuntu 22.04 + Python 3.10 + PyTorch 2.3。

3.3 实测 WER 对比结果

语音类型	Whisper tiny（默认）

带粤语口音英语	28.6	26.1	27.3	强制设 language=zh 小幅提升
普通话口音英语	19.4	18.7	19.1	口音规律性强，提升有限
纯粤语短句	41.2	32.8	39.5	language=zh 效果显著
混合语码	35.7	29.3	34.1	language=zh 让模型更适应中英混排结构

错误类型	占比	典型案例	对翻译的影响
语气词误删/误替	42%	'lah'→'la'、'hor'→'or'	导致语义偏差，忽略情绪信号
数字/符号格式错乱	29%	'$80'→'eighty dollar'	导致价格、折扣等关键信息失真
粤语特有词识别失败	29%	'咗'→'zo'、'嘅'→'ge'	造成语法断裂，机器翻译无法还原

ClawdBot 语音翻译：Whisper tiny 带口音英语与粤语 WER 对比

ClawdBot 语音翻译：Whisper tiny 在带口音英语/粤语转写中的 WER 对比

1. ClawdBot 环境背景

2. MoltBot：Telegram 上的全能翻译官

2.1 功能概述

2.2 语音翻译场景适配

3. Whisper tiny 在真实语音场景中的 WER 表现对比

3.1 WER 指标说明

3.2 测试环境与数据集

3.3 实测 WER 对比结果

更多推荐文章

相关免费在线工具

3.4 错误类型分布

4. 如何在 ClawdBot 中优化语音转写效果？

4.1 修改 Whisper 配置

4.2 提示词工程与规则补救

5. 总结

5.1 核心结论

5.2 行动建议

更多推荐文章

相关免费在线工具

ClawdBot 语音翻译：Whisper tiny 带口音英语与粤语 WER 对比

ClawdBot 语音翻译：Whisper tiny 在带口音英语/粤语转写中的 WER 对比

1. ClawdBot 环境背景

2. MoltBot：Telegram 上的全能翻译官

2.1 功能概述

2.2 语音翻译场景适配

3. Whisper tiny 在真实语音场景中的 WER 表现对比

3.1 WER 指标说明

3.2 测试环境与数据集

3.3 实测 WER 对比结果

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.4 错误类型分布

4. 如何在 ClawdBot 中优化语音转写效果？

4.1 修改 Whisper 配置

4.2 提示词工程与规则补救

5. 总结

5.1 核心结论

5.2 行动建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具