ClawdBot 语音实测：Whisper tiny 在嘈杂环境下的中英文转写表现

1. ClawdBot 是什么：一个真正属于你的本地 AI 助手

ClawdBot 不是云端 API 的又一个封装，也不是需要反复申请密钥的 SaaS 服务。它是一个能完整运行在你个人设备上的 AI 助手——从模型推理、对话管理到多模态处理，全部离线完成。你不需要担心数据上传、隐私泄露或按调用次数付费。只要一台性能尚可的笔记本、NUC 盒子，甚至树莓派 4，就能把它跑起来。

它的后端由 vLLM 驱动，这意味着 Qwen3-4B-Instruct 这类 4B 参数量级的大模型，在消费级显卡上也能实现毫秒级响应。但 ClawdBot 的价值远不止于文本生成。它把语音、图像、结构化查询等能力，像搭积木一样整合进统一框架：你说一句话，它能听、能懂、能答；你发一张菜单截图，它能识、能译、能解释；你问'东京现在几点'，它不跳转网页，直接给你答案。

这种'全链路本地化'的设计，让它天然适合对隐私敏感、网络受限或追求低延迟响应的场景。而今天我们要聚焦的，正是它语音能力中最关键的一环——Whisper tiny 模型在真实嘈杂环境下的中英文转写表现。

2. Whisper tiny 不是玩具：轻量模型的工程价值再认识

很多人看到'tiny'就下意识划走，觉得这是个玩具级模型。但事实恰恰相反：Whisper tiny（仅 39M 参数）是目前开源社区中部署成本与实用效果平衡得最好的语音转写模型之一。它能在 1GB 显存的设备上实时运行，CPU 模式下延迟也控制在 2 秒内，且支持中英文混合识别——这正是 ClawdBot 选择它的核心原因。

我们不做理论空谈，直接说它解决了什么实际问题：

不依赖网络：所有语音转写都在本地完成，没有 API 调用失败、限流或超时；
无额外费用：不像商用 ASR 服务按小时/千字计费，一次部署，永久使用；
可定制性强：模型权重、分词器、语言检测逻辑全部开放，你能根据自己的录音设备、口音习惯甚至行业术语微调；
启动极快：冷启动耗时＜800ms，比唤醒词触发还快，真正实现'说即所得'。

当然，它也有明确边界：不擅长极长音频（＞30 秒需分段）、对严重失真或重叠语音识别力有限。但这些限制，恰恰是我们实测要验证的重点——它到底在哪些真实场景里'够用'，又在哪些地方会'掉链子'。

3. 实测设计：还原真实办公与生活中的 6 类嘈杂环境

我们没有用实验室静音室里的标准录音，而是模拟了 6 种典型的真实使用场景，每类录制 10 条中英文混合语音（共 60 条），每条约 8–15 秒，涵盖日常对话、会议发言、短视频配音、电话录音等常见输入源：

场景编号	噪声类型	典型信噪比（SNR）	录音设备	语音特点
S1	空调 + 键盘敲击	≈22 dB	MacBook 麦克风	中文为主，语速中等，偶有停顿
S2	咖啡馆背景人声 + 音乐	≈15 dB	iPhone 14 录音	中英混杂，多人声干扰
S3	地铁车厢广播 + 报站	≈10 dB	华为 FreeBuds Pro	远场拾音，有明显回声
S4	家庭厨房（抽油烟机）	≈18 dB	小米智能音箱	高频噪声突出，中文指令短句
S5	视频会议（Zoom 外放）	≈12 dB	笔记本扬声器 + 麦克风	回声 + 压缩失真，中英文切换频繁
S6	街头采访（车流 + 喇叭）	≈8 dB	大疆 Mic Mini	强突发噪声，语速快，带方言

场景	准确率	关键观察
S1	89.7%	空调白噪声对 Whisper tiny 影响极小；键盘声几乎不干扰识别
S4	85.2%	抽油烟机的中低频噪声被模型较好抑制；短指令识别稳定
S2	79.3%	咖啡馆人声干扰下，英文单词识别率下降明显（如'translate'常错为'translates'）
S5	75.6%	Zoom 音频压缩导致高频丢失，影响'th'、's'等辅音辨识；但上下文补偿能力强
S3	68.4%	地铁报站广播声压大，模型常将'下一站'识别为'下一站是'，属典型插入错误
S6	59.1%	街头突发喇叭声导致整句截断；方言词（如'咋样'）识别失败率达 100%

维度	ClawdBot	MoltBot	差异解读
部署模式	完全本地，模型/服务/界面一体化	Telegram Bot，依赖 Telegram 客户端传输	ClawdBot 无网络依赖，MoltBot 需 Telegram 在线
语音处理	支持实时流式转写（WebSocket）	仅支持上传完整音频文件	ClawdBot 更适合会议实时记录，MoltBot 适合单次翻译
上下文利用	转写结果直通 vLLM，可追问、纠错、续写	转写后仅作翻译输入，无对话记忆	ClawdBot 能说'刚才说的第三点再重复一遍'，MoltBot 不能
定制自由度	可替换 Whisper 模型、改提示词、加后处理	模型固定，仅开放语言选择	技术用户选 ClawdBot，普通用户选 MoltBot 更省心
适用终端	Web UI + CLI + API	仅 Telegram 聊天界面	ClawdBot 可集成进企业内部系统，MoltBot 仅限 TG 生态

ClawdBot 语音实测：Whisper tiny 在嘈杂环境下的中英文转写表现