为什么需要一个'懂粤语'的翻译机器人?
在海外华人社区,特别是老一辈和青少年之间,语言断层很常见。微信群里长辈发粤语语音,年轻人听不懂;孩子用英语写的作业,爷爷奶奶想帮忙却卡在第一句。通用翻译工具对粤语的支持往往很弱:语音识别误差大,翻译生硬,'埋单''执笠'这类地道表达基本处理不了。更不用说在群聊中实时响应、自动识别语种、处理图片菜单了。
ClawdBot 和 MoltBot 的组合就是冲着这个痛点来的。它不追求覆盖几百种语言,只专注把粤语和英语之间的沟壑填平。所有能力都跑在你自己的设备上——没有云端上传,语音和图片不会流到第三方服务器。
技术底座:ClawdBot 和 MoltBot 怎么分工
ClawdBot:本地 AI 网关
ClawdBot 不是一个模型,也不是一个聊天界面。它更像一个轻量级的本地 API 网关,负责统一接入、路由和编排后端 AI 能力。它本身不生成文字,但决定'谁来生成':当一条粤语消息进来,ClawdBot 根据配置把请求转发给本地部署的 vLLM 实例;一张菜单图片发来,它调用 PaddleOCR 提取文字,再交给翻译模块。
关键特性:
- 完全离线运行,树莓派 4 或旧笔记本都能跑;
- Web 控制台是纯静态页面,通过 WebSocket 与后端通信;
- 支持 OpenAI 兼容接口(vLLM、Ollama 等)和自定义 HTTP 模型服务;
- 设备连接需手动批准,防止未授权访问。
你可以把它看作一个让本地模型'活起来'的操作系统,但没有它,模型只是孤岛。
MoltBot:专为 Telegram 社区做的多模态翻译引擎
MoltBot 是一个开源 Telegram 翻译机器人,定位非常清晰:不做通用助手,只做群聊翻译。它整合了成熟方案:
- 翻译引擎双保险:主用 LibreTranslate(本地部署,支持粤语),失败时 fallback 到 Google Translate(需网络);
- 语音转写:集成 Whisper tiny 模型,30 秒语音本地转文字约 1.2 秒,粤语口音准确率不错;
- 图片 OCR:PaddleOCR 轻量版,识别菜单、路牌上的中英粤混排文字;
- 快捷服务:
/weather查天气(自动定位)、/fx 100 USD查汇率、/wiki dim sum返回维基摘要——这些不是大模型生成的,而是结构化数据直查。
最方便的是,一个 Docker 命令就能起起来:
docker run -d \
--name moltbot \
-e TELEGRAM_BOT_TOKEN="your:token" \
-e LIBRETRANSLATE_URL="http://localhost:5000" \
-p 5000:5000 \
-v $(pwd)/models:/app/models \
moltbot/moltbot:latest
镜像 300MB,MIT 协议,社区搭一个就能服务几百人。
二者协同
它们不是替代关系,而是分工:
| 功能 | ClawdBot 承担角色 | MoltBot 承担角色 |
|---|---|---|
| 接收用户输入 | 提供 Web 控制台、API 接入点 | 接收 Telegram 消息、语音、图片 |
| 语言识别 | 可配置规则(如'含'咗'字则判粤语') | 自动检测群聊中任意消息语种 |
| 翻译执行 | 路由至 vLLM / LibreTranslate | 调用 LibreTranslate API 或本地服务 |
| 多模态处理 | 启动 OCR / Whisper 子进程 | 封装调用逻辑,返回结构化结果 |
| 用户交互 | 仅管理员可见的 Dashboard | 面向所有群成员的 Telegram Bot |

