本地部署 ClawdBot 与 MoltBot 实现会议录音转写及双语纪要生成
1. 为什么选择本地化 AI 会议秘书
开完一场两小时的跨部门会议,散会后往往不是休息,而是面对满屏的波形图发呆。市面上的语音转文字工具要么依赖云端上传、隐私无保障,要么环境配置复杂、报错频发。更别提翻译了,中英双语纪要通常需要转写、粘贴、对齐时间戳,耗时耗力。
ClawdBot 并非需要注册账号或绑定 API 密钥的 SaaS 工具,而是一个完全运行在本地设备上的个人 AI 助手。无论是 MacBook、Windows 台式机还是树莓派,都能成为它的主场。它不调用远程大模型 API,所有推理均在本地硬件完成,背后依托轻量高效的 vLLM 推理引擎。这意味着你的声音不会离开电脑,敏感信息全程不触网,响应毫秒级,且关机即清空数据。
本次实战将展示 ClawdBot 与另一款开源工具 MoltBot 协同完成的工作流:一段英文技术会议录音,自动完成本地语音转写,实时生成中英双语纪要,按议题分段并加粗关键结论,最终导出为 Markdown 文档。整个过程从导入音频到拿到摘要不到 90 秒,且无一次外网请求。
2. 工具架构:MoltBot 与 ClawdBot 的互补
2.1 MoltBot:全能本地翻译中枢
MoltBot 的核心优势在于'感知层'能力的全部本地化:
- 听语音:使用 Whisper tiny(仅 39MB),CPU 上单条音频转写延迟小于 1.2 秒。
- 看图片:调用 PaddleOCR 轻量版,支持多语言识别。
- 翻译:默认双引擎并行,LibreTranslate 离线 + Google Translate 备选,返回置信度最高版本。
其设计哲学是零配置。官方提供的 docker-compose.yml 已预置好最小可行镜像,总大小约 300MB。在一台 4GB 内存的旧笔记本上,一条命令即可启动服务。
curl -fsSL https://raw.githubusercontent.com/moltbot/moltbot/main/docker-compose.yml -o docker-compose.yml && docker compose up -d
2.2 分工明确:感官输入与认知处理
两者并非竞品,而是搭档关系:
- MoltBot 是感官输入层:专注将非结构化信息(语音、图片)转化为结构化文本。
- ClawdBot 是认知处理层:对文本进行摘要、分段、推理、格式化及多语言润色。
它们通过本地文件系统或 Unix Socket 直连,不经过网络协议栈。这种组合能在资源受限的设备上稳定服务,因为没有云服务的弹性伸缩压力,只有设备本身的算力边界。
3. 真实工作流拆解
以下操作基于 macOS Ventura 13.6 + Apple M2 Pro 环境,Windows/Linux 用户路径略有差异但逻辑一致。
3.1 环境就绪
首先确认 MoltBot 状态,终端执行健康检查:
curl http://localhost:8001/health
# 预期返回:{"status":"ok","whisper":"ready",...}
接着启动 ClawdBot 并加载自定义模型。我们选用更适合会议场景理解的 Phi-3-mini-128k-instruct(2.2GB,M2 上推理速度比 Qwen3 快 40%)。修改 /app/clawdbot.json 中的模型配置段:
"models": {
"mode": "merge",
"providers"

