本地部署 ClawdBot 与 MoltBot 实现会议录音转写及双语纪要生成

1. 为什么选择本地化 AI 会议秘书

开完一场两小时的跨部门会议，散会后往往不是休息，而是面对满屏的波形图发呆。市面上的语音转文字工具要么依赖云端上传、隐私无保障，要么环境配置复杂、报错频发。更别提翻译了，中英双语纪要通常需要转写、粘贴、对齐时间戳，耗时耗力。

ClawdBot 并非需要注册账号或绑定 API 密钥的 SaaS 工具，而是一个完全运行在本地设备上的个人 AI 助手。无论是 MacBook、Windows 台式机还是树莓派，都能成为它的主场。它不调用远程大模型 API，所有推理均在本地硬件完成，背后依托轻量高效的 vLLM 推理引擎。这意味着你的声音不会离开电脑，敏感信息全程不触网，响应毫秒级，且关机即清空数据。

本次实战将展示 ClawdBot 与另一款开源工具 MoltBot 协同完成的工作流：一段英文技术会议录音，自动完成本地语音转写，实时生成中英双语纪要，按议题分段并加粗关键结论，最终导出为 Markdown 文档。整个过程从导入音频到拿到摘要不到 90 秒，且无一次外网请求。

2. 工具架构：MoltBot 与 ClawdBot 的互补

2.1 MoltBot：全能本地翻译中枢

MoltBot 的核心优势在于'感知层'能力的全部本地化：

听语音：使用 Whisper tiny（仅 39MB），CPU 上单条音频转写延迟小于 1.2 秒。
看图片：调用 PaddleOCR 轻量版，支持多语言识别。
翻译：默认双引擎并行，LibreTranslate 离线 + Google Translate 备选，返回置信度最高版本。

其设计哲学是零配置。官方提供的 docker-compose.yml 已预置好最小可行镜像，总大小约 300MB。在一台 4GB 内存的旧笔记本上，一条命令即可启动服务。

curl -fsSL https://raw.githubusercontent.com/moltbot/moltbot/main/docker-compose.yml -o docker-compose.yml && docker compose up -d

2.2 分工明确：感官输入与认知处理

两者并非竞品，而是搭档关系：

MoltBot 是感官输入层：专注将非结构化信息（语音、图片）转化为结构化文本。
ClawdBot 是认知处理层：对文本进行摘要、分段、推理、格式化及多语言润色。

它们通过本地文件系统或 Unix Socket 直连，不经过网络协议栈。这种组合能在资源受限的设备上稳定服务，因为没有云服务的弹性伸缩压力，只有设备本身的算力边界。

3. 真实工作流拆解

以下操作基于 macOS Ventura 13.6 + Apple M2 Pro 环境，Windows/Linux 用户路径略有差异但逻辑一致。

3.1 环境就绪

首先确认 MoltBot 状态，终端执行健康检查：

curl http://localhost:8001/health
# 预期返回：{"status":"ok","whisper":"ready",...}

接着启动 ClawdBot 并加载自定义模型。我们选用更适合会议场景理解的 Phi-3-mini-128k-instruct（2.2GB，M2 上推理速度比 Qwen3 快 40%）。修改 /app/clawdbot.json 中的模型配置段：

"models": {
  "mode": "merge",

步骤	执行者	动作	耗时
1. 音频切片	ClawdBot	按静音段切分为片段，防止 OOM	0.8s
2. 并行转写	MoltBot	提交至 Whisper tiny，返回带时间戳文本	22.3s
3. 文本清洗	ClawdBot	去除填充词，修复断句	1.2s
4. 多轮摘要	ClawdBot + Phi-3	分议题三次摘要，保留关键结论	14.7s
5. 双语对齐	ClawdBot + MoltBot	段落严格对齐，中文优先显示	8.5s
6. 格式化输出	ClawdBot	插入标题、加粗结论、生成 TOC	0.9s

本地部署 ClawdBot 与 MoltBot 实现会议录音转写及双语纪要生成