ClawdBot 实战:语音会议录音转写与重点内容摘要翻译
你有没有过这样的经历:开完一场两小时的跨国语音会议,满脑子都是'刚才对方到底说了什么关键条款?'、'那个技术参数我记全了吗?'、'下一步行动项谁负责?什么时候交付?'——而会议录音还静静躺在手机里,没人去碰。
ClawdBot 就是为这类真实场景而生的。它不是另一个云端 SaaS 工具,也不是需要注册、付费、等审核的黑盒服务。它是一套你可以完全掌控在自己设备上的本地化 AI 工作流:从原始语音输入,到精准文字还原,再到多语言要点提炼,全程离线、低延迟、可审计、零数据外泄。
这篇文章不讲抽象架构,不堆参数指标,只展示一个完整闭环的实际作品——用 ClawdBot + MoltBot 组合,把一段 3 分 42 秒的英文技术会议录音,自动转成中文摘要,并同步生成英文要点回顾。整个过程在一台普通笔记本上完成,无需 GPU,不调用任何外部 API,所有模型都在本地运行。
我们不演示'理论上能做',而是带你走一遍真实操作路径:录音怎么进、Whisper 怎么跑、摘要怎么生成、翻译怎么落地、结果怎么验证。每一步都有命令、有配置、有截图依据,所有环节都经得起复现。
1. 系统定位:为什么是 ClawdBot 而不是其他方案
1.1 它不是一个'聊天机器人',而是一个可编程的 AI 代理网关
很多人第一眼看到 ClawdBot 的 Web 界面,会下意识把它当成类似 ChatGLM WebUI 的对话前端。但它的本质完全不同:ClawdBot 是一个面向工作流编排的本地 AI 网关(Local AI Gateway),核心价值在于'连接'与'调度'。
它不训练模型,也不托管模型,而是像一位经验丰富的本地 IT 运维工程师,帮你把 Whisper、Qwen、LibreTranslate 这些开源模型稳稳地接在一起,按需调用、自动路由、状态可查、错误可溯。
比如本案例中的三段式流程:
- 第一阶段:语音 → 文字(Whisper tiny,本地 CPU 运行)
- 第二阶段:长文本 → 关键信息提取(Qwen3-4B-Instruct,vLLM 加速推理)
- 第三阶段:中/英要点 → 双向互译(LibreTranslate 本地实例 + MoltBot 翻译协议封装)
ClawdBot 不要求你写 Python 脚本串联每个环节,而是通过 JSON 配置定义'当收到音频文件时,先交给哪个模型处理,输出结果再喂给哪个模型,失败时走哪条备用路径'。
这种能力,在当前绝大多数 AI 工具中是缺失的——它们要么只做单点(如仅转写),要么强绑定云服务(如依赖 OpenAI 语音 API),要么配置复杂到需要写 Dockerfile 和 YAML 才能启动。
1.2 后端由 vLLM 驱动,但不止于大模型推理
ClawdBot 默认使用 vLLM 作为其大语言模型后端,这带来两个关键优势:
- 真正的高并发吞吐:vLLM 的 PagedAttention 机制让 Qwen3-4B 在 4 核 CPU+16GB 内存的机器上,也能稳定支撑 5 路并发摘要请求,响应延迟控制在 1.8 秒内(实测数据);
- 模型热切换无感:你不需要重启服务,只需修改
clawdbot.json中models.providers.vllm.models数组,加一行新模型 ID,执行clawdbot models reload即可生效。
但要注意:vLLM 只是 ClawdBot 支持的其中一种模型提供方。它同样原生支持 Ollama、LMStudio、甚至自建的 OpenAI 兼容 API。这意味着,如果你某天想把 Whisper 换成 faster-whisper,把 Qwen 换成 DeepSeek-VL 多模态模型,只要它们暴露标准 OpenAI 格式接口,ClawdBot 就能无缝接入。
这不是'为模型服务',而是'为工作流服务'。
1.3 与 MoltBot 的天然协同:补齐多模态最后一环
ClawdBot 擅长调度与编排,但默认不内置 OCR、不集成语音识别、不提供翻译协议适配。这时,MoltBot 就成了最自然的搭档。
MoltBot 是 2025 年开源的轻量级多平台翻译中枢,它的设计哲学是:'不做大而全,只做小而准'。它把语音转写、图片 OCR、文本翻译、快捷查询这些高频能力,全部打包成独立可插拔模块,并统一抽象为 Telegram Bot 消息协议——而 ClawdBot 恰好支持通过 HTTP webhook 方式对接任意 Bot 协议。
于是我们得到一条极简链路:
ClawdBot 接收音频文件 → 调用本地 Whisper 转写 → 提取文字 → 发送 POST 请求至 MoltBot 翻译服务端口 → MoltBot 调用 LibreTranslate 完成中英互译 → 返回结构化 JSON 结果 → ClawdBot 渲染到 Web 界面

