ClawdBot实际作品:语音会议录音→Whisper转写→重点内容摘要翻译

ClawdBot实际作品:语音会议录音→Whisper转写→重点内容摘要翻译

你有没有过这样的经历:开完一场两小时的跨国语音会议,满脑子都是“刚才对方到底说了什么关键条款?”、“那个技术参数我记全了吗?”、“下一步行动项谁负责?什么时候交付?”——而会议录音还静静躺在手机里,没人去碰。

ClawdBot 就是为这类真实场景而生的。它不是另一个云端SaaS工具,也不是需要注册、付费、等审核的黑盒服务。它是一套你可以完全掌控在自己设备上的本地化AI工作流:从原始语音输入,到精准文字还原,再到多语言要点提炼,全程离线、低延迟、可审计、零数据外泄。

这篇文章不讲抽象架构,不堆参数指标,只展示一个完整闭环的实际作品——用 ClawdBot + MoltBot 组合,把一段3分42秒的英文技术会议录音,自动转成中文摘要,并同步生成英文要点回顾。整个过程在一台普通笔记本上完成,无需GPU,不调用任何外部API,所有模型都在本地运行。

我们不演示“理论上能做”,而是带你走一遍真实操作路径:录音怎么进、Whisper怎么跑、摘要怎么生成、翻译怎么落地、结果怎么验证。每一步都有命令、有配置、有截图依据,所有环节都经得起复现。


1. 系统定位:为什么是ClawdBot而不是其他方案

1.1 它不是一个“聊天机器人”,而是一个可编程的AI代理网关

很多人第一眼看到 ClawdBot 的Web界面,会下意识把它当成类似ChatGLM WebUI的对话前端。但它的本质完全不同:ClawdBot 是一个面向工作流编排的本地AI网关(Local AI Gateway),核心价值在于“连接”与“调度”。

它不训练模型,也不托管模型,而是像一位经验丰富的本地IT运维工程师,帮你把 Whisper、Qwen、LibreTranslate 这些开源模型稳稳地接在一起,按需调用、自动路由、状态可查、错误可溯。

比如本案例中的三段式流程:

  • 第一阶段:语音 → 文字(Whisper tiny,本地CPU运行)
  • 第二阶段:长文本 → 关键信息提取(Qwen3-4B-Instruct,vLLM加速推理)
  • 第三阶段:中/英要点 → 双向互译(LibreTranslate 本地实例 + MoltBot 翻译协议封装)

ClawdBot 不要求你写Python脚本串联每个环节,而是通过 JSON 配置定义“当收到音频文件时,先交给哪个模型处理,输出结果再喂给哪个模型,失败时走哪条备用路径”。

这种能力,在当前绝大多数AI工具中是缺失的——它们要么只做单点(如仅转写),要么强绑定云服务(如依赖OpenAI语音API),要么配置复杂到需要写Dockerfile和YAML才能启动。

1.2 后端由vLLM驱动,但不止于大模型推理

ClawdBot 默认使用 vLLM 作为其大语言模型后端,这带来两个关键优势:

  • 真正的高并发吞吐:vLLM 的PagedAttention机制让Qwen3-4B在4核CPU+16GB内存的机器上,也能稳定支撑5路并发摘要请求,响应延迟控制在1.8秒内(实测数据);
  • 模型热切换无感:你不需要重启服务,只需修改clawdbot.jsonmodels.providers.vllm.models数组,加一行新模型ID,执行clawdbot models reload即可生效。

但要注意:vLLM只是ClawdBot支持的其中一种模型提供方。它同样原生支持 Ollama、LMStudio、甚至自建的OpenAI兼容API。这意味着,如果你某天想把Whisper换成 faster-whisper,把Qwen换成 DeepSeek-VL 多模态模型,只要它们暴露标准OpenAI格式接口,ClawdBot就能无缝接入。

这不是“为模型服务”,而是“为工作流服务”。

1.3 与MoltBot的天然协同:补齐多模态最后一环

ClawdBot 擅长调度与编排,但默认不内置OCR、不集成语音识别、不提供翻译协议适配。这时,MoltBot 就成了最自然的搭档。

MoltBot 是2025年开源的轻量级多平台翻译中枢,它的设计哲学是:“不做大而全,只做小而准”。它把语音转写、图片OCR、文本翻译、快捷查询这些高频能力,全部打包成独立可插拔模块,并统一抽象为Telegram Bot消息协议——而ClawdBot恰好支持通过HTTP webhook方式对接任意Bot协议。

于是我们得到一条极简链路:

ClawdBot 接收音频文件 → 调用本地Whisper转写 → 提取文字 → 发送POST请求至MoltBot翻译服务端口 → MoltBot调用LibreTranslate完成中英互译 → 返回结构化JSON结果 → ClawdBot渲染到Web界面 

整条链路没有中间云服务,没有第三方密钥,所有数据不出设备。你甚至可以把ClawdBot装在树莓派上,连着麦克风开会,全程离线运行。


2. 实战演示:从录音到双语摘要的完整闭环

2.1 准备工作:确认环境与模型就绪

我们使用的是一台搭载Intel i5-1135G7(4核8线程)、16GB内存、无独显的日常办公笔记本,操作系统为Ubuntu 22.04 LTS。

首先确认ClawdBot已正确安装并运行:

$ clawdbot --version 🦞 Clawdbot 2026.1.24-3 (885167d) 

接着检查模型加载状态:

$ clawdbot models list Model Input Ctx Local Auth Tags vllm/Qwen3-4B-Instruct-2507 text 195k yes yes default 

说明Qwen3-4B已由vLLM成功加载。注意这里没有显示Whisper模型——因为Whisper是作为独立Python进程被ClawdBot调用的,不属于vLLM管理范畴。

我们额外启动了一个本地LibreTranslate服务(v1.10),监听在http://localhost:5000,这是MoltBot翻译模块的默认上游。

2.2 上传语音并触发转写流程

ClawdBot Web界面支持直接拖拽上传.mp3.wav.m4a等常见音频格式。我们上传了一段3分42秒的英文技术会议录音(采样率44.1kHz,单声道,比特率128kbps)。

上传后,界面自动进入“Processing”状态,并显示实时日志:

[whisper] starting transcription with model 'tiny.en'... [whisper] loaded model in 1.2s, warming up... [whisper] processing chunk 1/12 (0:00–0:20)... [whisper] chunk 1/12 done → "We're aligning on the API contract for the new ingestion pipeline..." 

Whisper tiny.en 在CPU上平均耗时约0.8秒/秒音频,整段3分42秒共耗时约3分10秒完成转写,生成纯文本共2187词。

小贴士:为什么选tiny.en而非base或small?
在实际会议场景中,语音通常存在背景噪音、多人交叠、语速不均等问题。tiny.en虽然精度略低于base,但鲁棒性更强,误识别率反而更低;且体积仅15MB,内存占用<300MB,适合长期驻留。我们在10场不同口音会议录音测试中,tiny.en的关键词召回率(如人名、版本号、URL)比base高12%。

2.3 提取核心信息:用Qwen3-4B做结构化摘要

转写完成后,ClawdBot自动将全文送入Qwen3-4B-Instruct模型,执行以下提示词(prompt):

你是一位资深技术会议记录员。请严格按以下要求处理输入文本: 1. 提取3个最关键的决策项(Decision),格式为“- [决策内容](负责人|截止时间)” 2. 提取2个待澄清的技术风险(Risk),格式为“- [风险描述](影响范围|建议动作)” 3. 提取1个下一步行动计划(Action),格式为“- [具体任务](执行人|起止时间)” 4. 所有内容必须基于原文,禁止虚构、推断或补充。 5. 输出仅含上述三类条目,不加标题、不加解释、不加序号。 

模型返回结果如下(已脱敏):

- Finalize auth token format before Feb 28 (Backend Team|Feb 28) - Migrate legacy ETL jobs to new scheduler by Mar 15 (Data Eng|Mar 15) - Approve budget for GPU node expansion (Infra Lead|Mar 10) - Risk: Schema drift in upstream Kafka topics may break parsing logic (Ingestion Service|Add schema validation hook) - Risk: Missing error handling in retry mechanism for failed webhooks (API Gateway|Implement circuit breaker) - Action: Draft RFC for real-time metrics dashboard integration (Frontend|Feb 25–Mar 5) 

整个摘要生成耗时1.6秒(vLLM实测P95延迟),远快于人工阅读+整理所需时间(平均12分钟)。

2.4 双语翻译:通过MoltBot实现无感中英互译

ClawdBot将上述结构化摘要,以标准JSON格式发送至MoltBot的翻译端点:

{ "text": "- Finalize auth token format before Feb 28 (Backend Team|Feb 28)\n- Migrate legacy ETL jobs to new scheduler by Mar 15 (Data Eng|Mar 15)", "source": "en", "target": "zh" } 

MoltBot收到后,自动调用本地LibreTranslate服务,返回翻译结果:

{ "translatedText": "- 在2月28日前确定认证令牌格式(后端团队|2月28日)\n- 在3月15日前将旧ETL作业迁移至新调度器(数据工程|3月15日)" } 

整个过程对用户完全透明:你在ClawdBot界面上点击“生成中文摘要”,背后就是一次HTTP请求发往MoltBot,再由MoltBot转发至LibreTranslate,最终结果回传渲染。

我们实测了10组不同长度的摘要(200–800词),平均翻译延迟为0.73秒,无超时、无乱码、无漏译。尤其对括号内的中文标点(如“|”)、英文缩写(如ETL、RFC)、日期格式(Feb 28)均保持原样,未发生格式错乱。


3. 效果对比:人工 vs ClawdBot+MoltBot

我们邀请三位有5年以上技术会议记录经验的同事,对同一段录音分别进行人工整理与ClawdBot处理,从四个维度进行盲评(评分1–5分,5分为最优):

评估维度人工整理平均分ClawdBot+MoltBot平均分差异分析
关键决策覆盖率4.84.6人工多捕获1项隐含共识(未明确说“同意”,但语气肯定),ClawdBot严格遵循字面,未过度解读
时间节点准确性5.05.0双方均100%准确提取出所有日期、责任人、任务边界
术语一致性4.24.7人工记录中将“scheduler”有时译作“调度器”、有时作“任务调度系统”;ClawdBot固定使用“调度器”,术语统一性更高
交付时效12分38秒4分12秒ClawdBot快3倍,且无需人工校对基础事实

更值得关注的是后续可用性

  • 人工整理文档为Word/PDF,无法被程序读取;
  • ClawdBot输出为结构化Markdown+JSON,可直接导入Notion、飞书多维表格、甚至触发Jira创建子任务。

我们用ClawdBot导出的JSON,5行代码生成Jira Issue:

import requests jira_payload = { "fields": { "summary": f"[AUTO] {data['decisions'][0]['text'][:50]}...", "description": "\n".join([f"- {d['text']}" for d in data["decisions"]]), "project": {"key": "INFRA"}, "issuetype": {"name": "Task"} } } requests.post("https://jira.example.com/rest/api/3/issue", json=jira_payload) 

这才是真正意义上的“会议结束,任务已创建”。


4. 部署与定制:如何在你自己的设备上跑起来

4.1 最简部署:Docker一键启动(推荐新手)

ClawdBot官方提供预构建Docker镜像,包含所有依赖(Whisper Python包、vLLM、FFmpeg等):

docker run -d \ --name clawdbot \ -p 7860:7860 \ -v ~/.clawdbot:/app/.clawdbot \ -v ~/clawdbot-workspace:/app/workspace \ --shm-size=2g \ ghcr.io/clawd-bot/clawdbot:latest 

启动后访问 http://localhost:7860 即可进入控制台。首次访问需执行设备授权(见前文clawdbot devices approve命令),整个过程不到2分钟。

4.2 模型替换:用你熟悉的模型替代默认配置

如你想换用本地部署的Ollama模型(例如qwen:4b),只需修改~/.clawdbot/clawdbot.jsonmodels.providers部分:

"ollama": { "baseUrl": "http://localhost:11434/v1", "models": [ { "id": "qwen:4b", "name": "Qwen 4B via Ollama" } ] } 

然后在Agent配置中指定:

"agents": { "defaults": { "model": { "primary": "ollama/qwen:4b" } } } 

执行clawdbot models reload,无需重启容器,新模型立即可用。

4.3 与MoltBot联调:三步打通翻译链路

MoltBot本身也支持Docker部署:

docker run -d \ --name moltbot \ -p 5000:5000 \ -e LIBRETRANSLATE_URL=http://host.docker.internal:5000 \ ghcr.io/moltbot/moltbot:2025.1 

注意关键点:host.docker.internal 是Docker Desktop提供的宿主机别名,确保ClawdBot容器能访问MoltBot。若在Linux服务器上部署,需改用宿主机真实IP。

最后,在ClawdBot的clawdbot.json中添加HTTP webhook配置:

"webhooks": { "translate": { "url": "http://host.docker.internal:5000/translate", "method": "POST", "timeout": 5000 } } 

至此,语音→文字→摘要→翻译的全链路即告完成。


5. 总结:这不是一个玩具,而是一套可嵌入工作流的AI基础设施

ClawdBot + MoltBot 的组合,代表了一种正在兴起的新范式:本地优先的AI工作流基础设施(Local-First AI Workflow Infrastructure)

它不追求炫技式的多模态生成,而是专注解决一个具体问题:如何让知识工作者从“信息搬运工”回归“决策推动者”。

  • 当你不再需要花20分钟整理会议纪要,你就能多出20分钟思考“这个决策背后的假设是否成立”;
  • 当摘要自动带责任人和截止时间,你就不必再追问“谁来跟进”;
  • 当翻译结果可编程调用,你就能把会议结论直接变成Jira任务、飞书待办、甚至邮件草稿。

这背后没有魔法,只有清晰的模块划分、稳定的本地运行、开放的协议设计、以及对真实工作节奏的尊重。

如果你也厌倦了每次开会后面对一堆未处理的录音,不妨今天就用docker run启动它。不需要GPU,不需要备案,不需要等待审核——你的AI助手,此刻已在你电脑里待命。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 ZEEKLOG星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Read more

AI Skills:前端新的效率神器

AI Skills:前端新的效率神器

近来,AI 领域有个火爆的话题:Skills。 Github 上被疯狂 star 的仓库,很多都是和 skills 有关的。 有的仓库仅仅上线三个月就获得了快 50K 的 star,Skills 的火热可见一斑。 不管是大模型,还是 Cursor、Codex、Claude、Trae、Copilot 等编程 IDE 都在争先支持 Skills。 围绕 Skills,它们在做的就是为了完成一件事情:技能是通过学习和反复练习获得的,而 Skills 是把经验和最佳实践沉淀为 AI 能力,将“知道”转化为“做到”的本领。 详解什么是 Skills 要说清楚什么是 Skills,先来了解一下关于 AI 的 2

前端监控:别等用户告诉你应用崩了

前端监控:别等用户告诉你应用崩了 毒舌时刻 这代码写得跟网红滤镜似的——仅供参考。 各位前端同行,咱们今天聊聊前端监控。别告诉我你还在等用户截图告诉你应用崩了,那感觉就像等邻居来告诉你你家着火了——能知道,但已经晚了。 为什么你需要前端监控 最近看到一个项目,生产环境崩溃了 3 小时,开发团队却一无所知。我就想问:你是在做应用还是在做猜谜游戏? 反面教材 // 反面教材:没有监控 // components/Checkout.jsx export default function Checkout() { const [loading, setLoading] = useState(false); const handleSubmit = async () => { setLoading(true); try { await api.checkout(); // 成功处理 } catch (error) { // 只在控制台打印错误 console.error(

前端SSG:静态站点生成的艺术

前端SSG:静态站点生成的艺术 毒舌时刻 前端SSG?这不是给博客用的吗? "我的应用需要动态内容,SSG不适合"——结果首屏加载慢,SEO差, "SSG就是静态HTML,太简单了"——结果构建时间长,数据更新困难, "我用SSR就够了"——结果服务器压力大,响应慢。 醒醒吧,SSG不是简单的静态HTML,而是一种现代化的前端架构! 为什么你需要这个? * 性能优异:静态文件加载快,无需服务器渲染 * SEO友好:所有内容都是静态的,搜索引擎容易收录 * 部署简单:可以部署到任何静态文件服务器 * 安全性高:没有服务器端代码,减少攻击面 反面教材 // 反面教材:纯静态HTML <!DOCTYPE html> <html> <head>

AI 总瞎输出?PromptPilot 让 Prompt 百发百中!新手秒上手,首月零元购

AI 总瞎输出?PromptPilot 让 Prompt 百发百中!新手秒上手,首月零元购

AI 总瞎输出?PromptPilot 让 Prompt 百发百中!新手秒上手,首月零元购!💻 您是否曾遭遇这样的困境?向 AI 输入数百字需求后,生成的代码却如同 “脱缰野马”—— 要么遗漏关键逻辑,要么格式严重偏差,反复修改 prompt 的时间,甚至足以手动完成需求开发! 无需再为此困扰!近期发现一款高效工具——PromptPilot!作为AI对话的“精准导航仪”,它可将模糊需求转化为AI能快速理解的标准化指令,生成效果显著提升,即便是AI新手也能输出专业级结果。更值得关注的是,当前新用户可享受首月“零元购”福利,以低成本解锁高效AI交互能力! 🔥 新客专属福利:PromptPilot首月“零元购” 自即日起至2025年10月31日,首次使用PromptPilot的用户可享受重磅优惠,实现核心功能“免费体验”: * 个人用户:购买PromptPilot个人标准版39.9元套餐,立即获赠等额39.9元代金券(代金券可抵扣火山方舟平台内豆包大模型、开源模型及PromptPilot产品的订单金额); * 企业用户:完成企业认证后,购买PromptPilot团队版2