ClawdBot 本地部署:Docker 镜像集成 Whisper tiny 与 PaddleOCR
在本地搭建能听懂语音、看懂图片的 AI 助手时,常卡在依赖安装、模型编译或配置代理上。ClawdBot 旨在解决这一痛点,它不是需要反复调试环境的半成品,而是一个真正的开箱即用个人 AI 网关——多模态能力预置、模型已优化、服务已对齐。
核心优势在于不依赖云端 API,数据不出设备。Whisper tiny 和 PaddleOCR 轻量模型打包进 Docker 镜像,树莓派或笔记本均可流畅运行。该方案已投入实际使用,支持语音转写、图片 OCR、多语言翻译及天气查询等完整工作流。
1. 为什么选择 ClawdBot?
1.1 降低环境门槛
市面上许多 Telegram 翻译机器人重度依赖云端计费接口,或要求手动部署大模型占用大量显存。配置文件往往冗长,光是填写 Token 和代理就耗费精力。
ClawdBot 的设计思路不同:
- 模型内置:Whisper tiny(语音转文字)、PaddleOCR(中英文混合 OCR)静态编译进镜像,无需额外下载;
- 服务内聚:vLLM 后端、多模态预处理、Telegram 通道及 Web 控制台由单个容器统一调度;
- 零环境假设:不检查 CUDA 版本、Python 路径或 FFmpeg 全局可用性,只认 Docker。
只要拥有 Docker 环境,即可获得整套能力栈,省去了排查依赖冲突的时间。
1.2 经过验证的轻量生产环境
项目曾在树莓派 4B(4GB 内存、双核 ARM Cortex-A72)上进行并发测试。使用 wrk 模拟 15 个客户端持续发送语音消息(每条 3–5 秒),同时夹杂图片 OCR 请求和 /weather 查询。实测结果如下:
| 指标 | 实测值 | 说明 |
|---|---|---|
| 语音转写平均延迟 | 0.72 s | Whisper tiny 在 CPU 模式下完成音频切片 + 推理 + 文本返回 |
| 图片 OCR 识别耗时 | 0.89 s | 1024×768 JPG 图,含中英文混合文字区域 |
| 翻译响应 P95 延迟 | 0.83 s | LibreTranslate 本地实例 + Google Translate fallback 双引擎 |
| 内存常驻占用 | 1.1 GB | 启动后稳定在 1.0–1.2GB,无内存泄漏 |
| CPU 峰值使用率 | 82% | 单核满载,另一核空闲,负载均衡合理 |
这意味着它不仅是 Demo,而是能放入家庭 NAS 或老旧笔记本长期值守的实用工具。
2. 快速部署与验证
2.1 一键启动
ClawdBot 提供标准 Docker 镜像,兼容 x86_64 与 ARM64 架构。执行以下命令即可后台运行:
docker run -d \
--name clawdbot \
-p 7860:7860 \
-p 18780:18780 \
-v ~/.clawdbot:/app/workspace \
-e TZ=Asia/Shanghai \
--restart=unless-stopped \
moltbot/moltbot:2026.1.24
该命令主要完成四件事:
- 后台运行容器并命名为
clawdbot; - 映射 Web 控制台端口
7860和内部网关端口18780; - 挂载宿主机目录持久化配置与日志;
- 设置时区避免定时任务错乱。
首次运行会自动下载约 298MB 镜像。国内用户建议提前配置 Docker 镜像加速器。
启动后可通过 查看初始化日志。若看到类似输出,说明核心组件就绪:

