ClawdBot 免配置环境:Docker 镜像内置 Whisper tiny+PaddleOCR 开箱即用
在本地搭建能听懂语音、看懂图片的 AI 助手,常面临 Python 依赖安装、模型编译及配置调试等挑战。ClawdBot 旨在解决此问题,提供真正意义上的「开箱即用」个人 AI 网关——所有多模态能力已预置、所有模型已优化、所有服务已对齐。
1. 为什么是 ClawdBot?
1.1 解决环境配置难题
市面上很多 Telegram 翻译机器人重度依赖云端 API 或要求手动部署大模型。ClawdBot 反其道而行之:
- 模型内置:Whisper tiny(语音转文字)、PaddleOCR(中英文混合 OCR)已静态编译进镜像,无需额外下载;
- 服务内聚:vLLM 后端 + 多模态预处理 + Telegram 通道 + Web 控制台,全部由单个容器统一调度;
- 零环境假设:不检查 CUDA 版本、不验证 Python 路径、不校验 FFmpeg 是否全局可用——它只认 Docker。
1.2 轻量生产环境
项目实测显示,在 4GB 内存、双核 ARM Cortex-A72 的树莓派 4B 上,模拟 15 个 Telegram 客户端持续发送语音消息,同时夹杂图片 OCR 请求和 /weather 查询,结果如下:
| 指标 | 实测值 | 说明 |
|---|---|---|
| 语音转写平均延迟 | 0.72 s | Whisper tiny 在 CPU 模式下完成音频切片 + 推理 + 文本返回 |
| 图片 OCR 识别耗时 | 0.89 s | 1024×768 JPG 图,含中英文混合文字区域 |
| 翻译响应 P95 延迟 | 0.83 s | LibreTranslate 本地实例 + Google Translate fallback 双引擎 |
| 内存常驻占用 | 1.1 GB | 启动后稳定在 1.0–1.2GB,无内存泄漏 |
| CPU 峰值使用率 | 82% | 单核满载,另一核空闲,负载均衡合理 |
2. 开箱即用:5 分钟完成部署与验证
2.1 一行命令启动
ClawdBot 提供标准 Docker 镜像,兼容 x86_64 与 ARM64 架构。执行以下命令:
docker run -d \
--name clawdbot \
-p 7860:7860 \
-p 18780:18780 \
-v ~/.clawdbot:/app/workspace \
-e TZ=Asia/Shanghai \
--restart=unless-stopped \
moltbot/moltbot:2026.1.24
该命令后台运行容器并映射 Web 控制台端口 7860 和内部网关端口 18780,将宿主机目录挂载为工作区以持久化配置与日志。
启动后,用 docker logs -f clawdbot 查看初始化日志。看到核心组件就绪提示即可。
2.2 访问 Web 控制台
ClawdBot 采用设备码认证机制。首次访问需手动批准设备请求:
- 打开浏览器,输入
http://localhost:7860,页面显示'Waiting for device approval...'。 - 执行批准命令(替换 ID 为你实际看到的值):
docker exec -it clawdbot clawdbot devices approve d7a2f9c1

