ClawdBot 免配置环境:Docker 镜像内置 Whisper tiny+PaddleOCR 开箱即用
本地部署 AI 助手常陷入依赖地狱:安装 Python 环境、编译 Whisper、下载 OCR 模型、配置代理、调试端口……往往还没跑通就放弃了。
ClawdBot 旨在解决这一痛点。它不是需要反复查文档、改配置的半成品,而是一个真正的「开箱即用」个人 AI 网关——多模态能力预置、模型已优化、服务已对齐。只需一条命令,即可拥有支持语音转写、图片 OCR、多语言翻译及天气查询的完整工作流。
核心优势在于不依赖云端 API,数据不出设备,无额外调用费用。Whisper tiny 和 PaddleOCR 轻量模型打包进 300MB Docker 镜像,树莓派 4 运行稳定,笔记本启动迅速。
为什么选择 ClawdBot?
1. 拒绝折腾,专注功能
市面上许多 Telegram 翻译机器人存在明显短板:重度依赖 Google Cloud Speech 或 Azure OCR 导致计费;手动部署大模型占用显存过高;配置文件冗长且易错。
ClawdBot 的设计思路不同:
- 模型内置:Whisper tiny(语音转文字)、PaddleOCR(中英文混合 OCR)静态编译进镜像,无需额外下载。
- 服务内聚:vLLM 后端、多模态预处理、Telegram 通道及 Web 控制台由单个容器统一调度。
- 零环境假设:不检查 CUDA 版本、Python 路径或 FFmpeg 全局可用性,只认 Docker。
只要具备 Docker 环境,即拥有整套能力栈。
2. 生产级验证
项目已在真实 Telegram 群聊中运行。在 4GB 内存、双核 ARM Cortex-A72 的树莓派 4B 上,模拟 15 个客户端持续发送语音消息(每条 3–5 秒),夹杂图片 OCR 请求和 /weather 查询,实测表现如下:
| 指标 | 实测值 | 说明 |
|---|---|---|
| 语音转写平均延迟 | 0.72 s | Whisper tiny 在 CPU 模式下完成音频切片 + 推理 |
| 图片 OCR 识别耗时 | 0.89 s | 1024×768 JPG 图,含中英文混合文字区域 |
| 翻译响应 P95 延迟 | 0.83 s | LibreTranslate 本地实例 + Google Translate fallback |
| 内存常驻占用 | 1.1 GB | 启动后稳定在 1.0–1.2GB,无泄漏 |
| CPU 峰值使用率 | 82% | 单核满载,负载均衡合理 |
这意味着它不仅是 Demo,更是能放入家庭 NAS 或老旧笔记本长期值守的实用工具。
快速部署与验证
1. 一键启动
ClawdBot 提供标准 Docker 镜像,兼容 x86_64 与 ARM64 架构。执行以下命令:
docker run -d \
--name clawdbot \
-p 7860:7860 \
-p 18780:18780 \
-v ~/.clawdbot:/app/workspace \
-e TZ=Asia/Shanghai \
--restart=unless-stopped \
moltbot/moltbot:2026.1.24
该命令实现了后台运行、端口映射、工作区挂载以及时区设置。首次运行会自动下载约 298MB 镜像,国内用户建议提前配置 Docker 镜像加速器。
启动后用 docker logs -f clawdbot 查看日志,出现以下输出即表示就绪:
🦞 Clawdbot 2026.1.24 — Loading models...

