ClawdBot 本地部署：Docker 镜像集成 Whisper tiny 与 PaddleOCR

在本地搭建能听懂语音、看懂图片的 AI 助手时，常卡在依赖安装、模型编译或配置代理上。ClawdBot 旨在解决这一痛点，它不是需要反复调试环境的半成品，而是一个真正的开箱即用个人 AI 网关——多模态能力预置、模型已优化、服务已对齐。

核心优势在于不依赖云端 API，数据不出设备。Whisper tiny 和 PaddleOCR 轻量模型打包进 Docker 镜像，树莓派或笔记本均可流畅运行。该方案已投入实际使用，支持语音转写、图片 OCR、多语言翻译及天气查询等完整工作流。

1. 为什么选择 ClawdBot？

1.1 降低环境门槛

市面上许多 Telegram 翻译机器人重度依赖云端计费接口，或要求手动部署大模型占用大量显存。配置文件往往冗长，光是填写 Token 和代理就耗费精力。

ClawdBot 的设计思路不同：

模型内置：Whisper tiny（语音转文字）、PaddleOCR（中英文混合 OCR）静态编译进镜像，无需额外下载；
服务内聚：vLLM 后端、多模态预处理、Telegram 通道及 Web 控制台由单个容器统一调度；
零环境假设：不检查 CUDA 版本、Python 路径或 FFmpeg 全局可用性，只认 Docker。

只要拥有 Docker 环境，即可获得整套能力栈，省去了排查依赖冲突的时间。

1.2 经过验证的轻量生产环境

项目曾在树莓派 4B（4GB 内存、双核 ARM Cortex-A72）上进行并发测试。使用 wrk 模拟 15 个客户端持续发送语音消息（每条 3–5 秒），同时夹杂图片 OCR 请求和 /weather 查询。实测结果如下：

指标	实测值	说明
语音转写平均延迟	0.72 s	Whisper tiny 在 CPU 模式下完成音频切片 + 推理 + 文本返回
图片 OCR 识别耗时	0.89 s	1024×768 JPG 图，含中英文混合文字区域
翻译响应 P95 延迟	0.83 s	LibreTranslate 本地实例 + Google Translate fallback 双引擎
内存常驻占用	1.1 GB	启动后稳定在 1.0–1.2GB，无内存泄漏
CPU 峰值使用率	82%	单核满载，另一核空闲，负载均衡合理

这意味着它不仅是 Demo，而是能放入家庭 NAS 或老旧笔记本长期值守的实用工具。

2. 快速部署与验证

2.1 一键启动

ClawdBot 提供标准 Docker 镜像，兼容 x86_64 与 ARM64 架构。执行以下命令即可后台运行：

docker run -d \
 --name clawdbot \
 -p 7860:7860 \
 -p 18780:18780 \
 -v ~/.clawdbot:/app/workspace \
 -e TZ=Asia/Shanghai \
 --restart=unless-stopped \
 moltbot/moltbot:2026.1.24

该命令主要完成四件事：

后台运行容器并命名为 clawdbot；
映射 Web 控制台端口 7860 和内部网关端口 18780；
挂载宿主机目录持久化配置与日志；
设置时区避免定时任务错乱。

首次运行会自动下载约 298MB 镜像。国内用户建议提前配置 Docker 镜像加速器。

启动后可通过查看初始化日志。若看到类似输出，说明核心组件就绪：

ClawdBot 本地部署：Docker 镜像集成 Whisper tiny 与 PaddleOCR