ClawWork:一个让AI学会心疼钱的沙箱
去年年底,港大数据科学实验室(HKUDS)在GitHub上放出了ClawWork。乍一看又是个AI评测工具,但跑起来才发现,它测的根本不是答题正确率——而是AI能不能在烧真金白银的约束下赚到钱。
传统的AI测试像温室:题目做错了可以无限重试,API调用也不计成本。ClawWork直接把AI扔进一个经济沙箱,每个智能体启动时只给10美元本金,搜一次网页扣0.0008美元,读一页文档扣0.05美元/百万token,连大模型自己说话都要按token计费。钱烧光了就破产,进程直接被杀掉。交付成果后,还有个更聪明的裁判模型给0-1分,0分意味着白干一场。
这不只是'能不能做'的问题,而是'做出来划不划算'的问题。我觉得这是它最狠的地方。
架构:一个纯粹的打工记账机器
ClawWork的底层叫Nanobot,它把常规的AI对话框架全扔了,只留下调度、执行和记账三件事。
[ 真实经济大盘 (GDPVal Task Pool)] │ ▼ 1. 派发任务 & 初始资金 ($10) ┌───────────────────────────────┐ │ Nanobot Core │ ← 核心调度与财务控制平面 │ [ 全局计费与状态监控模块 ] │ └──────────────┬────────────────┘ │ ┌────────┼────────┐ 2. 调度与计费执行 ▼ ▼ ▼ LLM 大脑 Web 搜索器 代码执行器 (按 Token 计费)(每次$0.0008)(算力燃烧) │ ▼ 3. 提交标准产物 (Artifact) ┌───────────────────────────────┐ │ 上帝裁判机 (Judge LLM) │ ← 验收、打分与结算 └───────────────────────────────┘ │ 4. 0-1 分评估 & 结算打款 ($82.78 ~ $5004) ▼ [ Agent 银行账户 (Balance)]
- 财务调度中心:从44个经济领域的任务池里随机抓任务,每个Agent只有$10初始资金。任何动作都要先过财务校验,余额不足直接抛异常。
- 执行引擎:大脑(GPT-4o、Claude 3.5等)干活时,搜网页、读资料全都有定价。如果AI写了个死循环搜索,几秒钟就能把10块钱烧完。
- 裁判模型:交付后,一个更大的LLM来打分,标准很严,一点幻觉或数据错误就可能导致0分。
压力测试:每一分钱都要算计
在ClawWork里,AI必须学会'断舍离'。表格列举了主要的支出和收入项,但真实体验是,你看着终端日志里余额像心电图一样往下掉,非常刺激:
- 搜索一次Tavily:-$0.0008
- 用Jina Reader抓取文档:每百万token扣$0.05
- 大模型推理token消耗:按API费率实时扣
- 任务完成奖励:$82.78到$5004不等,但前提是裁判给分高
AI如果是个话痨,输出一堆废话,余额就哗哗没了。想活下来,必须精准搜索、简短回复、严格交付。
系统还提供了一个React Dashboard,能看到Agent的实时余额曲线、存活率、在不同任务领域的ROI分布。不再是枯燥的准确率,而是经营报表。
兼容性:换模型像换工具
ClawWork支持OpenAI、Anthropic、Google的模型,开源模型如DeepSeek-Coder、Llama 3也可以接入(Beta阶段)。底层用LangChain/LiteLLM抽象,配置一下环境变量就能换脑子。
添加新任务也很简单,它设计了一个注册机制。比如你想加一个'审计报销单'的任务:
@TaskRegistry.register()
():
():
.starting_budget =
.reward =
():
():
LLMJudge.score(artifact, gold_standard=)


