ClawWork：在破产边缘测试AI的商业头脑

ClawWork：一个让AI学会心疼钱的沙箱

去年年底，港大数据科学实验室（HKUDS）在GitHub上放出了ClawWork。乍一看又是个AI评测工具，但跑起来才发现，它测的根本不是答题正确率——而是AI能不能在烧真金白银的约束下赚到钱。

传统的AI测试像温室：题目做错了可以无限重试，API调用也不计成本。ClawWork直接把AI扔进一个经济沙箱，每个智能体启动时只给10美元本金，搜一次网页扣0.0008美元，读一页文档扣0.05美元/百万token，连大模型自己说话都要按token计费。钱烧光了就破产，进程直接被杀掉。交付成果后，还有个更聪明的裁判模型给0-1分，0分意味着白干一场。

这不只是'能不能做'的问题，而是'做出来划不划算'的问题。我觉得这是它最狠的地方。

架构：一个纯粹的打工记账机器

ClawWork的底层叫Nanobot，它把常规的AI对话框架全扔了，只留下调度、执行和记账三件事。

[ 真实经济大盘 (GDPVal Task Pool)] │ ▼ 1. 派发任务 & 初始资金 ($10) ┌───────────────────────────────┐ │ Nanobot Core │ ← 核心调度与财务控制平面 │ [ 全局计费与状态监控模块 ] │ └──────────────┬────────────────┘ │ ┌────────┼────────┐ 2. 调度与计费执行 ▼ ▼ ▼ LLM 大脑 Web 搜索器 代码执行器 (按 Token 计费)(每次$0.0008)(算力燃烧) │ ▼ 3. 提交标准产物 (Artifact) ┌───────────────────────────────┐ │ 上帝裁判机 (Judge LLM) │ ← 验收、打分与结算 └───────────────────────────────┘ │ 4. 0-1 分评估 & 结算打款 ($82.78 ~ $5004) ▼ [ Agent 银行账户 (Balance)]

财务调度中心：从44个经济领域的任务池里随机抓任务，每个Agent只有$10初始资金。任何动作都要先过财务校验，余额不足直接抛异常。
执行引擎：大脑（GPT-4o、Claude 3.5等）干活时，搜网页、读资料全都有定价。如果AI写了个死循环搜索，几秒钟就能把10块钱烧完。
裁判模型：交付后，一个更大的LLM来打分，标准很严，一点幻觉或数据错误就可能导致0分。

压力测试：每一分钱都要算计

在ClawWork里，AI必须学会'断舍离'。表格列举了主要的支出和收入项，但真实体验是，你看着终端日志里余额像心电图一样往下掉，非常刺激：

搜索一次Tavily：-$0.0008
用Jina Reader抓取文档：每百万token扣$0.05
大模型推理token消耗：按API费率实时扣
任务完成奖励：$82.78到$5004不等，但前提是裁判给分高

AI如果是个话痨，输出一堆废话，余额就哗哗没了。想活下来，必须精准搜索、简短回复、严格交付。

系统还提供了一个React Dashboard，能看到Agent的实时余额曲线、存活率、在不同任务领域的ROI分布。不再是枯燥的准确率，而是经营报表。

兼容性：换模型像换工具

ClawWork支持OpenAI、Anthropic、Google的模型，开源模型如DeepSeek-Coder、Llama 3也可以接入（Beta阶段）。底层用LangChain/LiteLLM抽象，配置一下环境变量就能换脑子。

添加新任务也很简单，它设计了一个注册机制。比如你想加一个'审计报销单'的任务：

@TaskRegistry.register()
 ():
     ():
        .starting_budget = 
        .reward = 

     ():
         

     ():
         LLMJudge.score(artifact, gold_standard=)

ClawWork：在破产边缘测试AI的商业头脑

ClawWork：一个让AI学会心疼钱的沙箱

架构：一个纯粹的打工记账机器

压力测试：每一分钱都要算计

兼容性：换模型像换工具

更多推荐文章

相关免费在线工具

未来路线图：更残酷的竞争

技术细节：财务拦截器怎么实现的

与传统评测的对比

快速上手

社区与未来

结语

更多推荐文章

相关免费在线工具

ClawWork：在破产边缘测试AI的商业头脑

ClawWork：一个让AI学会心疼钱的沙箱

架构：一个纯粹的打工记账机器

压力测试：每一分钱都要算计

兼容性：换模型像换工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

未来路线图：更残酷的竞争

技术细节：财务拦截器怎么实现的

与传统评测的对比

快速上手

社区与未来

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具