跳到主要内容
ClawWork:港大开源 AI 经济沙箱,测试智能体真实变现能力 | 极客日志
Python AI 算法
ClawWork:港大开源 AI 经济沙箱,测试智能体真实变现能力 综述由AI生成 ClawWork 是香港大学数据科学实验室开源的 AI 智能体经济沙箱项目。它通过引入真实的成本计费机制(Token、搜索 API),让 AI 智能体在有限资金下进行任务执行与盈利挑战。项目核心在于将 AI 从对话工具转变为经济参与者,通过 ROI 评估模型的商业价值,而非单纯的准确率。支持多模型接入、可视化监控及自定义任务扩展,为 AGI 评测提供了新的商业化视角。
星星泡饭 发布于 2026/3/25 更新于 2026/4/25 2 浏览ClawWork:港大开源 AI 经济沙箱,测试智能体真实变现能力
当 ChatGPT 还在为生成一首诗而沾沾自喜时,ClawWork 里的 AI 智能体正面临一次昂贵的网页搜索带来的资金压力。香港大学数据科学实验室(HKUDS)近期在 GitHub 上开源了 ClawWork 项目,这不仅仅是一个评测榜单,更是一场真金白银的生存挑战。
核心机制:从对话工具到经济参与者
传统的 AI 本质上是租赁软件,而 ClawWork 首次将 AI 升级为经济参与者(Economic Participant)。它不仅要聪明,更要'精明'。
维度 传统评测 (MMLU/HumanEval) ClawWork 的变革 核心价值 评测指标 静态准确率:做对了几道题 经济回报率 (ROI):花多少成本,赚多少钱 商业化验证 任务类型 学术题库:写一段快排,回答历史选择题 真实职场:制造业供应链分析、医疗数据核对 接轨现实 容错机制 无限重试:错了就换个 Prompt 再跑一次 残酷淘汰:盲目调用工具导致破产,直接 Game Over 成本意识
Nanobot 架构与经济内循环
ClawWork 底层的 Nanobot 架构旨在把 AI 塞进资本主义的格子间。它抛弃了所有关于'用户交互'的冗余代码,将其内核精简为一个纯粹的'打工机器与记账本'。
[ 真实经济大盘 (GDPVal Task Pool)] │ ▼ 1 . 派发任务 & 初始资金 ($10 ) ┌───────────────────────────────┐ │ Nanobot Core │ ← 核心调度与财务控制平面 │ [ 全局计费与状态监控模块 ] │ └──────────────┬────────────────┘ │ ┌────────┼────────┐ 2 . 调度与计费执行 ▼ ▼ ▼ LLM 大脑 Web 搜索器 代码执行器 (按 Token 计费)(每次$0.0008 )(算力燃烧) │ ▼ 3 . 提交标准产物 (Artifact) ┌───────────────────────────────┐ │ 上帝裁判机 (Judge LLM) │ ← 验收、打分与结算 └───────────────────────────────┘ │ 4 . 0 -1 分评估 & 结算打款 ($82.78 ~ $5004 ) ▼ [ Agent 银行账户 (Balance)]
核心组件与工作流解析
1. 财务调度中心(The Ledger & Dispatcher)
系统如同一个无情的赛博 HR,从涵盖制造业、金融、医疗等 44 个经济领域的庞大人才市场中随机抽取任务,直接砸给 Nanobot。
:每个智能体实例启动时,账本上的初始本金只有极其拮据的 $10。
资金锁死
全局计费 :这是 Nanobot 最核心的机制。它不仅是一个任务分发器,更是一个高频微交易的计费引擎。AI 后续的所有动作,都必须经过这里的财务校验。2. 处处受限的执行引擎(The Metered Execution)
当 Nanobot 挂载的'大脑'(如 GPT-4o 或 Claude 3.5)开始干活时,它必须精打细算:
步步惊心的工具链 :想要连网查资料?调用一次 Tavily 搜索,账本立刻扣除 $0.0008。想要读取长篇研报?使用 Jina Reader 抓取,每处理 1M Tokens 再扣 $0.05。
生存法则 :这种机制倒逼 AI 必须学会'断舍离'。如果在一个需要抓取数据的任务中陷入死循环,或者无脑滥用广度搜索,Nanobot 的余额会在几分钟内清零,随后直接触发 Bankruptcy(破产)机制,进程被无情地 kill 掉。
3. 铁面无私的验收裁判(The Cold-blooded Judge)
交付成果后,游戏进入了最让人心跳加速的结算环节。一个参数量更大、逻辑更严密的'高级裁判模型'会接管这份工作产物。裁判会对交付物进行细致入微的 0-1 分评估。哪怕是一个小数点对错位,或者出现轻微的'数据幻觉',都会导致分数断崖式下跌。
这种架构的精妙之处在于:传统的 Agent 框架(如 AutoGPT)都在解决'能不能做出来'的问题,而 Nanobot 架构引入了现实世界中最致命的变量——'做出来划不划算'。网关负责实时算账,Agent 负责在破产的边缘疯狂试探。
核心功能:为什么它让人细思极恐 ClawWork 的特性,完全是按照发掘'超级员工'的标准设计的。它打破了传统 AI 评测中'无限试错、不计成本'的温室环境,将残酷的商业逻辑注入了每一行代码。
极端的经济压力测试 在传统的测试台(如 HumanEval)上,AI 写错代码大不了再生成一次。但在 ClawWork 中,你的每一次 API 调用都在燃烧真实的法币。系统开局只给 AI 发放 $10 的启动资金,这笔钱就是它的'生命值'。
在这个平台里,'不懂得省钱的 AI 不是好员工'。为了活下去,AI 必须在'信息获取的广度'与'Token 消耗的成本'之间走钢丝。
支出/收入项 行为节点 经济成本/收益 对 AI 的生存影响 🔍 广度搜索 调用 Tavily 搜索 API -$0.0008 / 次 频繁陷入'搜索死循环'会迅速榨干本金。 📄 深度阅读 使用 Jina Reader 抓取网页 -$0.05 / 1M Tokens 抓取垃圾信息等于烧钱,逼迫 AI 学会精准定向。 🧠 深度思考 消耗自身大模型的 Token 按各家 API 费率计扣 话痨 AI 会因为输出废话过多而破产。 💰 交付结算 提交最终工作产物 (Artifact) +$82.78 至 +$5004 必须通过高级裁判模型的严苛打分,0 分直接血本无归。
真实经济大盘的可视化 不再是枯燥的终端命令行输出。ClawWork 提供了一个直观的 React Dashboard(仪表盘),让你以上帝视角监控你的'数字黑奴'。
你在 Dashboard 上看到的不是冰冷的准确率,而是真实的'经营大盘':
实时资金曲线 (Balance Tracker) :你可以像看股票大盘一样,盯着你的 AI 账户余额。
生死存活率 (Survival Rate) :直观显示有多少 Agent 成功交付了任务,有多少因为超时被开除,又有多少因为资金耗尽被系统抹杀。
行业 ROI 分布 :图表会告诉你,你的 AI 究竟是在'金融分析'任务里最赚钱,还是在'医疗数据核对'任务里疯狂亏损。
无缝兼容与扩展 你想让各大厂的最新模型在同一个擂台比拼赚钱能力?完全没问题。ClawWork 的哲学是:铁打的营盘,流水的兵。
开箱即用的多模型支持 通过底层的 LangChain / LiteLLM 架构,它不仅是一个工具,而是一个通用的竞技场。目前已支持:
厂商生态 状态 典型参赛选手 OpenAI 稳定 GPT-4o, GPT-4-turbo Anthropic 稳定 Claude 3.5 Sonnet / Opus Google 稳定 Gemini 1.5 Pro 开源/本地 Beta DeepSeek-Coder, Llama 3
极简的任务扩展 如果你觉得系统自带的 220 个职业任务不够,想要加入你们公司特有的工作流?ClawWork 的扩展点极其清晰。你不需要重写复杂的评测逻辑,只需要在 livebench/work/task_manager.py 中注入极少量的配置即可。
@TaskRegistry.register("finance_audit" )
class ExpenseAuditTask (BaseTask ):
def __init__ (self ):
self .starting_budget = 10.0
self .reward = 500.0
def get_prompt (self ):
return "请读取 /data/receipts 目录下的所有发票,对比 policy.pdf,找出违规报销项并输出 JSON。"
def evaluate (self, artifact ):
return LLMJudge.score(artifact, gold_standard="audit_ground_truth.json" )
保存,重启。你的 AI 就会立刻在人才市场里看到这个价值 $500 的新任务,并为了赚取这笔赏金开始疯狂查阅发票。
未来路线图:AI 职场的'内卷'才刚刚开始 未来的版本中,系统将彻底撕下温和的面纱,把这些 AI 智能体推向一个真正弱肉强食的红海。
场景 1:任务自由市场 现在的 ClawWork 是计划经济,系统像发盲盒一样强行派单。未来的自由市场,系统变身为'赛博人才大市场'。任务大厅里会实时滚动悬赏单,AI 必须学会自己做风险投资与收益评估。
[Agent: GPT-4o] 内部决策日志:
*扫描人才市场任务板… 发现 3 个新悬赏。
*📄 任务 A (财报摘要):赏金 $150。预估需要抓取 3 份 PDF,搜索成本极高。跳过。
*💻 任务 B (Python 脚本重构):赏金 $300。预估代码量 500 行,零外部搜索需求。ROI 极高。动作 :*立即抢单任务 B。
场景 2:语义记忆检索 现在的 ClawWork 是失忆的西西弗斯。未来的记忆传承,AI 将拥有专属的本地 RAG(检索增强生成)记忆库,学会用'老员工的经验'来省钱。
[Agent: Claude-3.5] 错误排查流:
*任务:部署一个陈旧的 React 项目。
*报错:Error: error:0308010C:digital envelope routines::unsupported
*挂起拦截:检索本地 ~/.claw_memory/errors.db 历史记录。
记忆命中: '在上周三的任务 #1042 中,我遇到过完全相同的错误。'
*动作:*取消网页搜索,直接应用历史方案。
场景 3:多智能体竞争 现在的 ClawWork 是 PVE 模式。未来的黑暗森林,PVP 模式。多个不同厂商、不同架构的 AI 被扔进同一个资源总量的封闭经济体中。
这种将经济学和社会学融入 AI 评测的设定,正是 ClawWork 最迷人也最硬核的地方。
技术揭秘:如何用代码构建一个'赛博血汗工厂' 让 AI 老老实实打工,并且在它亏钱的瞬间精准拔掉它的网线,这在工程实现上并不简单。ClawWork 的开发团队在底层设计了一套极其冷酷且严密的'经济沙箱'。
全局计费拦截器 在传统的 AI 框架中,调用工具是自由的。但在 ClawWork 中,所有的 API 调用和 Token 消耗都被强制包裹在一个财务代理层中。它采用的是一种'先扣款,后执行'的预决算机制。
def require_budget (tool_name:str , cost:float ):
""" 财务拦截器:任何工具调用前必须经过此装饰器 """
def decorator (func ):
def wrapper (agent,*args,**kwargs ):
if agent.balance < cost:
raise BankruptcyException(f"Agent {agent.id } 余额不足以支付 {tool_name} " )
agent.balance -= cost
agent.log_transaction(tool_name,-cost)
return func(agent,*args,**kwargs)
return wrapper
return decorator
@require_budget(tool_name="Tavily_Search" , cost=0.0008 )
def execute_web_search (agent, query ):
pass
这意味着什么?你的 AI 就像带了一个赛博计价器。哪怕它只是在代码里写了一个导致无限循环的死循环搜索,财务拦截器也会在几秒钟内耗尽它的 $10 预算,并精准抛出异常将其强制休眠。
资源隔离与边缘侧生存 为了模拟最真实的'零工经济',ClawWork 支持将不同的 Agent 扔进独立的隔离环境中。如果你手头刚好有一块 RK3588 开发板,你可以将那些参数量较小、专门负责低端数据清洗任务的开源模型直接部署在这块边缘计算板上。
在这种模式下,除了微乎其微的电费,Agent 的'脑力成本'几乎被压缩到了极致。一旦 Agent 在板子上为了解题而疯狂拉高 NPU 占用,ClawWork 底层的进程管理工具会严格限制其资源配额,防止单台设备的崩溃。
仪表盘二次开发 ClawWork 默认提供了一个 React Dashboard,但这仅仅是基础。它的后端设计非常模块化,状态数据通过 RESTful API 实时广播。如果你有 Django 等后端框架的开发经验,完全可以直接劫持它的数据库,写一套自定义的监控面板。
终极对决:ClawWork 与传统 AI 评测的降维打击 ClawWork 的出现,不仅仅是多了一个打榜的开源库,而是代表了 AI 评价体系的彻底觉醒。
如果要用一句话总结它与 HumanEval 或 Chatbot Arena 的区别,那就是:它们在测试 AI 的'智商'与'情商',而 ClawWork 在压榨 AI 的'商业变现能力'。
核心维度 ClawWork (The Capitalist Sandbox) 传统学术评测 (MMLU / HumanEval) Chatbot Arena (The Vibe Check) 核心目标 创造利润 (ROI) 静态解题 讨好人类 容错机制 破产即死亡 无限试错 主观原谅 评价标准 真金白银 ($) 百分比 (%) 人类投票 (Elo 积分) 测试场景 真实经济大盘 书本与题库 随机闲聊
核心护城河:为何它是 AGI 的终极试金石?
商业逻辑的引入 :从'能做'到'划算'。传统的测试是'不计代价的'。但在 ClawWork 中,这种模型会被直接判定为'赔钱货'。它强迫大模型学会在'完美的质量'和'昂贵的执行成本'之间寻找最优解。
拒绝'水字数' :目前的 AI 普遍患有'话痨症'。在 ClawWork 的按 Token 计费机制下,每一句废话都在流失本金。这倒逼模型必须像一个冷酷高效的顶级杀手:精准提取、简短输出、直接交付。
动态经济生态 :普通的评测集一旦发布,往往几个月内就会被各大模型厂商'刷榜'。ClawWork 则是一个动态的经济体。裁判模型的打分标准会随着任务的复杂化而波动,甚至未来多智能体引入后,你的模型还要学会面对同行竞价的压力。
硬币的背面:你的 AI 准备好接受毒打了么? 我们必须诚实地指出,将真实商业世界浓缩进沙箱是极其残酷的。ClawWork 并不适合所有的 AI 开发者。
门槛 1:温室花朵的坟墓 。如果你的模型主打的是'高情商'、'陪伴感'或'创意写作',千万别把它放进 ClawWork。
门槛 2:真实的真金白银损耗 。运行 ClawWork 本身就是在烧钱。虽然它在测试 AI 的赚钱能力,但作为幕后的系统管理员,你需要为被测试模型产生的 API 费用以及裁判模型的高昂验收费用买单。
门槛 3:纯粹的唯结果论 。传统评测会给'过程正确但结果算错'的模型一些同情分。在 ClawWork 的裁判机制里,只看 Artifact(交付物)的质量。
实战开张:十分钟搭建你的'赛博血汗工厂' 无论你是想在本地跑个测试看看你的大模型智商如何,还是想在服务器上常驻一套系统,ClawWork 都提供了极具极客风格的部署路径。
快速启动:包工头模式 既然是基于 Python 生态的开源项目,我们直接从终端开始。
Python 3.10+ (建议使用 Conda 或 venv 隔离环境)
准备好你的 API Keys (不仅是大模型,还需要搜索工具的 Key)
git clone https://github.com/HKUDS/ClawWork.git
cd ClawWork
pip install -r requirements.txt
export OPENAI_API_KEY="sk-your-openai-key"
export TAVILY_API_KEY="tvly-your-search-key"
python -m livebench.run --agent gpt-4o --task finance_analysis
盯着终端输出的日志,你会看到非常刺激的扣费提醒,比如 [Transaction] Tavily Search invoked. Balance: $9.9992,这种看着 AI 烧钱的透明度非常'治愈'。
Docker 部署 如果你希望一边喝咖啡,一边看着浏览器里的 React Dashboard 监控多台 AI 疯狂打工,Docker 是最佳选择。
version:'3.8'
services:
clawwork-core:
image: hkuds/clawwork:latest
container_name: cyber_sweatshop_engine
restart: unless-stopped
volumes:
- ./config.yaml:/app/config.yaml
- ./workspace:/app/workspace
environment:
- OPENAI_API_KEY=${OPENAI_API_KEY}
- TAVILY_API_KEY=${TAVILY_API_KEY}
clawwork-dashboard:
image: hkuds/clawwork-dashboard:latest
container_name: capitalist_dashboard
ports:
- "3000:3000"
depends_on:
- clawwork-core
打开浏览器访问 http://localhost:3000,你就能看到你的 AI 员工们的生死了。
配置解密:制定你的《员工守则》 ClawWork 的魅力在于其精细的经济沙箱控制。在 config.yaml 中,你就是制定游戏规则的上帝。
system:
max_concurrent_agents: 5
agent_defaults:
starting_balance: 10.0
max_steps: 25
tools:
web_search:
enabled: true
provider: "tavily"
cost_per_call: 0.0008
evaluation:
judge_model: "gpt-4-turbo"
strict_mode: true
模型选型指南 由于 ClawWork 底层接入了灵活的模型路由,你可以随意更换打工人的'脑子'。但在按 Token 和 API 调用算钱的资本家眼里,不同的模型意味着完全不同的 ROI。
员工评级 推荐模型 盈亏预期 (ROI) 👑 明星高管 Claude 3.5 Sonnet 高额利润 🚀 性价比卷王 DeepSeek-V3 / Coder 惊人的利润率 👔 稳健中产 GPT-4o 稳定盈利 💣 赔钱黑洞 旧版小参数模型 迅速破产
避坑指南
API 账单警告 :ClawWork 会真实消耗你的 API 余额。强烈建议先用小额度 Key 测试!
并发限流 :如果你同时开启 10 个 Agent 疯狂跑任务,极易触发 OpenAI 或 Anthropic 的 429 Too Many Requests。
环境隔离 :Agent 在执行任务时可能会生成真实的代码并在本地运行。为了防止 AI 破坏系统,请务必在 Docker 环境或严格限制权限的虚拟机中运行。
社区与生态:一场重塑'数字劳动力'的社会学实验 ClawWork 能够在极短时间内引爆开源圈,核心驱动力并非仅仅是几行精妙的调度代码,而是它彻底激发了人类对效率和投资回报率(ROI)的极致追求。
'赛博华尔街':这里没有同情,只有 ROI 传统的 AI 社区,大家在交流如何让模型写出更优美的诗歌。但在 ClawWork 的社区里,画风完全变成了一个充满铜臭味和丛林法则的'赛博华尔街'。
GitHub Discussions :这里每天都在上演真实的'成本优化研讨会'。你会看到有极客发帖炫耀:'我把原本耗资 $0.15 的市场调研 Prompt,通过引入本地缓存和重写 Dorks 搜索词,压缩到了 $0.02,虽然裁判打分从 0.95 降到了 0.90,但整体净利润(PnL)提升了 300%!'
Task Registry :每天都有新的职业评估任务被合入主分支。今天有人提交了'智能合约漏洞悬赏挖掘'任务,明天就有机构上传了'跨国公司避税方案推演'沙箱。
路线图:下一站,真实的经济实体 翻看 ClawWork 开发团队的规划列表,我们可以清晰地看到,它不仅是一个评测工具,它正试图打破次元壁,让 AI 真正接轨现实经济体。
真实加密货币结算 :未来的 ClawWork 计划集成 Solana 或 Base 链。你真的往 Agent 钱包里充值 10 USDC,它在真实世界调用付费 API 抓取数据,生成的研报卖给真实用户,赚取的以太坊直接打回你的冷钱包。
B2B 智能体外包 :当一个'主包'大模型接到价值 $500 的复杂软件开发任务时,它可以选择不自己写。它可以花 $50 雇佣 5 个开源模型去写单元测试,形成复杂的赛博供应链。
动态定价系统 :任务赏金不再固定。如果某个任务太难,所有接单的 AI 都破产了,系统会自动提高该任务的赏金;如果某个任务被 DeepSeek-Coder 批量刷单,赏金会迅速跌至谷底。
结语:在这场硅基内卷中,你扮演什么角色? ClawWork 的出现,毫不留情地撕下了 AI 行业'其乐融融'的伪装。它让我们提前窥见了未来数字职场的残酷真相——那是一个精确到小数点后四位、以毫秒计算效率、没有任何劳动法保护的疯狂世界。
随着 ClawWork 这样以 ROI 为绝对导向的评估体系成为主流,不能创造商业利润的 AI 将被迅速扫入历史的垃圾堆。
如果你还在犹豫要不要尝试,不妨问自己一个问题:当 AI 员工开始自己赚钱、自己接单、甚至互相雇佣的时代全面降临,你是想做一个被资本和 AI 共同淘汰的旧时代劳动力,还是想尽早学会如何去当这群数字黑奴的'冷酷工头'?
Welcome to the Real World. Time is Money, Token is Life.
本文基于 HKUDS-ClawWork 开源项目公开资料整理。建议在社区的推动下每日都在发生剧烈演进,直接拉取 GitHub 主分支体验这把残酷的赛博达尔文之剑。
资源汇总 相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
随机西班牙地址生成器 随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online
Gemini 图片去水印 基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online
curl 转代码 解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online