ClawWork：港大开源 AI 经济沙箱，测试智能体真实变现能力 | 极客日志

PythonAI算法

ClawWork：港大开源 AI 经济沙箱，测试智能体真实变现能力

ClawWork 是香港大学数据科学实验室开源的 AI 智能体经济沙箱项目。它通过引入真实的成本计费机制（Token、搜索 API），让 AI 智能体在有限资金下进行任务执行与盈利挑战。项目核心在于将 AI 从对话工具转变为经济参与者，通过 ROI 评估模型的商业价值，而非单纯的准确率。支持多模型接入、可视化监控及自定义任务扩展，为 AGI 评测提供了新的商业化视角。

星星泡饭发布于 2026/3/25更新于 2026/6/1622 浏览

ClawWork：港大开源 AI 经济沙箱，测试智能体真实变现能力

当 ChatGPT 还在为生成一首诗而沾沾自喜时，ClawWork 里的 AI 智能体正面临一次昂贵的网页搜索带来的资金压力。香港大学数据科学实验室（HKUDS）近期在 GitHub 上开源了 ClawWork 项目，这不仅仅是一个评测榜单，更是一场真金白银的生存挑战。

核心机制：从对话工具到经济参与者

传统的 AI 本质上是租赁软件，而 ClawWork 首次将 AI 升级为经济参与者（Economic Participant）。它不仅要聪明，更要'精明'。

维度	传统评测 (MMLU/HumanEval)	ClawWork 的变革	核心价值
评测指标	静态准确率：做对了几道题	经济回报率 (ROI)：花多少成本，赚多少钱	商业化验证
任务类型	学术题库：写一段快排，回答历史选择题	真实职场：制造业供应链分析、医疗数据核对	接轨现实
容错机制	无限重试：错了就换个 Prompt 再跑一次	残酷淘汰：盲目调用工具导致破产，直接 Game Over	成本意识

Nanobot 架构与经济内循环

ClawWork 底层的 Nanobot 架构旨在把 AI 塞进资本主义的格子间。它抛弃了所有关于'用户交互'的冗余代码，将其内核精简为一个纯粹的'打工机器与记账本'。

[ 真实经济大盘 (GDPVal Task Pool)] │ ▼ 1. 派发任务 & 初始资金 ($10) ┌───────────────────────────────┐ │ Nanobot Core │ ← 核心调度与财务控制平面 │ [ 全局计费与状态监控模块 ] │ └──────────────┬────────────────┘ │ ┌────────┼────────┐ 2. 调度与计费执行 ▼ ▼ ▼ LLM 大脑 Web 搜索器 代码执行器 (按 Token 计费)(每次$0.0008)(算力燃烧) │ ▼ 3. 提交标准产物 (Artifact) ┌───────────────────────────────┐ │ 上帝裁判机 (Judge LLM) │ ← 验收、打分与结算 └───────────────────────────────┘ │ 4. 0-1 分评估 & 结算打款 ($82.78 ~ $5004) ▼ [ Agent 银行账户 (Balance)]

核心组件与工作流解析

1. 财务调度中心（The Ledger & Dispatcher） 系统如同一个无情的赛博 HR，从涵盖制造业、金融、医疗等 44 个经济领域的庞大人才市场中随机抽取任务，直接砸给 Nanobot。

：每个智能体实例启动时，账本上的初始本金只有极其拮据的 $10。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

支出/收入项	行为节点	经济成本/收益	对 AI 的生存影响
🔍 广度搜索	调用 Tavily 搜索 API	-$0.0008 / 次	频繁陷入'搜索死循环'会迅速榨干本金。
📄 深度阅读	使用 Jina Reader 抓取网页	-$0.05 / 1M Tokens	抓取垃圾信息等于烧钱，逼迫 AI 学会精准定向。
🧠 深度思考	消耗自身大模型的 Token	按各家 API 费率计扣	话痨 AI 会因为输出废话过多而破产。
💰 交付结算	提交最终工作产物 (Artifact)	+$82.78 至 +$5004	必须通过高级裁判模型的严苛打分，0 分直接血本无归。

厂商生态	状态	典型参赛选手
OpenAI	稳定	GPT-4o, GPT-4-turbo
Anthropic	稳定	Claude 3.5 Sonnet / Opus
Google	稳定	Gemini 1.5 Pro
开源/本地	Beta	DeepSeek-Coder, Llama 3

# 想要添加一个"自动审计公司报销单"的新任务，只需这样注册：
@TaskRegistry.register("finance_audit")
class ExpenseAuditTask(BaseTask):
    def __init__(self):
        self.starting_budget = 10.0  # 设定启动资金
        self.reward = 500.0          # 设定任务完成赏金

    def get_prompt(self):
        return "请读取 /data/receipts 目录下的所有发票，对比 policy.pdf，找出违规报销项并输出 JSON。"

    def evaluate(self, artifact):
        # 你的裁判逻辑：比对 AI 找出的违规项与标准答案
        return LLMJudge.score(artifact, gold_standard="audit_ground_truth.json")

# livebench/core/billing.py
def require_budget(tool_name:str, cost:float):
    """ 财务拦截器：任何工具调用前必须经过此装饰器 """
    def decorator(func):
        def wrapper(agent,*args,**kwargs):
            # 1. 检查账户余额
            if agent.balance < cost:
                raise BankruptcyException(f"Agent {agent.id} 余额不足以支付 {tool_name}")
            # 2. 预先冻结/扣除资金
            agent.balance -= cost
            agent.log_transaction(tool_name,-cost)
            # 3. 真正执行工具
            return func(agent,*args,**kwargs)
        return wrapper
    return decorator

@require_budget(tool_name="Tavily_Search", cost=0.0008)
def execute_web_search(agent, query):
    # 实际的搜索逻辑...
    pass

核心维度	ClawWork (The Capitalist Sandbox)	传统学术评测 (MMLU / HumanEval)	Chatbot Arena (The Vibe Check)
核心目标	创造利润 (ROI)	静态解题	讨好人类
容错机制	破产即死亡	无限试错	主观原谅
评价标准	真金白银 ($)	百分比 (%)	人类投票 (Elo 积分)
测试场景	真实经济大盘	书本与题库	随机闲聊

# 1. 克隆仓库并进入目录
git clone https://github.com/HKUDS/ClawWork.git
cd ClawWork

# 2. 安装核心依赖
pip install -r requirements.txt

# 3. 注入'打工魂'（配置环境变量）
export OPENAI_API_KEY="sk-your-openai-key"
export TAVILY_API_KEY="tvly-your-search-key"

# 4. 启动裁判系统与打工节点
python -m livebench.run --agent gpt-4o --task finance_analysis

version:'3.8'
services:
  clawwork-core:
    image: hkuds/clawwork:latest
    container_name: cyber_sweatshop_engine
    restart: unless-stopped
    volumes:
      - ./config.yaml:/app/config.yaml
      - ./workspace:/app/workspace
    environment:
      - OPENAI_API_KEY=${OPENAI_API_KEY}
      - TAVILY_API_KEY=${TAVILY_API_KEY}
  clawwork-dashboard:
    image: hkuds/clawwork-dashboard:latest
    container_name: capitalist_dashboard
    ports:
      - "3000:3000"
    depends_on:
      - clawwork-core

docker-compose up -d

system:
  max_concurrent_agents: 5  # 最多同时雇佣 5 个 AI 跑任务
agent_defaults:
  starting_balance: 10.0     # 初始资金锁死 10 刀
  max_steps: 25              # 严防死循环：最多允许执行 25 步
  tools:
    web_search:
      enabled: true
      provider: "tavily"
      cost_per_call: 0.0008
  evaluation:
    judge_model: "gpt-4-turbo"
    strict_mode: true        # 开启严苛打分

员工评级	推荐模型	盈亏预期 (ROI)
👑 明星高管	Claude 3.5 Sonnet	高额利润
🚀 性价比卷王	DeepSeek-V3 / Coder	惊人的利润率
👔 稳健中产	GPT-4o	稳定盈利
💣 赔钱黑洞	旧版小参数模型	迅速破产

核心资源	传送门
GitHub 仓库	https://github.com/HKUDS/ClawWork
出品方	HKUDS (Data Intelligence Lab @ HKU)

ClawWork：港大开源 AI 经济沙箱，测试智能体真实变现能力

ClawWork：港大开源 AI 经济沙箱，测试智能体真实变现能力

核心机制：从对话工具到经济参与者

Nanobot 架构与经济内循环

核心组件与工作流解析

更多推荐文章

相关免费在线工具

核心功能：为什么它让人细思极恐

极端的经济压力测试

真实经济大盘的可视化

无缝兼容与扩展

开箱即用的多模型支持

极简的任务扩展

未来路线图：AI 职场的'内卷'才刚刚开始

场景 1：任务自由市场

场景 2：语义记忆检索

场景 3：多智能体竞争

技术揭秘：如何用代码构建一个'赛博血汗工厂'

全局计费拦截器

资源隔离与边缘侧生存

仪表盘二次开发

终极对决：ClawWork 与传统 AI 评测的降维打击

核心护城河：为何它是 AGI 的终极试金石？

硬币的背面：你的 AI 准备好接受毒打了么？

实战开张：十分钟搭建你的'赛博血汗工厂'

快速启动：包工头模式

Docker 部署

配置解密：制定你的《员工守则》

模型选型指南

避坑指南

社区与生态：一场重塑'数字劳动力'的社会学实验

'赛博华尔街'：这里没有同情，只有 ROI

路线图：下一站，真实的经济实体

结语：在这场硅基内卷中，你扮演什么角色？

资源汇总

更多推荐文章

相关免费在线工具

ClawWork：港大开源 AI 经济沙箱，测试智能体真实变现能力

ClawWork：港大开源 AI 经济沙箱，测试智能体真实变现能力

核心机制：从对话工具到经济参与者

Nanobot 架构与经济内循环

核心组件与工作流解析

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

核心功能：为什么它让人细思极恐

极端的经济压力测试

真实经济大盘的可视化

无缝兼容与扩展

开箱即用的多模型支持

极简的任务扩展

未来路线图：AI 职场的'内卷'才刚刚开始

场景 1：任务自由市场

场景 2：语义记忆检索

场景 3：多智能体竞争

技术揭秘：如何用代码构建一个'赛博血汗工厂'

全局计费拦截器

资源隔离与边缘侧生存

仪表盘二次开发

终极对决：ClawWork 与传统 AI 评测的降维打击

核心护城河：为何它是 AGI 的终极试金石？

硬币的背面：你的 AI 准备好接受毒打了么？

实战开张：十分钟搭建你的'赛博血汗工厂'

快速启动：包工头模式

Docker 部署

配置解密：制定你的《员工守则》

模型选型指南

避坑指南

社区与生态：一场重塑'数字劳动力'的社会学实验

'赛博华尔街'：这里没有同情，只有 ROI

路线图：下一站，真实的经济实体

结语：在这场硅基内卷中，你扮演什么角色？

资源汇总

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具