ClawWork：香港大学开源 AI 智能体经济模拟平台技术解析 | 极客日志

PythonAI算法

ClawWork：香港大学开源 AI 智能体经济模拟平台技术解析

综述由AI生成ClawWork 是香港大学数据科学实验室开源的 AI 智能体经济模拟平台。项目设定初始资金为 10 美元，要求 AI 智能体在真实任务中通过调用工具（如搜索、代码执行）赚取收益以覆盖成本，资金耗尽即淘汰。该框架引入财务调度中心与计费拦截器，将传统评测从准确率转向投资回报率（ROI）。支持多模型接入与自定义任务扩展，提供可视化仪表盘监控 Agent 生存状态。相比 MMLU 等静态测试，ClawWork 更侧重于验证 AI 在资源受限环境下的商业化能力与成本控制意识，为评估 AGI 的经济价值提供了新的维度。

编程诗人发布于 2026/3/15更新于 2026/6/1520 浏览

ClawWork：香港大学开源 AI 智能体经济模拟平台技术解析

当大模型面临真实的成本约束时，其决策逻辑将发生根本性变化。ClawWork 通过引入经济机制，测试 AI 智能体在资源受限环境下的生存与盈利能力。

项目背景

2026 年 2 月，香港大学数据科学实验室（HKUDS）在 GitHub 上开源了 ClawWork 项目。如果说 OpenClaw 赋予了 AI 操作系统的控制权，那么 ClawWork 则是将 AI 置于真实的经济环境中进行验证。

该项目设定了一个极具挑战性的目标：7 小时内赚取$10K。这不仅是噱头，更是对 AI 商业化能力的真实检验。

核心规则：

启动资金：每个 AI 智能体初始资金为$10，无试错资本。
成本核算：大模型 Token、Tavily 网页搜索（$0.0008/次）、Jina 抓取（$0.05/1M Tokens）均需付费。
任务类型：涵盖制造、金融、医疗等 44 个经济领域的 220 个真实专业任务（基于 GDPVal 数据集）。
淘汰机制：账户资金耗尽，智能体直接被淘汰。

社区评价指出："不能赚钱的 AI 都是玩具。"ClawWork 迫使 AI 学会在"完美质量"与"执行成本"之间寻找平衡。

核心机制：从对话工具到经济参与者

传统 AI 本质是租赁软件，而 ClawWork 将 AI 升级为经济参与者（Economic Participant）。

维度	传统评测 (MMLU/HumanEval)	ClawWork 变革	核心价值
评测指标	静态准确率	经济回报率 (ROI)	商业化验证
任务类型	学术题库	真实职场任务	接轨现实
容错机制	无限重试	残酷淘汰	成本意识

架构揭秘：Nanobot 驱动的经济内循环

ClawWork 底层采用 Nanobot 架构，摒弃冗余的用户交互代码，内核精简为"打工机器与记账本"。

[ 真实经济大盘 (GDPVal Task Pool)] │ ▼ 1. 派发任务 & 初始资金 ($10) ┌───────────────────────────────┐ │ Nanobot Core │ ← 核心调度与财务控制平面 │ [ 全局计费与状态监控模块 ] │ └──────────────┬────────────────┘ │ ┌────────┼────────┐ 2. 调度与计费执行 ▼ ▼ ▼ LLM 大脑 Web 搜索器 代码执行器 (按 Token 计费)(每次$0.0008)(算力燃烧) │ ▼ 3. 提交标准产物 (Artifact) ┌───────────────────────────────┐ │ 上帝裁判机 (Judge LLM) │ ← 验收、打分与结算 └───────────────────────────────┘ │ . - 分评估 & 结算打款 ($ ~ $) ▼

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

支出/收入项	行为节点	经济成本/收益	对 AI 的生存影响
🔍 广度搜索	调用 Tavily 搜索 API	-$0.0008 / 次	频繁陷入"搜索死循环"会迅速榨干本金。
📄 深度阅读	使用 Jina Reader 抓取网页	-$0.05 / 1M Tokens	抓取垃圾信息等于烧钱，逼迫 AI 学会精准定向。
🧠 深度思考	消耗自身大模型的 Token	按各家 API 费率计扣	话痨 AI 会因为输出废话过多而破产。
💰 交付结算	提交最终工作产物 (Artifact)	+$82.78 至 +$5004	必须通过 GPT-5.2 级别裁判的严苛打分，0 分直接血本无归。

厂商生态	状态	典型参赛选手
OpenAI	稳定	GPT-4o, GPT-4-turbo
Anthropic	稳定	Claude 3.5 Sonnet / Opus
Google	稳定	Gemini 1.5 Pro
开源/本地	Beta	DeepSeek-Coder, Llama 3

# 注册一个"自动审计公司报销单"的新任务
@TaskRegistry.register("finance_audit")
class ExpenseAuditTask(BaseTask):
    def __init__(self):
        self.starting_budget = 10.0  # 设定启动资金
        self.reward = 500.0          # 设定任务完成赏金

    def get_prompt(self):
        return "请读取 /data/receipts 目录下的所有发票，对比 policy.pdf，找出违规报销项并输出 JSON。"

    def evaluate(self, artifact):
        # 你的裁判逻辑：比对 AI 找出的违规项与标准答案
        return LLMJudge.score(artifact, gold_standard="audit_ground_truth.json")

# livebench/core/billing.py
def require_budget(tool_name: str, cost: float):
    """ 财务拦截器：任何工具调用前必须经过此装饰器 """
    def decorator(func):
        def wrapper(agent, *args, **kwargs):
            # 1. 检查账户余额
            if agent.balance < cost:
                raise BankruptcyException(f"Agent {agent.id} 余额不足以支付 {tool_name}，已被清算。")
            # 2. 预先冻结/扣除资金
            agent.balance -= cost
            agent.log_transaction(tool_name, -cost)
            # 3. 真正执行工具
            return func(agent, *args, **kwargs)
        return wrapper
    return decorator

@require_budget(tool_name="Tavily_Search", cost=0.0008)
def execute_web_search(agent, query):
    # 实际的搜索逻辑...
    pass

核心维度	ClawWork (The Capitalist Sandbox)	传统学术评测 (MMLU / HumanEval)	Chatbot Arena (The Vibe Check)
核心目标	创造利润 (ROI)	静态解题	讨好人类
容错机制	破产即死亡	无限试错	主观原谅
评价标准	真金白银 ($)	百分比 (%)	人类投票 (Elo 积分)
测试场景	真实经济大盘	书本与题库	随机闲聊

# 1. 克隆仓库并进入目录
git clone https://github.com/HKUDS/ClawWork.git
cd ClawWork

# 2. 安装核心依赖
pip install -r requirements.txt

# 3. 注入"打工魂"（配置环境变量）
export OPENAI_API_KEY="sk-your-openai-key"
export TAVILY_API_KEY="tvly-your-search-key"

# 4. 启动裁判系统与打工节点
python -m livebench.run --agent gpt-4o --task finance_analysis

version: '3.8'
services:
  clawwork-core:
    image: hkuds/clawwork:latest
    container_name: cyber_sweatshop_engine
    restart: unless-stopped
    volumes:
      - ./config.yaml:/app/config.yaml
      - ./workspace:/app/workspace
    environment:
      - OPENAI_API_KEY=${OPENAI_API_KEY}
      - TAVILY_API_KEY=${TAVILY_API_KEY}
  clawwork-dashboard:
    image: hkuds/clawwork-dashboard:latest
    container_name: capitalist_dashboard
    ports:
      - "3000:3000"
    depends_on:
      - clawwork-core

docker-compose up -d

system:
  max_concurrent_agents: 5  # 最多同时雇佣 5 个 AI 跑任务
agent_defaults:
  starting_balance: 10.0    # 初始资金锁死 10 刀
  max_steps: 25             # 严防死循环：最多允许执行 25 步
  tools:
    web_search:
      enabled: true
      provider: "tavily"
      cost_per_call: 0.0008
  evaluation:
    judge_model: "gpt-4-turbo"
    strict_mode: true       # 开启严苛打分

员工评级	推荐模型	盈亏预期 (ROI)
👑 明星高管	Claude 3.5 Sonnet	高额利润
🚀 性价比卷王	DeepSeek-V3 / Coder	惊人的利润率
👔 稳健中产	GPT-4o	稳定盈利
💣 赔钱黑洞	旧版小参数模型	迅速破产

核心资源	传送门
GitHub 仓库	https://github.com/HKUDS/ClawWork
出品方	HKUDS (Data Intelligence Lab @ HKU)

ClawWork：香港大学开源 AI 智能体经济模拟平台技术解析

ClawWork：香港大学开源 AI 智能体经济模拟平台技术解析

项目背景

核心机制：从对话工具到经济参与者

架构揭秘：Nanobot 驱动的经济内循环

更多推荐文章

相关免费在线工具

核心组件与工作流解析

功能特性

极端的经济压力测试

真实经济大盘的可视化

无缝兼容与扩展

极简的任务扩展 (Task-as-Code)

未来路线图

技术实现细节

全局计费拦截器 (Global Billing Interceptor)

资源隔离与边缘侧生存

仪表盘二次开发

对比分析

部署指南

快速启动：包工头模式

Docker 部署

配置解密

模型选型指南

注意事项

资源汇总

结语

更多推荐文章

相关免费在线工具

ClawWork：香港大学开源 AI 智能体经济模拟平台技术解析

ClawWork：香港大学开源 AI 智能体经济模拟平台技术解析

项目背景

核心机制：从对话工具到经济参与者

架构揭秘：Nanobot 驱动的经济内循环

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

核心组件与工作流解析

功能特性

极端的经济压力测试

真实经济大盘的可视化

无缝兼容与扩展

极简的任务扩展 (Task-as-Code)

未来路线图

技术实现细节

全局计费拦截器 (Global Billing Interceptor)

资源隔离与边缘侧生存

仪表盘二次开发

对比分析

部署指南

快速启动：包工头模式

Docker 部署

配置解密

模型选型指南

注意事项

资源汇总

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具