论文阅读<Morality-Driven Mechanism Design: Application in Hierarchical Carbon Trading Markets>

论文阅读<Morality-Driven Mechanism Design: Application in Hierarchical Carbon Trading Markets>

2025 IEEE INTERNET OF THINGS JOURNAL

Abstract

        碳交易市场是一种通过经济激励机制来减少温室气体排放的制度设计,旨在鼓励降低碳排放,从而应对全球气候变化。在该市场中,政府根据企业上报的生产需求预先分配碳配额。然而,在此类分层市场中,配额分配与交易决策往往天然倾向于代表全局目标的高层机构,导致单个企业的利润得不到充分满足。由于企业具有内在的利己性,它们可能会夸大自身的生产需求以获取更多的碳配额。因此,通过战略互动来激励企业如实报告其生产需求至关重要。本文提出了一种基于道德驱动的两级 Min–Max 斯塔克尔伯格博弈模型,用于平衡不同主体之间的分层目标。博弈的第一层侧重于国家碳排放目标的宏观调控,而第二层则致力于最大化企业的个体利润。我们引入了一个基于道德的指标来评估企业的社会责任,以此激励企业切实遵守国家的排放要求。仿真结果表明,该模型具有更高的收敛速率,并在平衡不同主体的环境与经济目标方面表现出显著优势。

索引术语—碳排放、分层交易市场、道德、斯塔克尔伯格博弈。

I. INTRODUCTION

        近年来,智能电网[1]和智能制造[2]等新能源与智能产业经历了显著的变革与发展,这不可避免地为碳交易机制设计带来了新的挑战。作为一个复杂的市场环境,碳交易市场通常包含多个主体:高层监管机构、中层执行机构以及底层排放主体共存其中。由不同主体所设定的层级化目标不可避免地导致利益冲突,从而使得分配结果偏向于代表全局目标的高层监管机构。在这种情况下,底层排放主体固有的自私属性可能导致其提交不实数据报告。尽管这种行为在短期内有助于维护自身利益,但由此引发的破坏性竞争却严重损害了传输数据的完整性和真实性。更为重要的是,被污染的信息环境会显著削弱整个系统的长期稳定性,进而危及实现碳中和的战略轨迹。在本文中,我们旨在提出一种面向智能分层碳交易市场的新型交易机制。具体而言,我们重点解决三个关键挑战:分层结构、初始配额分配以及数据透明度。

        首先,分层结构是由碳交易市场中多样化的市场环境和多主体参与共同引起的。与典型的异质性问题不同,分层环境中的各主体往往具有不同的优先级,从而表现出有偏好的偏好结构。针对这一问题,已有若干研究借助博弈论和强化学习展开探索,例如文献[3]和[4]中提出的用于竞争与合作市场的多层次竞价策略、文献[5]中针对点对点市场的低碳边际定价、文献[6]中针对点对点耦合交易市场的随机博弈模型,以及文献[7]中用于实现多方直接交易的多智能体深度强化学习模型等。

        其次,初始配额分配策略通常由定价机构按年度预先确定,而未充分考虑企业在不同时间段内存在的显著生产差异。然而,根据美国国家海洋和大气管理局全球监测实验室[8]报告的二氧化碳浓度数据,二氧化碳排放量呈现出显著的季节性变化,如图1所示。更为重要的是,这种变化可能因能源和制造部门中动态生产能力和电力消费的波动而进一步加剧[9]。目前仅有少数先前工作关注如何通过实现动态配额分配来缓解企业动态需求所带来的影响,这些工作包括文献[10]、[11]和[12]。

        图1. NOAA全球监测实验室观测的2015年至2024年月平均碳浓度数据[8]。该数据表明,碳排放量在4月至6月以及10月至12月期间通常较高。

        最后,数据透明度对于验证企业碳排放量以及实现公平的初始配额分配至关重要,因为它能够有效防止恶意篡改行为。尽管一些先前方法利用区块链技术来提升碳交易市场中的数据透明度和隐私保护,例如文献[13]中基于不完全信息的定价策略、文献[14]中提出的加密竞价策略,以及文献[15]中基于区块链与数字资产交易的方案以保障隐私和可追溯性,但这些研究往往侧重于数据交互过程中固有的透明度问题。


背景:碳交易市场中分配结果偏向于高层机构,故底层机构固有的自私属性会造成损失。本文旨在 提出面向智能分层碳交易市场的新型交易机制。重点解决三个关键挑战:分层结构(分层环境中的各主体往往具有不同的优先级,从而表现出有偏好的偏好结构。)、初始配额分配(初始配额未充分考虑企业在不同时间段内存在的显著生产差异。)以及数据透明度。


在对上述先前研究进行回顾后,我们发现,随着市场规模的扩大,以下三个实践性差距逐渐显现:

  • 1) 尽管先前的工作已针对异构实体优化多个目标,但它们难以解决层次化实体之间目标冲突的问题。具体而言,在我们的场景中,整体减排目标与个体目标呈完全对立的关系。对全局目标的偏置偏好可能会激发个体实体追求自身利益的自私属性,从而导致系统崩溃及减排失败。
  • 2) 尽管基于区块链的方法在隐私保护方面展现出压倒性的优势,但由自私属性引入的数据透明性问题仍然是一个极具挑战性的难题 [16], [17]。更为重要的是,此类不实数据报告无法通过简单的上层监管加以防范,因为这些企业可以轻易操纵生产以匹配不准确的排放数据,并在不受到惩罚的情况下通过检查。我们认为这一现象对碳交易市场的可靠性和管理构成了巨大威胁,相关内容详见第 III-B 节。
  • 3) 尽管先前的工作通常假设在整个生命周期内配额需求和分配是固定的,以获得某些优势 [18], [19],但在使用波动方面缺乏考量可能导致优化结果停滞不前,因为排放主体无需尽最大努力来满足更高层级的要求。此外,这种对全局目标的消极响应会增加高峰时段过度排放的可能性,从而进一步激发自私属性,并在整个系统中强化恶性循环。

        受上述空白的启发,在本文中,我们提出了一种基于道德准则的分层碳交易市场最小-最大斯塔克尔伯格博弈模型。其核心思想在于同时捕捉整体减排目标与单个企业利润最大化目标之间的冲突性。在道德指标的约束下,单个企业会在优先考虑全局目标的同时,自动趋近于该目标,并在其自身目标方面获得令人满意的结果。我们的工作贡献可概括如下:

  • 1) 分层框架:我们提出了一种分层框架,该框架封装了具有分层目标的多个实体,并探索一种权衡解,以同时捕获高层权威和低层排放者的优化目标。据我们所知,这是首项引入道德指标并有效缓解碳交易市场中自私行为影响的工作。
  • 2) 动态度量:我们封装了一种在交易期间用于初始配额分配的动态度量策略。该度量确保最优配额分配和定价策略的动态性能够匹配不同交易周期之间的使用波动,从而提供一个考虑个体需求与行为响应的真实环境。
  • 3) 自私行为消除:当个体效用未得到满足时,通常会出现自私属性。通过引入基于道德的指标,所提出的算法有效地消除了数据伪造的可能性,因为证明了效用能够满足单个企业的预期。
  • 4) 环境效益:通过建立不同的市场场景进行性能评估,所提出的算法在平衡环境与经济目标方面表现出显著优势,体现了对环境问题的实质性承诺。

        本文其余部分的组织如下:在第II节总结基础与预备知识之后,我们在第III节详细描述场景与系统模型。在第IV节和第V节中,我们逐步研究问题的建模与求解过程。仿真结果在第VI节中予以展示,随后在第VII节给出总体结论。


目前之前的工作有三个问题:

  1. 难以解决层次化实体之间目标冲突的问题
  2. 由自私属性引入的数据透明性问题仍然是一个极具挑战性的难题
  3. 波动的配额缺乏考量可能导致优化结果停滞不前

所以提出了一种基于道德准则的分层碳交易市场最小-最大斯塔克尔伯格博弈模型。其核心思想在于同时捕捉整体减排目标与单个企业利润最大化目标之间的冲突性。

贡献为:

  • 提出了一种分层框架,这是首项引入道德指标并有效缓解碳交易市场中自私行为影响的工作。
  • 封装了一种在交易期间用于初始配额分配的动态度量策略。
  • 引入基于道德的指标,所提出的算法有效地消除了数据伪造的可能性
  • 所提出的算法在平衡环境与经济目标方面表现出显著优势

在本节中,我们介绍必要的背景知识和相关文献,以帮助建立对碳交易市场的基础性理解。

A. Carbon Trading Process

        一般来说,碳交易市场遵循《京都议定书》[20]所规定的标准架构和一系列规则,从而促进一个受监管且透明的交易环境。在这种情况下,某些碳排放配额可能会在政府或更高层级机构的监督下,预先分配给省级或州级机构。这些配额在第IV–VI节中被称为初始配额,代表由主管机构基于历史数据设定的具体减排目标,并预期用于指导各省的整体减排目标实现。

        作为中层监管机构,省级机构负责在更高层级机构与较低层级排放主体之间发挥桥梁作用,将所接收的初始配额按比例分配给关键排放主体。在后续过程中,中层监管机构充当沟通与交易的媒介,在兼顾全球目标实现的前提下,促进整个系统中的配额交易、抵消以及实时监控。图2展示了标准碳交易流程如何被整合到所提出的分层框架中。

图2. 遵循标准五步碳交易流程(S1–S5)的分层碳交易机制框架。在每个履约期内,政府确定总量配额和最优总交易价格,以引导减排这一全局目标;与此同时,中层监管机构根据全局目标和排放主体的需求制定配额分配策略。


碳交易市场框架:三层:主管机构基于历史数据设定的具体减排目标(配额);中层监管机构,省级机构负责在更高层级机构与较低层级排放主体之间发挥桥梁作用,将所接收的初始配额按比例分配给关键排放主体;底层排放主体:按照配额排放。


        针对市场交易与调度机制,Cao 等人[21]在基于奖惩阶梯的碳交易市场框架下研究了调度问题。该方法通过动态调整权重系数以及奖励和惩罚机制,从而促进碳减排与系统运行。Lu 等人[5]提出了一种电—碳联合交易模型,用于实现对等市场中的低碳边际定价,在优化潮流的同时,同步清结算能源与碳配额。Hou 等人[22]提出了一种基于随机微分博弈的方法,并在考虑消费者低碳偏好基础上,验证了成本分摊合约对减排投资市场的监管作用,同时证明了企业间合作及相关减排技术交流对实现碳中和的积极作用。然而,此类解决方案未能充分满足在异构主体环境下对多目标进行动态考量的需求。

        Mu 等人[23]阐述了一种去中心化市场模型,将调度问题分解至单个用户层面,从而能够在碳排放约束下根据实时状态求解。Sun 等人[24]构建了一个斯塔克尔伯格博弈模型,以解决移动虚拟网络运营商与其对应用户之间的动态定价问题。为促进移动元宇宙市场中的资源交易,Ren 等人[25]提出了一种两级交易算法,用于处理资源供给与拍卖问题,并在拍卖过程中同时考虑服务提供商的地理层级结构以及服务提供商和用户之间存在的异质性需求。尽管这些新尝试有助于缓解由交易问题异构环境所带来的挑战,但它们忽视了自私属性对结果的影响,尤其是个体企业与碳交易市场总体目标之间冲突所导致的影响。

III. SYSTEM DESIGN

        在本节中,我们首先详细阐述了我们系统的应用场景与目标,随后对系统模型进行了详尽的说明。本文中所使用的数学符号概要列于“符号表”中。

A. Model Description

        如图2所示,本文提出了一种分层框架,用于建模包含三层参与者的碳交易市场:高层权威机构、中层监管机构和底层排放者。我们考虑的交易市场由一个国家级机构、m个省级机构以及分布在这m个省级机构中的n个重点排放者组成。在交易过程中,这三层相互作用,并进一步组合为一个两层博弈模型,分别称为定价博弈和分配博弈。所提出的两层博弈模型的详细工作流程如算法1所示。

        与传统的嵌套博弈[26, 27, 28]不同,在传统嵌套博弈中,内层博弈用于缩小外层博弈的均衡结果范围,而本研究在博弈的两个层级中设置了分层目标。具体而言,我们旨在利用定价博弈来最小化全国碳排放总量,同时利用分配博弈来最大化重点排放者的利润。所提出的两层博弈模型的细节如下所述。

1) 定价博弈:定价博弈代表了更高层级权威的全局目标,旨在确定最优交易价格,从而为减排提供明确的路径。为直接契合国家机构设定的碳中和目标,该层级博弈首先被建模为一个整体配额最小化问题。然而,需要考虑两个子问题。首先,作为具有分层目标的两级博弈,定价博弈中使用的单个固定履约期(episode)等同于分配博弈中使用的四个交易期(subepisodes),这可能导致两个博弈之间存在不一致性。此外,根据广泛实施的政策,在每个固定履约期内,总排放目标和总配额分配量均由国家机构依据国家中和目标进行分配。此类信息对较低层级机构影响的鲁棒性,导致我们的问题在优化潜力方面存在不足。

        为进一步缓解定价博弈与分配博弈之间的一致性问题,我们将整体碳配额最小化问题转化为最小化总交易价格的问题,即

\min \sum_{i=1}^{n} P_i

,其中

P_i

表示关键排放源

i

的碳配额总交易价格。进行这一转换的原因在于:在假设国家机构分配的碳配额在固定交易期内保持不变的前提下,配额交易的产生仅是因为政府当前分配的碳配额与某些排放源的最终利用情况不匹配。通过上述问题转换,总交易价格越小,碳交易量就越小,即实际碳排放偏离国家目标的程度越小,从而确保碳配额的整体分配与各关键排放源的实际碳排放能够遵循政府预设的宏观视角。因此,我们可以认为,该转换能够实现原最小化问题的目标。

2) 分配博弈:分配博弈主要处理省级机构与重点排放单位之间的配额分配问题。与定价博弈不同,分配博弈的目标是在兼顾更高层目标的前提下,优化各重点排放单位的效用。排放单位可根据当前交易期内的实际碳排放情况,选择作为卖方或买方。

        作为参与交易期的卖方,重点排放单位

i

可以在交易期

\tau

以价格

p_\tau^i

,以最小可售配额单位,将所有可交易碳配额分别出售给不同的买方;在同一交易期内,同一卖方所出售的单位配额价格应保持一致。在这种情况下,卖方

i

在交易期

\tau

的收益函数可表示为:

对应碳配额实际消耗所带来的可实现收入、通过自愿减排获得的额外碳配额出售所得,以及根据卖方行为施加的道德约束所对应的相应结果之和。

        其中,qτ_i 表示关键排放单位 i 在交易期 τ 中的平均分配配额,cτ_i 表示关键排放单位 i 在交易期 τ 通过自愿减排获得的额外碳配额,rτ_i 表示单位碳排放所获得的收益,Lτ_i|morality 表示关键排放单位 i 在交易期 τ 中的道德约束结果。

        类似地,购买方 j 可以从多个出售方中选择性地购买额外配额,以满足其业务的生产需求,并受其在交易期 τ 中所需配额总量及预算的约束。然而,所购买的额外碳配额总量不得超过其初始分配配额的某一百分比,该百分比可表示为:

其中,

x_{ij} \in \{0, 1\}

表示买方

j

是否选择从卖方

i

购买一个单位的配额,而

\beta

是与实际场景中碳排放政策相关的常数系数。因此,买方在交易期

\tau

中的收益函数可定义为:通过实际使用碳配额所获得的可实现收益,减去额外碳配额的净支付,再加上道德约束结果。

        请注意,碳排放配额的价格随市场需求而变化,不仅取决于买家的数量,还取决于可交易碳排放配额的总量。因此,在信息不完全的情况下,无论是卖方还是买方,都难以在分配博弈中做出最优的交易决策。

        据此,给定用户收益函数的定义,关键排放者

j

在交易期

\tau

中的分配博弈最优目标可表示为:

\max_{P_J} \sum_{j=1}^{J} B_\tau^j \cdot \log(U_\tau^j),

其中,

B_\tau^j

表示买家

j

在交易期

\tau

中的预算,用于在寻找最优策略时为分配博弈建立财务约束。


系统模型:三层架构与两层具体博弈。高层权威机构、中层监管机构和底层排放者(players);

两层具体博弈:利用定价博弈来最小化全国碳排放总量,同时利用分配博弈来最大化重点排放者的利润。定价博弈:将整体碳配额最小化问题转化为最小化总交易价格的问题,旨在确定最优交易价格。分配博弈:在兼顾更高层目标的前提下,优化各重点排放单位的效用。分为买方效用和卖方效用。


  

B. Morality Constraint

        作为先前研究中被忽视的最重要特征之一,自私本性决定了在分配博弈中,利润是关键排放者所追求的最高优先级目标。然而,矛盾之处在于:每个关键排放者每年可获得的初始碳配额是由国家机构根据其前几年的生产事实和碳排放报告确定的。这使得关键排放者极有可能通过虚报实际碳排放量来提高其在下一年度评估中所能获得的初始碳配额。针对这一问题,最直观的解决方案是通过核查各关键排放者的已申报配额使用情况来进行监管与监控。然而,在这种情况下,排放者可能会选择以更为浪费的方式进行生产,从而大幅增加实际碳排放量以顺利通过检查,而不是努力优化其生产模式以助力实现整体减排目标。

        受文献 [29] 的启发,我们引入了一个道德约束指标

L_{\tau}^{i|\text{morality}}

,用于刻画关键排放者

i

的自私本性。该指标被设定为在交易期

\tau

 内,从减少碳排放的角度来衡量关键排放者

i

所付出的努力程度。考虑到排放者在实际生产和管理过程中的行为具有一定的灵活性,我们定义了一个可责系数,用以确定目标排放者的可责程度。具体而言,尽管初始配额分配在宏观层面施加了一种约束,旨在激励实现整体碳中和目标,但这种约束应被视为一种软性限制,而非严格的硬性约束。必须充分考虑那些阻碍排放效率满足的不可预见情形以及不合理的配额分配。其背后的物理意义在于:在相似情境下,同侪排放在基准碳排放水平上具有可比性。它揭示了特定条件下碳排放的合理范围,同时消除了异常违规者的影响。因此,较大的可责系数表明,目标排放者的碳排放水平显著高于同侪排放水平,因而应因其不合理的碳排放而受到惩罚。在此,我们认为,如果排放者为了防止其减排行为不及同侪排放者而不得不付出过高的代价,则不应对其予以责难。

因此,我们将交易期 τ 中关键排放源 i 的可归责系数描述为

其中,eτ_j 表示在交易期 τ 中,与排放者 j 类型和规模相同的五个随机化排放者的平均碳排放量,为判定排放者 j 碳排放合理性的基准;θ 为可责系数的阈值;ε 表示排放者 j 的牺牲系数;符号 ‖− 则表示关键排放者应被归责的条件。更具体地讲,若目标排放者 j 的实际碳排放与其他五个排放者平均碳排放之间的欧几里得距离大于 θqτ_j,且关键排放者 j 为消除该效应所需付出的牺牲超过 εU_j,则判定排放者 j 不应因额外惩罚而被归责;反之亦然。

        为可责系数设定此类同行基准的原因有以下两方面。

  1. 从理论上讲,同类型、同规模的企业在生产过程和制造技术上表现出同质性,这在排放源和能源消耗方面反映了相似的物理特性。因此,在同类排放中将排放量与行业平均水平进行比较,能够对责任程度作出合理且公平的评估。
  2. 从政策支持的角度来看,政府间气候变化专门委员会(IPCC)为不同部门定义了多种排放因子,用以识别减排努力的有效性[30]。欧盟排放交易体系(EU ETS)为各行业的免费配额分配设定了基准,这些基准以目标部门中排名前10%的设施的平均排放强度为基础[31]。这些成熟的应用原则表明,在评估减排努力时,采用同行基准方法具有合理性和可行性。

因此,道德约束随后将每个关键排放者的额外惩罚定义如下:


因为自私属性关键排放者极有可能通过虚报实际碳排放量来提高其在下一年度评估中所能获得的初始碳配额。引入了一个道德约束指标

L_{\tau}^{i|\text{morality}}

,用于刻画关键排放者

i

的自私本性。该指标被设定为在交易期

\tau

 内,从减少碳排放的角度来衡量关键排放者

i

所付出的努力程度。定义了一个可责系数,用以确定目标排放者的可责程度。若目标排放者

j

的实际碳排放大于其他五个排放者平均碳排放(给一个阈值),且关键排放者

j

为消除该效应所需付出的牺牲超过某个阈值,则判定排放者

j

不应因额外惩罚而被归责;反之亦然。(要触发必须要满足这两个条件:远大于平均值且牺牲超过阈值)


IV. PROBLEM CONSTRUCTION

        对于该集成问题的求解,我们试图识别两个截然不同问题之间的共性,并同时求解这两个问题。然而,为具有截然相反目标的两个博弈寻找解决方案在分析上可能极具挑战性。一个直观的想法是尝试将这两个问题转化为单个问题。如图2所示的系统结构所示,由于定价博弈和分配博弈的最终结果均高度依赖于中间层的行为,我们可以将注意力集中在系统的重叠部分(即中间层)。

        从中间层的角度来看,省级机构既作为定价博弈的参与者,又在分配博弈中扮演领导者角色。直观地讲,作为连接两个博弈层级的主体,中间层需要在最大化效用的同时,确保交易价格最小化。因此,以中间层为突破口,该集成问题可简单地构建为两个博弈各自最优结果之和,并附加相应的约束条件,具体形式如下:

其中,γ ∈ (0, 1) 是一个递减系数,用于定义固定履约期 τ 中关键排放者 i 的初始配额与其上一年初始配额之间的关系。(P1)(b) 明确了各关键排放者的初始配额更新规则。根据这一定义,固定履约期 T 中关键排放者的初始配额分配会根据其前若干年实际使用的碳配额情况进行迭代更新。若某排放者在前若干年的总碳使用量存在可归责的偏差,则其下一年新分配的初始配额将低于其应得的配额量。此外,与道德相关的惩罚机制会被累积,以确保所有关键排放者都尽最大努力缩小实际碳排放量与初始配额之间的偏差,从而实现国内各排放者生产与发展的长期稳定。

A. Problem Reformulation

通过重新排列式(P1),原始的整体问题可以重写为如下最小-最大斯塔克尔伯格博弈:

        现在,这一新的综合问题(P2)可以被视为一场由大量关键排放主体(作为买方)与代表上层的中层共同参与的博弈,其中包含了来自卖方的更新可交易配额的所有实时信息。根据 Goktas 和 Greenwald [32] 的定义,目标函数可表示为碳交易价格之和与效用函数之和在预算约束下的总和,这两者分别代表了整个国家的福利以及各个买方的福利。

        对于此类极小-极大优化问题,已有大量一阶方法被提出,用于寻找能够同时满足双方需求的最优解,尽管这些方法通常要求两名参与者的策略集相互独立。然而,由于企业的交易策略集

X

依赖于由国家政府选定的交易价格集

P

,而这一依赖关系通过省级机构得以衔接,因此我们的问题无法采用此类传统方法求解。相反,在本工作中,我们遵循 [32] 的思路,利用嵌套梯度下降算法,在国家要求的约束下,联合求解买方的最优交易策略集以及来自不同卖方的配额交易价格集,即

(P^*, X^*)

。如图 3 所示,我们展示了所提出方法的结构,并清晰地刻画了博弈两层级之间的相互依存关系。

图3. 所提出的两级博弈模型的结构。在此过程中,定价博弈用于获得最优定价策略,而分配博弈则主要关注配额分配的最优解。


PS:


这就是所谓“凹效用 + 对数”形式。理解它,你需要抓住三层含义:数学性质(凹)→ 经济含义(边际递减)→ 系统含义(公平/比例公平)


1) “凹效用”到底是什么意思?

在优化里,“凹(concave)”通常指:函数越往上加,增量收益越来越小

以对数为例:(

\log(U)

) 的导数是

[ \frac{d}{dU}\log(U)=\frac{1}{U} ]


这句非常直观:

U

很大,

(\frac{1}{U})

很小 → 再增加同样的一点

U

,带来的提升很小。

U

 很小,

(\frac{1}{U})

很大 → 每增加一点

U

,带来的“目标函数提升”很大;

这就是“边际收益递减”:越穷/越低效用的人,多给一点提升更“值钱”;越富/越高效用的人,再给一点提升没那么值钱。


2) 为什么用

(\log(U_j))

会带来“公平/平衡性”?

如果目标是

max (\sum_j U_j)

,系统只会追求“总和最大”,可能出现:

  • 把资源(可交易配额)几乎都分给“收益系数高/预算大/更能赚钱”的企业;

让少数企业

(U_j)

巨大,而一些企业

(U_j)

很小甚至接近 0。

但用

max (\sum_j \log(U_j))

时,情况会变:

(U)

的企业再多分一点,对目标提升很有限,所以不会无上限偏向强者。

因为低

(U)

(\log(U))

的边际收益很大,系统会倾向于“先把低

(U)

的企业拉起来”;

在网络资源分配里,这个目标非常经典,通常被解释为一种 比例公平(proportional fairness)

任何想让一部分人增益的方案,都会导致其他人的“相对损失”更大,从整体上不划算。

更形象一点:

max (\sum \log U)

更像“既看总量,又避免有人被压到很低”。

max (\sum U)

像“只看 GDP 总量”;


3) 这里的

B_j

是什么作用?为什么乘在 log 前面?

你看到的是:

[ \max_X \sum_j B_j \log(U_j) ]
B_j

在文中是买方预算(预算约束里也用到)。在目标函数里,它相当于给企业 j 的效用一个“权重/尺度”:

B_j

小:相对权重低。

B_j

大:系统更看重它的效用提升(它可能是大企业、重要主体、或支付能力更强);

从数学上看,(\log) 会让“公平性”变强,而 (B_j) 会把这种公平性按主体权重重新加权。


4) “凹效用 + 对数”这句话的准确含义是什么?

严格讲,

(\log(\cdot))

本身就是一个典型的凹函数,所以“凹效用 + 对数”通常是两种说法的合并:

对数是凹效用的一个特例

(f(U)=\log(U))

凹效用形式:用一个凹函数

f(U)

作为社会福利,让资源分配具有边际递减与公平性;

所以作者这句话你可以理解为:

他们选用作为社会福利的效用变换函数,以保证目标函数凹、具有边际递减并鼓励更均衡的效用分配。

5) 用一个最小例子让你“秒懂”差别

假设系统只能多给 10 单位效用给某一方(比如通过某种交易撮合),现在有两种状态:

企业 B:

(U_B=10)

(很低)

企业 A:

(U_A=100)

(很高)

方案 1:最大化总和

(\sum U)

给 A 加 10:总和 +10
给 B 加 10:总和 +10
两者完全一样,系统无所谓给谁。

方案 2:最大化

(\sum \log U)

给 A 加 10:增益

[ \log(110)-\log(100)=\log(1.1) ]


给 B 加 10:增益

[ \log(20)-\log(10)=\log(2) ]


显然

(\log(2)>\log(1.1))

,所以系统更愿意给 B。
这就是“对低效用主体更敏感”,带来平衡性。


6) 还有一个你需要注意的技术点:为什么一定要 (U_j>0)?

因为

(\log(U_j))

要求

(U_j>0)

。这意味着:

实践中通常会通过:设定基准项、或确保

(L_{j|\text{morality}})

不至于把

(U_j)

打成负值、或对 (U_j) 做平移(例如

(\log(U_j+\epsilon))

来处理。

模型隐含要求:在可行交易与道德惩罚下,每个企业的

(U_j)

不能被压到非正。

论文里它没在 (P1) 这一行显式写出

(U_j>0)

的约束,但从对数的使用,这是必须成立的“隐含可行性条件”。



V. ALGORITHM DESIGN

为了设计上述联合优化问题的合理解决方案,我们首先给出针对极小-极大斯塔克尔伯格博弈的斯塔克尔伯格均衡的定义[32],如下所示。

        在此背景下,ε 决定了系统对偏离最优解的容忍度。具体而言,在领导者策略

x^*

给定的情况下,领导者的收益应与其最优结果相差不超过

\varepsilon

,而追随者的收益则应至少与其最优结果相差不小于

\varepsilon

因此,领导者在假设追随者采取最坏情况策略的前提下,能够实现其总体目标(即最小化实际碳排放量与国家目标之间的偏差);同时,追随者在领导者策略给定的情况下,能够获得其最大可能收益。

定理1:对于一个极小-极大斯塔克尔伯格博弈

(X, Y, f, g_1, g_2)

,若满足以下假设[32],[33],则该博弈存在一个斯塔克尔伯格均衡,且其值保证是唯一的。 

1) X 和 Y 非空且紧致,其中 Y 还是凸集。 

2) 函数 f(x, y)、g_1(x, y) 和 g_2(x, y) 在 (x, y) 上连续。 

3) g_1(x, y) 和 g_2(x, y) 是拟凹的,且对任意

x \in X

,存在某个

\hat{y} \in Y

,使得

g(x, \hat{y}) \geq 0

。 

在本部分中,我们证明了斯塔克尔伯格均衡的存在性和唯一性。

A. Existence

        根据凸性内半连续性定理[34],参数化约束

C(x) = \{ y \in Y \mid g_1(x, y) \geq 0 \text{ and } g_2(x, y) \geq 0 \}

是连续的。随后,由极大值定理[35]可知,值函数

V(x) = \max_{y \in C(x)} f(x, y)

是连续的,且最大化点集  

Y^*(x) = \arg\max_{y \in C(x)} f(x, y)

非空且紧致。因此,由极值定理[36]保证了值函数的极小值点  

x^*

的存在性。由此可知,

(x^*, y^*(x^*))

是该极小-极大Stackelberg博弈的一个Stackelberg均衡。

B. Uniqueness

        假设存在两个不同的斯塔克尔伯格均衡:(x₁, y₁) 和 (x₂, y₂),且它们对应的值不同。不失一般性,假设 f(x₁, y₁) < f(x₂, y₂)。根据值函数的定义,我们有 V(x₁) < V(x₂)。因此,(x₂, y₂) 不可能是一个斯塔克尔伯格均衡,因为这与 x₂ 是值函数的极小化点这一定义相矛盾。

        由此证明了斯塔克尔伯格均衡的唯一性。需要注意的是,所提出的算法的复杂度同时与上层博弈和下层博弈(即定价博弈和分配博弈)相关,并且取决于系统对偏离斯塔克尔伯格均衡的容忍程度。因此,对于此类 min–max 斯塔克尔伯格博弈 (X, Y, f, g₁, g₂),算法的复杂度可表示为 O(ε⁻¹)O(ε⁻²) = O(ε⁻³)。接

        下来,由于在该类博弈下斯塔克尔伯格均衡的存在性和唯一性已被证明,可以利用嵌套梯度下降算法来求解联合优化问题的最优解。

        具体而言,令 (P2) 的值函数定义为

其中,X 是一个 i × j 矩阵,用于表示整个系统中各主体之间的配额交易决策

x_{ij}

X_j

是 X 的纵向累积集合,用于解释买方 j 购买的配额总量。

然后,(P2) 的目标函数

f(P, x_{ij})

以及约束函数

g_1(P, x_{ij})

g_2(P, x_{ij})

可表示为

构造与(P2)相对应的拉格朗日函数

其中,λ1 和 λ2 分别是与约束函数 g1 和 g2 相关联的非负拉格朗日乘子。然后,根据相应的 KKT 条件,我们有

然后,可通过以下方式获得(P2)的最优KKT乘子:

        接下来,给定买方  j 的最优交易策略  

X^*_j(p, b)

以及由 KKT 条件得到的最优 KKT 乘子

\lambda^*_1

\lambda^*_2

,可将带有最优 KKT 乘子的 (P2) 的值函数表示为

其中,g1(P, xi j) 和 g2(P, xi j) 分别由式 (10) 和式 (11) 给出。通过引入下层目标的最优 KKT 条件,我们能够将追随者的最佳响应嵌入到上层问题中,从而得到一个关于价格 p 的可微价值函数 V(p)。

由此,该过程最终为我们提供了一个代表全局目标的最优价格解。根据次微分包络定理,(P2) 的价值函数的次梯度可计算为拉格朗日函数的次梯度,其计算基于交易策略和 KKT 乘子的最优解,如页底处的式 (16) 所示。

在这些函数中,conv 表示凸包算子,X∗_ij 表示在最优交易策略 X∗ 下,各卖方所有已交易配额的累积结果。

因此,交易价格的最优解,即在交易价格意义上 (P2) 的均衡,可通过迭代的 tˆatonnement 过程 [37]、[38] 来表示,在该过程中,交易价格会根据来自不同卖方的配额动态需求而迭代地收敛至均衡。具体而言,交易期  

t+1

的最优价格  

P^*|_{\tau+1}

可根据前一交易期的价格以及超额需求来确定,而超额需求被证明等于目标函数的负次微分,如下所示:

其中,μ 是一个正的常数,用于表示交易价格的更新速率。

        在获得交易策略与交易价格的全部最优结果之后,我们的方法通过在所构建的最小–最大斯塔克尔伯格博弈中寻找均衡点,从而获得最佳联合优化策略。该方法同时考虑了交易市场的动态特性(尤其是买方需求),并消除了关键排放主体对实际碳排放量进行虚假申报的可能性。系统的伪代码如算法2所示。

        综上所述,相较于传统的交易市场机制设计策略,我们的方法构建了一个两级博弈模型,以同时解决两个具有完全相反目标的问题。我们的努力旨在整合这些看似迥异的问题,并在充分考虑市场动态变化以及实际碳排放可能被虚报的情况下,同时为这两个两级博弈识别出均衡解。

        具体而言,作为国家碳中和目标总体控制者的国家机构,首先根据各关键排放主体往年的碳排放量及其道德约束,评估其表现;随后结合全国整体碳排放目标,为每个排放主体在新的履约期内确定初始碳配额,从而在很大程度上约束分配型排放主体的基本排放水平。接下来,为了实现对整个系统的综合调控,定价博弈的目标是尽可能地最小化关键排放主体之间碳配额的交易量,确保下层从属关键排放主体的碳排放始终与国家迈向碳中和的宏观趋势保持一致。

        与此同时,分配博弈则致力于最大化关键排放主体的效用。这种组合有效确保了碳排放的整体趋势始终符合国家乃至全球环境保护的总体利益,同时保障了单个企业的盈利能力。换言之,它既促进了单个企业为实现国家总体目标而尽最大努力的意愿,又使其对当前的盈利能力感到满意。此外,基于道德的惩罚与激励约束使得此类努力能够获得更高的回报,从而确保了系统的长期稳定性。


PS


算法解析




数学知识补充


Read more

《开源圈聚焦的技术新作:讯飞 Astron Agent 的 “工作流编排 + MCP 工具集”,如何降低企业智能体开发门槛》

《开源圈聚焦的技术新作:讯飞 Astron Agent 的 “工作流编排 + MCP 工具集”,如何降低企业智能体开发门槛》

前引:今天我们不谈趣味互动类的小智能体,而是聚焦又一个开源的企业级智能体 “基建”—— 讯飞星辰推出的 Astron Agent。作为讯飞首个开源的企业级智能体平台,它把 AI 工作流编排、RPA 自动化、MCP 工具集打包成了可直接复用的基座,刚上线 GitHub 就拿下 6k+ Star,连科技圈都在讨论它怎么降低企业做智能体的门槛! 本文将聚焦于:与其同时开源的RPA介绍及智能体平台Astron Agent 中各个工具的详细使用                                    不是广告!不是广告!不是广告!真心推荐! 目录  【一】Astron智能体平台介绍 【二】RPA介绍 【三】Astron部署登录 (2)登录过程 (2)全程体验 【四】几个重要工具详解 (1)什么是系统/用户提示词 (2)代码节点 (3)什么时候用知识库 (4)

By Ne0inhk
OpenClaw 完全指南:部署你的 7×24 小时开源 AI 助手

OpenClaw 完全指南:部署你的 7×24 小时开源 AI 助手

【个人主页:玄同765】 大语言模型(LLM)开发工程师|中国传媒大学·数字媒体技术(智能交互与游戏设计) 深耕领域:大语言模型开发 / RAG知识库 / AI Agent落地 / 模型微调 技术栈:Python / LangChain/RAG(Dify+Redis+Milvus)| SQL/NumPy | FastAPI+Docker ️ 工程能力:专注模型工程化部署、知识库构建与优化,擅长全流程解决方案        「让AI交互更智能,让技术落地更高效」 欢迎技术探讨/项目合作! 关注我,解锁大模型与智能交互的无限可能! 📌 摘要:OpenClaw(原名 Clawdbot/Moltbot)是 2026 年 1 月爆火的开源 AI 助手项目,由 PSPDFKit 创始人

By Ne0inhk
OpenClaw开源汉化发行版:介绍、下载、安装、配置教程

OpenClaw开源汉化发行版:介绍、下载、安装、配置教程

OpenClaw开源汉化发行版:介绍、下载、安装、配置教程 🎬 背景 🦞 想要一个 100% 私有化、全中文界面的 AI 助手? OpenClaw 汉化版让你零门槛拥有! 这是 GitHub 100,000+ Stars 明星项目的开源中文发行版——不仅做了深度界面汉化(CLI + Dashboard 全中文),更实现了每小时自动同步官方更新,汉化版延迟 < 1 小时,让你既享受中文体验,又不掉队最新功能。 通过 WhatsApp、Telegram、Discord 就能指挥你的 AI 处理邮件、日历、文件,数据完全本地掌控,告别隐私焦虑。无论你是 Docker 老手还是命令行小白,3 步即可上手,本教程覆盖安装、配置、升级、

By Ne0inhk

最近群里讨论最多的 4 个 GitHub 开源项目,给劲儿。

01 AI 打工人经济测试框架 港大最近开源了一个挺有意思的项目 ClawWork,把 AI Agent 放到真实的经济环境里去打工赚钱。 说白了就是让 AI 不是帮你干活,而是自己出去接单子挣钱。 每个 AI 代理只有 10 美元启动资金,每次调用 LLM 都要扣费,必须通过完成任务赚钱才能活下去。 项目涵盖了 220 个真实职业任务,覆盖 44 个经济领域,包括技术工程、商业金融、医疗社会服务这些。 支付系统是基于美国劳工统计局的时薪数据算的,单个任务价值从 82 美元到 5000 美元不等。 顶级 Agent 可以实现 每小时 1500 美元以上的等效收入,已经超过一般白领的生产力了。项目还带一个实时 React 仪表盘,能看到余额变化、任务完成情况这些数据。 想要本地跑的话,

By Ne0inhk