SWE-CI：基于持续集成评估智能体在代码库维护中的能力

SWE-CI 是首个基于持续集成流程构建的代码库级基准测试，旨在评估大语言模型智能体在长期代码演进中的维护能力。现有基准多关注静态功能正确性，而 SWE-CI 通过模拟真实开发中的 CI 循环，要求智能体在数十轮迭代中完成需求分析与编码。该基准包含 100 个来自真实仓库的任务，平均覆盖 233 天历史与 71 次提交。提出 EvoScore 指标衡量长期可维护性，并采用架构师与程序员双智能体协议。实验显示，尽管模型在功能修复上进步明显，但在长期维护中仍难以有效控制回归问题，Claude Opus 系列表现最佳。

忘忧发布于 2026/4/6更新于 2026/6/437 浏览

摘要

基于大语言模型（LLM）的智能体已在自动化软件工程任务（如静态缺陷修复）中展现出强大能力，SWE-bench 等基准测试已充分证明这一点。但在实际场景中，成熟软件的开发通常建立在复杂的需求变更与长期功能迭代之上 —— 这一过程是静态、一次性的修复范式所无法刻画的。为弥补这一差距，我们提出 SWE-CI，这是首个基于持续集成（CI）流程构建的代码库级基准测试，旨在将代码生成的评估范式从静态、短期的功能正确性转向动态、长期的可维护性。该基准包含 100 个任务，每个任务平均对应真实代码仓库中长达 233 天、71 次连续提交的项目演进历史。SWE-CI 要求智能体通过数十轮分析与编码迭代，系统性地完成这些任务，从而为评估智能体在代码长期演进过程中维持代码质量的能力提供有价值的参考。

1. 简介

自动化软件工程一直是人工智能领域的核心目标。近年来，大语言模型（LLM）的突破性进展为这一目标提供了强劲动力 —— 从代码补全、测试生成到端到端程序修复，基于大语言模型的智能体已在多项基准测试中展现出可与人类开发者相匹敌的能力。编码基准测试的同步发展在这一进程中起到了关键作用，既提供了严谨的能力评估手段，也指明了清晰的研究方向。

在代码生成层面，HumanEval [1]、MBPP [2] 和 LiveCodeBench [3] 确立了单文件代码合成的评估范式。在代码库层面，SWE-bench [4] 提出了'Issue 到 PR'范式，要求模型在完整代码库环境中生成补丁。在智能体交互层面，Terminal-bench [5] 和 τ-bench [6] 进一步将评估范围拓展至终端操作与多轮工具使用。这些工作共同构建了一个多粒度、多场景的代码智能评估体系。

尽管这一评估体系具备广度与深度，但其底层范式仍存在一个根本性局限：现有基准几乎只关注评估智能体编写功能正确代码的能力。然而在现实场景中，成功的软件很少是一蹴而就的，它是长期维护的结果。Lehman 定律表明，软件质量会随着维护过程自然下降 [7]；而经典文献早已证实，维护活动占软件整个生命周期成本的 60%～80%[8]。因此，亟需设计新的基准，以有效衡量模型对代码的长期维护能力。

这种能力长期未被纳入评估，其根源在于主流基准测试范式本身。从 HumanEval、LiveCodeBench 到 SWE-bench 和 Terminal-Bench，现有基准普遍采用快照式评估流程：智能体接收一次完整的需求，并给出一次性解决方案。在这种范式下，一个写出硬编码、脆弱修复的智能体，与一个写出整洁、可扩展代码的智能体，可能都能通过同一套测试用例——二者在可维护性上的差异完全无法体现。只有当代码库需要持续演进时（新需求出现、接口变更、模块必须扩展），这种差异才会显现。此时，早期设计决策带来的代价会不断累积。一个经常生成结构糟糕代码的智能体，会发现后续修改越来越困难，最终无法跟上迭代节奏。由此得到一个关键结论：智能体的代码维护能力，只能通过长期演进过程来体现——在持续的代码变更中，历史决策的后果会不断累积并显现。

基于这一认识，我们提出 SWE-CI（软件工程–持续集成），这是一个用于评估智能体在长期代码演进过程中维护代码能力的全新基准。SWE-CI 包含 100 个任务，每个任务均来自真实代码库，由一个起始提交（base commit）和一个目标提交（target commit）定义，平均覆盖 233 天的真实演进历史与 71 次连续提交。SWE-CI 采用架构师–程序员双智能体评估机制：从起始提交开始，智能体执行持续集成循环，迭代生成需求、修改源码并运行测试，最终目标是通过与目标提交相关的所有测试。SWE-CI 提出 EvoScore（演进得分）作为代理指标：它衡量智能体在后续代码修改中的功能正确性，因此早期决策更利于后续演进的智能体会获得更高分数，而不断累积技术债的智能体则会表现持续下降。

我们开展了大规模实验，总 token 消耗量超过 100 亿。结果表明，尽管模型在功能正确性上已取得显著进步，但当前最优模型在长期代码演进中维持代码质量的任务上仍面临较大困难。我们进一步对评估结果进行了全面、细粒度的分析，为基于大语言模型的智能体的编码能力提供了有价值的见解，并证明了 SWE-CI 独特的诊断价值。

2. 评估智能体维护代码库的能力

2.1 任务形式化

我们首先为智能体编码任务建立统一的形式化定义。设 $t$ 表示单个单元测试，$T = {t_1, t_2, \dots, t_{|T|}}$ 为我们关注的所有测试构成的集合。设 $C$ 为代码库空间，$R$ 为需求空间。我们进一步定义两个函数：

requireT : C × C → R，该函数用于识别两个代码库之间关于测试集 T 的功能差异，并据此生成需求文档。
codeT : R × C → C，该函数根据给定需求对代码库进行修改，并返回更新后的代码库。

基于上述定义，我们发现目前许多主流的代码基准测试 [1,2,3,4,5,6] 都遵循图 1 所示的基于快照的评估范式。在该范式中，需求仅依赖于基础代码库 c0 与'标准答案'代码库 c*，即 r ≡ requireT ( c0 , c* )。在实际使用中，基准维护者会预先生成需求 r 并将其保存为提示词，因此基准使用者无需重新生成。然而，本文转而考虑基于演进的评估范式。该范式中的需求是从当前代码库动态推导而来：ri = requireT ( ci , c* )，代码库也随之更新：ci+1 = codeT ( ci , ri )。这一迭代循环保证了早期修改产生的影响会传递到后续迭代中，从而使得智能体的长期决策质量可被观测。

[图 1：与以往基准评测不同，SWE-CI 提出了基于演进的评估方式。红色箭头与蓝色箭头分别表示函数 require 和 code 的执行过程。虚线表示对用户不可见的过程。]

SWE-CI：基于持续集成评估智能体在代码库维护中的能力

摘要

1. 简介

2. 评估智能体维护代码库的能力

2.1 任务形式化

更多推荐文章

相关免费在线工具

2.2 归一化变更

2.3 EvoScore（演进得分）

3 SWE-CI

3.1 数据构建（Data curation）

Step 1: Repository Collection

Step 2: Commit Span Extraction

Step 3: Environment Construction

Step 4: Case Filtering

3.2 双智能体评估协议

4 Experiments

4.1 Experiment setting

4.2 结果

更多推荐文章

相关免费在线工具

SWE-CI：基于持续集成评估智能体在代码库维护中的能力

摘要

1. 简介

2. 评估智能体维护代码库的能力

2.1 任务形式化

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 归一化变更

2.3 EvoScore（演进得分）

3 SWE-CI

3.1 数据构建（Data curation）

Step 1: Repository Collection

Step 2: Commit Span Extraction

Step 3: Environment Construction

Step 4: Case Filtering

3.2 双智能体评估协议

4 Experiments

4.1 Experiment setting

4.2 结果

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具