SWE-agent：基于 GPT-4 的开源 AI 程序员系统解析与实战指南

SWE-agent：基于 GPT-4 的开源 AI 程序员系统解析

背景介绍

近期，AI 在软件工程领域的应用引发了广泛关注。继闭源工具 Devin 展示全栈代码能力后，来自普林斯顿大学 NLP 组的研究人员推出了开源版本 SWE-agent。该系统在发布不到 24 小时内便获得了超过 1400 个 GitHub Star，成为社区关注的焦点。

SWE-agent 界面展示

SWE-agent 是一款用于自主解决 GitHub 存储库中问题的新系统。它在 SWE-bench 基准测试上取得了与 Devin 相似的准确度，平均耗时仅为 93 秒。

SWE-agent 性能对比

核心原理：智能体 - 计算机接口 (ACI)

从原理上看，SWE-agent 通过将大语言模型（如 GPT-4）转变为软件工程智能体，使其能够修复真实 GitHub 存储库中的错误和问题。研究团队设计了简单的以大模型为中心的命令和反馈格式，使大模型能够更方便地浏览存储库、查看、编辑和执行代码文件，这被称为智能体 - 计算机接口 (Agent-Computer Interface, ACI)。

就像语言模型需要良好的提示工程一样，良好的 ACI 设计在使用智能体时会带来更好的结果。没有经过良好调整的 ACI 的基线智能体的表现比 SWE-agent 差得多。

ACI 的关键功能

SWE-agent 包含研究团队在智能体 - 计算机接口设计过程中发现的非常有用的功能：

语法检查机制：添加一个在发出编辑命令时运行的 linter，如果代码语法不正确，则不会让编辑命令通过，确保代码有效性。
专用文件查看器：为智能体提供一个专门构建的文件查看器。研究发现此文件查看器在每轮仅显示 100 行时效果最佳，并且该文件编辑器具有上下滚动以及在文件中执行搜索的命令。
目录字符串搜索：为智能体提供专门构建的全目录字符串搜索命令。简洁地列出匹配项非常重要——只需列出至少有一个匹配项的每个文件。研究表明，向模型显示有关每个匹配的更多上下文对于模型来说太混乱了。
空输出处理：当命令的输出为空时，返回一条消息：「您的命令已成功运行，但未产生任何输出」，避免智能体误判。

在完整的 SWE-bench 测试集上，SWE-agent 解决了 12.29% 的问题，实现了 SOTA 性能。

SWE-agent 测试结果

安装与配置

要使用 SWE-agent，首先需要准备好开发环境。以下是详细的安装步骤：

1. 环境准备

Docker：安装 Docker，并在本地启动 Docker 服务。
Conda：安装 Miniconda，并使用以下命令创建 swe-agent 环境：
```
conda env create -f environment.yml
```
激活环境：

SWE-agent：基于 GPT-4 的开源 AI 程序员系统解析与实战指南

SWE-agent：基于 GPT-4 的开源 AI 程序员系统解析