SWE-agent:基于 GPT-4 的开源 AI 程序员系统解析
背景介绍
近期,AI 在软件工程领域的应用引发了广泛关注。继闭源工具 Devin 展示全栈代码能力后,来自普林斯顿大学 NLP 组的研究人员推出了开源版本 SWE-agent。该系统在发布不到 24 小时内便获得了超过 1400 个 GitHub Star,成为社区关注的焦点。

SWE-agent 是一款用于自主解决 GitHub 存储库中问题的新系统。它在 SWE-bench 基准测试上取得了与 Devin 相似的准确度,平均耗时仅为 93 秒。

核心原理:智能体 - 计算机接口 (ACI)
从原理上看,SWE-agent 通过将大语言模型(如 GPT-4)转变为软件工程智能体,使其能够修复真实 GitHub 存储库中的错误和问题。研究团队设计了简单的以大模型为中心的命令和反馈格式,使大模型能够更方便地浏览存储库、查看、编辑和执行代码文件,这被称为智能体 - 计算机接口 (Agent-Computer Interface, ACI)。
就像语言模型需要良好的提示工程一样,良好的 ACI 设计在使用智能体时会带来更好的结果。没有经过良好调整的 ACI 的基线智能体的表现比 SWE-agent 差得多。
ACI 的关键功能
SWE-agent 包含研究团队在智能体 - 计算机接口设计过程中发现的非常有用的功能:
- 语法检查机制:添加一个在发出编辑命令时运行的 linter,如果代码语法不正确,则不会让编辑命令通过,确保代码有效性。
- 专用文件查看器:为智能体提供一个专门构建的文件查看器。研究发现此文件查看器在每轮仅显示 100 行时效果最佳,并且该文件编辑器具有上下滚动以及在文件中执行搜索的命令。
- 目录字符串搜索:为智能体提供专门构建的全目录字符串搜索命令。简洁地列出匹配项非常重要——只需列出至少有一个匹配项的每个文件。研究表明,向模型显示有关每个匹配的更多上下文对于模型来说太混乱了。
- 空输出处理:当命令的输出为空时,返回一条消息:「您的命令已成功运行,但未产生任何输出」,避免智能体误判。
在完整的 SWE-bench 测试集上,SWE-agent 解决了 12.29% 的问题,实现了 SOTA 性能。

安装与配置
要使用 SWE-agent,首先需要准备好开发环境。以下是详细的安装步骤:
1. 环境准备
2. 密钥配置
在此存储库的根目录下创建一个 keys.cfg 文件并填写以下内容:
OPENAI_API_KEY: 'OpenAI API Key Here if using OpenAI Model (optional)'
ANTHROPIC_API_KEY: 'Anthropic API Key Here if using Anthropic Model (optional)'
GITHUB_TOKEN: 'GitHub Token Here (required)'
注意:GITHUB_TOKEN 是必填项,用于与 GitHub API 交互;API Key 根据所选模型填写。
工作流程与使用
SWE-agent pipeline 主要包含两个步骤:
- 修复生成:SWE-agent 接收输入的 GitHub 问题,并返回尝试修复它的拉取请求(pull request)。
- 验证评估:评估拉取请求以验证它确实解决了问题(目前主要适用于 SWE-bench 基准测试中的问题)。
如果想在整个 SWE-bench 上运行和评估,最简单的方法是使用 x86 机器。
运行示例
指定数据路径运行
python run.py --model_name gpt4 \
--data_path https://github.com/pvlib/pvlib-python/issues/1603 \
--config_file config/default_from_url.yaml
运行单个实例
如果想运行 SWE-bench 中的单个问题,可以使用 --instance_filter 参数:
python run.py --model_name gpt4 \
--instance_filter marshmallow-code__marshmallow-1359
技术展望
该项目的作者 John Yang 表示,相关论文的预印版将在后续上传。未来发布的论文将详述更多关于 ACI 设计细节及模型微调策略的信息。
SWE-agent 的出现标志着开源社区在 AI 辅助编程领域的重大进步。相比闭源方案,开源项目允许开发者深入理解其内部机制,进行二次开发和优化。通过 ACI 的设计,SWE-agent 展示了如何将大模型的推理能力有效地转化为具体的软件工程操作,为自动化代码审查、Bug 修复提供了新的思路。
对于希望探索 AI 编程工具的开发者而言,SWE-agent 提供了一个可复现、可扩展的实验平台。通过调整 ACI 参数或更换底层模型,可以进一步探索不同场景下的自动化修复能力。