
有些团队 3 个人就能交付百万行代码,有些团队连一个稳定的重构都跑不出来。很多人以为差别在模型——用 GPT-5 还是 Claude Opus,调多少温度参数,写多完美的 Prompt。
但真相远比这简单:差别不在模型,不在 Prompt,而在 Harness。

很多人对 Harness 有误解,以为它是 system prompt、是 API 包装,或是 Prompt 模板——这些都不对。
Harness,是语言模型运行的完整设计环境,包含工具调用、信息格式、历史压缩、错误护栏和任务交接脚手架,是让 AI Agent 稳定产出的'底层操作系统'。
普林斯顿 SWE-Agent 论文给出了最直接的证明:用同一个 GPT-4,只修改接口设计(也就是优化 Harness),性能从 3.97% 提升到 12.47%,相对提升 64%。
要知道,没有任何一次模型升级,能带来这么大的性能飞跃。
就像 IDE 没有让人变聪明,却能减少摩擦、及时呈现信息、及早捕获错误——语言模型本身相差不大,但 Harness 这个'接口',决定了 AI 能发挥出多大价值。
行业大佬早已达成共识:
- OpenAI(Codex):瓶颈从来不是模型能力,永远是环境设计
- Anthropic(Claude Code):Harness 架构决定 Agent 能否持续进步
- 普林斯顿(SWE-Agent):接口设计带来的提升超过任何模型升级

OpenAI、Anthropic、普林斯顿三大顶级团队的 Harness 实践,虽场景不同,但核心逻辑高度一致,整合其精髓可形成可直接复用的实战模板:三大团队均通过优化 Harness 环境,在不升级模型的前提下,实现了 AI Agent 生产力的跨越式提升。
普林斯顿 SWE-Agent 靠搜索限流、100 行文件查看器、带 Lint 的编辑器、上下文管理 4 个简单组件,让同一 GPT-4 模型性能提升 64%;Anthropic 用'初始化 + 编码'两阶段架构,搭配 JSON 格式任务清单、浏览器自动化,破解上下文过载难题;OpenAI Codex 更实现 3 人团队 5 个月交付百万行零手写代码,核心在于结构化 docs 目录 + 短 AGENTS.md 的渐进披露模式、独立应用实例与全链路可观测性接入。
三者的共性经验是:无需追求复杂模型,通过合理的环境设计(信息管控、架构约束、反馈闭环),就能让 AI Agent 稳定高效产出,这正是 Harness 的核心价值所在。
理论需结合实践,这 3 个顶级团队的实践,完美诠释了 Harness 的力量,也给出了可直接借鉴的路径。

整个 Harness 生态被清晰分为七层,从下到上价值递增,也能帮我们看清:真正的核心竞争力在哪里。

**第 1 层(编码 Agent):**Claude Code、Codex 等,属于'商品级',大家差距不大;
**第 2 层(框架和运行时):**包含渐进披露、子 Agent、结构化上下文,以及持久记忆、定时执行等能力;
**第 3 层(Agent 编排器):**支持多 Agent 并行,用 Git Worktree 隔离,让每个 Agent 在独立沙箱工作,互不干扰;
**第 4 层(任务运行器):**连接 Issue Tracker 和编码 Agent,实现'人创建 Issue→运行器分配→Agent 交 PR→人审查'的闭环;
**第 5 层(全生命周期平台):**端到端管理从需求到交付的全流程,集成 AI 提议、人类验证门和子 Agent 编排;
**第 6 层(规格工具):**把人类想法变成结构化规格和任务 DAG,AI 提议任务图,人类只做验证和审批;
**第 7 层(人类监督):**工程师审批方案、Review PR、设定优先级,核心是设计环境,而非亲自写代码。
关键结论:底层编码 Agent 是商品,上面六层 Harness,才真正决定 AI Agent 的最终效果。长期护城河,从来不在模型,而在 Harness。

不管是 OpenAI、Anthropic 还是普林斯顿,他们的 Harness 设计,都离不开这五个反复出现的核心模式,可直接复用:
1. 渐进披露
不要一次给 Agent 所有信息,而是给最小定向信息 + 指向深层内容的指针。上下文开头的信息影响力最大,短小聚焦的入口,比全量倾倒更有效。 典型应用:OpenAI 的 docs/架构、SWE-Agent 的搜索限流。
2. Git Worktree 隔离
一个 Agent 一个 worktree,拥有独立目录、独立分支、独立环境,让并行 Agent 互不干扰。变更在隔离环境验证后,再合并到主分支,避免风险扩散。
3. Spec First(规格优先)
规格和架构决策,必须编码到仓库的机器可读文件里。如果 Agent 从仓库读不到,对它来说就等于不存在——避免 Agent 依赖'人类脑子里的想法',减少偏差。
4. 机械式架构强制
人类 Review 跟不上 Agent 的产出速度,改用自定义 linter+ 结构测试+CI 替代,强制不变量,不管具体实现。而且 linter 错误消息要专为 Agent 设计,包含修复指令,让 Agent 能自主修正。
5. 集成反馈循环
让错误在产生瞬间被捕获:语法错误由编辑时的 linter 捕获,运行时错误由可观测性工具查询,UI bug 由浏览器自动化验证。行动和后果之间的间隔越短,Agent 表现越好。

Harness 不是遥不可及的复杂架构,搭建最小可行版本,今天就能开始,核心就 4 步:

1. 持久进度文件
每次会话开始时读,结束时写,记录'上次做了什么、完成了什么、留下什么状态',防止 Agent'提前宣布胜利',避免半途而废。
2. 结构化任务清单
不是模糊描述,而是具体、可枚举、可验证的完成标准,每项都有状态标记,验证后才更新。防止'做了一半看起来做完了'的无效内耗。
3. Git 版本控制
每次会话以 git commit 结束,保留回退机制——改坏了就 revert 到上次好的状态,版本控制就是 Agent 的'认知脚手架',避免错误扩大。
4. 浏览器自动化
只看代码的 Agent 和只看代码的开发者一样盲目,大多数重要 bug 只在运行时可见。让 Agent 能像用户一样操作应用,才能真正验证代码效果。
关键提醒,当 Agent 表现不好时,先做环境审计,而不是换模型:
- Agent 缺什么信息?→ 加工具或文档
- 哪里经常卡住?→ 缺什么反馈循环
- 上下文被什么污染?→ 改上下文管理策略
- 什么约束靠 Agent 判断?→ 改成机械检查
每个失败,都是环境需要优化的信号。

AI 时代的工程师,最大的思维转变,就是放弃旧思路,拥抱 Harness 思维:

核心区别:投入在更好的 Prompt 上,只能解决这一个问题(临时、局部);投入在更好的工具和环境上,能预防一类问题(永久、通用)。
而 Harness,就是这份'永久投资'的存放之处。
结语
很多人痴迷于追逐更强的模型,却忽略了最基本的真相:模型是推理引擎,Harness 决定推理引擎能完成什么。
AI Agent 的竞争,早已经从'模型之争',变成了'环境之争'。
对每一位 AI 时代的工程师来说,不用再纠结于 Prompt 的细节,不用盲目追求更强的模型——从搭建最小 Harness 开始,优化环境、完善规则、构建闭环,才能真正释放 AI 的生产力。
建议从创建一份结构化任务清单、提交第一次 Git commit 开始,构建 Harness。


