
有些团队 3 个人就能交付百万行代码,有些团队连一个稳定的重构都跑不出来。很多人以为差别在模型——用 GPT-5 还是 Claude Opus,调多少温度参数,写多完美的 Prompt。
但真相远比这简单:差别不在模型,不在 Prompt,而在 Harness。

很多人对 Harness 有误解,以为它是 system prompt、是 API 包装,或是 Prompt 模板——这些都不对。
Harness,是语言模型运行的完整设计环境,包含工具调用、信息格式、历史压缩、错误护栏和任务交接脚手架,是让 AI Agent 稳定产出的'底层操作系统'。
普林斯顿 SWE-Agent 论文给出了最直接的证明:用同一个 GPT-4,只修改接口设计(也就是优化 Harness),性能从 3.97% 提升到 12.47%,相对提升 64%。
要知道,没有任何一次模型升级,能带来这么大的性能飞跃。
就像 IDE 没有让人变聪明,却能减少摩擦、及时呈现信息、及早捕获错误——语言模型本身相差不大,但 Harness 这个'接口',决定了 AI 能发挥出多大价值。
行业大佬早已达成共识:
- OpenAI(Codex):瓶颈从来不是模型能力,永远是环境设计
- Anthropic(Claude Code):Harness 架构决定 Agent 能否持续进步
- 普林斯顿(SWE-Agent):接口设计带来的提升超过任何模型升级

OpenAI、Anthropic、普林斯顿三大顶级团队的 Harness 实践,虽场景不同,但核心逻辑高度一致,整合其精髓可形成可直接复用的实战模板:三大团队均通过优化 Harness 环境,在不升级模型的前提下,实现了 AI Agent 生产力的跨越式提升。
普林斯顿 SWE-Agent 靠搜索限流、100 行文件查看器、带 Lint 的编辑器、上下文管理 4 个简单组件,让同一 GPT-4 模型性能提升 64%;Anthropic 用'初始化 + 编码'两阶段架构,搭配 JSON 格式任务清单、浏览器自动化,破解上下文过载难题;OpenAI Codex 更实现 3 人团队 5 个月交付百万行零手写代码,核心在于结构化 docs 目录 + 短 AGENTS.md 的渐进披露模式、独立应用实例与全链路可观测性接入。
三者的共性经验是:无需追求复杂模型,通过合理的环境设计(信息管控、架构约束、反馈闭环),就能让 AI Agent 稳定高效产出,这正是 Harness 的核心价值所在。
理论需结合实践,这 3 个顶级团队的实践,完美诠释了 Harness 的力量,也给出了可直接借鉴的路径。

整个 Harness 生态被清晰分为七层,从下到上价值递增,也能帮我们看清:真正的核心竞争力在哪里。








