一百万行代码,没有一行是人写的
2026 年 2 月,OpenAI 公开了一个令整个行业瞩目的内部实验:一个最初只有 3 名工程师的团队,在 5 个月内从零交付了一款拥有内部日活用户和外部测试者的软件产品。这款产品的代码量超过 100 万行,累计合并了约 1500 个 Pull Request,开发耗时仅为传统人类团队的十分之一。最关键的一点是 —— 从应用逻辑、测试代码、CI 配置到文档和监控工具,没有一行代码是人手写的,全部由 AI Agent 完成。
这不是魔法,也不是因为他们用了一个多么逆天的大模型。真正的秘密在于:他们为 AI 搭建了一个极其精良、完备的'工作环境'。设计这种环境的工程,有一个正式的名字,叫做 Harness Engineering(驾驭工程)。这个概念正在重塑全球最优秀工程团队的工作方式,而大多数人甚至还没听说过它。
先打个比方:烈马、缰绳与骑手
在解释任何技术术语之前,我们先用一个最直觉的画面来理解这件事。
想象一匹未经驯服的烈马。它有惊人的速度和力量,但没有方向 —— 它可能狂奔向悬崖,也可能原地打转。今天的 AI 大模型就像这样一匹烈马:GPT、Claude、Gemini,它们的推理能力已经非常强大,但如果你直接让它们'去写一个完整的软件系统',结果大概率是一团混乱。更好的马不等于更好的结果,一匹更快的马如果没有缰绳,只会更快地跑向错误的方向。Harness 就是那套缰绳 —— 它不是 AI 模型本身,而是围绕模型搭建的一整套约束、引导和反馈系统,负责把 AI 的能力上限真正转化为可控的、有用的产出。
2026 年 2 月,软件工程领域的权威人物和思想领袖 Martin Fowler 正式将这套方法论命名为'Harness Engineering',定义它为'构建用于管控 AI Agent 的工具与实践组合'。另一位技术专家 Phil Schmid 则给出了一个更具技术感的类比:如果说 AI 模型是 CPU(提供原始算力),上下文窗口是 RAM(有限的工作内存),那么 Harness 就是操作系统 —— 它负责调度资源、管理进程、处理错误,让上层的 Agent 应用能够稳定运行。换句话说,Harness Engineering 不是在造更强的发动机,而是在造更好的公路和交通规则,让发动机的力量真正跑到终点。
理解了这一层,你就能明白为什么顶级团队纷纷押注这个方向:当模型能力达到一定水平后,决定 AI 表现的瓶颈不再是模型本身,而是它运行环境的设计质量。
真实案例中的共同逻辑
说到这里,你可能会想:这听起来很有道理,但真的管用吗?我们来看四个真实案例,每一个都从不同角度证明了同一个结论 —— Harness 的质量决定 AI 的表现。
Vercel:删掉 80% 的工具,反而更强了
Vercel 是全球知名的前端部署平台。他们的团队曾为内部的一个文本转 SQL 的 AI Agent 精心打造了 15 个专用工具,投入了大量的提示工程和上下文管理。结果呢?系统脆弱、速度慢,成功率只有 80%,而且需要持续维护。
后来团队做了一个大胆的实验:砍掉 80% 的工具,只保留一个'精准执行 bash 命令'的通用工具,让 AI 直接用 ls、grep、cat 这些最基本的 Unix 命令来完成任务。结果如下所示:
| 指标 | 旧架构(15 个专用工具) | 新架构(1 个通用工具) | 变化 |
|---|---|---|---|
| 平均执行时间 | 274.8 秒 | 77.4 秒 | 快了 3.5 倍 |
| 成功率 | 80% | 100% | 提升 20% |
| 平均 Token 消耗 | ~102k | ~61k | 减少 37% |
| 平均步骤数 | ~12 步 | ~7 步 | 减少 42% |
旧架构的最差表现是耗时 724 秒、走了 100 步、烧掉 14.5 万个 token 后失败;而新架构处理同样的查询,141 秒、19 步、6.7 万 token 就搞定了。Vercel 团队总结出三条关键教训:第一,文件系统本身就是一个非常强大的抽象,不要重复造轮子;第二,要信任模型自身的推理能力,过度限制有可能是负担;第三,这一切的前提是你的数据层本身就是清晰、有序的。
LangChain:不换模型,只优化环境,排名从第 30 飙到第 5
LangChain 的案例更加'纯粹'。他们的编码 Agent 在 Terminal Bench 2.0 基准测试中最初得分 52.8%,排名第 30 位。随后团队完全没有更换底层模型,只是优化了 Harness —— 包括添加自我验证回路、改进上下文工程、引入循环检测和推理优化等中间件。


