2026 年 3 月 —— 如果说 2025 年是 AI 智能体证明自己能够编写代码的一年,那么 2026 年就是我们意识到智能体本身并非难点——Harness 才是关键的一年。
OpenAI 的 Codex 团队刚刚构建了一个拥有超过 100 万行代码的生产级应用程序,其中没有一行代码是由人手编写的。工程师们没有写代码。他们设计了让 AI 能够可靠地编写代码的系统。这个系统——包含约束、反馈回路、文档、Linter 和生命周期管理——就是业界现在所称的 Harness(护甲/治理系统)。
Harness 工程是设计这些系统的新兴学科。它正在改变软件工程师的定义。
什么是 Harness 工程?
马具的比喻
术语'Harness'源自马具——缰绳、马鞍、马嚼子——这是一整套用于引导强大但不可预测的动物走向正确方向的设备。这个隐喻是刻意的:
- 马是 AI 模型——强大、快速,但它不知道自己该往哪走
- **Harness(马具)**是基础设施——约束、护栏、反馈回路,它们将模型的力量转化为生产力
- 骑手是人类工程师——提供方向,而不是亲自奔跑
如果没有 Harness,AI 智能体就像是一匹在旷野中奔跑的纯种马。速度惊人,令人印象深刻,但对完成任务毫无用处。
正式定义
Harness 工程是设计和实施以下系统的过程:
- 约束(Constrain) AI 智能体可以执行的操作(架构边界、依赖规则)
- 告知(Inform) 智能体应该做什么(上下文工程、文档)
- 验证(Verify) 智能体是否正确完成了任务(测试、Linting、CI 校验)
- 纠正(Correct) 当智能体出错时进行修复(反馈回路、自修复机制)
Martin Fowler 将其描述为 '我们可以用来约束 AI 智能体的工具和实践' —— 但它不仅仅关乎安全。一个好的 Harness 能让智能体更有能力,而不仅仅是受控。
为什么 Harness 工程在当下至关重要
模型是商品,Harness 是护城河
这是 AI 行业正面临的一个令人不安的事实:底层模型的重要性远不如其周围的系统。
LangChain 明确证明了这一点。他们的编程智能体在 Terminal Bench 2.0 上的表现从 52.8% 提升到了 66.5% —— 排名从 前 30 跃升至前 5 —— 而他们没有对模型做任何改动。他们只改变了 Harness:
| 变更项 | 采取的行动 | 影响 |
|---|---|---|
| 自验证循环 | 增加了完成前的检查清单中间件 | 在提交前捕获错误 |
| 上下文工程 | 在启动时映射目录结构 | 智能体从一开始就理解代码库 |
| 循环检测 | 追踪重复的文件编辑 | 防止'死循环' |
| 推理三明治结构 | 高推理用于规划/验证,中等推理用于实现 | 在时间预算内获得更好的质量 |
相同的模型。不同的 Harness。截然不同的结果。

