Harness 工程：构建 AI 智能体可靠运行的系统指南 | 极客日志

编程语言AI

Harness 工程：构建 AI 智能体可靠运行的系统指南

Harness 工程是设计约束、反馈回路和文档以引导 AI 智能体的新兴学科。相比模型本身，Harness 才是关键护城河。OpenAI 通过 Harness 实现了零人工编写 100 万行代码。核心支柱包括上下文工程、架构约束和熵管理。实施分为个人、团队和生产级三个层级。工程师角色从写代码转向设计 AI 运行环境，需注重系统思维与可剥离性设计。

微码行者发布于 2026/4/6更新于 2026/7/2560 浏览

2026 年 3 月 —— 如果说 2025 年是 AI 智能体证明自己能够编写代码的一年，那么 2026 年就是我们意识到智能体本身并非难点——Harness 才是关键的一年。

OpenAI 的 Codex 团队刚刚构建了一个拥有超过 100 万行代码的生产级应用程序，其中没有一行代码是由人手编写的。工程师们没有写代码。他们设计了让 AI 能够可靠地编写代码的系统。这个系统——包含约束、反馈回路、文档、Linter 和生命周期管理——就是业界现在所称的 Harness（护甲/治理系统）。

Harness 工程是设计这些系统的新兴学科。它正在改变软件工程师的定义。

什么是 Harness 工程？

马具的比喻

术语'Harness'源自马具——缰绳、马鞍、马嚼子——这是一整套用于引导强大但不可预测的动物走向正确方向的设备。这个隐喻是刻意的：

马是 AI 模型——强大、快速，但它不知道自己该往哪走
**Harness（马具）**是基础设施——约束、护栏、反馈回路，它们将模型的力量转化为生产力
骑手是人类工程师——提供方向，而不是亲自奔跑

如果没有 Harness，AI 智能体就像是一匹在旷野中奔跑的纯种马。速度惊人，令人印象深刻，但对完成任务毫无用处。

正式定义

Harness 工程是设计和实施以下系统的过程：

约束（Constrain） AI 智能体可以执行的操作（架构边界、依赖规则）
告知（Inform） 智能体应该做什么（上下文工程、文档）
验证（Verify） 智能体是否正确完成了任务（测试、Linting、CI 校验）
纠正（Correct） 当智能体出错时进行修复（反馈回路、自修复机制）

Martin Fowler 将其描述为 '我们可以用来约束 AI 智能体的工具和实践' —— 但它不仅仅关乎安全。一个好的 Harness 能让智能体更有能力，而不仅仅是受控。

为什么 Harness 工程在当下至关重要

模型是商品，Harness 是护城河

这是 AI 行业正面临的一个令人不安的事实：底层模型的重要性远不如其周围的系统。

LangChain 明确证明了这一点。他们的编程智能体在 Terminal Bench 2.0 上的表现从 52.8% 提升到了 66.5% —— 排名从 前 30 跃升至前 5 —— 而他们没有对模型做任何改动。他们只改变了 Harness：

变更项	采取的行动	影响
自验证循环	增加了完成前的检查清单中间件	在提交前捕获错误
上下文工程	在启动时映射目录结构	智能体从一开始就理解代码库
循环检测	追踪重复的文件编辑	防止'死循环'
推理三明治结构	高推理用于规划/验证，中等推理用于实现	在时间预算内获得更好的质量

相同的模型。不同的 Harness。截然不同的结果。

OpenAI 的 100 万行代码实证

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

Types → Config → Repo → Service → Runtime → UI

角色	传统模式	Harness 工程模式
编写代码	主要工作	从不
设计架构	工作的一部分	主要工作
编写文档	事后补救	关键基础设施
评审 PR	代码评审	评审智能体产出 + Harness 有效性
调试	阅读代码	分析智能体行为模式
测试	编写测试	设计智能体执行的测试策略

智能体请求 → LocalContextMiddleware (映射代码库) → LoopDetectionMiddleware (防止重复) → ReasoningSandwichMiddleware (优化计算) → PreCompletionChecklistMiddleware (执行校验) → 智能体响应

概念	范畴	重点
提示工程	单次交互	编写有效的提示词
上下文工程	模型上下文窗口	模型看到什么信息
Harness 工程	整个智能体系统	环境、约束、反馈、生命周期
智能体工程	智能体架构	内部智能体设计和路由
平台工程	基础设施	部署、扩展、运营

以前	以后
编写代码	设计 AI 编写代码的环境
调试代码	调试智能体行为
评审代码	评审智能体产出 + Harness 有效性
编写测试	设计测试策略
维护文档	将文档构建为机器可读的基础设施

Harness 工程：构建 AI 智能体可靠运行的系统指南

2026 年 3 月 —— 如果说 2025 年是 AI 智能体证明自己能够编写代码的一年，那么 2026 年就是我们意识到智能体本身并非难点——Harness 才是关键的一年。

什么是 Harness 工程？

马具的比喻

正式定义

为什么 Harness 工程在当下至关重要

模型是商品，Harness 是护城河

OpenAI 的 100 万行代码实证

更多推荐文章

相关免费在线工具

Harness 工程的三大支柱

1. 上下文工程 (Context Engineering)

2. 架构约束 (Architectural Constraints)

3. 熵管理 (Entropy Management / "垃圾回收")

Harness 工程实践：团队如何落地

OpenAI 模式：零人工代码

Stripe 模式：大规模 Minions

LangChain 模式：中间件优先

构建你的第一个 Harness：实用框架

1 级：基础 Harness（个人开发者）

2 级：团队 Harness（小团队）

3 级：生产 Harness（工程组织）

常见的 Harness 工程错误

1. 控制流过度工程化

2. 将 Harness 视为静态的

3. 忽视文档层

4. 缺乏反馈回路

5. 仅限人类阅读的文档

Harness 工程 vs 相关概念

这对软件工程师意味着什么

工作内容正在改变

核心技能

我们的经验：什么在实践中奏效

核心要点

更多推荐文章

相关免费在线工具

Harness 工程：构建 AI 智能体可靠运行的系统指南

2026 年 3 月 —— 如果说 2025 年是 AI 智能体证明自己能够编写代码的一年，那么 2026 年就是我们意识到智能体本身并非难点——Harness 才是关键的一年。

什么是 Harness 工程？

马具的比喻

正式定义

为什么 Harness 工程在当下至关重要

模型是商品，Harness 是护城河

OpenAI 的 100 万行代码实证

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Harness 工程的三大支柱

1. 上下文工程 (Context Engineering)

2. 架构约束 (Architectural Constraints)

3. 熵管理 (Entropy Management / "垃圾回收")

Harness 工程实践：团队如何落地

OpenAI 模式：零人工代码

Stripe 模式：大规模 Minions

LangChain 模式：中间件优先

构建你的第一个 Harness：实用框架

1 级：基础 Harness（个人开发者）

2 级：团队 Harness（小团队）

3 级：生产 Harness（工程组织）

常见的 Harness 工程错误

1. 控制流过度工程化

2. 将 Harness 视为静态的

3. 忽视文档层

4. 缺乏反馈回路

5. 仅限人类阅读的文档

Harness 工程 vs 相关概念

这对软件工程师意味着什么

工作内容正在改变

核心技能

我们的经验：什么在实践中奏效

核心要点

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具