Harness Engineering：AI Agent 时代的新工程范式 | 极客日志

PythonAI算法

Harness Engineering：AI Agent 时代的新工程范式

> 2025 年中，Andrej Karpathy 提出 Context Engineering 比 Prompt Engineering 更重要。不到一年，2026 年 2 月，一个新概念横空出世——Harness Engineering。以第三人称视角，梳理这一概念的起源、内涵与演进脉络，并以 CLI-Anything 项目为案例，探讨 Harness Engineering 在"让所有软…

忘忧发布于 2026/4/6更新于 2026/5/2298K 浏览

2025 年中，Andrej Karpathy 提出 Context Engineering 比 Prompt Engineering 更重要。不到一年，2026 年 2 月，一个新概念横空出世——Harness Engineering。本文以第三人称视角，梳理这一概念的起源、内涵与演进脉络，并以 CLI-Anything 项目为案例，探讨 Harness Engineering 在"让所有软件成为 Agent 原生工具"这一方向上的具体实践。

一、从 Prompt 到 Context，再到 Harness：三层递进

要理解 Harness Engineering，需要先厘清它与前两个阶段的关系。

2023-2024 年是 Prompt Engineering 的高峰期。彼时人与 AI 的交互以单轮问答为主，通过角色设定、思维链、少样本示例等技巧优化模型输出。核心问题是："该怎么问？"

2025 年中，随着 Agent 框架的成熟，Andrej Karpathy 指出 Context Engineering 比 Prompt 更重要。核心问题变为："该让模型看到什么？"——包括 RAG 检索、MCP 工具接入、记忆管理、系统提示词设计等，本质是在推理时为模型构建完整的信息环境。

但当 AI Agent 真正进入生产环境、执行跨步骤的长周期自主任务时，一类新的失败模式浮现了：Agent 忽视团队规范、生成违反架构约束的代码、在并行执行时与自身冲突、随时间推移逐渐降低代码质量。这些问题不是"模型该看到什么"能解决的，而是"系统该阻止什么、度量什么、修复什么"的问题。

2026 年 2 月，这个领域终于有了名字。

阶段	核心问题	设计对象
Prompt Engineering	"该怎么问？"	发送给 LLM 的指令文本
Context Engineering	"该让模型看到什么？"	模型推理时的全部上下文
Harness Engineering	"整个环境该如何设计？"	Agent 外部的约束、反馈与运维系统

用一个比喻来说：如果 Prompt Engineering 是"向右转"的口令，Context Engineering 是地图、路标和可见地形，那么 Harness Engineering 就是缰绳、马鞍、围栏和道路本身——确保十匹马能同时安全奔跑的整套基础设施。（来源，内容经改写）

二、Harness Engineering 的起源

这一概念的结晶来自两个几乎同时发生的事件。

2026 年 2 月 5 日，HashiCorp 联合创始人、Terraform 和 Ghostty 的创造者 Mitchell Hashimoto 在博客中描述了一种实践模式，并赋予其名称："每当 Agent 犯错，就花时间工程化一个解决方案，使 Agent 永远不再犯同样的错误。" 这不是修改 prompt，而是构建测试套件、验证脚本或 lint 规则，让 Agent 能够自我检查。（来源，内容经改写）

几天后的 2 月 11 日，OpenAI 发布了题为"Harness engineering: leveraging Codex in an agent-first world"的报告。报告披露了一项内部实验：从 2025 年 8 月起，一个最初仅 3 人（后扩展到 7 人）的工程团队，在五个月内使用 Codex Agent 构建了一个真实产品，代码量达到约一百万行，合并了约 1,500 个 PR——全程没有手动编写任何一行代码。团队估计效率约为手动开发的 10 倍。（来源，内容经改写）

Martin Fowler 随后在 Thoughtworks 的技术博客中评论道，OpenAI 的文章全文只提到了一次"harness"这个词，但这个概念恰恰是整篇文章的核心。他进一步提出了一个前瞻性问题：Harness 是否会成为未来的"服务模板"——团队从一组预建的 Harness 中选择起步，然后逐步定制？（来源，内容经改写）

Harness Engineering：AI Agent 时代的新工程范式

一、从 Prompt 到 Context，再到 Harness：三层递进

二、Harness Engineering 的起源

更多推荐文章

相关免费在线工具

三、Harness 到底是什么？

四、为什么 Harness 比模型更重要？

五、Harness Engineering 的核心模式

5.1 结构化任务分解

5.2 跨会话状态持久化

5.3 显式验证节点

5.4 机械化约束执行

5.5 精确的工具描述

六、CLI-Anything：Harness Engineering 在软件操控领域的实践

6.1 结构化任务分解 → 7 阶段流水线

6.2 跨会话状态持久化 → Session 与 Undo/Redo

6.3 显式验证节点 → 四层测试体系

6.4 机械化约束执行 → 编解码器白名单与参数校验

6.5 精确的工具描述 → SKILL.md 自描述

6.6 渲染鸿沟 → Harness 层面的闭环保障

七、AGENTS.md 的谬误与 CLI-Anything 的回应

八、Big Model vs Big Harness：一场正在进行的辩论

九、Harness Engineering 的未来

十、结语

更多推荐文章

相关免费在线工具

Harness Engineering：AI Agent 时代的新工程范式

一、从 Prompt 到 Context，再到 Harness：三层递进

二、Harness Engineering 的起源

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

三、Harness 到底是什么？

四、为什么 Harness 比模型更重要？

五、Harness Engineering 的核心模式

5.1 结构化任务分解

5.2 跨会话状态持久化

5.3 显式验证节点

5.4 机械化约束执行

5.5 精确的工具描述

六、CLI-Anything：Harness Engineering 在软件操控领域的实践

6.1 结构化任务分解 → 7 阶段流水线

6.2 跨会话状态持久化 → Session 与 Undo/Redo

6.3 显式验证节点 → 四层测试体系

6.4 机械化约束执行 → 编解码器白名单与参数校验

6.5 精确的工具描述 → SKILL.md 自描述

6.6 渲染鸿沟 → Harness 层面的闭环保障

七、AGENTS.md 的谬误与 CLI-Anything 的回应

八、Big Model vs Big Harness：一场正在进行的辩论

九、Harness Engineering 的未来

十、结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具