AI Harness 工程的崛起

优质文章学习记录

07 Apr 2026 — 6 min read

我写过关于构建 AI Agents 的三种架构方法：SDK、Frameworks 和 Scaffolding。

每一种都处于灵活性 vs 结构性光谱的不同位置。

2026年出现了第四种模式，位于这三种方法之上。它被称为 Harness。

OpenAI 和 Anthropic 现在都正式使用了这个术语。

Martin Fowler 写过相关文章。一篇 arXiv 论文对其进行了形式化定义。

这不是一个流行词，它是决定 AI Agents 是否能在生产环境中真正工作的缺失架构层。

Harness 工程是决定 AI Agents 是否能在生产环境中真正工作的缺失架构层。

1、核心要点

Harness 不是 agent。

它是管理 agent 如何运行的软件系统。

它管理完整的生命周期……工具、内存、重试、人工批准、上下文工程、子 agent……以便模型专注于推理。

Philipp Schmid 用计算机类比很好地说明了这一点……

模型是原始处理能力。

上下文窗口是有限的工作记忆。

Harness 是操作系统……管理上下文、初始化序列和标准工具驱动程序。

Agent 是运行在其之上的应用程序。

2、Harness 在架构栈中的位置

我之前介绍了构建 AI Agents 的三种架构方法。

以下是 Harness 与每种方法的关系。

SDK、Scaffolding 和 Frameworks 回答的是如何构建 AI Agent 的问题。

Harness 回答的是一个完全不同的问题，agent 如何运行。

你可以使用这三种方法中的任何一种来构建 harness。Harness 不是它们的替代品。它是更高的一层。

四种方法的比较：

4、Harness 的六个组件

parallel.ai 团队确定了六个核心组件……

这与 OpenAI 和 Anthropic 发布的内容一致。

工具集成层

通过定义的协议将模型连接到外部 API、数据库、代码执行环境和自定义工具。

内存和状态管理

多层内存（工作上下文、会话状态、长期内存），在单个上下文窗口之外持久化。

Anthropic 的方法使用进度文件和 git 历史记录来桥接会话。

上下文工程和提示管理

动态策划每次模型调用中出现的信息。

不是静态的提示模板，而是基于当前任务状态的主动上下文选择。

规划和分解

引导模型通过结构化的任务序列，而不是试图一次性完成所有事情。

验证和防护

验证检查、格式验证、安全过滤器。自我纠正循环。当 agent 遇到困难时，harness 将其视为识别缺失内容的信号。

模块化和可扩展性

可以独立启用、禁用或替换的可插拔组件。

5、生产环境中的真实 Harness

Claude Code 就是一个 harness。

它读取整个代码库、管理文件系统访问、生成子 agent、处理工具编排、跨会话维护内存并实现防护。

开发人员专注于任务。Harness 管理其他所有事情。

OpenAI Codex 使用了 harness 工程。

他们的团队构建了一个超过 100 万行的代码库，完全没有手动输入的代码，将 harness 作为主要接口。

当 agent 遇到困难时，他们将改进反馈到存储库中。上下文工程、架构约束和定期清理 agent 形成了核心。

OpenAI 的 CUA 示例应用程序是用于计算机使用的 harness。

Runner 管理截图 → 操作 → 验证 → 重复的循环。

模型决定做什么。Harness 安全地执行它。

6、Framework 层正在合并到 Harness 中

在我最近关于消失的 framework 层的文章中，我论证了模型正在吸收传统上由多 agent frameworks 处理的功能。

Agent 定义、消息路由、任务生命周期、依赖管理、生成工作进程……大约 80% 开发人员使用 framework 的功能，模型现在原生处理。

剩下的 20%：持久性、确定性重放、成本控制、可观察性、错误恢复——正是 harness 提供的内容。

Framework 层不仅仅是在消失。它在分裂。智能进入模型。基础设施进入 harness。

7、Harness vs Framework

Framework 告诉开发人员如何构建应用程序。

Harness 告诉 agent 如何安全运行。

使用 framework 时，开发人员编写编排逻辑。

使用 harness 时，模型制定计划。Harness 保持其正常运行。

8、实际意义

对于今天构建 AI Agents 的团队来说，问题正在转变。

不再是我们应该使用哪个 framework？而是我们的 harness 看起来像什么？

Harness 决定了 agent 是成功还是失败。

优秀的 harness 管理人工批准、文件系统访问、工具编排、子 agent、提示和生命周期——干预最小但防止灾难性失败。

从简单开始。

构建健壮的原子工具。让模型制定计划。

添加防护、重试和验证。

这就是 harness 工程。

9、结束语

Markdown/prompt harness（如 Anthropic 的 CLAUDE.md 技能）将编排指令直接嵌入系统提示或结构化的 markdown 文件中。

LLM 本身成为循环控制器——它读取 harness 规则并遵循它们。

当 LLM 足够强大可以自我指导并且你想要无需代码更改的快速迭代时，这是最佳选择。

原文链接：AI Harness 工程的崛起 - 汇智网

B站：从二次元到AI创新孵化器的华丽转身 | Google Cloud峰会见闻

🚀 B站：从二次元到AI创新孵化器的华丽转身 | Google Cloud峰会见闻 * 🎉 峰会偶遇：科技圈与B站的奇妙交集 * 🔄 B站进化：从内容平台到创新生态 * 传统认知 vs 现实转变 * 真实案例：@AI进化论-花生与@产品黄叔 * 💡 参与感经济：B站作为创新试验场的独特价值 * 1. 透明开发过程 * 2. 实时用户反馈 * 3. 低成本品牌建设 * 🌟 为什么选择B站？AI开发者的战略价值 * 1. 精准的用户群体 * 2. 友好的创作环境 * 3. 完整的生态链 * 4. 强大的社区粘性 * 🚀 行动指南：如何在B站启动你的AI项目 * 第一步：定位与规划 * 第二步：内容创作 * 第三步：社区互动 * 第四步：商业转化 * 🔮 未来展望：B站科技生态的无限可能 * 💬 结语：加入B站，开启你的AI创新之旅当技术社区与内容创作碰撞，会擦出怎样的火花？上周Google

AI 对话高效输入指令攻略（四）：AI+Apache ECharts：生成各种专业图表

免责声明： 1.本文所提供的所有 AI 使用示例及提示词，仅用于学术写作技巧交流与 AI 功能探索测试，无任何唆使或鼓励利用 AI 抄袭作业、学术造假的意图。 2.文章中提及的内容旨在帮助读者提升与 AI 交互的能力，合理运用 AI 辅助学习和研究，最终成果的原创性与合规性需使用者自行负责。 3.对于读者因不当使用文中内容，违反学术规范、法律法规或造成其他不良后果的情况，本文作者及发布平台不承担任何责任。目录前言技术栈说明步骤一.介绍什么是 Apache ECharts？ ECharts 的核心优势步骤二.部署 1.汉化 2.进入示例库 3.选择模型 4.获得代码 5.“喂”AI 步骤三：本地运行与优化

AI 自动化测试：接口测试全流程自动化的实现方法

在 AI 技术飞速渗透各行各业的当下，我们早已告别 “谈 AI 色变” 的观望阶段，迈入 “用 AI 提效” 的实战时代 💡。无论是代码编写时的智能辅助 💻、数据处理中的自动化流程 📊，还是行业场景里的精准解决方案，AI 正以润物细无声的方式，重构着我们的工作逻辑与行业生态 🌱。曾几何时，我们需要花费数小时查阅文档 📚、反复调试代码 ⚙️，或是在海量数据中手动筛选关键信息，而如今，一个智能工具 🧰、一次模型调用 ⚡，就能将这些繁琐工作的效率提升数倍 📈。正是在这样的变革中，AI 相关技术与工具逐渐走进我们的工作场景，成为破解效率瓶颈、推动创新的关键力量。今天，我想结合自身实战经验，带你深入探索 AI 技术如何打破传统工作壁垒 🧱，让 AI 真正从 “概念” 变为 “实用工具” ，为你的工作与行业发展注入新动能 ✨。文章目录 * AI 自动化测试：接口测试全流程自动化的实现方法 🤖 * 为什么传统自动化测试“卡壳”

如何借助AI完成测试用例的生成？实测高效落地指南

作为一名测试从业者，想必你也有过这样的困扰：重复编写常规功能的测试用例，耗时又耗力；面对复杂业务逻辑，容易遗漏边缘场景；需求频繁迭代时，用例更新跟不上节奏，常常陷入“加班写用例、熬夜改用例”的内耗里。而现在，生成式AI的爆发的已经彻底改变了测试用例生成的传统模式——它能快速批量生成用例、覆盖更多人工易忽略的场景，还能适配需求迭代快速更新，将测试人员从重复劳动中解放出来，转向更核心的质量策略设计。但很多人尝试后却反馈：“把需求丢给AI，生成的用例驴唇不对马嘴”“看似全面，实际很多无法执行”。其实，AI生成测试用例的核心不是“输入→输出”的简单操作，而是“人机协同”的高效配合：AI负责规模化生产，人负责搭建框架、把控质量。今天就结合我的实测经验，手把手教你如何借助AI高效生成测试用例，避开常见坑，真正实现提效不内耗。一、先搞懂：AI生成测试用例的底层逻辑（避免踩错第一步）很多人用不好AI的核心原因，是误以为AI能“读懂所有需求”，其实它的本质是“基于已有规则和数据，模仿人类测试思维生成用例”。其底层主要依赖三大技术，