AI Harness 工程的崛起

AI Harness 工程的崛起
AI Harness 工程的崛起

我写过关于构建 AI Agents 的三种架构方法:SDK、Frameworks 和 Scaffolding。

每一种都处于灵活性 vs 结构性光谱的不同位置。

2026年出现了第四种模式,位于这三种方法之上。它被称为 Harness。

OpenAIAnthropic 现在都正式使用了这个术语。

Martin Fowler 写过相关文章。一篇 arXiv 论文 对其进行了形式化定义。

这不是一个流行词,它是决定 AI Agents 是否能在生产环境中真正工作的缺失架构层。

Harness 工程是决定 AI Agents 是否能在生产环境中真正工作的缺失架构层。

1、核心要点

Harness 不是 agent。

它是管理 agent 如何运行的软件系统。

它管理完整的生命周期……工具、内存、重试、人工批准、上下文工程、子 agent……以便模型专注于推理。

Philipp Schmid 用计算机类比很好地说明了这一点……

None

模型是原始处理能力。

上下文窗口是有限的工作记忆。

Harness 是操作系统……管理上下文、初始化序列和标准工具驱动程序。

Agent 是运行在其之上的应用程序。

2、Harness 在架构栈中的位置

我之前介绍了构建 AI Agents 的三种架构方法

以下是 Harness 与每种方法的关系。

None

SDK、Scaffolding 和 Frameworks 回答的是如何构建 AI Agent 的问题。

Harness 回答的是一个完全不同的问题,agent 如何运行

你可以使用这三种方法中的任何一种来构建 harness。Harness 不是它们的替代品。它是更高的一层。

四种方法的比较:

None

4、Harness 的六个组件

parallel.ai 团队确定了六个核心组件……

这与 OpenAIAnthropic 发布的内容一致。

None
工具集成层

通过定义的协议将模型连接到外部 API、数据库、代码执行环境和自定义工具。

内存和状态管理

多层内存(工作上下文、会话状态、长期内存),在单个上下文窗口之外持久化。

Anthropic 的方法 使用进度文件和 git 历史记录来桥接会话。

上下文工程和提示管理

动态策划每次模型调用中出现的信息。

不是静态的提示模板,而是基于当前任务状态的主动上下文选择。

规划和分解

引导模型通过结构化的任务序列,而不是试图一次性完成所有事情。

验证和防护

验证检查、格式验证、安全过滤器。自我纠正循环。当 agent 遇到困难时,harness 将其视为识别缺失内容的信号。

模块化和可扩展性

可以独立启用、禁用或替换的可插拔组件。

5、生产环境中的真实 Harness

Claude Code 就是一个 harness。

它读取整个代码库、管理文件系统访问、生成子 agent、处理工具编排、跨会话维护内存并实现防护。

开发人员专注于任务。Harness 管理其他所有事情。

OpenAI Codex 使用了 harness 工程。

他们的团队构建了一个超过 100 万行的代码库,完全没有手动输入的代码,将 harness 作为主要接口。

当 agent 遇到困难时,他们将改进反馈到存储库中。上下文工程、架构约束和定期清理 agent 形成了核心。

OpenAI 的 CUA 示例应用程序 是用于计算机使用的 harness。

Runner 管理截图 → 操作 → 验证 → 重复的循环。

模型决定做什么。Harness 安全地执行它。

6、Framework 层正在合并到 Harness 中

在我最近关于消失的 framework 层的文章中,我论证了模型正在吸收传统上由多 agent frameworks 处理的功能。

Agent 定义、消息路由、任务生命周期、依赖管理、生成工作进程……大约 80% 开发人员使用 framework 的功能,模型现在原生处理。

剩下的 20%:持久性、确定性重放、成本控制、可观察性、错误恢复——正是 harness 提供的内容。

None

Framework 层不仅仅是在消失。它在分裂。智能进入模型。基础设施进入 harness。

7、Harness vs Framework

Framework 告诉开发人员如何构建应用程序。

Harness 告诉 agent 如何安全运行。

使用 framework 时,开发人员编写编排逻辑。

使用 harness 时,模型制定计划。Harness 保持其正常运行。

None

8、实际意义

对于今天构建 AI Agents 的团队来说,问题正在转变。

不再是我们应该使用哪个 framework?而是我们的 harness 看起来像什么?

Harness 决定了 agent 是成功还是失败。

优秀的 harness 管理人工批准、文件系统访问、工具编排、子 agent、提示和生命周期——干预最小但防止灾难性失败。

从简单开始。

构建健壮的原子工具。让模型制定计划。

添加防护、重试和验证。

这就是 harness 工程。

9、结束语

Markdown/prompt harness(如 Anthropic 的 CLAUDE.md 技能)将编排指令直接嵌入系统提示或结构化的 markdown 文件中。

LLM 本身成为循环控制器——它读取 harness 规则并遵循它们。

当 LLM 足够强大可以自我指导并且你想要无需代码更改的快速迭代时,这是最佳选择。


原文链接:AI Harness 工程的崛起 - 汇智网

Read more

前端也能玩转:用Fabric.js轻松实现图形拖拽缩放旋转(附实战技巧)

前端也能玩转:用Fabric.js轻松实现图形拖拽缩放旋转(附实战技巧)

前端也能玩转:用Fabric.js轻松实现图形拖拽缩放旋转(附实战技巧) * 小白前端也能玩转:用Fabric.js轻松实现图形拖拽缩放旋转(附实战技巧) * 原生API写拖拽?那简直是手搓发动机啊 * Fabric.js其实就是Canvas的"美颜滤镜"加"自动挡" * 三分钟搭个能"动"的画布 * 平移旋转缩放?鼠标手势随心所欲 * 那些文档里不写的坑,我血都吐出来了 * 性能优化:别让网页变成PPT * 懒人开发技巧:让代码又稳又省事 * 你以为这就完了?Fabric还能搞更多骚操作 * 线上翻车实录:文档没告诉你的那些破事 * 调试Fabric就像修水管 * 别把Fabric当银弹,但也别自己手搓轮子 小白前端也能玩转:用Fabric.js轻松实现图形拖拽缩放旋转(附实战技巧) 小白前端也能玩转:用Fabric.js轻松实现图形拖拽缩放旋转(附实战技巧) 说实话,第一次接到要在网页里做个"

WebVOWL 终极安装配置指南:快速实现本体可视化

WebVOWL 终极安装配置指南:快速实现本体可视化 【免费下载链接】WebVOWLVisualizing ontologies on the Web 项目地址: https://gitcode.com/gh_mirrors/we/WebVOWL WebVOWL 是一个专业的开源本体可视化工具,能够将复杂的 OWL 本体和 RDF 数据转换为直观的图形化表示。本指南将为您提供完整的安装配置方案,让您轻松上手这款强大的数据可视化工具。 环境准备与前置要求 在开始安装之前,请确保您的系统满足以下基本要求: 系统环境检查清单: * Node.js 运行时环境(版本 12 或更高) * Git 版本控制工具 * 至少 2GB 可用磁盘空间 四步快速安装流程 第一步:获取项目源码 打开命令行工具,执行以下命令克隆项目: git clone https://gitcode.

Wfuzz 全面使用指南:Web 应用模糊测试工具详解

Wfuzz 全面使用指南:Web 应用模糊测试工具详解

Wfuzz 是一款功能强大的开源 Web 应用模糊测试(Fuzzing)工具,主要用于自动化发现 Web 应用中的隐藏资源、注入漏洞、目录遍历等问题。它由 Python 编写,支持多种 payload(有效载荷)注入方式,能够对 HTTP 请求的各个部分进行暴力破解或模糊测试,包括 URL 路径、GET/POST 参数、Cookie、HTTP 头、认证信息等。Wfuzz 的设计理念是模块化和可扩展性强,适合渗透测试人员、安全研究员和开发人员用于 Web 安全评估。 Wfuzz 的核心机制是通过在目标 URL 或请求中用特殊的占位符(如 FUZZ、FUZ2Z 等)标记需要模糊测试的位置,然后用指定的 payload 列表逐一替换这些占位符,发送

从零搭建SpringBoot+Vue+Netty+WebSocket+WebRTC视频聊天系统

在实时通信场景中,音视频聊天是最核心的需求之一,比如在线会议、远程面试、社交视频等。本文将手把手教你搭建一套基于SpringBoot+Vue+Netty+WebSocket+WebRTC的全栈视频聊天系统,全程保留完整可运行代码,无需修改即可直接部署测试,同时拆解核心技术原理,让你不仅能“跑通项目”,更能“理解底层逻辑”。 本文适合有一定Java和Vue基础的开发者,核心目标是实现“两端内网设备实时视频通话”,无需第三方音视频SDK,完全基于原生技术栈开发,兼顾实用性与可扩展性。 一、核心技术栈原理铺垫 在动手开发前,我们先理清核心技术的作用,尤其是WebRTC相关的关键概念——很多开发者踩坑,本质是没搞懂NAT穿透和信令交互的逻辑。 1.1 WebRTC:浏览器原生的实时通信“利器” WebRTC(Web Real-Time Communication)是浏览器内置的实时通信技术标准,无需安装任何插件,就能让网页直接实现音视频采集、编码、传输和渲染。简单说,它帮我们搞定了“音视频流怎么从本地设备传到对方设备”的核心问题,是整个视频聊天的“核心引擎”