AI Harness 工程:Agent 能跑起来的那一层到底是什么?

AI Harness 工程:Agent 能跑起来的那一层到底是什么?

AI Harness 工程的崛起——Agent 真正跑起来的那一层

关于构建 AI Agent,业界通常谈的是三种架构路径:SDK、Frameworks、Scaffolding。这三种方式各自站在灵活性与结构性的不同位置,也各有适用场景。

但 2026 年悄悄冒出了第四种模式,而且直接架在这三种之上——它叫 Harness

OpenAI 和 Anthropic 现在都正式用了这个词。Martin Fowler 写过专门分析它的文章,arXiv 上也有论文给出了形式化定义。这不是什么炒作出来的新词,而是那层一直缺位、却决定 AI Agent 能不能在生产环境里真正跑起来的架构层。

Harness 到底是什么?

先把一件事说清楚:Harness 不是 Agent 本身

它是管理 Agent 如何运行的那套软件系统,负责处理完整的生命周期——工具调用、内存、重试、人工审批、上下文工程、子 Agent……让模型可以专心做推理,其他的一概不用操心。

Philipp Schmid 用了一个很贴切的计算机类比来解释这件事:

模型是原始的处理能力,上下文窗口是有限的工作内存,而 Harness 就是操作系统——管上下文、管初始化序列、管标准工具驱动。Agent 则是跑在这一切之上的应用程序。

这个比喻非常准,一下子就把关系理清楚了。


它跟 SDK、Framework、Scaffolding 是什么关系?

SDK、Scaffolding、Framework 回答的是同一个问题:怎么把 Agent 造出来?

Harness 回答的是一个完全不同的问题:Agent 造出来之后,怎么让它安全、稳定地跑?

这两件事不是替代关系——你完全可以用 Framework 来构建一个 Harness,它们处于不同的层次。四种方式的对比关系如下图:

Harness 有哪些核心组件?

parallel.ai 的团队梳理出了六个核心组件,这也跟 OpenAI 和 Anthropic 官方发布的内容高度一致:

工具集成层,通过定义好的协议把模型接入外部 API、数据库、代码执行环境和各种自定义工具。

内存与状态管理,多层内存体系——工作上下文、会话状态、长期记忆——在单个上下文窗口之外做持久化。Anthropic 的做法是用进度文件和 git 历史来桥接不同的会话,让 Agent 在切换任务后还知道自己在哪、做到哪了。

上下文工程与提示管理,不是一堆写死的提示模板,而是根据当前任务状态动态决定每次模型调用时塞进去什么信息——主动选择,而不是全部照单全收。

规划与任务分解,引导模型一步一步走结构化的任务序列,而不是试图一口气搞定所有事情。

验证与防护,格式验证、安全过滤、自我纠错循环。当 Agent 卡住的时候,Harness 把它当成一个信号——说明有什么东西缺了,而不是直接报错崩掉。

模块化与可扩展性,各个组件可以独立开关、独立替换,插拔式设计,改一个不影响其他的。

真实生产中的 Harness 长什么样?

Claude Code 就是一个典型的 Harness。

它读取整个代码库,管理文件系统访问,调度子 Agent,处理工具编排,跨会话维护内存,还内置了各种防护。开发者只需要专注于任务本身,其他的 Harness 全部兜着。

OpenAI Codex 也是。

他们的团队用这套 Harness 工程方式,搭出了一个超过 100 万行的代码库,全程没有一行手动输入的代码。Harness 是主要接口,当 Agent 遇到问题,反馈会直接流回代码库,推动上下文工程和架构约束的持续迭代。

OpenAI 的 CUA 示例应用(计算机使用场景下的 Harness)中,Runner 管理的是"截图 → 操作 → 验证 → 再循环"这个完整闭环。模型负责决定做什么,Harness 负责安全地把它执行出来。

Framework 层正在被 Harness 吞掉

有一个很值得关注的趋势:传统 Framework 处理的那些事情,正在被模型本身吸收。

Agent 定义、消息路由、任务生命周期、依赖管理、生成工作进程——以前开发者用 Framework 来搞定这些,但现在大约 80% 的这类功能,模型已经原生支持了。

剩下那 20%——持久性、确定性重放、成本控制、可观察性、错误恢复——正好是 Harness 负责的部分。

Framework 层不只是在消失,它在分裂:智能进入模型,基础设施进入 Harness。

Harness 与 Framework 的核心区别也很清晰:Framework 告诉开发者怎么构建应用,Harness 告诉 Agent 怎么安全运行。用 Framework 时,开发者写编排逻辑;用 Harness 时,模型自己制定计划,Harness 保持它不翻车。

现在构建 AI Agent,问题变了

以前大家问的是:用哪个 Framework?

现在更关键的问题是:Harness 应该长什么样?

Harness 决定了 Agent 是成功还是失败。好的 Harness 能管住人工审批、文件系统访问、工具编排、子 Agent、提示和完整的生命周期,干预最少,但能挡住灾难性失败。

落地建议也很实在:从简单的地方开始,先把原子工具做扎实,让模型来制定计划,再逐步加上防护、重试和验证机制。这就是 Harness 工程的基本思路。

最后说一种特殊形态

值得单独提一下的是 Markdown/Prompt Harness,比如 Anthropic 的 CLAUDE.md 技能文件,它把编排指令直接嵌进系统提示或结构化的 Markdown 文件里。

这种方式下,LLM 本身就成了循环控制器——它读取 Harness 规则,然后照着执行。当模型足够强、能做到自我引导,而且你需要快速迭代、不想每次都改代码的时候,这是个相当好用的选择。

原文:The Rise of AI Harness Engineering

Read more

cube-studio云原生AI平台:零基础3小时从入门到实战

cube-studio云原生AI平台:零基础3小时从入门到实战 【免费下载链接】cube-studiocube studio开源云原生一站式机器学习/深度学习AI平台,支持sso登录,多租户/多项目组,数据资产对接,notebook在线开发,拖拉拽任务流pipeline编排,多机多卡分布式算法训练,超参搜索,推理服务VGPU,多集群调度,边缘计算,serverless,标注平台,自动化标注,数据集管理,大模型一键微调,llmops,私有知识库,AI应用商店,支持模型一键开发/推理/微调,私有化部署,支持国产cpu/gpu/npu芯片,支持RDMA,支持pytorch/tf/mxnet/deepspeed/paddle/colossalai/horovod/spark/ray/volcano分布式 项目地址: https://gitcode.com/GitHub_Trending/cu/

[AI实战]Ubuntu 下安装OpenClaw——从零搭建你的专属AI助理

[AI实战]Ubuntu 下安装OpenClaw——从零搭建你的专属AI助理

[AI实战]Ubuntu 下安装OpenClaw——从零搭建你的专属AI助理 前言 OpenClaw是一款功能强大的AI助理框架,支持自定义技能、多模型接入,并能通过聊天软件与你交互。本文将手把手带你在Ubuntu系统上完成OpenClaw的安装与配置,并实现外部安全访问。无论你是AI爱好者还是开发者,都能通过本文快速拥有一个属于自己的AI助理。 环境准备: * 操作系统:Ubuntu 20.04 / 22.04 / 24.04(本文以24.04为例) * 权限:需要使用root或拥有sudo权限的用户 * 网络:能够访问GitHub及npm源(建议使用国内镜像加速) 一、升级Node.js至v22+ OpenClaw要求Node.js版本≥22.0.0,低版本会导致npm安装失败。若系统已安装其他版本,请务必升级。 方法一:使用nvm(推荐,便于多版本管理) 1. 安装nvm curl -o- https://raw.

Windows系统安装Cursor与远程调用本地模型QWQ32B实现AI辅助开发

Windows系统安装Cursor与远程调用本地模型QWQ32B实现AI辅助开发

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结 java 核心技术,jvm,并发编程 redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,typora 等数据库系列:详细总结了常用数据库 mysql 技术点,以及工作中遇到的 mysql 问题等新空间代码工作室:提供各种软件服务,承接各种毕业设计,毕业论文等懒人运维系列:总结好用的命令,解放双手不香吗?能用一个命令完成绝不用两个操作数据结构与算法系列:总结数据结构和算法,不同类型针对性训练,提升编程思维,剑指大厂 非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。💝💝💝 ✨✨ 欢迎订阅本专栏 ✨✨ 博客目录 * 前言

最新!2026年3月全球大模型全景:国产登顶、百万上下文、智能体爆发,AI进入实用新纪元

最新!2026年3月全球大模型全景:国产登顶、百万上下文、智能体爆发,AI进入实用新纪元

🔥个人主页:北极的代码(欢迎来访) 🎬作者简介:java后端学习者 ❄️个人专栏:苍穹外卖日记,SSM框架深入,JavaWeb ✨命运的结局尽可永在,不屈的挑战却不可须臾或缺! 前言:2026年3月,全球大模型领域迎来史诗级爆发,OpenAI、谷歌等海外巨头持续突破技术边界,国产大模型实现全球调用量反超、旗舰模型登顶国际盲测的双重突破。本文汇总3月国内外大模型最新动态、核心技术趋势、产业落地进展,解读AI从“参数内卷”走向“实用落地”的关键变革,助力开发者把握行业前沿。 2026年3月,全球大模型领域迎来史诗级密集爆发:OpenAI、谷歌、Meta等海外巨头持续领跑技术边界,中国大模型则实现全球调用量反超、旗舰模型登顶国际盲测、端侧与行业应用全面落地的三重突破。从百万Token上下文成为标配,到原生多模态与电脑控制能力成熟,再到AI智能体(Agent)从概念走向规模化商用,大模型正式告别“参数内卷”,进入效率优先、场景为王、生态重构的实用主义时代。 一、国际巨头:上下文军备竞赛白热化,Agent能力全面进化 3月海外巨头密集发布新版本,