为什么Agent会失败?2025年对AI的预测

为什么Agent会失败?2025年对AI的预测
如果说2024年是生成型人工智能的年份,那么2025年就应该是设定合理期望的一年。

根据科技行业分析师的预测,2024年本应是生成式AI(Generative AI,简称GenAI)的里程碑之年。随着各种复杂应用场景的不断涌现,新技术的出现降低了准入门槛,使得通用人工智能似乎触手可及。

但事实果真如此吗?

在某种程度上,确实如此。如果说2024年是生成式AI的元年,那么2025年就应该是设定合理期望的一年。

展望未来,GenAI仍将是全球开发者和企业关注的焦点,但我们对它的讨论正在变得越来越接地气。本文将回顾我们已经走过的历程,展望未来的方向,并分享对AI发展的一些见解。

GenAI擅长对话,但还不适合部署

2024年比较流行的两个术语:

“Copilot”,这是一个用于完成单一任务的AI工具的花哨说法(比如"优化我的屎山代码");

“Agent”,即可以收集信息并利用这些信息执行任务的多步骤工作流(比如"写一篇关于优化我的屎山代码的博客并发布到ZEEKLOG")。

2024年,我们确实见证了许多成功的AI Copilot案例(比如Github Copilot、Snowflake Copilot、微软的回形针等),但AI Agent还是停留在准确率优化阶段。

虽然AI Agent在各大公司的客服团队中掀起了一阵风波,但目前看来这可能就是它的极限了。 尽管这些Agent是向前迈出的重要一步,但这些Agent对工作流的处理准确性仍然很差。

就算是最先进的AI,其准确率也只有75%-90%,大多数AI的水平相当于高中生。如果你有三个准确率为75-90%的步骤,最终的准确率大约只有50%。

【注】真实线上的流程追求99.99%的准确率,即使Agent的准确率达到98%,也很难直接替代人客服,因为剩下2%的错误率会导致客户流失。所以目前Agent在离线数据处理、生成上应用较多,但是还是由于不100%正确,所以对于Agent生成出来的数据还需要一个后验的流程。

对于企业来说,按照目前的表现水平,大多数Agent一旦投入生产反而会造成损害。我们需要先解决这个问题。

虽然讨论这些技术很重要,但除了演示之外,还没有人取得过实质性的成功。不管各大IT公司的人多么热衷于谈论Agent,这些讨论都无法转化为实际性能。

GenAI在2025年不会成为大多数企业的收入增长点

和其他数据产品一样,GenAI的价值主要体现在两个方面:降低成本或创造收入。

从收入角度来看,你可以使用GenAI驱动的聊天机器人或推荐系统。这些工具确实能产生大量的销售线索,但这些线索的质量并不一定有保证。因此,如果AI不能带来收入增长,那它就需要在降低成本方面发力——而在这一点上,AI确实已经做到了。

在我看来,AI应用要想实现成本节约,需要满足以下三个条件之一:

  • 能够消除或减少重复性工作
  • 能够在人才市场紧张的情况下填补空缺岗位
  • 能够解决紧急的招聘需求

Dave Bank就很好地利用了GenAI的成本节约潜力。他们开发了一个使用RAG技术的内部聊天机器人,用于回答团队成员关于公司数据的问题。这使得技术能力较弱的团队成员能够更快地获得准确的数据答案,节省下来的宝贵时间可以用于帮助利益相关者创造收入。

AI的未来在于小数据,而非大模型

开源与托管服务在AI领域的争论确实颇具复杂性。对于企业而言,这一选择不仅仅是关于控制权或互操作性,更关乎运营成本的有效管理。

【注】企业使用AI模型,基本上是两种方式:使用现成的模型,比如Qwen等,这些模型是开源的,但是需要企业自己进行训练和优化。使用第三方服务,比如Azure OpenAI等,这些模型是专有的,还可以托管给第三方进行定制化微调。

大型B2C企业往往青睐于采用现成的模型,而B2B企业则更倾向于选择成本效益更高的小型专有模型。对于这些企业的数据负责人来说,选择小型模型不仅仅是为了节省成本,其在性能上的优势也不容忽视。以Google为代表的大模型旨在应对多样化的查询需求,因此需要在广泛的数据集上进行训练。然而,这也导致了模型在处理特定问题时可能出现混淆,从而产生错误。

值得一提的是,ChatGPT和其他托管解决方案在网络上确实面临了一些质疑,尤其是关于训练数据的合法使用权问题。这在监管严格的行业中,可能会对专有模型的长期采用产生影响,尽管具体程度尚不明确。

然而,专有模型并未因此停滞不前。它们正在通过降价策略来刺激市场需求。例如,ChatGPT的模型价格已降低约50%,并预计在未来六个月内将进一步降低50%。这对于希望在AI领域保持竞争力的B2C公司来说,无疑是一个积极信号。

非结构化数据栈的崛起

在生产环境中利用非结构化数据并不是什么新鲜事——但在AI时代,非结构化数据扮演着全新的角色。

根据IDC的一份报告显示,目前企业中仅有约一半的非结构化数据得到了分析利用。

到2025年,这一切都将发生改变。

企业级AI的成功主要取决于用于训练、微调和增强它的各类非结构化数据。随着越来越多的组织寻求将AI应用于企业场景,对非结构化数据和新兴的"非结构化数据栈"的热情也将持续增长。

一些团队甚至在探索如何使用额外的LLM来结构化非结构化数据,以增加其在额外训练和分析场景中的实用价值。

对于数据负责人来说,识别组织内部存在的非结构化一手数据,以及如何为利益相关者激活这些数据,是一个展示数据平台商业价值的绝佳机会(同时也有望为重点项目争取到额外预算)。

2025年的重点将是流程、价值和可扩展性。

Read more

【GitHub开源AI精选】WhisperX:70倍实时语音转录、革命性词级时间戳与多说话人分离技术

【GitHub开源AI精选】WhisperX:70倍实时语音转录、革命性词级时间戳与多说话人分离技术

系列篇章💥 No.文章1【GitHub开源AI精选】LLM 驱动的影视解说工具:Narrato AI 一站式高效创作实践2【GitHub开源AI精选】德国比勒费尔德大学TryOffDiff——高保真服装重建的虚拟试穿技术新突破3【GitHub开源AI精选】哈工大(深圳)& 清华力作 FilmAgent:剧本自动生成 + 镜头智能规划,开启 AI 电影制作新时代4【GitHub开源AI精选】Lumina - Image 2.0 文生图模型,以小参数量实现高分辨率多图生成新突破5【GitHub开源AI精选】探索 Mobile-Agent:X-PLUG 推出的创新型移动智能操作代理6【GitHub开源AI精选】吴恩达团队开源VisionAgent:用自然语言开启计算机视觉新时代7【GitHub开源AI精选】Oumi:一站式AI开发平台,涵盖训练、评估与部署全流程8【GitHub开源AI精选】深入剖析RealtimeSTT:开源实时语音转文本库的强大功能与应用9【GitHub开源AI精选】PodAgent:多智能体协作播客生成框架,

从点不亮LED到做出图像系统:我的 FPGA 学习路径复盘

从点不亮LED到做出图像系统:我的 FPGA 学习路径复盘

一年前,我还在为一个简单的流水灯上板失败而焦头烂额。 仿真波形完美,开发板毫无反应——查了三天,最后发现是约束文件里漏了一个引脚定义。 如今回头看,FPGA 学习最难的从来不是 Verilog 语法,而是如何把零散的知识拼成一个能跑起来的系统。 这篇文章,是我对自己两年学习过程的一次梳理,希望能给正在路上的你一点参考。 新手最容易卡住的三个地方 1. 硬件环境搭建成本高、试错周期长 买板子只是开始,驱动、电源、外设兼容性……很多时间花在了非核心问题上。 2. 学了一堆知识点,却做不出完整功能 看得懂状态机,也写过 UART,但一整合就出问题——因为没人教你怎么“搭系统”。 3. 调试无从下手 “仿真对,上板错”是常态。跨时钟域、时序违例、信号完整性……这些概念只有在真实项目中踩过坑,才真正理解。 我的四阶段进阶思路 阶段一:先理解“硬件是怎么工作的” 别急着写复杂逻辑。用最简单的例子建立直觉: * 用计数器控制

App Inventor语音交互机器人实战:从零构建高效语音控制系统

快速体验 在开始今天关于 App Inventor语音交互机器人实战:从零构建高效语音控制系统 的探讨之前,我想先分享一个最近让我觉得很有意思的全栈技术挑战。 我们常说 AI 是未来,但作为开发者,如何将大模型(LLM)真正落地为一个低延迟、可交互的实时系统,而不仅仅是调个 API? 这里有一个非常硬核的动手实验:基于火山引擎豆包大模型,从零搭建一个实时语音通话应用。它不是简单的问答,而是需要你亲手打通 ASR(语音识别)→ LLM(大脑思考)→ TTS(语音合成)的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学来说,这是个绝佳的练手项目。 从0到1构建生产级别应用,脱离Demo,点击打开 从0打造个人豆包实时通话AI动手实验 App Inventor语音交互机器人实战:从零构建高效语音控制系统 语音交互正在成为移动应用的重要入口,但很多App Inventor开发者在实现语音控制功能时,常常遇到识别延迟高、环境噪声干扰、多指令混淆等问题。本文将分享一套经过实战验证的优化方案,帮助开发者构建响应迅速的语音交互机器人。

IEEE TRO 南方科大张明明和北工大董明杰联合在康复机器人领域取得系列研究成果

IEEE TRO 南方科大张明明和北工大董明杰联合在康复机器人领域取得系列研究成果

近期,南方科技大学生物医学工程系张明明副教授和北京工业大学董明杰副教授联合,在康复机器人领域取得系列研究进展,相关成果接连发表在机器人领域国际学术期刊IEEE Transactions on Robotics。 创建多人协作交互方法与创新康复系统 为相关领域发展奠定理论基础 图1. 多用户协作创新康复系统 当前的多用户人机交互研究主要关注机器人控制系统自身的稳定性,往往忽视了真实协作情境中“人与人”之间的相互影响。与此不同的是,本研究并未将操作者视为独立的无源终端,而是在系统设计核心层面纳入并建模这一事实:在多人触觉交互中,每位操作者本身就是彼此交互环境的一部分,其行为会直接并持续地影响他人的感知与系统稳定性。然而,随着交互用户数量的增加,尤其在操作者具有主动行为时,传统控制方法难以有效应对人际间的交互耦合与系统规模的扩大引起的稳定性条件复杂化,导致系统扩展能力受到制约。因此,如何在承认并融入操作者主动交互行为的前提下,维持系统稳定性并实现控制架构的可扩展性,成为一项关键挑战。 为应对这一挑战,研究人员创新性地提出了“个人交互环境”(Individual Interact