AI:《State of AI Report 2025》全面解读2025年AI技术发展—洞察人工智能的未来轨迹
AI:《State of AI Report 2025》全面解读2025年AI技术发展—洞察人工智能的未来轨迹
导读:2025年10月9日,State of AI Report 2025正式发布,由Nathan Benaich与Air Street Capital联合呈现。在这第八版年度报告中,作者指出:人工智能正经历从“工具”到“思维实体”的根本性转变——从2024年的“整合期”迈入2025年的“推理时代”,模型不再只是处理信息的加速器,而是开始具备“思考、推理、反思、自纠”的能力,并加速走向产业化落地。
《State Of AI Report 2025》将今年的核心叙事凝练为三个相互关联的维度:推理能力的质变突破、商业化落地的加速推进,以及行业焦点从抽象的“终极风险”争论转向具体的“可验证性与治理”实践挑战。
这一转变要求个人与组织以新的视角看待AI:关键不是对技术突变的恐慌,而是如何将技术能力、审计框架与业务目标三者有机融合。这意味着我们既要积极拥抱更强大的AI能力,也要同步构建与之匹配的治理体系与组织韧性。
深度思考:报告揭示了一个关键悖论——当AI在数学推理等领域逼近人类水平时,我们面临的真正挑战不再是技术本身的极限,而是如何为这些系统建立可靠的验证机制和治理框架。中美在开源生态主导权的易位、NVIDIA循环投资引发的算力垄断担忧,以及“影子AI经济”的兴起,都指向同一个结论:AI的竞争已超越单纯的技术赛道,演变为标准、生态与治理体系的全面竞赛。
正如Nathan Benaich所总结的:“AI的叙事不再是技术进步,而是文明的竞速。”这份报告不仅记录了技术的飞跃,更描绘了一场关乎未来格局的全面竞赛——在这场竞赛中,技术、资本、政策和安全必须协同前进,才能推动AI真正造福人类社会。
深度思维与开源革命正重塑全球AI格局,而一场关于算力、资本与主导权的竞赛才刚刚开始。
目录
《State Of AI Report 2025》的翻译与解读
3.2、开源生态:中国力量重塑格局,OpenAI 仍领先但差距缩小,国产与中国厂商竞争加剧
3.6、安全研究的实际化转向:安全研究从“末日论”向可操作问题转向
《State Of AI Report 2025》的翻译与解读

地址 | 调查搜集地址:https://survey.devographics.com/zh-Hans/survey/state-of-ai/2025 |
时间 | 2025年10月9日 |
作者 | Nathan Benaich AIR STREET CAPITAL. |
1、背景
《State of AI Report》自 2018 年起每年发布,由硅谷 AI 投资人 Nathan Benaich 及其创立的Air Street Capital 制作,属于相对独立的第三方观察,是业界被广泛引用的年度 AI 综述之一,旨在把握研究、产业、政治与安全等维度的关键发展并引发公共讨论。如今已经走过了八个年头,此次加入了规模更大的 AI 从业者使用调查(约 1,200 份样本),因此既有宏观趋势,也有来自一线从业者的使用感悟。其价值在于帮助读者理解AI如何从一项技术研究,演变为一个重塑社会结构和经济基础的生产系统。
2025 版在延续历年框架的同时,加入了“大规模从业者使用情况调查”以把前沿能力变化与实际采用状况连接起来,6大章节不仅涵盖研究、产业、政治、安全等领域,还通过详实的数据和案例分析,揭示了AI从“可行”到“可盈利”的关键转变。
2、简介
>> 覆盖维度:研究(技术进展与能力)、产业(商业落地与合同/营收动向)、政治(监管与地缘政策)、安全(对高度能力系统的风险识别与缓解)、从业者调查与未来 12 个月的预测与回顾。
>> 数据来源:公开文献、公开模型对比、产业数据(合同规模、融资等)、以及作者组织的从业者问卷(作者称为“最大规模的开放从业者调查”并报告了 ~1,200 名受访者)。
报告从 6 个关键维度展开:
Research(研究):技术突破与能力演进。
Industry(产业):商业落地、付费率、创业态势等。
Politics(政治/政策):监管、经济与地缘政治影响。
Safety(安全):识别并缓解可能的灾变风险与可靠性问题。
Survey(从业者调查):1,200+ 从业者的使用行为与付费习惯。
Predictions(预测):对未来 12 个月的预判与对上一年预测的回顾。
此框架使报告既能覆盖“能力演化”的硬指标,也能评价“采用、商业化与治理”的社会层面影响。
3、核心内容
以下要点基于报告主页与专题页面的“Key takeaways”与章节概览整理,列出 2025 年最关键的趋势与证据。
3.1、技术前沿:推理之年与智能飞跃
报告将2025年定义为 “推理之年” ,这标志着AI能力实现了从知识再现到深度思考的关键转变。
>> 推理模型成为新标杆:“推理(Reasoning)”成为年度主题,结构化与可验证的推理进步。2025 年的技术焦点是结构化推理:研究团队将强化学习、基于规则的奖励(rubric-based rewards)和可验证推理结合,打造出能计划、反思、自我纠错并在更长时间尺度上工作的模型。OpenAI的o1模型和DeepSeek的R1模型代表了这一趋势,它们通过“思维链”(Chain of Thought)技术,在回答前进行内部推理计算,显著提升了在数学、编程等复杂任务上的表现。这种“先思考后回答”的方法已在多个月度里成为各大顶级实验室的竞争焦点。
>> 基准测试可信度下降:报告指出,传统基准测试正因“数据污染”和“结果方差”而逐渐失效。许多基准测试对硬件、随机种子等无关变量高度敏感。与此同时,AI的真正价值体现在实用性上 - AI Agent、世界模型以及在代码、科学、医学等领域的专用工具正变得“真正有用”,成为衡量AI能力进步的更重要标尺。
3.2、开源生态:中国力量重塑格局,OpenAI 仍领先但差距缩小,国产与中国厂商竞争加剧
报告指出 OpenAI 在“前沿模型”上保有窄幅领先,但竞争加剧:Meta 弃守后,中国的 DeepSeek、Qwen、Kimi 等在推理与编程任务上快速追赶,在推理与编码任务上快速缩小差距,使中国成为“可信的第二梯队”。
>> 中美竞争格局明朗化:报告显示,DeepSeek R1在2025年1月底发布后,在AIME(美国数学邀请赛)上以52.5% 的pass@1成绩超越了OpenAI o1的44.6%,这一表现震惊了科技圈。结果,美国顶级模型领先中国顶级模型的差距在12个月内从9.26%缩小到1.70%,差距缩小了80%以上。
>> 开源模型正成为中国新的“丝绸之路”,在全球AI生态中发挥着越来越重要的作用。中国取代Meta成为开源领导者:在Meta的Llama 4因技术路线选择(押注于更复杂的MoE模型)而发展放缓的同时,以阿里巴巴的通义千问(Qwen)为代表的中国模型,在用户偏好、全球下载量和模型采用率上实现了反超。
>> 开源社区主导权易手:2024年初,中国模型在Hugging Face上的新微调模型中仅占10%到30%。而现在,仅Qwen一个模型就占了每月新衍生模型的40%以上,而Llama的份额则从2024年末的约50%下降到仅15%。报告指出,中国开源生态的崛起得益于其完善的工具链和宽松的开源许可证,这些都极大地降低了全球开发者的使用和贡献门槛。
>> OpenAI的战略转向:在开源模型的竞争压力下,OpenAI在2025年8月发布了gpt-oss-120b和gpt-oss-20b,这是他们自GPT-2以来首次发布开源模型。但社区反应平平,报告的原话是:“vibes post-release have been mid”。这反映出OpenAI的开源更多是战略防御,而非真心拥抱开源。
>> AI 政治与地缘政策:报告指出美国强调“America-first AI”,欧洲的 AI Act 推进遇阻,而中国在开放权重、国产硅片与生态建设上加码,形成了更加清晰的全球竞争与政策博弈格局。中国在开源权重与国产芯片上扩张,显示出全球治理与产业策略分化带来的长期影响。
3.3、AI智能体:从工具到协同进化
AI智能体正在从简单的工具演变为能够自主行动的协同者,这在报告中有多方面的体现:
>> 智能体框架百家争鸣:2025年,AI智能体框架的生态系统并未走向整合,反而进入了一场有组织的“百家争鸣”。数十个相互竞争的框架共存,每个都在研究、行业或轻量级部署中开辟出一个细分市场。LangChain框架如今只是众多选择之一。
>> 记忆系统的进化:智能体记忆正在从过去临时的、被动的上下文管理,转向结构化的、持久的记忆系统。前沿研究关注的不再是如何简单地扩大上下文窗口,而是动态的记忆巩固、遗忘和反思机制,使智能体可以在长期的交互和任务中,发展出连贯的身份和记忆。
>> 物理世界交互能力提升:字节跳动的原生GUI Agent“UI-TARS-2”,在OSWorld、WindowsAgentArena等多个主流基准测试中创下了最佳纪录,大幅超越了OpenAI和Anthropic的同类研究。该系统在网页游戏上的平均得分达到了59.8分,大约是人类水平的60%。
>> 结构化推理进入物理世界(Chain-of-Action 与机器人):“Chain-of-Action” 风格的规划被嵌入到机器人/具身系统(例如 AI2 的 Molmo-Act、Google 的 Gemini Robotics 1.5),这些系统在行动前进行逐步推理,从而把高阶推理带入执行层面。“链式动作(Chain-of-Action)”规划使得具身(embodied)AI 在动作前进行逐步推理,Google、AI2 等机构在机器人/物理代理上展示了可跟踪的进展。
3.4、产业应用:从试点到全面落地
AI产业的主题已经从“可行”转向“可盈利”。过去被视为烧钱怪兽的超大模型,如今在“性能—成本”曲线上的效率正显著提升。
>> AI 使用进入主流:95% 的受访专业人员在工作或生活中使用 AI,76% 为 AI 工具付费,多数受访者报告持续的生产力提升——这表明大规模采用已经到来(报告同时提供完整问卷数据)。(注:另有你提供的 Web 开发者问卷可补充行业细分的数据。)
>> 企业级采用爆发式增长:企业对AI的投资迅速升温。Ramp与Standard Metrics数据显示,目前44%的美国企业已为AI工具付费(2023年仅为5%),平均合同金额高达53万美元。以AI为核心战略的初创公司增速比传统同行高出1.5倍。商业采纳显著加速(“工业化时代”起点)。报告指出商业采纳显著上升,美国付费使用 AI 的企业比例从 2023 年的 5% 跳升到 44%;平均合同规模为 53 万美元;AI-first 初创公司增长速度约为同行的 1.5×。此外,调查显示 95% 的从业者在工作或生活中使用 AI,76% 会自掏腰包购买 AI 工具。
>> 隐藏的生产力革命:MIT的一份研究报告发现,虽然40%的公司都订阅了大模型服务,但90%的员工依然会选择用“个人AI工具”悄悄干活。这一现象被称为“影子AI经济”,反映了企业级AI工具因“死板、无法学习、脱离实际工作流”而被员工抛弃,而消费级AI应用则凭借着灵活性、适应性和即时性大获全胜。
>> AI即科学家:AI的角色正在从“工具”转变为“科研伙伴”。新的‘AI实验室’组织了由首席研究员、评审员、实验员等不同Agent角色组成的联盟,它们能够构思、引用、运行代码,并将结果交还给人类团队,从而缩短了从假设到验证的循环。例如,DeepMind的Co-Scientist系统能够自主提出用于治疗血癌的候选药物。在科研场景中,AI 不再仅做助手,而开始生成、测试并验证假设(如 DeepMind 的 Co-Scientist、Stanford 的 Virtual Lab);在生物学领域,Profluent 的 ProGen3 证明了“缩放律(scaling laws)也适用于蛋白质”——从而推动自动化科学工具化。
>> 基础设施与算力赛道:报告称“AI 的工业时代已开始”,并指出大型多千兆瓦(Multi-GW)数据中心(如 Stargate)成为新一轮算力基础设施标志。
进入“工业时代”的标志之一是多 GW(千兆瓦级)数据中心的建设(如项目名为 Stargate 的设施),并且越来越多由主权基金与国家级资本支持,电力与能源成为新的约束。
3.5、资本、算力与地缘政治
报告揭示了AI产业中资本与算力的复杂博弈:
NVIDIA的循环投资与算力瓶颈
>> 循环投资引发泡沫担忧:NVIDIA通过循环投资策略巩固其市场地位 - 投资OpenAI,OpenAI买NVIDIA的GPU;投资CoreWeave,CoreWeave买NVIDIA的GPU,然后NVIDIA再租回这些GPU。Bloomberg的报道标题很直接:“OpenAI和NVIDIA用循环交易的网络推动1万亿美元AI市场”。这种策略引发了分析师的担忧,Bernstein Research的分析师Stacy Rasgon表示:“这个行动显然会加剧‘循环’担忧。”
>> 电力成为新瓶颈:能源与算力成为AI发展的新瓶颈。中国在数据中心与电力扩容上远超美国,运营利润率更高。美国则通过政策松绑和投资计划试图赶上,但建设速度仍受限于电网和地方审批。
>> 挑战者的惨淡回报:报告做了个残酷的对比 - 自2016年以来,西方的AI芯片挑战者(除NVIDIA外)总共融资75亿美元。如果当时这些钱全买NVIDIA股票,今天值850亿美元,相当于12倍回报。而这些挑战者公司的总估值是140亿美元,仅2倍回报。
全球格局重塑与政策转向
地缘政治在AI发展中扮演着越来越重要的角色:
>> 美国政策摇摆不定:美国政府宣布“AI国家行动计划”,试图以“出口主导”替代“出口限制”,推出所谓“美国AI技术栈”(US Tech Stack)。这意味着,美国正从“封锁”转向“扩散”,希望通过技术影响力主导全球AI标准。
>> 国际AI治理机制失效:自英国布莱切利AI安全峰会后,多个国际会议相继冷场,美国缺席多场重要活动。欧洲在实施《AI法案》时选择“放慢刹车”。面对美国和中国的加速,欧盟开始淡化处罚力度,强调“可持续创新”优先。
>> 安全研究投入不足:报告估算,外部AI安全研究投入仅约1.3亿美元,而同期全球AI研发支出接近千亿美元,比例极低。曾以安全为核心的机构开始将重点转向产品化。
3.6、安全研究的实际化转向:安全研究从“末日论”向可操作问题转向
与之前强调的“存在性风险”讨论相比,2025 年安全研究更聚焦于现实可操作的问题:模型可靠性、网络韧性、透明性与如何在能力提升下维持对齐。报告也指出外部安全组织的资金规模仍不及前沿实验室的日常开销,这带来治理与资源配置方面的新挑战。
安全研究从抽象的“存在性风险”争论,转向更务实的问题:模型可模仿已学的“对齐行为”但可能掩盖能力,外部安全组织的预算依然远小于一线实验室的日开销,从而引发关于透明度、审计与治理的讨论。总体上,“灾难性风险”的讨论降温,而可靠性、网络韧性与长期治理问题上升。
4、核心结论
>> AI 已经从“研究试验”阶段进入“工业化/商品化”阶段:能力与应用的双重突破促成了大规模的商业采纳与基础设施扩张。广泛的付费采用、AI-first 创业增长和大型算力基础设施标志着商业化的深刻加速。
>> 技术方向已从单纯的生成(生成式能力)转向“结构化推理 + 可验证流程”,这会改变模型在科学、工程与机器人等领域的角色。
>> 前沿技术在继续推进,但竞争格局更分散:OpenAI 领先但不是不可撼动;中国与其他玩家都在追赶并在某些维度(推理/编码/开放权重)取得进展。
>> 国际竞争与治理将塑造未来 5–10 年的技术与产业生态:算力、人才、监管与开放/闭源策略将决定地缘优势。
>> 安全研究更务实,但资源错配是问题:当能力快速推进时,安全研究的规模与实验室能力之间存在失衡,需要系统性治理与资金/政策支持。
>> 安全与治理需从哲学争论向制度建设转变:关注点从“是否会有超智能灾难”转向“如何确保大量部署系统的可靠性、可验证性与抗攻击性”。
5、对读者的启示与建议
基于报告的发现,博主提炼出以下对AI从业者的关键启示:
- 拥抱开源生态:中国开源模型的崛起为全球开发者提供了更多选择,尤其是在闭源模型成本高企的背景下,利用Qwen等开源模型可以降低开发门槛,加速产品迭代。
- 理性看待推理模型:虽然推理模型在复杂任务上表现优异,但其成本高、速度慢,在实际应用中需根据场景权衡。对于大多数常规任务,传统模型可能更具性价比。
- 关注AI智能体发展:智能体框架的成熟为构建复杂AI应用提供了基础设施,选择适合的框架并建立持久记忆系统,将是开发高级AI应用的关键。
- 应对算力瓶颈:电力已成为AI发展的新瓶颈,在规划AI基础设施时,需综合考虑能源成本、数据中心位置和硬件选型,以优化总体拥有成本。
研究者 / 技术从业者
把研究重点放在“可验证的推理链路、可解释性与长期规划能力”上,而不仅仅是“更大的模型”或更高的生成质量。报告显示推理能力是 2025 年的核心方向。
把握“结构化推理”与长期时序能力的研究方向;在工程实践中加入可验证的推理与审计能力(e.g. chain-of-thought 可证实化、可重现测试套件)。
加强与产业/实验环境(实体机器人、实验室自动化)的联动,推动研究成果落地测试(例如 Chain-of-Action 的实地评估)。
产品 / 工程师 / 产品经理
市场对 AI 的付费意愿已显著增长,寻找能把“推理能力”与行业知识结合、提供可衡量生产力提升的产品,会更容易实现付费化。
评估并设计“可验证/可回溯”的 AI 流程(比如在产品里加入推理链日志、验证步骤与回滚机制),以应对可靠性与审计需求。
商业上注意:行业内付费采纳已经明显增长(报告给出了高层次数字),因此现在是把 AI 产品化、建立长期合同与企业级 SLA 的好时机。
创业者 / 投资者 / 监管者
关注“行业级 AI 工具链”、“科学自动化”、“可验证机器人/自动化流程”与“算力基础设施”相关的切入口
评估 AI 投资时要考虑长期运营成本(算力、电力、合规与安全审计),并优先构建可审计的部署与回滚机制。
从单纯限制或标签化转向构建可操作的合规标准、审计路径与跨国协作机制,尤其要关注电力/基础设施与供应链问题。
6、对未来的展望:短期 12 个月到中期 3 年
报告结尾对未来的AI发展提出了多项预测,为我们指明了前进的方向:
>> AI生成的科学发现:报告预测,未来12个月内,“开放式AI代理将完成重要科学发现,或许距离诺贝尔奖只差时间”。同时,中国实验室有望在关键排行榜上首次超越美国。
>> 技术挑战与突破:报告预测,未来五年将迎来“效率革命” - 通过神经架构搜索、稀疏化训练与绿色算法设计,AI系统的能效比有望再提升10倍。同时,“小样本学习”与“因果推理”正成为学术热点,逾40%的顶级论文开始探索脱离海量数据依赖的新路径。
>> 实用主义导向:关于AI导致人类灭绝的激烈辩论逐渐平息,公众与政策制定者的关注点转向更实际的问题:系统可靠性、网络安全韧性,以及高度自主系统长期治理框架的构建。
一些理解
>> 技术层面:推理与长时记忆/规划能力将继续成为模型竞争的核心;具身机器人和自动化实验平台将在受控场景带来实用成果。
>> 产业层面:更多行业将进入付费订阅/合同阶段,AI-first 创业继续跑赢大盘;大型数据中心与国家级投资将重塑算力供给格局,能源约束会成为关键运营风险。
>> 治理与安全:治理焦点会从“是否会发生极端灾难”转向“如何在中等概率的故障/滥用场景下保护关键基础设施与经济系统”;因此审计、可解释性与红队(红队式攻防)投入会提升,但面临资金与跨国协作挑战。