AI：《State of AI Report 2025》全面解读2025年AI技术发展—洞察人工智能的未来轨迹

Ne0inhk

06 Nov 2025 — 23 min read

导读：2025年10月9日，State of AI Report 2025正式发布，由Nathan Benaich与Air Street Capital联合呈现。在这第八版年度报告中，作者指出：人工智能正经历从“工具”到“思维实体”的根本性转变——从2024年的“整合期”迈入2025年的“推理时代”，模型不再只是处理信息的加速器，而是开始具备“思考、推理、反思、自纠”的能力，并加速走向产业化落地。

《State Of AI Report 2025》将今年的核心叙事凝练为三个相互关联的维度：推理能力的质变突破、商业化落地的加速推进，以及行业焦点从抽象的“终极风险”争论转向具体的“可验证性与治理”实践挑战。

这一转变要求个人与组织以新的视角看待AI：关键不是对技术突变的恐慌，而是如何将技术能力、审计框架与业务目标三者有机融合。这意味着我们既要积极拥抱更强大的AI能力，也要同步构建与之匹配的治理体系与组织韧性。

深度思考：报告揭示了一个关键悖论——当AI在数学推理等领域逼近人类水平时，我们面临的真正挑战不再是技术本身的极限，而是如何为这些系统建立可靠的验证机制和治理框架。中美在开源生态主导权的易位、NVIDIA循环投资引发的算力垄断担忧，以及“影子AI经济”的兴起，都指向同一个结论：AI的竞争已超越单纯的技术赛道，演变为标准、生态与治理体系的全面竞赛。

正如Nathan Benaich所总结的：“AI的叙事不再是技术进步，而是文明的竞速。”这份报告不仅记录了技术的飞跃，更描绘了一场关乎未来格局的全面竞赛——在这场竞赛中，技术、资本、政策和安全必须协同前进，才能推动AI真正造福人类社会。

深度思维与开源革命正重塑全球AI格局，而一场关于算力、资本与主导权的竞赛才刚刚开始。

《State Of AI Report 2025》的翻译与解读

3.2、开源生态：中国力量重塑格局，OpenAI 仍领先但差距缩小，国产与中国厂商竞争加剧

3.6、安全研究的实际化转向：安全研究从“末日论”向可操作问题转向

6、对未来的展望：短期 12 个月到中期 3 年

《State Of AI Report 2025》的翻译与解读

地址

博客地址：https://www.stateof.ai/

PPT地址：https://docs.google.com/presentation/d/1xiLl0VdrlNMAei8pmaX4ojIOfej6lhvZbOIK7Z6C-Go/edit?slide=id.g309a25a756d_0_85#slide=id.g309a25a756d_0_85

调查搜集地址：https://survey.devographics.com/zh-Hans/survey/state-of-ai/2025

背景地址：https://2025.stateofai.dev/zh-Hans/

时间

2025年10月9日

作者

Nathan Benaich

AIR STREET CAPITAL.

1、背景

《State of AI Report》自 2018 年起每年发布，由硅谷 AI 投资人 Nathan Benaich 及其创立的Air Street Capital 制作，属于相对独立的第三方观察，是业界被广泛引用的年度 AI 综述之一，旨在把握研究、产业、政治与安全等维度的关键发展并引发公共讨论。如今已经走过了八个年头，此次加入了规模更大的 AI 从业者使用调查（约 1,200 份样本），因此既有宏观趋势，也有来自一线从业者的使用感悟。其价值在于帮助读者理解AI如何从一项技术研究，演变为一个重塑社会结构和经济基础的生产系统。

2025 版在延续历年框架的同时，加入了“大规模从业者使用情况调查”以把前沿能力变化与实际采用状况连接起来，6大章节不仅涵盖研究、产业、政治、安全等领域，还通过详实的数据和案例分析，揭示了AI从“可行”到“可盈利”的关键转变。

2、简介

>> 覆盖维度：研究（技术进展与能力）、产业（商业落地与合同/营收动向）、政治（监管与地缘政策）、安全（对高度能力系统的风险识别与缓解）、从业者调查与未来 12 个月的预测与回顾。

>> 数据来源：公开文献、公开模型对比、产业数据（合同规模、融资等）、以及作者组织的从业者问卷（作者称为“最大规模的开放从业者调查”并报告了 ~1,200 名受访者）。

报告从 6 个关键维度展开：
Research（研究）：技术突破与能力演进。
Industry（产业）：商业落地、付费率、创业态势等。
Politics（政治/政策）：监管、经济与地缘政治影响。
Safety（安全）：识别并缓解可能的灾变风险与可靠性问题。
Survey（从业者调查）：1,200+ 从业者的使用行为与付费习惯。
Predictions（预测）：对未来 12 个月的预判与对上一年预测的回顾。
此框架使报告既能覆盖“能力演化”的硬指标，也能评价“采用、商业化与治理”的社会层面影响。

3、核心内容

以下要点基于报告主页与专题页面的“Key takeaways”与章节概览整理，列出 2025 年最关键的趋势与证据。

3.1、技术前沿：推理之年与智能飞跃

报告将2025年定义为 “推理之年” ，这标志着AI能力实现了从知识再现到深度思考的关键转变。

>> 推理模型成为新标杆：“推理（Reasoning）”成为年度主题，结构化与可验证的推理进步。2025 年的技术焦点是结构化推理：研究团队将强化学习、基于规则的奖励（rubric-based rewards）和可验证推理结合，打造出能计划、反思、自我纠错并在更长时间尺度上工作的模型。OpenAI的o1模型和DeepSeek的R1模型代表了这一趋势，它们通过“思维链”（Chain of Thought）技术，在回答前进行内部推理计算，显著提升了在数学、编程等复杂任务上的表现。这种“先思考后回答”的方法已在多个月度里成为各大顶级实验室的竞争焦点。

>> 基准测试可信度下降：报告指出，传统基准测试正因“数据污染”和“结果方差”而逐渐失效。许多基准测试对硬件、随机种子等无关变量高度敏感。与此同时，AI的真正价值体现在实用性上 - AI Agent、世界模型以及在代码、科学、医学等领域的专用工具正变得“真正有用”，成为衡量AI能力进步的更重要标尺。

3.2、开源生态：中国力量重塑格局，OpenAI 仍领先但差距缩小，国产与中国厂商竞争加剧

报告指出 OpenAI 在“前沿模型”上保有窄幅领先，但竞争加剧：Meta 弃守后，中国的 DeepSeek、Qwen、Kimi 等在推理与编程任务上快速追赶，在推理与编码任务上快速缩小差距，使中国成为“可信的第二梯队”。

>> 中美竞争格局明朗化：报告显示，DeepSeek R1在2025年1月底发布后，在AIME（美国数学邀请赛）上以52.5% 的pass@1成绩超越了OpenAI o1的44.6%，这一表现震惊了科技圈。结果，美国顶级模型领先中国顶级模型的差距在12个月内从9.26%缩小到1.70%，差距缩小了80%以上。

>> 开源模型正成为中国新的“丝绸之路”，在全球AI生态中发挥着越来越重要的作用。中国取代Meta成为开源领导者：在Meta的Llama 4因技术路线选择（押注于更复杂的MoE模型）而发展放缓的同时，以阿里巴巴的通义千问（Qwen）为代表的中国模型，在用户偏好、全球下载量和模型采用率上实现了反超。

>> 开源社区主导权易手：2024年初，中国模型在Hugging Face上的新微调模型中仅占10%到30%。而现在，仅Qwen一个模型就占了每月新衍生模型的40%以上，而Llama的份额则从2024年末的约50%下降到仅15%。报告指出，中国开源生态的崛起得益于其完善的工具链和宽松的开源许可证，这些都极大地降低了全球开发者的使用和贡献门槛。

>> OpenAI的战略转向：在开源模型的竞争压力下，OpenAI在2025年8月发布了gpt-oss-120b和gpt-oss-20b，这是他们自GPT-2以来首次发布开源模型。但社区反应平平，报告的原话是：“vibes post-release have been mid”。这反映出OpenAI的开源更多是战略防御，而非真心拥抱开源。

>> AI 政治与地缘政策：报告指出美国强调“America-first AI”，欧洲的 AI Act 推进遇阻，而中国在开放权重、国产硅片与生态建设上加码，形成了更加清晰的全球竞争与政策博弈格局。中国在开源权重与国产芯片上扩张，显示出全球治理与产业策略分化带来的长期影响。

3.3、AI智能体：从工具到协同进化

AI智能体正在从简单的工具演变为能够自主行动的协同者，这在报告中有多方面的体现：

>> 智能体框架百家争鸣：2025年，AI智能体框架的生态系统并未走向整合，反而进入了一场有组织的“百家争鸣”。数十个相互竞争的框架共存，每个都在研究、行业或轻量级部署中开辟出一个细分市场。LangChain框架如今只是众多选择之一。

>> 记忆系统的进化：智能体记忆正在从过去临时的、被动的上下文管理，转向结构化的、持久的记忆系统。前沿研究关注的不再是如何简单地扩大上下文窗口，而是动态的记忆巩固、遗忘和反思机制，使智能体可以在长期的交互和任务中，发展出连贯的身份和记忆。

>> 物理世界交互能力提升：字节跳动的原生GUI Agent“UI-TARS-2”，在OSWorld、WindowsAgentArena等多个主流基准测试中创下了最佳纪录，大幅超越了OpenAI和Anthropic的同类研究。该系统在网页游戏上的平均得分达到了59.8分，大约是人类水平的60%。

>> 结构化推理进入物理世界（Chain-of-Action 与机器人）:“Chain-of-Action” 风格的规划被嵌入到机器人/具身系统（例如 AI2 的 Molmo-Act、Google 的 Gemini Robotics 1.5），这些系统在行动前进行逐步推理，从而把高阶推理带入执行层面。“链式动作（Chain-of-Action）”规划使得具身（embodied）AI 在动作前进行逐步推理，Google、AI2 等机构在机器人/物理代理上展示了可跟踪的进展。

3.4、产业应用：从试点到全面落地

AI产业的主题已经从“可行”转向“可盈利”。过去被视为烧钱怪兽的超大模型，如今在“性能—成本”曲线上的效率正显著提升。

>> AI 使用进入主流：95% 的受访专业人员在工作或生活中使用 AI，76% 为 AI 工具付费，多数受访者报告持续的生产力提升——这表明大规模采用已经到来（报告同时提供完整问卷数据）。（注：另有你提供的 Web 开发者问卷可补充行业细分的数据。）

>> 企业级采用爆发式增长：企业对AI的投资迅速升温。Ramp与Standard Metrics数据显示，目前44%的美国企业已为AI工具付费（2023年仅为5%），平均合同金额高达53万美元。以AI为核心战略的初创公司增速比传统同行高出1.5倍。商业采纳显著加速（“工业化时代”起点）。报告指出商业采纳显著上升，美国付费使用 AI 的企业比例从 2023 年的 5% 跳升到 44%；平均合同规模为 53 万美元；AI-first 初创公司增长速度约为同行的 1.5×。此外，调查显示 95% 的从业者在工作或生活中使用 AI，76% 会自掏腰包购买 AI 工具。

>> 隐藏的生产力革命：MIT的一份研究报告发现，虽然40%的公司都订阅了大模型服务，但90%的员工依然会选择用“个人AI工具”悄悄干活。这一现象被称为“影子AI经济”，反映了企业级AI工具因“死板、无法学习、脱离实际工作流”而被员工抛弃，而消费级AI应用则凭借着灵活性、适应性和即时性大获全胜。

>> AI即科学家：AI的角色正在从“工具”转变为“科研伙伴”。新的‘AI实验室’组织了由首席研究员、评审员、实验员等不同Agent角色组成的联盟，它们能够构思、引用、运行代码，并将结果交还给人类团队，从而缩短了从假设到验证的循环。例如，DeepMind的Co-Scientist系统能够自主提出用于治疗血癌的候选药物。在科研场景中，AI 不再仅做助手，而开始生成、测试并验证假设（如 DeepMind 的 Co-Scientist、Stanford 的 Virtual Lab）；在生物学领域，Profluent 的 ProGen3 证明了“缩放律（scaling laws）也适用于蛋白质”——从而推动自动化科学工具化。

>> 基础设施与算力赛道：报告称“AI 的工业时代已开始”，并指出大型多千兆瓦（Multi-GW）数据中心（如 Stargate）成为新一轮算力基础设施标志。

进入“工业时代”的标志之一是多 GW（千兆瓦级）数据中心的建设（如项目名为 Stargate 的设施），并且越来越多由主权基金与国家级资本支持，电力与能源成为新的约束。

3.5、资本、算力与地缘政治

报告揭示了AI产业中资本与算力的复杂博弈：

NVIDIA的循环投资与算力瓶颈

>> 循环投资引发泡沫担忧：NVIDIA通过循环投资策略巩固其市场地位 - 投资OpenAI，OpenAI买NVIDIA的GPU；投资CoreWeave，CoreWeave买NVIDIA的GPU，然后NVIDIA再租回这些GPU。Bloomberg的报道标题很直接：“OpenAI和NVIDIA用循环交易的网络推动1万亿美元AI市场”。这种策略引发了分析师的担忧，Bernstein Research的分析师Stacy Rasgon表示：“这个行动显然会加剧‘循环’担忧。”

>> 电力成为新瓶颈：能源与算力成为AI发展的新瓶颈。中国在数据中心与电力扩容上远超美国，运营利润率更高。美国则通过政策松绑和投资计划试图赶上，但建设速度仍受限于电网和地方审批。

>> 挑战者的惨淡回报：报告做了个残酷的对比 - 自2016年以来，西方的AI芯片挑战者（除NVIDIA外）总共融资75亿美元。如果当时这些钱全买NVIDIA股票，今天值850亿美元，相当于12倍回报。而这些挑战者公司的总估值是140亿美元，仅2倍回报。

全球格局重塑与政策转向

地缘政治在AI发展中扮演着越来越重要的角色：

>> 美国政策摇摆不定：美国政府宣布“AI国家行动计划”，试图以“出口主导”替代“出口限制”，推出所谓“美国AI技术栈”（US Tech Stack）。这意味着，美国正从“封锁”转向“扩散”，希望通过技术影响力主导全球AI标准。

>> 国际AI治理机制失效：自英国布莱切利AI安全峰会后，多个国际会议相继冷场，美国缺席多场重要活动。欧洲在实施《AI法案》时选择“放慢刹车”。面对美国和中国的加速，欧盟开始淡化处罚力度，强调“可持续创新”优先。

>> 安全研究投入不足：报告估算，外部AI安全研究投入仅约1.3亿美元，而同期全球AI研发支出接近千亿美元，比例极低。曾以安全为核心的机构开始将重点转向产品化。

3.6、安全研究的实际化转向：安全研究从“末日论”向可操作问题转向

与之前强调的“存在性风险”讨论相比，2025 年安全研究更聚焦于现实可操作的问题：模型可靠性、网络韧性、透明性与如何在能力提升下维持对齐。报告也指出外部安全组织的资金规模仍不及前沿实验室的日常开销，这带来治理与资源配置方面的新挑战。

安全研究从抽象的“存在性风险”争论，转向更务实的问题：模型可模仿已学的“对齐行为”但可能掩盖能力，外部安全组织的预算依然远小于一线实验室的日开销，从而引发关于透明度、审计与治理的讨论。总体上，“灾难性风险”的讨论降温，而可靠性、网络韧性与长期治理问题上升。

4、核心结论

>> AI 已经从“研究试验”阶段进入“工业化/商品化”阶段：能力与应用的双重突破促成了大规模的商业采纳与基础设施扩张。广泛的付费采用、AI-first 创业增长和大型算力基础设施标志着商业化的深刻加速。

>> 技术方向已从单纯的生成（生成式能力）转向“结构化推理 + 可验证流程”，这会改变模型在科学、工程与机器人等领域的角色。

>> 前沿技术在继续推进，但竞争格局更分散：OpenAI 领先但不是不可撼动；中国与其他玩家都在追赶并在某些维度（推理/编码/开放权重）取得进展。

>> 国际竞争与治理将塑造未来 5–10 年的技术与产业生态：算力、人才、监管与开放/闭源策略将决定地缘优势。

>> 安全研究更务实，但资源错配是问题：当能力快速推进时，安全研究的规模与实验室能力之间存在失衡，需要系统性治理与资金/政策支持。

>> 安全与治理需从哲学争论向制度建设转变：关注点从“是否会有超智能灾难”转向“如何确保大量部署系统的可靠性、可验证性与抗攻击性”。

5、对读者的启示与建议

基于报告的发现，博主提炼出以下对AI从业者的关键启示：

拥抱开源生态：中国开源模型的崛起为全球开发者提供了更多选择，尤其是在闭源模型成本高企的背景下，利用Qwen等开源模型可以降低开发门槛，加速产品迭代。
理性看待推理模型：虽然推理模型在复杂任务上表现优异，但其成本高、速度慢，在实际应用中需根据场景权衡。对于大多数常规任务，传统模型可能更具性价比。
关注AI智能体发展：智能体框架的成熟为构建复杂AI应用提供了基础设施，选择适合的框架并建立持久记忆系统，将是开发高级AI应用的关键。
应对算力瓶颈：电力已成为AI发展的新瓶颈，在规划AI基础设施时，需综合考虑能源成本、数据中心位置和硬件选型，以优化总体拥有成本。

研究者 / 技术从业者

把研究重点放在“可验证的推理链路、可解释性与长期规划能力”上，而不仅仅是“更大的模型”或更高的生成质量。报告显示推理能力是 2025 年的核心方向。
把握“结构化推理”与长期时序能力的研究方向；在工程实践中加入可验证的推理与审计能力（e.g. chain-of-thought 可证实化、可重现测试套件）。
加强与产业/实验环境（实体机器人、实验室自动化）的联动，推动研究成果落地测试（例如 Chain-of-Action 的实地评估）。

产品 / 工程师 / 产品经理

市场对 AI 的付费意愿已显著增长，寻找能把“推理能力”与行业知识结合、提供可衡量生产力提升的产品，会更容易实现付费化。
评估并设计“可验证/可回溯”的 AI 流程（比如在产品里加入推理链日志、验证步骤与回滚机制），以应对可靠性与审计需求。
商业上注意：行业内付费采纳已经明显增长（报告给出了高层次数字），因此现在是把 AI 产品化、建立长期合同与企业级 SLA 的好时机。

创业者 / 投资者 / 监管者

关注“行业级 AI 工具链”、“科学自动化”、“可验证机器人/自动化流程”与“算力基础设施”相关的切入口
评估 AI 投资时要考虑长期运营成本（算力、电力、合规与安全审计），并优先构建可审计的部署与回滚机制。
从单纯限制或标签化转向构建可操作的合规标准、审计路径与跨国协作机制，尤其要关注电力/基础设施与供应链问题。

6、对未来的展望：短期 12 个月到中期 3 年

报告结尾对未来的AI发展提出了多项预测，为我们指明了前进的方向：
>> AI生成的科学发现：报告预测，未来12个月内，“开放式AI代理将完成重要科学发现，或许距离诺贝尔奖只差时间”。同时，中国实验室有望在关键排行榜上首次超越美国。
>> 技术挑战与突破：报告预测，未来五年将迎来“效率革命” - 通过神经架构搜索、稀疏化训练与绿色算法设计，AI系统的能效比有望再提升10倍。同时，“小样本学习”与“因果推理”正成为学术热点，逾40%的顶级论文开始探索脱离海量数据依赖的新路径。
>> 实用主义导向：关于AI导致人类灭绝的激烈辩论逐渐平息，公众与政策制定者的关注点转向更实际的问题：系统可靠性、网络安全韧性，以及高度自主系统长期治理框架的构建。

一些理解
>> 技术层面：推理与长时记忆/规划能力将继续成为模型竞争的核心；具身机器人和自动化实验平台将在受控场景带来实用成果。
>> 产业层面：更多行业将进入付费订阅/合同阶段，AI-first 创业继续跑赢大盘；大型数据中心与国家级投资将重塑算力供给格局，能源约束会成为关键运营风险。
>> 治理与安全：治理焦点会从“是否会发生极端灾难”转向“如何在中等概率的故障/滥用场景下保护关键基础设施与经济系统”；因此审计、可解释性与红队（红队式攻防）投入会提升，但面临资金与跨国协作挑战。

AI：《State of AI Report 2025》全面解读2025年AI技术发展—洞察人工智能的未来轨迹

Ne0inhk

《State Of AI Report 2025》的翻译与解读

1、背景

2、简介

3、核心内容

3.1、技术前沿：推理之年与智能飞跃

3.2、开源生态：中国力量重塑格局，OpenAI 仍领先但差距缩小，国产与中国厂商竞争加剧

3.3、AI智能体：从工具到协同进化

3.4、产业应用：从试点到全面落地

3.5、资本、算力与地缘政治

NVIDIA的循环投资与算力瓶颈

全球格局重塑与政策转向

3.6、安全研究的实际化转向：安全研究从“末日论”向可操作问题转向

4、核心结论

5、对读者的启示与建议

研究者 / 技术从业者

产品 / 工程师 / 产品经理

创业者 / 投资者 / 监管者

6、对未来的展望：短期 12 个月到中期 3 年

Read more

C++中的左值和右值

如何在C++中定义和使用宏常量

C/C++内置库函数（6）：C++中类什么时候使用静态变量

【C++数据结构进阶】玩转并查集：从原理到实战，C++ 实现与高频面试题全解析