2024-2025 年人工智能领域重要综述论文汇总
本文汇总了 2024 至 2025 年间人工智能领域的十二篇重要综述论文,涵盖多模态智能体、OpenAI o1 推理、AIGC 检测、大语言模型书籍与数据集、模型推理、文本生成视频、混合专家架构、行业发展报告、模型评估、世界模型及多模态数据融合等主题。文章分析了当前 AI 发展的核心趋势,包括具身智能、推理增强、安全治理、架构优化及世界模型构建,为科研人员提供了全面的技术现状参考与未来方向指引。

本文汇总了 2024 至 2025 年间人工智能领域的十二篇重要综述论文,涵盖多模态智能体、OpenAI o1 推理、AIGC 检测、大语言模型书籍与数据集、模型推理、文本生成视频、混合专家架构、行业发展报告、模型评估、世界模型及多模态数据融合等主题。文章分析了当前 AI 发展的核心趋势,包括具身智能、推理增强、安全治理、架构优化及世界模型构建,为科研人员提供了全面的技术现状参考与未来方向指引。

2024 年是人工智能发展迅速的一年。围绕大模型和生成式 AI、智能体等研究,新成果每天都在出现。在此整理这一年这些研究热点主题的综述进展,共十二篇,了解当下,方能向前。
摘要:多模态人工智能系统可能会成为我们日常生活中无处不在的存在。使这些系统更具交互性的一种有前景的方法是将它们作为智能体嵌入到物理和虚拟环境中。目前,系统利用现有的基础模型作为创建具身智能体的基本构建块。将智能体嵌入这样的环境有助于模型处理和解释视觉和上下文数据,这对于创建更复杂、更具上下文意识的人工智能系统至关重要。例如,一个能够感知用户行为、人类行为、环境物体、音频表达和场景整体情绪的系统可以用来通知并指导智能体在特定环境中的响应。为了加速基于智能体的多模态智能研究,我们将'智能体 AI'定义为一类交互系统,它们能够感知视觉刺激、语言输入和其他基于环境的数据,并能产生具有无限智能体的有意义的具身行动。特别是,我们探索旨在通过整合外部知识、多感官输入和人类反馈来基于下一具身行动预测改进智能体的系统。我们认为,通过在基于环境的环境中开发具有代理性的 AI 系统,也可以减少大型基础模型的幻觉及其产生环境不正确输出的倾向。新兴的智能体 AI 领域涵盖了多模态交互的更广泛的具身和具有代理性的方面。
摘要:o1 模型系列通过大规模强化学习进行训练,使用思维链进行推理。这些先进的推理能力为提高我们模型的安全性和鲁棒性提供了新的途径。特别是,我们的模型可以在响应可能不安全的提示时,对我们的安全策略进行推理。这导致了在某些风险基准上的最先进性能,如生成非法建议、选择刻板反应和屈服于已知的越狱。训练模型在回答问题前整合一系列思维,有可能带来实质性的好处,同时也会增加因智力提高而产生的潜在风险。我们的研究结果强调,需要建立稳健的校准方法,对其有效性进行广泛的压力测试,并维护细致的风险管理协议。本报告概述了 OpenAI o1 预览版和 OpenAI o1 迷你版模型的安全工作,包括安全评估、外部红队和准备框架评估。
摘要:大型 AI 模型(LAIMs),尤其是扩散模型和大型语言模型的迅速发展,标志着一个新时代的到来,其中 AI 生成的多媒体内容越来越多地融入到日常生活的各个方面。尽管在许多领域都具有益处,但这种内容也带来了重大风险,包括潜在的滥用、社会干扰和伦理关切。因此,检测 LAIM 生成的多媒体内容变得至关重要,相关研究也大幅增加。尽管如此,仍然存在一个明显的系统调查领域的空白,专门关注检测 LAIM 生成的多媒体内容。为了解决这一问题,我们提供了第一个全面涵盖现有研究的调查,重点关注检测 LAIM 生成的多媒体内容(如文本、图像、视频、音频和多模态内容)。具体而言,我们引入了一种新颖的检测方法分类法,按媒体模态进行分类,并与两个视角相一致:纯检测(旨在提高检测性能)和超越检测(为检测器添加可泛化性、鲁棒性和可解释性等属性)。此外,我们还简要介绍了生成机制、公共数据集和在线检测工具,为该领域的研究人员和实践者提供了宝贵的资源。此外,我们还识别了检测中的当前挑战,并提出了未开发、正在进行和新兴问题的未来研究方向。我们的目标是填补学术空白,为全球 AI 安全工作做出贡献,帮助确保数字领域信息的完整性。
摘要:2022 年底,ChatGPT 震撼上线,大语言模型技术迅速席卷了整个社会,人工智能技术因此迎来了一次重要进展。面对大语言模型的强大性能,支撑这些模型的背后技术究竟是什么?这一问题无疑成为了众多科研人员的思考焦点。必须指出的是,大模型技术并不是一蹴而就,其发展历程中先后经历了统计语言模型、神经网络语言模型、预训练语言模型等多个发展阶段。OpenAI 公司在过去深入探索了与其相关的大量技术细节,并最终推出了 GPT 系列模型,引领了本次技术变革。然而,OpenAI 团队自 GPT-3 开始,就很少在公开的材料中提及相关技术细节。目前,学术界面临的重大挑战是真正有充足资源去充分探索大语言模型训练的团队少之又少。令人欣喜的是,无论是在学术界还是工业界,人们都逐渐认识到了'开放'的重要性。本书旨在为读者提供关于大模型技术的全面了解,包括其基础原理、关键技术和应用前景。
摘要:本文着手探讨了大型语言模型(LLM)数据集,这些数据集在 LLM 的显著进步中扮演了关键角色。为了解决当前对 LLM 数据集的全面概述和彻底分析的缺乏,这篇综述整合并分类了 LLM 数据集的基本方面,从五个视角出发:(1)预训练语料库;(2)指令微调数据集;(3)偏好数据集;(4)评估数据集;(5)传统自然语言处理(NLP)数据集。该综述揭示了当前面临的挑战,并指出了未来调查的潜在途径。此外,还提供了现有可用数据集资源的全面回顾,包括来自 444 个数据集的统计数据,涵盖 8 种语言类别和 32 个领域。数据集统计信息中纳入了来自 20 个维度的信息。调查的总数据大小超过了 774.5TB 的预训练语料库和 700M 实例的其他数据集。
摘要:推理,作为复杂问题解决的关键能力,在各种现实世界场景中扮演着核心角色,如谈判、医学诊断和刑事侦查。它是人工通用智能(AGI)领域的一种基本方法。随着基础模型的持续发展,例如大型语言模型(LLMs),人们越来越感兴趣于探索它们在推理任务中的能力。在这篇论文中,我们介绍了为推理提出或适应的开创性基础模型,突出了在各种推理任务、方法和基准测试方面的最新进展。接着,我们深入探讨了基础模型中推理能力出现的潜在未来方向。我们还讨论了多模态学习、自主代理和超级对齐在推理背景下的相关性。
摘要:由 OpenAI 开发的 Sora 具备分钟级的世界模拟能力,可被视为这一发展路径上的一个里程碑。然而,尽管取得了显著成功,Sora 仍然面临着需要解决的各种障碍。在本综述中,我们从 Sora 在文本生成视频方面的视角出发,进行文献的全面回顾。具体来说,在介绍了基本的通用算法之后,我们从三个相互垂直的维度对文献进行了分类:进化生成器、卓越追求和现实全景。随后,对广泛使用的数据集和评估指标进行了详细整理。最后但同样重要的是,我们识别了该领域的若干挑战和开放性问题,并提出了未来研究和发展的潜在方向。
摘要:大型语言模型(LLMs)的强大性能得益于其庞大的模型规模、广泛而多样化的数据集,以及训练过程中所使用的巨量计算能力。在此背景下,专家混合(MoE)作为一种有效的方法,通过最小的计算开销大幅扩展模型容量,受到学术界和工业界的广泛关注。本调查旨在弥补关于 MoE 的文献缺乏系统和全面的综述这一空白。我们首先简要介绍了 MoE 层的结构,并提出了一个新的 MoE 分类法。接下来,我们概述了各种 MoE 模型的核心设计,包括算法和系统方面,同时收集了可用的开源实现、超参数配置和实证评估。此外,我们还阐述了 MoE 在实际中的多方面应用,并概述了一些潜在的未来研究方向。
摘要:2024 年 11 月 29 日,在大模型产业创新发展大会上,中国信息通信研究院发布《人工智能发展报告(2024 年)》。报告立足产业新发展、新变化、新需求,聚焦新形势下全球人工智能发展重点,总结梳理人工智能技术创新方向、产业升级重点、行业落地趋势和安全治理进展,展望人工智能发展机遇,以期与业界分享,共同推动人工智能产业蓬勃发展。
摘要:大型语言模型(LLMs)在广泛的任务范围内展现了显著的能力。然而,如同一把双刃剑,LLMs 也带来了潜在的风险。它们可能面临私人数据泄露的风险,或产生不适当、有害或误导性的内容。为了有效地利用 LLMs 的能力并确保它们的安全和有益的发展,对 LLMs 进行严格和全面的评估至关重要。这项综述旨在为 LLMs 的评估提供一个全景式的视角。我们将 LLMs 的评估分为三大类:知识和能力评估、对齐评估和安全评估。除了对这三个方面的评估方法和基准的全面调研外,我们还汇编了一个关于 LLMs 在专业领域性能的评估手册,并讨论了建立综合评估平台的构建。
摘要:世界模型的概念因多模态大型语言模型和视频生成模型的进展而受到了广泛关注。本综述提供了关于世界模型文献的全面回顾。一般来说,世界模型被视为理解当前世界状态或预测其未来动态的工具。本综述系统地分类了世界模型,重点讨论了两个主要功能:(1)构建内部表征以理解世界的机制;(2)预测未来状态以模拟和指导决策。首先,我们回顾了这两个类别的当前进展。接着,我们探讨了世界模型在关键领域中的应用,包括自动驾驶、机器人技术和社会模拟。最后,我们概述了关键挑战,并提供了未来研究方向的见解。
摘要:多模态人工智能通常涉及多种类型的数据、特征工程以及决策过程。随着架构变得越来越复杂,多模态神经网络可以将特征提取、特征融合和决策过程整合到一个单一的模型中。基于当前主流技术,我们提出了一种新的细粒度分类,将当前的前沿模型分为五类:编码器 - 解码器方法、注意力机制方法、图神经网络方法、生成式神经网络方法,以及其他基于约束的方法。不同于仅关注特定任务和特定模态组合的综述,本综述涵盖了更广泛的模态组合,包括视觉 + 语言、视觉 + 传感器等,以及它们对应的任务。此外,我们还提供了这些方法之间的比较,以及该领域的挑战和未来发展方向。
通过对上述十二篇综述的分析,可以看出当前 AI 领域的几个核心趋势:一是从单一模态向多模态交互演进,智能体在物理和虚拟环境中的具身能力成为重点;二是推理能力的强化,如思维链和 o1 系列模型展示了通过强化学习提升安全与鲁棒性的潜力;三是安全与评估体系的完善,针对 AIGC 检测、模型对齐及风险评估的研究日益深入;四是架构效率的提升,MoE 结构成为扩展模型容量的关键路径;五是世界模型的兴起,为通用人工智能提供了模拟未来状态的基础。这些综述为研究人员和实践者提供了宝贵的资源指引,有助于推动人工智能技术的透明化与负责任发展。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online