2024-2025 年人工智能领域重要综述论文汇总
引言
2024 年是人工智能发展迅速的一年。围绕大模型和生成式 AI、智能体等研究,新成果每天都在出现。在此整理这一年这些研究热点主题的综述进展,共十二篇,了解当下,方能向前。
1. 多模态智能体 AI 开启新浪潮
摘要:多模态人工智能系统可能会成为我们日常生活中无处不在的存在。使这些系统更具交互性的一种有前景的方法是将它们作为智能体嵌入到物理和虚拟环境中。目前,系统利用现有的基础模型作为创建具身智能体的基本构建块。将智能体嵌入这样的环境有助于模型处理和解释视觉和上下文数据,这对于创建更复杂、更具上下文意识的人工智能系统至关重要。例如,一个能够感知用户行为、人类行为、环境物体、音频表达和场景整体情绪的系统可以用来通知并指导智能体在特定环境中的响应。为了加速基于智能体的多模态智能研究,我们将'智能体 AI'定义为一类交互系统,它们能够感知视觉刺激、语言输入和其他基于环境的数据,并能产生具有无限智能体的有意义的具身行动。特别是,我们探索旨在通过整合外部知识、多感官输入和人类反馈来基于下一具身行动预测改进智能体的系统。我们认为,通过在基于环境的环境中开发具有代理性的 AI 系统,也可以减少大型基础模型的幻觉及其产生环境不正确输出的倾向。新兴的智能体 AI 领域涵盖了多模态交互的更广泛的具身和具有代理性的方面。
2. OpenAI o1 大模型技术报告
摘要:o1 模型系列通过大规模强化学习进行训练,使用思维链进行推理。这些先进的推理能力为提高我们模型的安全性和鲁棒性提供了新的途径。特别是,我们的模型可以在响应可能不安全的提示时,对我们的安全策略进行推理。这导致了在某些风险基准上的最先进性能,如生成非法建议、选择刻板反应和屈服于已知的越狱。训练模型在回答问题前整合一系列思维,有可能带来实质性的好处,同时也会增加因智力提高而产生的潜在风险。我们的研究结果强调,需要建立稳健的校准方法,对其有效性进行广泛的压力测试,并维护细致的风险管理协议。本报告概述了 OpenAI o1 预览版和 OpenAI o1 迷你版模型的安全工作,包括安全评估、外部红队和准备框架评估。
3. 检测大型 AI 模型生成的多媒体内容综述
摘要:大型 AI 模型(LAIMs),尤其是扩散模型和大型语言模型的迅速发展,标志着一个新时代的到来,其中 AI 生成的多媒体内容越来越多地融入到日常生活的各个方面。尽管在许多领域都具有益处,但这种内容也带来了重大风险,包括潜在的滥用、社会干扰和伦理关切。因此,检测 LAIM 生成的多媒体内容变得至关重要,相关研究也大幅增加。尽管如此,仍然存在一个明显的系统调查领域的空白,专门关注检测 LAIM 生成的多媒体内容。为了解决这一问题,我们提供了第一个全面涵盖现有研究的调查,重点关注检测 LAIM 生成的多媒体内容(如文本、图像、视频、音频和多模态内容)。具体而言,我们引入了一种新颖的检测方法分类法,按媒体模态进行分类,并与两个视角相一致:纯检测(旨在提高检测性能)和超越检测(为检测器添加可泛化性、鲁棒性和可解释性等属性)。此外,我们还简要介绍了生成机制、公共数据集和在线检测工具,为该领域的研究人员和实践者提供了宝贵的资源。此外,我们还识别了检测中的当前挑战,并提出了未开发、正在进行和新兴问题的未来研究方向。我们的目标是填补学术空白,为全球 AI 安全工作做出贡献,帮助确保数字领域信息的完整性。
4. 大语言模型新书出版
摘要:2022 年底,ChatGPT 震撼上线,大语言模型技术迅速席卷了整个社会,人工智能技术因此迎来了一次重要进展。面对大语言模型的强大性能,支撑这些模型的背后技术究竟是什么?这一问题无疑成为了众多科研人员的思考焦点。必须指出的是,大模型技术并不是一蹴而就,其发展历程中先后经历了统计语言模型、神经网络语言模型、预训练语言模型等多个发展阶段。OpenAI 公司在过去深入探索了与其相关的大量技术细节,并最终推出了 GPT 系列模型,引领了本次技术变革。然而,OpenAI 团队自 GPT-3 开始,就很少在公开的材料中提及相关技术细节。目前,学术界面临的重大挑战是真正有充足资源去充分探索大语言模型训练的团队少之又少。令人欣喜的是,无论是在学术界还是工业界,人们都逐渐认识到了'开放'的重要性。本书旨在为读者提供关于大模型技术的全面了解,包括其基础原理、关键技术和应用前景。
5. 大型语言模型数据集全面综述
摘要:本文着手探讨了大型语言模型(LLM)数据集,这些数据集在 LLM 的显著进步中扮演了关键角色。为了解决当前对 LLM 数据集的全面概述和彻底分析的缺乏,这篇综述整合并分类了 LLM 数据集的基本方面,从五个视角出发:(1)预训练语料库;(2)指令微调数据集;(3)偏好数据集;(4)评估数据集;(5)传统自然语言处理(NLP)数据集。该综述揭示了当前面临的挑战,并指出了未来调查的潜在途径。此外,还提供了现有可用数据集资源的全面回顾,包括来自 444 个数据集的统计数据,涵盖 8 种语言类别和 32 个领域。数据集统计信息中纳入了来自 20 个维度的信息。调查的总数据大小超过了 774.5TB 的预训练语料库和 700M 实例的其他数据集。
6. 大模型推理最新综述
摘要:推理,作为复杂问题解决的关键能力,在各种现实世界场景中扮演着核心角色,如谈判、医学诊断和刑事侦查。它是人工通用智能(AGI)领域的一种基本方法。随着基础模型的持续发展,例如大型语言模型(LLMs),人们越来越感兴趣于探索它们在推理任务中的能力。在这篇论文中,我们介绍了为推理提出或适应的开创性基础模型,突出了在各种推理任务、方法和基准测试方面的最新进展。接着,我们深入探讨了基础模型中推理能力出现的潜在未来方向。我们还讨论了多模态学习、自主代理和超级对齐在推理背景下的相关性。


