9 篇大模型领域前沿论文精选

综述由AI生成9 篇大模型领域前沿论文涵盖了视觉语言导航、智能体架构、Scaling law、多语言模型、高效多模态模型、联邦学习、文本到视频生成、人机交互安全评估及视觉提示注入防御等主题。研究来自中山大学、斯坦福大学、剑桥大学等机构，涉及推理链、记忆图、平滑技术及对抗性攻击防御等关键技术点，为大模型技术发展提供重要参考。

片刻发布于 2025/2/7更新于 2026/6/221 浏览

1. MC-GPT：利用记忆图和推理链增强视觉和语言导航能力

在视觉语言导航（VLN）任务中，智能体（agent）需要根据自然语言指令导航到目的地。虽然基于学习的方法一直是该任务的主要解决方案，但它们存在训练成本高和缺乏可解释性的问题。最近，大型语言模型（LLM）因其强大的泛化能力而成为 VLN 的一种有前途的工具。然而，现有的基于 LLM 的方法在记忆构建和导航策略多样性方面存在局限性。

为了应对这些挑战，来自中山大学的研究团队提出了一系列新技术。首先，他们提出了一种维护拓扑图的方法，拓扑图存储导航历史，保留视点、对象及其空间关系的信息。该地图还可用作全局行动空间。此外，他们还提出了导航思维链模块，利用人类导航实例来丰富导航策略的多样性。最后，他们建立了一个管道，将导航记忆和策略与感知和行动预测模块整合在一起。在 REVERIE 和 R2R 数据集上的实验结果表明，这一方法有效增强了 LLM 的导航能力，提高了导航推理的可解释性。

论文链接：https://arxiv.org/abs/2405.10620

2. 综述：基于基础模型的智能体的架构设计

由基础模型支持的生成式人工智能促进了代理的开发和实施，代理可以利用杰出的推理和语言处理能力，发挥主动、自主的作用，追求用户的目标。然而，目前还缺乏系统的知识来指导从业人员在设计代理时考虑目标追求（包括生成工具性目标和计划）所面临的挑战，如基础模型固有的幻觉、推理过程的可解释性、复杂的责任等。

为了解决这个问题，来自澳大利亚联邦科学与工业研究组织（CSIRO）的研究团队进行了系统的文献综述，从而了解最先进的基于基础模型的智能体和更广泛的生态系统。在该论文中，他们提出了一个由 16 个架构模式组成的模式目录。建议的目录可为有效使用模式提供整体指导，并通过促进目标搜索和计划生成来支持基于基础模型的智能体的架构设计。

论文链接：https://arxiv.org/abs/2405.10467

3. 斯坦福大学、多伦多大学提出可观测 Scaling law

了解语言模型的性能如何随规模变化对基准和算法开发至关重要。Scaling law 是建立这种理解的一种方法，但由于需要在许多不同尺度上对模型进行训练，因此限制了其使用。

来自斯坦福大学、多伦多大学的研究团队提出了另外一种观察方法，即绕过模型训练，从约 80 个公开可用的模型中建立 Scaling law。由于多个模型系列在训练计算效率和能力方面存在巨大差异，因此从这些模型系列中建立单一的 Scaling law 具有挑战性。然而，他们的研究表明，这些差异与简单的广义 Scaling law 是一致的，即语言模型的性能是低维能力空间的函数，而模型族仅在将训练计算转换为能力的效率上存在差异。

利用这种方法，他们展示了复杂的 Scaling 现象令人惊讶的可预测性：展示了几种新出现的现象遵循平滑的 S 型增长模式，并且可以从小型模型中预测；展示了 GPT-4 等模型的智能体性能可以从更简单的非智能体基准中精确预测；还展示了随着语言模型能力的不断提高，如何预测思维链和自我一致性（Self-Consistency）等训练后干预措施的影响。

论文链接：https://arxiv.org/abs/2405.10938

4. 综述：多语言大模型的最新进展与前沿展望

大型语言模型（LLMs）的快速发展展示了自然语言处理领域卓越的多语言能力，吸引了全球学术界和产业界的关注。为了减少潜在的歧视，提高不同语言用户群体的整体可用性和可访问性，开发语言公平技术非常重要。尽管 LLM 取得了突破性进展，但对多语言应用场景的研究仍显不足，因此需要进行全面调查，总结最新方法、发展、局限性和潜在解决方案。

为此，来自北京交通大学、蒙特利尔大学和清华大学的研究团队，从多个角度对多语种场景中的 LLMs 使用情况进行了调查。首先，他们重新思考了以往和当前关于预训练语言模型的研究之间的过渡。然后，他们从多个角度介绍了 LLM 的多语言性，包括训练和推理方法、模型安全性、多领域语言文化以及数据集的使用。他们还讨论了在这些方面出现的主要挑战以及可能的解决方案。此外，他们还强调了未来的研究方向，从而进一步加强多语言 LLM。该综述旨在帮助研究界解决多语言问题，全面了解基于 LLM 的多语言自然语言处理的核心概念、关键技术和最新进展。

论文链接：https://arxiv.org/abs/2405.10936

5. 综述：高效多模态大型语言模型

在过去的一年里，多模态大语言模型（MLLMs）在视觉问题解答、视觉理解和推理等任务中表现出了卓越的性能。然而，庞大的模型规模以及高昂的训练和推理成本阻碍了 MLLM 在学术界和工业界的广泛应用。因此，研究高效、轻量级的 MLLM 具有巨大的潜力，尤其是在边缘计算场景中。

在这项工作中，来自腾讯、上海交通大学、北京智源人工智能研究院和华东师范大学的研究团队，对高效 MLLM 的现状进行了全面系统的回顾。具体来说，他们总结了具有代表性的高效 MLLM 的时间轴、高效结构和策略的研究现状以及应用。最后，他们讨论了当前高效 MLLM 研究的局限性以及未来的发展方向。

9 篇大模型领域前沿论文精选

片刻发布于 2025/2/7更新于 2026/6/221 浏览

9 篇大模型领域前沿论文精选

1. MC-GPT：利用记忆图和推理链增强视觉和语言导航能力

2. 综述：基于基础模型的智能体的架构设计

3. 斯坦福大学、多伦多大学提出可观测 Scaling law

4. 综述：多语言大模型的最新进展与前沿展望

5. 综述：高效多模态大型语言模型

9 篇大模型领域前沿论文精选

1. MC-GPT：利用记忆图和推理链增强视觉和语言导航能力

2. 综述：基于基础模型的智能体的架构设计

3. 斯坦福大学、多伦多大学提出可观测 Scaling law

4. 综述：多语言大模型的最新进展与前沿展望

5. 综述：高效多模态大型语言模型

更多推荐文章

相关免费在线工具

6. 剑桥大学新研究：大模型预训练要靠'联邦学习'

7. 我们从 Sora 那里看到了什么？文本到视频生成调查

8. 超越静态 AI 评测：针对 LLM 危害和风险的人机交互评估

9. SmoothVLM：保护视觉 - 语言模型免受补丁视觉提示注入攻击

更多推荐文章

相关免费在线工具

9 篇大模型领域前沿论文精选

1. MC-GPT：利用记忆图和推理链增强视觉和语言导航能力

2. 综述：基于基础模型的智能体的架构设计

3. 斯坦福大学、多伦多大学提出可观测 Scaling law

4. 综述：多语言大模型的最新进展与前沿展望

5. 综述：高效多模态大型语言模型

9 篇大模型领域前沿论文精选

1. MC-GPT：利用记忆图和推理链增强视觉和语言导航能力

2. 综述：基于基础模型的智能体的架构设计

3. 斯坦福大学、多伦多大学提出可观测 Scaling law

4. 综述：多语言大模型的最新进展与前沿展望

5. 综述：高效多模态大型语言模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

6. 剑桥大学新研究：大模型预训练要靠'联邦学习'

7. 我们从 Sora 那里看到了什么？文本到视频生成调查

8. 超越静态 AI 评测：针对 LLM 危害和风险的人机交互评估

9. SmoothVLM：保护视觉 - 语言模型免受补丁视觉提示注入攻击

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具