跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

9 篇大模型领域最新论文精选

综述由AI生成汇总了 9 篇大模型领域最新研究论文,涵盖大型多模态智能体综述、心智理论基准测试 ToMBench、脑机接口 BAI、端侧优化 MobileLLM、视觉语言模型幻觉抑制、主动少样本微调、推理效率提升策略、小学数学小模型潜力挖掘以及文生图数据集创建方法 Gen4Gen。内容涉及模型架构、评估基准、应用场景及训练技巧,为研究人员提供前沿技术参考。

CoderByte发布于 2025/2/7更新于 2026/5/3022 浏览
9 篇大模型领域最新论文精选

1.最新综述:大型多模态智能体

大型语言模型(LLMs)在为基于文本的人工智能(AI)智能体提供动力方面展示了卓越的性能,使其具备了与人类类似的决策和推理能力。新兴的研究趋势集中在将这些由 LLM 驱动的 AI 智能体扩展到多模态领域。这种扩展使 AI 智能体能够解释和响应多样化的多模态用户查询,从而处理更加复杂和细微的任务。

来自香港中文大学(深圳)、深圳市大数据研究院和中山大学的研究团队对 LLM 驱动的多模态智能体,即大型多模态智能体(LMAs)进行了系统回顾。研究团队首先介绍了开发 LMAs 所涉及的基本要素,并将当前的研究分为四种不同类型。随后回顾了整合多个 LMAs 的协作框架,以增强集体效能。该领域的关键挑战之一是现有研究中使用的评估方法多种多样,阻碍了不同 LMAs 之间的有效比较。因此,研究团队对这些评估方法进行了汇编,并建立了一个综合框架来缩小这些差距。该框架用于使评估标准化以便进行更有意义的比较。最后,研究团队强调了 LMAs 的广泛应用,并提出了未来可能的研究方向。该项研究旨在为这一快速发展领域的未来研究提供有价值的见解和指导。

论文链接: https://arxiv.org/abs/2402.15116 项目地址: https://github.com/jun0wanan/awesome-large-multimodal-agents

2.ToMBench:清华团队领衔提出大模型心智理论基准测试

Theory of Mind(ToM)是一种能够感知并将心理状态归因于自己和他人的认知能力。最近的研究引发了一场关于大型语言模型(LLMs)是否表现出一种 ToM 形式的争论。然而,现有的 ToM 评估受到范围限制、主观判断和意外污染等挑战的阻碍,导致评估不充分。

为此,来自清华大学的研究团队及其合作者推出了 ToMBench,它具有三个关键特征:一个涵盖社会认知领域 8 项任务和 31 种能力的系统性评估框架;一种支持自动和无偏见评估的多选题格式;以及一个严格避免数据泄露的自建双语清单。

研究团队在 ToMBench 上进行了大量实验,评估了 10 种常用 LLMs 在不同任务和能力下的 ToM 性能。实验表明,即使是像 GPT-4 这样最先进的 LLM,也比人类的表现落后 10% 以上,这表明 LLM 还没有达到人类水平的 ToM。ToMBench 用于高效评估大型语言模型的 ToM 能力,从而促进具有内在社会智能的 LLMs 的开发。

论文链接: https://arxiv.org/abs/2402.15052

3.全新脑机接口 BAI:对话式大脑 - 人工智能接口

来自维也纳大学的研究团队提出了大脑 - 人工智能接口(Brain-Artificial Intelligence Interfaces,BAIs)作为一类新的脑机接口(Brain-Computer Interfaces,BCIs)。与依赖完整认知能力的传统 BCIs 不同,BAIs 利用人工智能(AI)的力量取代了部分神经认知处理流程。BAIs 允许用户通过提供高级意图来完成复杂任务,而预先训练好的 AI 智能体确定低级细节。这种方法将 BCIs 的目标受众扩大到了有认知障碍的人,而这些人往往被排除在传统 BCIs 的受益范围之外。

研究团队提出了 BAIs 的通用概念,并通过一个基于 EEG 的对话式 BAI 展示了这种新方法的潜力。在一项模拟电话交谈的实验中表明,对话式 BAI 无需生成语言即可进行复杂的交流。该项研究首次展示了语音神经假体在现实场景中利用非侵入式技术实现流畅交流的能力。

论文链接: https://arxiv.org/abs/2402.15011

4.MobileLLM:针对端侧使用案例优化次十亿参数语言模型

由于云计算成本和延迟问题日益突出,移动设备对高效大型语言模型(LLMs)的需求与日俱增。来自 Meta 公司和 PyTorch 的研究团队专注于设计参数少于十亿的高质量 LLMs,这是移动部署的实用选择。

与强调数据量和参数数量在决定模型质量中起决定性作用的普遍观点相反,该项研究强调了模型架构对十亿以下规模 LLMs 的重要性。利用深层和薄层架构,结合嵌入共享和分组查询关注机制,研究团队建立了一个强大的基线网络——MobileLLM,与之前的 125M/350M 最先进模型相比,准确率显著提高了 2.7%/4.3%。

研究团队还提出了一种即时的分块权重共享方法,不增加模型大小,仅会产生少量延迟开销。由此产生的模型被称为 MobileLLM-LS,与 MobileLLM 125M/350M 相比,精度进一步提高了 0.7%/0.8%。

此外,MobileLLM 模型系列在聊天基准测试中与之前的十亿以下规模模型相比有了显著提高,在 API 调用任务中与 LLaMA-v2 7B 的正确性接近,凸显了小型模型在常见设备使用案例中的能力。

论文链接: https://arxiv.org/abs/2402.14905

5.眼见为实:通过 CLIP 引导解码减少大型视觉语言模型中的幻觉

大型视觉语言模型(LVLMs)容易出现对象幻觉问题,即生成的文本包含不存在的对象,这大大限制了其可靠性和实用性。目前的方法通常依赖于模型的 token likelihoods 或其他内部信息、在额外的数据集上进行指令微调或结合复杂的外部工具。

来自新加坡国立大学的研究团队对句子级 LVLM 幻觉进行了实证分析,发现与 token likelihoods 相比,CLIP 与图像的相似度是更强更鲁棒的幻觉指标。受此启发,研究团队提出了一种简单而有效的免训练方法 CLIP-Guided Decoding(CGD),可在解码时减少对象幻觉。CGD 使用 CLIP 来指导模型的解码过程,通过图像来增强生成文本的视觉基础。实验证明,在多个 LVLM 系列中,CGD 都能有效减少对象幻觉,同时保持文本生成的实用性。

论文链接: https://arxiv.org/abs/2402.15300

6.主动少样本微调(Active Few-Shot Fine-Tuning)

来自苏黎世联邦理工学院的研究团队针对下游任务对大型神经网络进行主动少样本微调的问题,提出了一种通过自适应采样来最大化获得指定下游任务信息的方法——ITL(information-based transductive learning)。

在一般规律性假设下,研究团队证明 ITL 可以一致收敛到从可访问数据中获得的最小不确定性。据其所知,该项研究首次推导出这种广义界限,它们可能对主动学习具有独立的意义。研究团队将 ITL 应用于大型神经网络的少样本微调,结果表明 ITL 比现有最先进的方法有了很大改进。

论文链接: https://arxiv.org/abs/2402.15441

7.苹果新研究:提高大模型推理效率

最近的研究表明,如果鼓励大型语言模型(LLMs)先解决主要任务的子任务,它们就能更好地解决推理任务。来自密西根大学和苹果公司的研究团队设计了一种类似的策略,将推理任务分解为问题分解阶段和问题解决阶段,并证明该策略优于单阶段解决方案。

研究团队假设,相比于问题解决,问题分解应该更容易提炼成较小的模型,因为前者需要大量的领域知识,而后者只需要学习一般的问题解决策略。研究团队提出了提炼这两种能力的方法并评估了它们对推理结果和推理成本的影响。研究表明,可以在提炼问题分解阶段的同时在不同任务、数据集和模型之间实现良好的泛化。但是,要在不损失性能的情况下提炼问题解决能力则比较困难,而且提炼出的模型在泛化方面也很吃力。

研究表明,通过将较小的、经过提炼的问题分解模型与问题解决 LLMs 结合使用,可以通过具有成本效益的推理和局部适应来实现推理。

论文链接: https://arxiv.org/abs/2402.15000

8.微软研究院:在小学数学中挖掘小模型潜力

对于小型语言模型(SLMs)来说,解决数学词语问题一直被认为是一项复杂的任务。最近的一项研究假设,要在 GSM8K 基准上达到 80% 以上的准确率,最小的模型大小需要 340 亿个参数。

为了使较小的模型达到这样的性能水平,研究人员通常会训练 SLMs 生成 Python 代码或使用工具帮助避免计算错误。此外,他们还采用集合方法,将多达 100 个模型运行的输出结果进行组合来得出更准确的结果。结果选择采用共识、多数投票或与 SLM 结合使用的单独验证模型。集合方法可大幅提高准确度,但由于需要多次调用模型,成本大幅增加(例如,Phi-GSM 使用 top-48 将性能从 68.2 提高到 81.5)。

来自微软公司的研究团队提出了一个基于 Mistral-7B 的 70 亿参数 SLM——Orca-Math,无需多次调用模型,也无需使用验证器、代码执行或任何其他外部工具,在 GSM8k 上实现了 86.81% 的准确率。

该方法主要包括两个关键步骤:首先,使用多智能体设置创建一个包含 20 万个数学问题的高质量合成数据集,智能体之间合作生成数据;其次,采用迭代学习技术,使 SLM 能够练习解决问题,接收关于其解决方案的反馈,并从包含 SLM 解决方案和反馈的偏好对中学习。仅使用监督微调技术进行训练时,Orca-Math 在 GSM8k 的 指标上的得分率为 81.50%。通过迭代偏好学习,Orca-Math 实现了 86.81% 的 pass@1。

Orca-Math 的性能显著超过了如 LLAMA-2-70B、WizardMath-70B、Gemini-Pro 和 ChatGPT-3.5 等更大型的模型。在使用更少数据(数十万个问题与数百万个问题)的情况下,它的性能也明显优于其他较小的模型。

论文链接: https://arxiv.org/abs/2402.14830

9.Gen4Gen: 创建评估文生图模型数据集新方法

最近的文生图扩散模型只需通过几个例子的训练,就能学习和合成包含新颖、个性化概念(如自己的宠物或特定物品)的图像。在文生图扩散模型个性化领域中,首先,当前的个性化技术无法可靠地扩展到多个概念——我们假设这是由于预训练数据集(如 LAION)中复杂场景和简单文本描述之间的不匹配造成的。其次,对于包含多个个性化概念的图像,缺乏一个整体的衡量标准来评估个性化概念的相似程度、图像中是否存在所有概念,以及图像是否准确反映了整体文本描述。

为了解决这些问题,来自加州大学戴维斯分校的研究团队及其合作者提出了一个半自动数据集创建流程——Gen4Gen,它利用生成模型将个性化概念与文本描述结合成复杂的组合。借此,研究团队创建了一个名为 MyCanvas 的数据集,该数据集可用于多概念个性化任务的基准测试。此外,研究团队还设计了一个由两个分数(CP-CLIP 和 TI-CLIP)组成的综合指标,用于更好地量化多概念、个性化文生图扩散方法的性能。

该项研究提供了一个基于 Custom Diffusion 的简单基准,其中包含经验性提示策略,供未来的研究人员在 MyCanvas 上进行评估。研究表明,通过改进数据质量和提示策略,无需对模型架构或训练算法进行任何修改即可显著提高多概念个性化图像生成的质量。

论文链接: https://arxiv.org/abs/2402.15504

目录

  1. 1.最新综述:大型多模态智能体
  2. 2.ToMBench:清华团队领衔提出大模型心智理论基准测试
  3. 3.全新脑机接口 BAI:对话式大脑 - 人工智能接口
  4. 4.MobileLLM:针对端侧使用案例优化次十亿参数语言模型
  5. 5.眼见为实:通过 CLIP 引导解码减少大型视觉语言模型中的幻觉
  6. 6.主动少样本微调(Active Few-Shot Fine-Tuning)
  7. 7.苹果新研究:提高大模型推理效率
  8. 8.微软研究院:在小学数学中挖掘小模型潜力
  9. 9.Gen4Gen: 创建评估文生图模型数据集新方法
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 基于 HarmonyOS 6 的共享终端全链路隐私保护实战
  • AIGC 时代:如何利用 DeepSeek 辅助少儿编程教育
  • Linux 进程间通信之命名管道(FIFO)详解
  • Sam Altman 深度访谈:GPT-5、Sora 与 Q 项目展望及 AGI 发展路径
  • 普通工程师如何在笔记本上运行大模型:BioMedGPT-7B 入门教程
  • 本地免费部署 Llama 3.1 大模型详细教程
  • Docker Compose 安装 OpenClaw 并接入飞书应用
  • 构建与 GitHub 深度集成的自动化工作流:AI 辅助开发实战指南
  • 安路科技 TD 开发工具全流程使用指南
  • TRAE 接入方舟 Coding Plan 配置教程
  • OpenClaw/MaxClaw/KimiClaw/Molili 四大 AI Agent 横向评测
  • 前端三年职业复盘:理想与现实的碰撞
  • Whisper-large-v3 实战:金融场景定制术语词表提升财报识别准确率
  • AI 生成前端代码:软件原型自动化设计流程
  • AMD 显卡运行 ComfyUI-Zluda 配置与优化指南
  • Flink Batch Shuffle 模式选择与 Hash/Sort 调优实战指南
  • OpenClaw、OpenAkita、MiniMax Agent 与 Kimi Claw 个人 AI 助手对比
  • Git 版本控制系统入门与核心命令
  • Google AI Studio 使用指南与 Gemini 开发集成
  • 在排序数组中查找元素的第一个和最后一个位置(二分查找)

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online