跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

7 篇必读的大模型前沿论文精选

综述由AI生成汇总了 7 篇大模型领域的前沿论文。内容涵盖 OpenAI 提升语言模型输出可读性的训练算法、VD3D 基于 Transformer 的视频扩散模型相机控制、语言模型不服从范围的扩大策略、Goldfish 长视频视觉 - 语言理解方法、微信 AI 团队的补丁级训练技术、LMMs-Eval 多模态模型评估框架以及 AgentPoison 针对智能体的红队攻击方法。这些研究涉及模型对齐、视频生成、长上下文处理、训练效率、评估基准及安全性等多个方向。

奶糖兔发布于 2025/2/7更新于 2026/5/2824 浏览
7 篇必读的大模型前沿论文精选

大模型日报|7 篇必读的大模型论文

1. OpenAI 最新研究:提高语言模型输出的可读性

提高大语言模型(LLM)输出结果可信度的方法之一,是为其提供清晰且易于检查的推理支持,即可读性。

来自 OpenAI 的研究团队在解决小学数学问题的背景下研究了可读性,结果表明,只为答案正确性而优化思维链解决方案会降低可读性。

为了减少可读性的损失,他们从 Prover-Verifier Game 中得到启发,提出了一种训练算法。这种算法通过迭代训练小型验证者来预测解的正确性,'乐于助人'(helpful)的证明者会给出验证者接受的正确解,而'卑鄙'(sneaky)的证明者会给出愚弄验证者的错误解。

他们发现,在训练过程中,'乐于助人'证明者的准确性和验证者对对抗性攻击的鲁棒性都会提高。此外,他们还证明,可读性训练可以转移到负责验证解决方案正确性的时间有限的人类身上。在 LLM 训练过程中,人类的准确性在检查'乐于助人'证明者的解决方案时会提高,而在检查'卑鄙'证明者的解决方案时会降低。

因此,通过小型验证者进行可验证性训练是提高输出可读性的可行技术。研究结果表明,针对小型验证者的可读性训练是提高 LLM 对人类可读性的实用途径,因此有助于超人模型的对齐。

2. VD3D:首个基于 transformer 的视频扩散模型相机控制

当前的文本到视频合成模型展示了从文本描述生成连贯、逼真的复杂视频的能力。然而,大多数现有模型缺乏对相机运动的细粒度控制,而这对于内容创作、视觉效果和 3D 视觉等下游应用至关重要。

最近,一些新方法展示了生成具有可控相机姿态的视频的能力——这些技术利用了预训练的基于 U-Net 的扩散模型。然而,对于基于 transformer 的新型视频扩散模型(可联合处理空间和时间信息),现有方法均无法实现摄像机控制。

为此,多伦多大学以及 Snap 研究团队提出使用一种类似 ControlNet 的调控机制来控制视频 transformer 进行 3D 相机控制,该机制结合了基于 Plucker 坐标的时空相机嵌入。在对 RealEstate10K 数据集进行微调后,该方法在可控视频生成方面达到了 SOTA。

这项工作首次实现了对基于 transformer 的视频扩散模型进行相机控制。

论文链接: https://arxiv.org/abs/2407.12781
项目地址: https://snap-research.github.io/vd3d/

3. 说'不'的艺术:语言模型不服从的范围应当扩大

聊天型语言模型的设计初衷是提供帮助,但它们不应对每个用户请求都予以服从。虽然大多数现有研究主要关注拒绝'不安全'的查询,但艾伦人工智能研究所的研究团队及其合作者认为,不服从的范围应当扩大。

他们介绍了一种全面的上下文不服从分类法,描述了模型在何时以及如何不应服从用户请求。该分类法涵盖了广泛的类别,包括不完整的、无支持的、不确定的以及人性化的请求(除了不安全的请求之外)。

为了测试语言模型的不服从能力,研究团队使用这一分类法开发了一个包含 1000 个不服从提示的新评估套件。研究团队发现,大多数现有模型在某些先前未充分研究的类别中表现出显著的高服从率,例如 GPT-4 错误地服从了多达 30% 的请求。

为了解决这些问题,研究团队探索了使用一个合成生成的请求和预期不服从响应训练集的不同训练策略。实验表明,尽管直接微调已指令微调的模型可能导致过度拒绝和整体能力的下降,使用诸如 LoRa(低秩适配器)等参数高效的方法有助于在适当不服从和其他能力之间取得良好的平衡。

论文链接: https://arxiv.org/abs/2407.12043
GitHub 地址: https://github.com/allenai/noncompliance

4. Goldfish:对任意长度视频的视觉 - 语言理解

大多数当前基于大语言模型(LLM)的视频理解模型能够处理数分钟内的视频。然而,由于'噪音和冗余'以及'内存和计算'限制等挑战,它们在处理长视频时遇到困难。

来自阿卜杜拉国王科技大学的研究团队及其合作者提出了 Goldfish,一种专门为理解任意长度视频而设计的方法。他们也提出了 TVQA-long 基准,专门用来评估模型在理解长视频时对视觉和文本内容问题的能力。Goldfish 通过一种高效的检索机制应对这些挑战,该机制首先收集与指令相关的 top-k 视频片段,然后再提供所需的响应。这个检索机制的设计使 Goldfish 能够高效地处理任意长的视频序列,从而在电影或电视剧等情境中应用。

为了促进检索过程,研究团队开发了 MiniGPT4-Video,它为视频片段生成详细描述。在长视频评估基准匮乏的情况下,他们通过汇总整集的问题将 TVQA 短视频基准改编为扩展内容分析,从而将评估从部分理解转向完整集理解。他们在 TVQA-long 基准上取得了 41.78% 的准确率,比之前的方法提高了 14.94%。研究团队的 MiniGPT4-Video 在短视频理解上也表现出色,分别在 MSVD、MSRVTT、TGIF 和 TVQA 短视频基准上超越现有最先进方法 3.23%、2.03%、16.5% 和 23.59%。这些结果表明该模型在长视频和短视频理解方面都有显著改进。

论文链接: https://arxiv.org/abs/2407.12679
项目地址: https://vision-cair.github.io/Goldfish_website/

5. 微信 AI 团队:大语言模型的补丁级训练

随着大语言模型(LLM)在语言理解和生成方面取得显著进展,其训练效率已成为一个关键问题。传统上,LLM 是通过预测序列中的下一个 token 来进行训练的。尽管 token 级训练取得了成功,但由于需要处理大量 token,导致计算成本相当高。

为了解决这个问题,腾讯研究团队推出了 LLM 的补丁级训练,通过将多个 token 压缩到一个补丁中来减少序列长度。在补丁级训练期间,研究团队为语言模型提供较短的补丁序列并训练它预测下一个补丁,从而在大大降低计算成本的情况下处理大部分训练数据。之后,模型会继续对剩余的训练数据进行 token 级训练,以与推理模式对齐。

在各种模型(参数从 370M 到 2.7B 不等)上的实验表明,与 token 级训练相比,补丁级训练可以将整体计算成本减少到 0.5 倍,而不会影响模型性能。

论文链接: https://arxiv.org/abs/2407.12665
GitHub 地址: https://github.com/shaochenze/PatchTrain

6. LMMs-Eval:对大型多模态模型评估的现实检验

大型基础模型的进步需要覆盖面广、成本低和零污染的基准测试。尽管对语言模型评估的探索不断进行,但对大型多模态模型(LMM)评估的全面研究仍然有限。

LMMs-Lab 团队以及新加坡南洋理工大学研究团队推出了 LMMs-EVAL,这是一个统一和标准化的多模态基准框架,涵盖了 50 多个任务和 10 多种模型,旨在促进透明和可重复的评估。

尽管 LMMs-EVAL 提供了全面覆盖,但研究团队发现它在实现低成本和零污染方面仍有不足。为了解决这一评估难题,研究团队进一步引入了 LMMs-EVAL LITE,这是一种精简的评估工具包,强调覆盖率和效率。此外,他们还提出了 Multimodal LIVEBENCH,它利用不断更新的新闻和在线论坛来评估模型在真实环境中的泛化能力,这是一种低成本和零污染的评估方法。

论文链接: https://arxiv.org/abs/2407.12772
GitHub 地址: https://github.com/EvolvingLMMs-Lab/lmms-eval

7. AgentPoison:通过'毒化'记忆或知识库对 LLM 智能体进行红队攻击

LLM 智能体在各种应用中表现出色,主要归功于其在推理、利用外部知识和工具、调用 API 以及执行操作与环境互动方面的高级能力。目前的智能体通常使用一个记忆模块或检索增强生成(RAG)机制,从知识库中检索具有相似嵌入的过去知识和实例,以指导任务规划和执行。然而,依赖未经验证的知识库引发了关于其安全性和可信度的重大担忧。

为揭示这些漏洞,芝加哥大学和伊利诺伊大学研究团队提出了一种新颖的红队攻击方法 AgentPoison,这是首个通过毒化长期记忆或 RAG 知识库来攻击通用和基于 RAG 的 LLM 智能体的后门攻击。特别地,研究团队将触发生成过程形式化为约束优化,通过将触发实例映射到唯一的嵌入空间来优化后门触发器,以确保每当用户指令包含优化的后门触发器时,会高概率地从被毒化的记忆或知识库中检索到恶意演示。同时,不含触发器的正常指令仍将保持正常性能。

与传统的后门攻击不同,AgentPoison 无需额外的模型训练或微调,且优化后的后门触发器表现出卓越的可转移性、上下文一致性和隐蔽性。广泛的实验表明,AgentPoison 在攻击三种现实世界的 LLM 智能体中效果显著:基于 RAG 的自动驾驶智能体、知识密集型问答智能体和医疗 EHRAgent。研究团队将毒化实例分别注入这些智能体的 RAG 知识库和长期记忆中,展示了 AgentPoison 的泛化能力。在每个智能体上,AgentPoison 在不影响正常性能(≤ 1%)的情况下,以 <0.1% 的毒化率达到了 ≥80% 的平均攻击成功率。

论文链接: https://arxiv.org/abs/2407.12784
GitHub 地址: https://github.com/BillChan226/AgentPoison

目录

  1. 1. OpenAI 最新研究:提高语言模型输出的可读性
  2. 2. VD3D:首个基于 transformer 的视频扩散模型相机控制
  3. 3. 说“不”的艺术:语言模型不服从的范围应当扩大
  4. 4. Goldfish:对任意长度视频的视觉 - 语言理解
  5. 5. 微信 AI 团队:大语言模型的补丁级训练
  6. 6. LMMs-Eval:对大型多模态模型评估的现实检验
  7. 7. AgentPoison:通过“毒化”记忆或知识库对 LLM 智能体进行红队攻击
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 2026 年主流 AI 辅助编程工具盘点与选型指南
  • GTE 中文向量模型技术解析、C-MTEB 表现及 WebUI 部署
  • Linux 新手入门:软件安装、Vim 操作与 GCC 编译基础工具链
  • STL map/multimap 深度剖析:接口使用与核心特性详解
  • ZQ-Platform:基于 Python FastAPI 与 Django 的开源企业级后台系统
  • Open-Lovable 远程访问配置:结合 cpolar 实现网页克隆工具跨设备使用
  • Shannon:全自主 AI 渗透测试工具解析
  • TikTok 数据抓取实战:基于 Python 的无认证方案
  • Taipy:基于 Python 的数据科学应用开发框架
  • Windows 本地部署 Fooocus 并通过内网穿透实现公网访问
  • Java 核心面试题与答案详解
  • 大模型周报:OpenAI GPT-Next 计划及多模态技术进展
  • openGauss 实战指南:gsql 命令、认证配置与运维工具详解
  • ComfyUI Photoshop 插件安装及工作流配置指南
  • MIT 室内场景识别数据集详解与 YOLOv8 训练实战
  • 深入解析 LRU 与 LFU 缓存算法原理及实现
  • MySQL 基本查询与增删改查实战指南
  • AR眼镜核心技术详解:硬件架构、核心算法、应用场景与发展趋势
  • C 语言顺序表原理与核心算法实战
  • 2024 年大模型 LLM 学习路径与技术概览

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online