跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

9 篇必读的大模型前沿论文

9 篇大模型领域的前沿论文涵盖了 GUI 智能体、视觉语言模型推理、工业级检索框架、人机协作战术、人类行为模拟、罕见病诊断、中风风险预测、气象无缝预报及智能体可观测性等研究方向。其中 Claude 3.5 Computer Use 展示了端到端桌面操作能力,LLaVA-o1 提升了视觉推理精度,KuaiFormer 重构了推荐系统检索范式,EyeDiff 利用扩散模型解决数据不平衡问题,FengWu-W2S 实现了长周期大气状况预测。这些成果体现了 AI 在自动化、多模态理解及垂直领域应用中的显著进步。

暖阳发布于 2025/2/7更新于 2026/6/1534 浏览
9 篇必读的大模型前沿论文

1. GUI 智能体的黎明:Computer Use 初步案例研究

最近发布的 Claude 3.5 Computer Use 模型是第一个以图形用户界面(GUI)智能体(agent)的形式提供 computer use 的公开测试版前沿人工智能模型。作为早期测试版,它在现实世界复杂环境中的能力仍是未知数。

在探索 Claude 3.5 Computer Use 的案例研究中,来自新加坡国立大学 Show Lab 的研究团队策划并组织了一系列精心设计的任务,涉及多个领域和软件。从这些案例中观察到的结果表明,Claude 3.5 Computer Use 在端到端语言到桌面操作方面具有强大的能力。在进行这项研究的同时,他们还提供了一个开箱即用的 agent 框架,可用于部署基于 API 的 GUI 自动化模型,且易于实施。

这一案例研究旨在通过详细分析展示 Claude 3.5 Computer Use 的基础能力和局限性,并提出有关规划、行动和批评的问题,这些都是未来改进时必须考虑的。

论文链接: https://arxiv.org/abs/2411.10323

GitHub 地址: https://github.com/showlab/computer_use_ootb

2. 清北团队推出 LLaVA-o1:让视觉语言模型逐步推理

正如 OpenAI 的 o1 等模型所展示的那样,大语言模型(LLM)在推理能力方面取得了长足进步,特别是通过推理时(inference-time)扩展。然而,当前的视觉语言模型(VLM)在执行系统化和结构化推理方面往往表现不佳,尤其是在处理复杂的视觉问答任务时。

在这项工作中,来自北京大学、清华大学的研究团队及其合作者,提出了用于进行自主多阶段推理的视觉语言模型——LLaVA-o1。与思维链提示不同,LLaVA-o1 可独立完成总结、视觉解读、逻辑推理和结论生成等连续阶段。这种结构化方法使 LLaVA-o1 在推理密集型任务中的精确度得到显著提高。

为实现这一目标,他们编译了 LLaVA-o1-100k 数据集,整合了来自各种视觉问答来源的样本,并提供了结构化推理注释。此外,他们还提出了一种推理时阶段级波束搜索方法,从而实现了有效的推理时扩展。值得注意的是,LLaVA-o1 仅用了 100k 个训练样本和一种简单有效的推理时扩展方法,不仅在广泛的多模态推理基准上比其基础模型高出 8.9%,而且还超过了更大闭源模型的性能,如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。

论文链接: https://arxiv.org/abs/2411.10440

3. 快手推出基于 Transformer 的检索框架 KuaiFormer

在大规模内容推荐系统中,检索是流程的初始阶段,负责从数十亿个选项中选出数千个候选项,然后传递给排名模块。传统上,主流的检索方法是使用深度神经网络(DNN)双塔结构的基于嵌入的检索(EBR)。然而,在检索任务中应用 Transformer 是近期研究的重点,尽管实际的工业部署仍面临重大挑战。

在这项工作中,快手团队提出了 KuaiFormer,这是一种基于 Transformer 的新型检索框架,部署在一个大型内容推荐系统中,其从根本上重新定义了检索过程,从传统的分数估算任务(如点击率估算)转向了 Transformer 驱动的'下一个动作预测'范式。这一转变实现了更有效的实时兴趣获取和多兴趣提取,显著提高了检索性能。

自 2024 年 5 月起,KuaiFormer 已成功集成到快手应用的短视频推荐系统中,为超过 4 亿日活跃用户提供服务,使快手用户的日均使用时长显著增加。他们深入探讨了在大规模推荐系统中部署 Transformer 的技术和业务层面,解决了工业化实施过程中遇到的实际挑战。

论文链接: https://arxiv.org/abs/2411.10057

4. 战术行动中 AI 驱动的人机协作:拟议框架、挑战和未来方向

人工智能(AI)技术,尤其是机器学习技术,正在通过增强人类决策能力迅速改变战术行动。霍华德大学的研究团队探讨了人工智能驱动的人类自治团队(HAT)这一变革方法,重点关注它如何增强人类在复杂环境中的决策能力。虽然信任和可解释性仍是重大挑战,但他们的探讨重点是人工智能驱动的 HAT 在改变战术行动方面的潜力。通过改善态势感知和支持更明智的决策,人工智能驱动的 HAT 可以提高此类行动的有效性和安全性。

为此,他们提出了一个综合框架,从而解决人工智能驱动的 HAT 的关键要素,包括信任和透明度、人类和人工智能之间的最佳功能分配、态势感知和伦理考虑。所提出的框架可作为该领域未来研究与发展的基础。通过识别和讨论该框架中的关键研究挑战和知识差距,他们的工作旨在指导人工智能驱动的 HAT 的发展,以优化战术行动。

他们强调开发可扩展且符合道德规范的人工智能驱动的 HAT 系统的重要性,该系统可确保无缝的人机协作、优先考虑道德因素、通过可解释的人工智能(XAI)技术提高模型的透明度,并有效管理人类操作员的认知负荷。

论文链接: https://arxiv.org/abs/2411.09788

5. 斯坦福新研究:模拟 1000 人的「访谈 agent」

人类行为模拟——跨领域复制人类行为的通用计算智能体(agent)——有望在政策制定和社会科学领域得到广泛应用。在这项工作中,来自斯坦福大学的研究团队及其合作者推出了一种新颖的 agent 架构,它可以模拟 1052 个真实个体的态度和行为——将大语言模型(LLM)应用于有关其生活的定性访谈,然后测量这些 agent 复制其所代表个体的态度和行为的效果。生成式 agent 复制参与者在一般社会调查中的回答的准确率为 85%,就像参与者在两周后复制自己的回答一样准确,而且在实验复制中预测人格特质和结果的表现也不相上下。

论文链接: https://arxiv.org/abs/2411.10109

6. EyeDiff:用文生图扩散模型改进罕见眼科疾病诊断

威胁视力的视网膜疾病发病率不断上升,给全球医疗保健系统带来了沉重负担。深度学习为自动疾病筛查提供了一种前景广阔的解决方案,但需要大量数据。收集和标注各种模态的大量眼科图像会遇到一些现实挑战,特别是对于罕见疾病。

在这项工作中,来自香港理工大学的研究团队提出了一种文本到图像模型 EyeDiff,该模型旨在根据自然语言提示生成多模态眼科图像,并评估其在诊断常见和罕见疾病方面的适用性。

EyeDiff 使用先进的潜在扩散模型在八个大型数据集上进行了训练,涵盖了 14 种眼科图像模态和 80 多种眼科疾病,并适用于十个多国外部数据集。生成的图像准确捕捉了基本病变特征,经客观指标和人类专家评估,与文本提示高度吻合。此外,整合生成的图像大大提高了检测少数类别和罕见眼病的准确性,在解决数据不平衡方面超越了传统的超采样方法。EyeDiff 有效应对了罕见疾病中常见的数据不平衡和不充分问题,解决了收集大规模标注图像的难题,为加强眼科领域专家级疾病诊断模型的开发提供了新的解决方案。

论文链接: https://arxiv.org/abs/2411.10004

7. 用 AI 预测中风风险,科学家提出自监督多模态框架

预测中风风险是一项复杂的挑战,可通过整合临床可用的各种数据模态来提高预测能力。

在这项工作中,来自苏黎世大学、洛桑联邦理工学院和哈佛医学院的研究团队提出了一种自监督多模态框架,该框架结合了三维脑成像、临床数据和图像衍生特征,从而改善发病前的中风风险预测。通过利用大型未标注临床数据集,该框架可捕捉图像和表格数据模式之间的互补和协同信息。这一方法以对比学习框架为基础,该框架将对比语言 - 图像预训练与图像 - 表格匹配模块相结合,以更好地在共享潜空间中调整多模态数据表示。

该模型在英国生物样本库(UK Biobank)上进行了训练,其中包括脑部核磁共振成像结构和临床数据。在不同的冷冻和可训练模型设置下,他们使用表格、图像和图像 - 表格组合对其性能与 SOTA 单模态和多模态方法进行了比较。所提出的模型在 ROC-AUC 方面比自监督表格(图像)方法高出 2.6% (2.6%),在平衡准确率方面高出 3.3% (5.6%)。此外,与 SOTA 多模态监督模型相比,它的均衡准确率提高了 7.6%。通过可解释的工具,这一方法更好地整合了表格和图像数据,提供了更丰富、更一致的嵌入。梯度加权类激活图谱热图进一步揭示了文献中常见的与大脑衰老、中风风险和临床结果相关的激活脑区。这种鲁棒的自监督多模态框架超越了 SOTA 中风风险预测方法,为未来整合多种数据模式以推进临床预测建模的研究奠定了坚实的基础。

论文链接: https://arxiv.org/abs/2411.09822

8. AI 准确预测未来 3-6 周大气状况,'风乌'模型上新

无缝预报是气象 - 气候服务的长期追求,这种预报只需一个系统就能生成连续时间尺度的预警信息。虽然深度学习的快速发展引发了经典预报领域的革命性变化,但目前的工作仍集中在为天气预报和气候预报分别建立人工智能模型。

为了探索基于一个人工智能(AI)模型的无缝预报能力,来自上海 AI Lab 和南京信息工程大学的研究团队提出了 FengWu-W2S,其建立在'风乌'全球气象预报模型的基础上,融合了海洋 - 大气 - 陆地耦合结构和多样化的扰动策略。FengWu-W2S 可以通过自回归和无缝方式生成长达 42 天的 6 小时大气预报。

后报结果表明,FengWu-W2S 可以可靠地预测未来 3-6 周的大气状况,从而增强了对全球地表气温、降水、位势高度和季节内信号的预测能力。此外,他们对从日到季节时间尺度的预报误差增长进行的消融实验,揭示了未来开发基于人工智能的无缝天气气候预报综合系统的潜在途径。

论文链接: https://arxiv.org/abs/2411.10191

9. AgentOps 分类:实现基于基础模型的智能体可观测性

大语言模型(LLM)推动了各种下游任务的增长,导致我们对人工智能自动化的需求增加,以及对开发基于基础模型(FM)的自主智能体的兴趣日渐浓厚。随着智能体(agent)系统处理更复杂的任务并不断发展,它们涉及更广泛的利益相关者,包括智能体用户、智能体系统开发者和部署者以及人工智能(AI)模型开发者。这些系统还集成了多个组件,如智能体工作流、RAG 管道、提示管理、智能体能力和可观测性功能。

在这种情况下,从这些智能体中获得可靠的输出和答案仍然具有挑战性,因此需要可靠的执行流程和端到端的可观测性解决方案。要构建可靠的智能体和 LLM 应用程序,必须转向设计 AgentOps 平台,以确保从开发到生产的整个生命周期中的可观察性和可追溯性。

为此,CSIRO's Data61 团队进行了快速审查,并从智能体生态系统中确定了相关的智能体运营工具。在此基础上,他们概述了 AgentOps 的基本特征,并提出了整个智能体生产生命周期中可观测数据/可追踪工件的综合概述。他们的研究结果系统地概述了当前的 AgentOps 状况,强调了可观测性/可追踪性在提高自主智能体系统可靠性方面的关键作用。

论文链接: https://arxiv.org/abs/2411.05285

目录

  1. 1. GUI 智能体的黎明:Computer Use 初步案例研究
  2. 2. 清北团队推出 LLaVA-o1:让视觉语言模型逐步推理
  3. 3. 快手推出基于 Transformer 的检索框架 KuaiFormer
  4. 4. 战术行动中 AI 驱动的人机协作:拟议框架、挑战和未来方向
  5. 5. 斯坦福新研究:模拟 1000 人的「访谈 agent」
  6. 6. EyeDiff:用文生图扩散模型改进罕见眼科疾病诊断
  7. 7. 用 AI 预测中风风险,科学家提出自监督多模态框架
  8. 8. AI 准确预测未来 3-6 周大气状况,“风乌”模型上新
  9. 9. AgentOps 分类:实现基于基础模型的智能体可观测性
  • 免费图片AI生成工具免费生成了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 免费图片视频在线生成30秒,将你的创意变成现实开始设计
  • X/Twitter免费视频下载器免登陆无限额度免费视频解析下载了解详情
  • 100+免费在线小游戏爽一把
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 深入理解 Agent:定义、构建模式与最佳实践
  • ChatGPT 降低毕业论文 AIGC 重复率方法指南
  • 建筑设计 AI 绘画提示词:从入门到精通的创作指南
  • Qwen-Image-2512 本地部署实战指南
  • 2026 Python 展望:AI 时代的核心基础设施语言
  • OpenClaw 免费 AI 大模型选型与配置指南
  • 使用 llama.cpp 部署本地 AI 模型遇到的问题与解决方案
  • Oracle 迁移 KingbaseES:SQL 语法快速兼容实战指南
  • Llama-3.2-3B 本地部署搭建 AI 写作助手
  • Sebastian Raschka 新书发布:从零开始构建大型语言模型
  • Python 新手必备的 5 个编程练习网站指南
  • RAG 入门教程:LangChain 框架 v0.2 介绍
  • 2024 年前端框架技术复盘与展望
  • 机器人产业编程机遇:头部厂商生态与开发者路径
  • C++ 进阶:从裸指针到智能指针的内存管理进化
  • LangChain 链式应用实战:多种 Chain 类型详解与案例
  • MySQL 分库分表实战:垂直与水平拆分策略及分片键选择
  • STL 体积计算器:3D 打印模型分析与质量估算工具
  • Coze 打造 AI 数字人视频生成智能体实战详解
  • Microsoft Edge WebView2 运行时安装与故障排查指南

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online