近期大模型研究速览：从GUI智能体到多模态预测

最近arXiv上又冒出一堆大模型相关的好玩研究，从GUI智能体到多模态推理，再到工业落地和医疗应用，覆盖面挺广。挑9篇聊聊。

GUI智能体初探：Claude 3.5 Computer Use案例研究

Claude 3.5的Computer Use模式终于放出公开测试版，这应该是头一个公开的前沿GUI智能体。新加坡国立大学Show Lab团队立刻动手，设计了一系列跨应用、跨领域任务，发现它端到端语言到桌面操作的能力不赖。他们还顺带开源了一个开箱即用的agent框架，方便大家部署基于API的GUI自动化。不过，测试也暴露出Planning和Critique环节比较薄弱，后续改进绕不开这些坑。

论文链接：https://arxiv.org/abs/2411.10323

GitHub地址：https://github.com/showlab/computer_use_ootb

LLaVA-o1：让视觉语言模型学会分阶段推理

视觉语言模型（VLM）的推理一直跟不上纯LLM的步伐，尤其在复杂视觉问答里，一步到位的CoT经常扑街。北大和清华的合作团队提出了LLaVA-o1，把推理拆成总结、视觉解释、逻辑推理和结论四个阶段，让模型自驱动完成。他们扒拉出一个LLaVA-o1-100k数据集，给各种VQA样本打上结构化推理标注。推理时还引入阶段级beam search，效果显著提升。只用了10万样本，LLaVA-o1就比基础模型高出8.9%，甚至超过Gemini-1.5-pro、GPT-4o-mini这些闭源大块头。简单有效的思路，值得跟。

论文链接：https://arxiv.org/abs/2411.10440

快手用Transformer重构推荐检索：KuaiFormer

大规模推荐系统的检索阶段，一直是双塔EBR的天下。Transformer进来搅局是趋势，但工业部署有大量现实难题。快手团队捣鼓出KuaiFormer，一个基于Transformer的检索框架，把检索从传统的CTR估算任务扭成'下一个动作预测'范式，能更实时地抓用户兴趣、抽取多兴趣。从今年5月起，它已在快手App的短视频推荐系统上线，服务4亿日活，人均使用时长明显上涨。论文详细讲了工程和业务上的决策点，对做推荐系统的同学很有参考价值。

论文链接：https://arxiv.org/abs/2411.10057

人机协作框架：AI驱动战术行动

AI在战术行动里辅助人类决策，听起来酷，但信任和可解释性是死穴。霍华德大学的研究者搞了一个人机自治团队（HAT）框架，把信任透明度、人机功能分配、态势感知和伦理考量都塞进去了。他们强调要用可解释AI（XAI）提高模型透明度，同时管好人类操作员的认知负荷。虽然还偏框架性，但对后续落地和伦理设计是个不错的起步。

论文链接：https://arxiv.org/abs/2411.09788

模拟1000人的访谈agent

想预测政策或社会变化？先模拟人类行为吧。斯坦福团队搞了个agent架构，给1052个真人做了定性访谈，然后用LLM再现他们的态度和行为。这些生成式agent在通用社会调查（GSS）上的回答复现准确率达到85%，和真人两周后重测的稳定性差不多；预测人格特质和实验结果也旗鼓相当。用较小成本拿到近似真实个体的行为数据，社会科学研究者大概会抢着用。

论文链接：https://arxiv.org/abs/2411.10109

EyeDiff：用文本生成眼底图解决罕见病数据荒

深度学习筛查视网膜疾病，数据不够是个大问题，尤其是罕见病。香港理工大学的团队搞了个EyeDiff，一套基于潜在扩散模型的文本到图像生成系统，在8个大数据集上训练，能搞定14种图像模态和80多种疾病。生成的图像专家瞅着靠谱，和文本提示高度吻合。更关键的是，把这些生成图像混入训练，能大幅提升小类罕见病的检测准确率，比传统过采样好使。解决数据不平衡的利器，医疗AI落地又近了一步。

论文链接：https://arxiv.org/abs/2411.10004

近期大模型研究速览：从GUI智能体到多模态预测

GUI智能体初探：Claude 3.5 Computer Use案例研究

LLaVA-o1：让视觉语言模型学会分阶段推理

快手用Transformer重构推荐检索：KuaiFormer

人机协作框架：AI驱动战术行动

模拟1000人的访谈agent

EyeDiff：用文本生成眼底图解决罕见病数据荒

更多推荐文章

相关免费在线工具

多模态自监督框架预测中风风险

'风乌'升级：无缝预报42天

AgentOps分类：给自主智能体加个可观测层

更多推荐文章

相关免费在线工具

近期大模型研究速览：从GUI智能体到多模态预测

GUI智能体初探：Claude 3.5 Computer Use案例研究

LLaVA-o1：让视觉语言模型学会分阶段推理

快手用Transformer重构推荐检索：KuaiFormer

人机协作框架：AI驱动战术行动

模拟1000人的访谈agent

EyeDiff：用文本生成眼底图解决罕见病数据荒

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

多模态自监督框架预测中风风险

'风乌'升级：无缝预报42天

AgentOps分类：给自主智能体加个可观测层

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具