最近arXiv上又冒出一堆大模型相关的好玩研究,从GUI智能体到多模态推理,再到工业落地和医疗应用,覆盖面挺广。挑9篇聊聊。
GUI智能体初探:Claude 3.5 Computer Use案例研究
Claude 3.5的Computer Use模式终于放出公开测试版,这应该是头一个公开的前沿GUI智能体。新加坡国立大学Show Lab团队立刻动手,设计了一系列跨应用、跨领域任务,发现它端到端语言到桌面操作的能力不赖。他们还顺带开源了一个开箱即用的agent框架,方便大家部署基于API的GUI自动化。不过,测试也暴露出Planning和Critique环节比较薄弱,后续改进绕不开这些坑。
论文链接:https://arxiv.org/abs/2411.10323
GitHub地址:https://github.com/showlab/computer_use_ootb
LLaVA-o1:让视觉语言模型学会分阶段推理
视觉语言模型(VLM)的推理一直跟不上纯LLM的步伐,尤其在复杂视觉问答里,一步到位的CoT经常扑街。北大和清华的合作团队提出了LLaVA-o1,把推理拆成总结、视觉解释、逻辑推理和结论四个阶段,让模型自驱动完成。他们扒拉出一个LLaVA-o1-100k数据集,给各种VQA样本打上结构化推理标注。推理时还引入阶段级beam search,效果显著提升。只用了10万样本,LLaVA-o1就比基础模型高出8.9%,甚至超过Gemini-1.5-pro、GPT-4o-mini这些闭源大块头。简单有效的思路,值得跟。
论文链接:https://arxiv.org/abs/2411.10440
快手用Transformer重构推荐检索:KuaiFormer
大规模推荐系统的检索阶段,一直是双塔EBR的天下。Transformer进来搅局是趋势,但工业部署有大量现实难题。快手团队捣鼓出KuaiFormer,一个基于Transformer的检索框架,把检索从传统的CTR估算任务扭成'下一个动作预测'范式,能更实时地抓用户兴趣、抽取多兴趣。从今年5月起,它已在快手App的短视频推荐系统上线,服务4亿日活,人均使用时长明显上涨。论文详细讲了工程和业务上的决策点,对做推荐系统的同学很有参考价值。
论文链接:https://arxiv.org/abs/2411.10057
人机协作框架:AI驱动战术行动
AI在战术行动里辅助人类决策,听起来酷,但信任和可解释性是死穴。霍华德大学的研究者搞了一个人机自治团队(HAT)框架,把信任透明度、人机功能分配、态势感知和伦理考量都塞进去了。他们强调要用可解释AI(XAI)提高模型透明度,同时管好人类操作员的认知负荷。虽然还偏框架性,但对后续落地和伦理设计是个不错的起步。
论文链接:https://arxiv.org/abs/2411.09788
模拟1000人的访谈agent
想预测政策或社会变化?先模拟人类行为吧。斯坦福团队搞了个agent架构,给1052个真人做了定性访谈,然后用LLM再现他们的态度和行为。这些生成式agent在通用社会调查(GSS)上的回答复现准确率达到85%,和真人两周后重测的稳定性差不多;预测人格特质和实验结果也旗鼓相当。用较小成本拿到近似真实个体的行为数据,社会科学研究者大概会抢着用。
论文链接:https://arxiv.org/abs/2411.10109
EyeDiff:用文本生成眼底图解决罕见病数据荒
深度学习筛查视网膜疾病,数据不够是个大问题,尤其是罕见病。香港理工大学的团队搞了个EyeDiff,一套基于潜在扩散模型的文本到图像生成系统,在8个大数据集上训练,能搞定14种图像模态和80多种疾病。生成的图像专家瞅着靠谱,和文本提示高度吻合。更关键的是,把这些生成图像混入训练,能大幅提升小类罕见病的检测准确率,比传统过采样好使。解决数据不平衡的利器,医疗AI落地又近了一步。


