1. GUI 智能体的黎明:Computer Use 初步案例研究
最近发布的 Claude 3.5 Computer Use 模型是第一个以图形用户界面(GUI)智能体(agent)的形式提供 computer use 的公开测试版前沿人工智能模型。作为早期测试版,它在现实世界复杂环境中的能力仍是未知数。
在探索 Claude 3.5 Computer Use 的案例研究中,来自新加坡国立大学 Show Lab 的研究团队策划并组织了一系列精心设计的任务,涉及多个领域和软件。从这些案例中观察到的结果表明,Claude 3.5 Computer Use 在端到端语言到桌面操作方面具有强大的能力。在进行这项研究的同时,他们还提供了一个开箱即用的 agent 框架,可用于部署基于 API 的 GUI 自动化模型,且易于实施。
这一案例研究旨在通过详细分析展示 Claude 3.5 Computer Use 的基础能力和局限性,并提出有关规划、行动和批评的问题,这些都是未来改进时必须考虑的。
论文链接: https://arxiv.org/abs/2411.10323
GitHub 地址: https://github.com/showlab/computer_use_ootb
2. 清北团队推出 LLaVA-o1:让视觉语言模型逐步推理
正如 OpenAI 的 o1 等模型所展示的那样,大语言模型(LLM)在推理能力方面取得了长足进步,特别是通过推理时(inference-time)扩展。然而,当前的视觉语言模型(VLM)在执行系统化和结构化推理方面往往表现不佳,尤其是在处理复杂的视觉问答任务时。
在这项工作中,来自北京大学、清华大学的研究团队及其合作者,提出了用于进行自主多阶段推理的视觉语言模型——LLaVA-o1。与思维链提示不同,LLaVA-o1 可独立完成总结、视觉解读、逻辑推理和结论生成等连续阶段。这种结构化方法使 LLaVA-o1 在推理密集型任务中的精确度得到显著提高。
为实现这一目标,他们编译了 LLaVA-o1-100k 数据集,整合了来自各种视觉问答来源的样本,并提供了结构化推理注释。此外,他们还提出了一种推理时阶段级波束搜索方法,从而实现了有效的推理时扩展。值得注意的是,LLaVA-o1 仅用了 100k 个训练样本和一种简单有效的推理时扩展方法,不仅在广泛的多模态推理基准上比其基础模型高出 8.9%,而且还超过了更大闭源模型的性能,如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。
论文链接: https://arxiv.org/abs/2411.10440
3. 快手推出基于 Transformer 的检索框架 KuaiFormer
在大规模内容推荐系统中,检索是流程的初始阶段,负责从数十亿个选项中选出数千个候选项,然后传递给排名模块。传统上,主流的检索方法是使用深度神经网络(DNN)双塔结构的基于嵌入的检索(EBR)。然而,在检索任务中应用 Transformer 是近期研究的重点,尽管实际的工业部署仍面临重大挑战。
在这项工作中,快手团队提出了 KuaiFormer,这是一种基于 Transformer 的新型检索框架,部署在一个大型内容推荐系统中,其从根本上重新定义了检索过程,从传统的分数估算任务(如点击率估算)转向了 Transformer 驱动的'下一个动作预测'范式。这一转变实现了更有效的实时兴趣获取和多兴趣提取,显著提高了检索性能。
自 2024 年 5 月起,KuaiFormer 已成功集成到快手应用的短视频推荐系统中,为超过 4 亿日活跃用户提供服务,使快手用户的日均使用时长显著增加。他们深入探讨了在大规模推荐系统中部署 Transformer 的技术和业务层面,解决了工业化实施过程中遇到的实际挑战。
论文链接: https://arxiv.org/abs/2411.10057
4. 战术行动中 AI 驱动的人机协作:拟议框架、挑战和未来方向
人工智能(AI)技术,尤其是机器学习技术,正在通过增强人类决策能力迅速改变战术行动。霍华德大学的研究团队探讨了人工智能驱动的人类自治团队(HAT)这一变革方法,重点关注它如何增强人类在复杂环境中的决策能力。虽然信任和可解释性仍是重大挑战,但他们的探讨重点是人工智能驱动的 HAT 在改变战术行动方面的潜力。通过改善态势感知和支持更明智的决策,人工智能驱动的 HAT 可以提高此类行动的有效性和安全性。
为此,他们提出了一个综合框架,从而解决人工智能驱动的 HAT 的关键要素,包括信任和透明度、人类和人工智能之间的最佳功能分配、态势感知和伦理考虑。所提出的框架可作为该领域未来研究与发展的基础。通过识别和讨论该框架中的关键研究挑战和知识差距,他们的工作旨在指导人工智能驱动的 HAT 的发展,以优化战术行动。


