1. 斯坦福推出大模型网络安全能力和风险评估框架 Cybench
用于网络安全的语言模型智能体(agent)能够自主识别漏洞并执行漏洞利用,有可能对现实世界造成影响。政策制定者、模型提供者以及人工智能(AI)和网络安全界的其他研究人员都对量化此智能体的能力感兴趣,从而帮助减轻网络风险并调查渗透测试的机会。
在这项工作中,来自斯坦福大学的研究团队推出了 Cybench,这是一个用于指定网络安全任务和评估智能体执行这些任务情况的框架。他们从 4 个不同的专业级夺旗(CTF)竞赛中选取了 40 个 CTF 任务,这些任务都是最新的、有意义的,而且难度跨度很大。每个任务都有自己的描述和启动文件,并在一个环境中初始化,在该环境中,智能体可以执行 bash 命令并观察输出结果。由于许多任务超出了现有智能体的能力范围,他们提出了子任务,将任务分解为中间步骤,以便进行更分级的评估;他们为 40 项任务中的 17 项添加了子任务。
为了评估智能体能力,他们构建了一个网络安全智能体,并对 7 个模型进行了评估:GPT-4o、Claude 3 Opus、Claude 3.5 Sonnet、Mixtral 8x22b Instruct、Gemini 1.5 Pro、Llama 3 70B Chat 和 Llama 3.1 405B Instruct。在没有指导的情况下,他们发现智能体只能完成最简单的完整任务,而人类团队需要长达 11 分钟才能完成这些任务,其中 Claude 3.5 Sonnet 和 GPT-4o 的成功率最高。最后,与无引导运行相比,子任务为衡量性能提供了更多信号,有子任务引导的模型在完整任务上的成功率比无子任务引导的高出 3.2%。
论文链接: https://arxiv.org/abs/2408.08926 项目网站: https://cybench.github.io/
2. LongVILA:长上下文视觉 - 语言模型全栈解决方案
长上下文能力对于多模态基础模型至关重要。在这项工作中,来自英伟达和麻省理工学院(MIT)提出了长上下文视觉 - 语言模型的全栈解决方案 LongVILA,包括系统、模型训练和数据集开发。
在系统方面,他们介绍了首个多模态序列并行(MM-SP)系统,该系统可实现长上下文训练和推理,在 256 个 GPU 上实现 200 万上下文长度的训练。MM-SP 的效率也很高,在纯文本设置下,它比 Ring-Style Sequence Parallelism 快 2.1 - 5.7 倍,比 Megatron-LM 快 1.1 - 1.4 倍。此外,它还能与 Hugging Face Transformers 无缝集成。
在模型训练方面,他们提出了包括对齐、预训练、上下文扩展和长 - 短联合监督微调在内的五阶段管道。
在数据集方面,他们构建了大规模视觉语言预训练数据集和长视频教学跟踪数据集,从而支持多阶段训练过程。
该全栈解决方案将 VILA 的可行帧数扩大了 128 倍(从 8 帧增加到 1024 帧),并将长视频字幕得分从 2.00 提高到 3.26(1.6 倍),在 1400 帧视频(274k 上下文长度)中实现了 99.5% 的准确率。随着视频帧数的增加,LongVILA-8B 在 VideoMME 基准测试中的长视频性能也得到了持续改善。
论文链接: https://arxiv.org/abs/2408.10188 GitHub 地址: https://github.com/NVlabs/VILA/blob/main/LongVILA.md
3. Agent Q:自主 AI 智能体的高级推理和学习
大语言模型(LLMs)在需要复杂推理的自然语言任务中表现出了非凡的能力,但将其应用于交互环境中的智能体(agent)、多步骤推理仍是一项艰巨的挑战。
传统的在静态数据集上进行监督预训练的方法无法实现自主智能体能力,而这种能力是在网络导航等动态环境中执行复杂决策所必需的。以往弥补这一差距的尝试—通过对专家论证进行监督微调—往往会受到复合误差和探索数据有限的影响,从而导致次优的政策结果。
为了克服这些挑战,来自 MultiOn 和斯坦福大学的研究团队提出了一个框架,它将蒙特卡洛树搜索(MCTS)与自批评机制相结合,并使用直接偏好优化(DPO)算法的离策略(off-policy)变体对智能体互动进行迭代微调。这一方法允许 LLM 智能体从成功和不成功的轨迹中有效地学习,从而提高它们在复杂的多步骤推理任务中的通用性。
他们在 WebShop 环境(模拟电子商务平台)中验证了这一方法,其性能始终优于行为克隆和强化微调基线,并在具备在线搜索功能时优于人类的平均性能。在真实世界的预订场景中,在一天的数据收集后,这一方法使 Llama-3 70B 模型的零样本成功率从 18.6% 提高到 81.7%(相对提高 340%),在线搜索成功率进一步提高到 95.4%。


