1. OpenAI 最新论文:如何让大模型免受恶意攻击?
当前的大型语言模型(LLM)容易受到提示注入、越狱攻击和其他攻击的影响,这些攻击允许攻击者用他们自己的恶意提示覆盖模型的原始指令。
OpenAI 研究团队认为,这些攻击的主要漏洞之一是 LLMs 经常将系统提示(比如来自应用程序开发人员的文本)与来自不可信用户和第三方的文本视为相同的优先级。为此,他们提出了一种指令层次(instruction hierarchy)结构,明确定义了当不同优先级的指令冲突时模型应该如何选择。然后,他们提出了一种数据生成方法来演示这种分层指令跟随的行为,该方法指导 LLMs 有选择地忽略低特权指令。
他们将这种方法应用于 GPT-3.5,结果表明它大大提高了模型的鲁棒性——即使对于在训练过程中未见过的攻击类型也是如此,同时对标准能力的影响降到最低。
论文链接: https://arxiv.org/abs/2404.13208
2. 微软发布 Phi-3 技术报告:手机上的高功能语言模型
微软发布了 Phi-3 系列模型,包括 phi-3-mini、phi-3-small 和 phi-3-medium。
其中,phi-3-mini 是一个基于 3.3 万亿个 token 训练的 38 亿参数语言模型,根据学术基准和内部测试结果,其总体性能可与 Mixtral 8x7B 和 GPT-3.5 等模型相媲美(例如,phi-3-mini 在 MMLU 上的得分率为 69%,在 MT-bench 上的得分率为 8.38),而且体积很小,可以部署在手机上。
微软团队表示,Phi-3 系列模型的创新点在于他们的训练数据集,它是 phi-2 所用数据集的放大版,由经过大量过滤的网络数据和合成数据组成。他们还进一步调整了模型的鲁棒性、安全性和聊天格式。
此外,他们还提供了一些初步的参数缩放结果,包括针对 4.8T token 训练的 7B 和 14B 模型,即 phi-3-small 和 phi-3-medium,这两个模型的能力都明显高于 phi-3-mini(例如,在 MMLU 上分别为 75% 和 78%,在 MT-bench 上分别为 8.7 和 8.9)。
论文链接: https://arxiv.org/abs/2404.14219
3.Google DeepMind:先进人工智能模型的整体安全与责任评估
先进人工智能模型(AI)的安全性和责任评估是一个关键但尚在发展中的研究和实践领域。
在 Google DeepMind 开发高级 AI 模型的过程中,他们创新并应用了一系列安全评估方法。他们总结并分享了他们不断发展的方法以及供广大受众参考的经验教训,其中包括:首先,理论基础和框架对于组织风险领域、模式、形式、指标和目标的重要性是非常宝贵的;其次,安全评估发展的理论和实践都能从合作中受益,从而明确目标、方法和挑战,并促进不同利益相关者和学科之间的见解交流;第三,类似的关键方法、教训和机构适用于责任和安全方面的各种问题 —— 包括既有的和新出现的危害。
因此,从事安全评估和安全研究的广泛参与者必须共同努力,开发、完善和实施新的评估方法和最佳实践。报告最后概述了快速推进评估科学、将新的评估纳入 AI 的开发和治理、建立科学依据的规范和标准,以及促进强大的评估生态系统的明确需求。
论文链接: https://arxiv.org/abs/2404.14068
4.MIT CSAIL 推出多模态自动可解释性智能体 MAIA
MIT 计算机科学与人工智能实验室团队提出了一个多模态自动可解释性智能体——MAIA。
MAIA 是一个使用神经模型来自动完成神经模型理解任务(比如特征解释和故障模式发现)的系统。它为预训练的视觉语言模型配备了一系列工具,从而支持对其他模型的子组件进行迭代实验,从而解释其行为。这些工具包括人类研究人员常用的工具:合成和编辑输入,计算来自真实世界数据集的最大激活示例,以及总结和描述实验结果。MAIA 提出的可解释性实验将这些工具组合在一起,用于描述和解释系统行为。
他们评估了 MAIA 在计算机视觉模型上的应用。他们首先描述了 MAIA 在图像学习表示中描述(神经元级)特征的能力。在几个经过训练的模型和一个具有配对 ground-truth 描述的合成视觉神经元新数据集上,MAIA 产生的描述与专家人类实验者生成的描述相当。此外,MAIA 可以帮助完成两个额外的可解释性任务:降低对虚假特征的敏感性,以及自动识别可能被错误分类的输入。
论文链接: https://arxiv.org/abs/2404.14394
项目地址: https://multimodal-interpretability.csail.mit.edu/maia/


