大型语言模型能否遵循简单规则?
随着大型语言模型(LLMs)在现实世界中的责任日益增加,如何以可靠的方式指定和约束这些系统的行为变得至关重要。一些开发人员希望为模型设置显式规则,例如'不生成滥用内容',但这种方式可能会被特殊技术规避。评估 LLM 在面对对抗性输入时遵循开发人员提供的规则的能力通常需要人工审查,这会减慢监控和方法开发的速度。
摘要
为了解决 LLMs 的规则遵循问题,本文提出了规则遵循语言评估场景(RULES),这是一种评估 LLM 中规则跟踪能力的编程框架。其由 15 个简单的文本场景组成,其中模型指示在与人类用户交互时遵守自然语言中的一组规则。每个场景都有一个简洁的评估程序来确定模型是否打破了对话中的任何规则。通过手动探索场景中的模型行为,确定了 6 类攻击策略并收集了两组测试用例:一组由手动测试的独特对话和系统地从 6 个类别实现策略的对话组成。在 GPT-4 和 Llama 2 等各种流行的专有和开放模型中,发现所有模型都容易受到各种对抗性手工制作的用户输入的影响,尽管 GPT-4 是表现最好的模型。此外,在基于梯度的攻击下评估开放模型时发现重大漏洞。建议将 RULES 作为一种具有挑战性的新环境,用于探索和防御对 LLM 的手动和自动攻击。
简介
传统的计算系统是围绕计算机程序中表达的指令的执行来设计的。相反,语言模型可以遵循用自然语言表达的指令,或者从大量数据中的隐含模式中学习该做什么。为了在语言模型之上构建安全可靠的应用程序,重要的是可以使用用户提供的规则来控制或约束 AI 模型行为。
展望未来,与人互动的人工智能助手也需要忠实和完整地遵循指令。为了确保人工智能助手反馈的道德行为,需要能够可靠地实施法律法规或义务生物学约束等规则。此外,必须能够验证模型行为是否真正基于所提供的规则,而不是依赖于训练期间识别的虚假文本线索或分布先验。如果不能依靠人工智能助手来遵循明确的规则,它们将很难安全地融入人类的社会。
人们可能认为强加给人工智能模型行为的许多规则在概念上非常简单,并且很容易用自然语言表达。一种方法是简单地将规则包含在模型的文本提示中,并依赖于模型现有的指令遵循功能。另一种方法是使用第二个模型来对输出遵循固定规则集的情况进行评分,然后对第一个模型进行微调,使其以最大化该评分的方式表现。
在本文中,将专注于前一种方法,并研究 LLM 如何很好地遵循作为文本提示一部分提供的规则。为了应对可用性和安全性方面的挑战,本文引入了规则遵循语言评估场景(RULES),这是评估 LLM 助手中规则遵循行为的基准。该基准包含 15 个来自常见儿童游戏的文本场景以及计算机安全领域的想法。每个场景都用自然语言定义了一组规则,并定义了一个评估程序来检查模型输出是否符合规则。通过对本文的场景与最先进的模型进行广泛实验,确定了多种有效的攻击策略,以诱导模型打破规则。

RULES 补充了现有的安全性和对抗性稳健性评估,这些评估主要侧重于规避固定的通用规则。本文的工作重点是用自然语言表达的特定于应用程序的规则,用户可以随时更改或更新这些规则。在与人类和自动化对手互动时,严格遵守本文的场景规则可能需要不同的方法来提高模型安全性,因为直接'编辑'特定有害行为的能力不足以修复本文工作中检查的模型故障类别。
本文的工作团队发布了代码和测试用例,同时还发布了一个交互式演示,用于探索针对不同模型的场景。希望推动更多的研究来提高 LLM 的稳健规则遵循能力,并打算将所提的基准测试作为进一步开发的有用的开放测试平台。
方案
RULES 包含 15 个基于文本的场景,每个场景都要求辅助模型遵循一个或多个规则。这些场景的灵感来自于计算机系统和儿童游戏的理想安全特性。RULES 的组成部分包括:
- 场景:由通用指令和规则组成的评估环境,用自然语言表示,以及可以通过编程检测规则违规的相应评估程序。指令和规则可以参考实体参数(例如密钥),必须对其进行采样,以生成用于用户交互或评估的具体'场景实例'。
- 规则:单个指令,每个指令指定模型所需的行为。场景可能包含多个规则,这些规则要么是定义模型不能做什么的'负面'规则,要么是定义了模型必须做什么的'正面'规则。
- 测试用例:特定场景实例的用户消息序列。正如评估程序判断的那样,如果模型对序列中的每个用户消息做出反应而不违反规则,则称该模型具有'传递'测试用例。
Correct Behavior
本文将场景可视化为决策树图,其中正确的行为对应于从根节点开始并遵守所有相关的内部规则节点。规则指定的行为都是'无状态'的,正确的行为只取决于模型响应的最后一条用户消息。
Evaluation Programs
设计这些场景是为了让一个小型计算机程序能够评估模型的响应是否符合规则。每个程序只有几行代码,不需要使用大型模型或人工标记进行推理。本文依赖于字符串比较和简单的正则表达式模式,这会导致对负面行为的更宽容的评估,对正面行为的更严格的评估。本文提出的评估程序无法在边缘情况下准确再现人类的判断,但在实践中观察到,模型中绝大多数违反规则的输出都是明确的。


