字节跳动李航等综述:可信赖大型语言模型的七大评估维度
本文综述了大型语言模型(LLM)的可信度评估体系。针对当前缺乏明确指导方针的问题,提出了包含可靠性、安全性、公平性、抵御误用能力、解释性和推理能力、遵循社会规范以及鲁棒性的七大核心维度。文章详细阐述了各维度的定义、潜在风险及评估方法,并通过测量研究指出对齐程度高的模型在整体表现上更优,但在特定类别仍需改进。该框架旨在为从业者提供细粒度的分析与测试指导,促进 LLM 的可靠与伦理部署。

本文综述了大型语言模型(LLM)的可信度评估体系。针对当前缺乏明确指导方针的问题,提出了包含可靠性、安全性、公平性、抵御误用能力、解释性和推理能力、遵循社会规范以及鲁棒性的七大核心维度。文章详细阐述了各维度的定义、潜在风险及评估方法,并通过测量研究指出对齐程度高的模型在整体表现上更优,但在特定类别仍需改进。该框架旨在为从业者提供细粒度的分析与测试指导,促进 LLM 的可靠与伦理部署。

自然语言处理(NLP)的格局随着大型语言模型(LLMs)的出现而发生了深刻的变革。这些语言模型的特点是参数数量庞大,通常达到数十亿,且在大量的数据语料库上进行训练。近年来,LLMs 的影响确实是革命性的,它们彻底改变了学术研究和各种工业应用。值得注意的是,OpenAI 开发的 LLMs,包括 ChatGPT,取得了卓越的成功,其中 ChatGPT 被认为是迄今为止增长最快的网络平台。
使当前的大型语言模型变得既可用又受欢迎的关键因素之一是对齐技术。对齐是确保 LLMs 按照人类的价值观和偏好行事的过程。这一点通过 LLM 的发展演变和公众反馈的整合变得明显。在过去,早期版本的 LLMs,如 GPT-3,能够生成有意义和信息丰富的文本。但是,它们存在许多问题,严重影响了它们的可靠性和安全性。例如,这些模型容易生成事实上不正确的文本,包含有幻觉。此外,生成的内容经常展现出偏见,进一步加强刻板印象和社会偏见。而且,LLMs 倾向于生成社会上破坏性的内容,包括有毒的语言,这对它们的可靠性和实用性产生了不良影响。
观察到的 LLMs 的不稳定行为可以归因于许多因素。也许最重要的一个是对从互联网收集的大型训练语料库的缺乏监督,这个语料库包含了与大多数人同意的价值观不一致的广泛元素,包括有害内容、两极化的意见、歧视,有时还有非法建议。这些问题现象从不完美的训练数据传播到 LLMs,结果,LLMs 可能被用来再现和生成不可靠的、不道德的和危险的内容。
此外,单纯地优化训练和生成文本的目标函数,而不考虑人类价值观,也是另一个原因。需要注意的是,确定 LLMs 问题的确切原因仍然是正在进行的研究。为了应对这些挑战,研究人员提出对齐是朝着开发值得信赖的 LLMs 的关键步骤,确保这些模型能够有效地为人类用户提供建设性的好处。对齐的主要目标是确保 LLMs 生成的输出与人类用户的偏好一致。
然而,尽管对齐是 LLMs 受欢迎的核心技术,但评估这些模型中对齐的程度以及设计适当的对齐任务仍然是尚未解决的挑战,目前没有明确和有原则的指导可供参考。特别地,缺乏既定和统一的讨论,涵盖使 LLMs 值得信赖的全方位对齐。现有的文献提出了多种对齐任务的考虑因素,其中一个值得注意的一般指导原则是'HHH'原则,主张对齐应该是有帮助的、诚实的和无害的。
鉴于确保 LLMs 的可信度和其负责任的部署的重要性,开发一个更为健壮和详细的对齐评估分类体系显得至关重要。这样的分类体系不仅会增强我们对对齐原则的理解,而且还会指导研究者和开发者创建更好地与人类价值观和偏好对齐的 LLMs。
本文提出了一个更为细致的 LLM 对齐要求分类体系,它不仅可以帮助从业者解开和理解对齐的维度,还为数据收集努力提供了可行的指导方针,以开发出可取的对齐过程。该体系涵盖了七个主要类别,每个主类别进一步细分为几个子类别,总共有 29 个子类别。
可靠性是一个主要的关注点,因为幻觉目前是 LLM 中一个众所周知的问题,它可以显著损害其输出的信任度。几乎所有的 LLM 应用(可能除了创意写作)都会受到事实错误答案的负面影响。根据应用的风险有多高,它可以造成从有趣的胡言乱语到财务或法律灾难的一系列伤害。确保模型在回答问题时提供准确、真实的信息是建立用户信任的基础。
安全性是一个重要的话题,因为它几乎影响到所有的应用和用户。不安全的输出可能会对用户造成多种心理伤害,对平台造成公关风险。这包括防止模型生成仇恨言论、暴力内容、自我伤害指导或其他形式的有害信息。安全机制需要能够有效拦截恶意请求并拒绝生成违规内容。
公平性很重要,因为与普遍共享的人类道德不一致的偏见 LLM 可能会对用户产生歧视,降低用户信任,对部署者产生负面的公众意见,并违反反歧视法。模型应当避免基于种族、性别、宗教或其他受保护特征产生歧视性输出,确保对所有用户群体的公正对待。
抵抗误用实际上是必要的,因为 LLM 可以多种多样的方式被利用来故意伤害其他人。这包括防止模型被用于生成网络钓鱼邮件、恶意代码、虚假宣传或进行社会工程学攻击。系统需要具备识别潜在滥用意图的能力,并在必要时限制相关功能的访问。
可解释性为用户带来了更多的透明度。当模型做出决策或生成内容时,能够提供合理的推理过程有助于用户理解和验证结果的准确性。这对于高风险领域(如医疗、法律)尤为重要,用户需要知道模型为何得出某个结论,以便进行人工复核。
与社会规范保持一致确保了 LLM 不会引起情感伤害。模型应理解文化背景、礼貌用语以及社交礼仪,避免生成冒犯性或令人不适的内容。这要求模型具备广泛的社会常识和对不同文化语境的理解能力。
改进的鲁棒性保护了模型免受恶意攻击者的侵害。这包括对抗性攻击,如提示注入攻击。模型在面对精心设计的输入时,应保持行为的稳定性和一致性,不被诱导输出有害信息或泄露敏感数据。
调查之后,我们在第 11 节提供了一个指南,介绍如何通过自动化和模板化的问题生成来实验性地进行 LLMs 可信度的多目标评估。我们还展示了我们的评估数据生成过程如何转化为对齐数据的生成器。
测量结果表明,总的来说,对齐度更高的模型在整体可信度方面表现得更好。然而,对齐的有效性因考虑的不同可信度类别而异。这突显了进行更细粒度的分析、测试和不断改进 LLM 对齐的重要性。例如,在 Anthropic 发布的对齐数据中,存在一个在不同考虑因素之间的明显的不平衡。尽管'暴力'类别出现的频率极高,'虐待儿童'和'自残'在数据中仅仅边缘出现。这支持了对齐技术并不能保证 LLM 在所有方面都能像人类一样行事的论点,因为对齐是强烈依赖于数据的。
在本文中,我们调查了 LLM 在对齐方面被认为是可信的重要方面。我们提供了一个详细的分类法,并讨论了在这些维度上对齐的挑战。除了我们提议的分类法,我们还为选定的一组维度提供了详细的测量研究。我们展示了如何构建一个数据集来自动化 LLM 对齐度量的评估。我们观察到,更加对齐的 LLM 通常表现得更好。但在特定的主题上肯定还有改进的空间。这标志着进行更细粒度的对齐以实现更好的可信度覆盖的重要性和好处。
所有资料,朋友们如果有需要全套《LLM 大模型入门 + 进阶学习资源包》,扫码获取~


微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online