可信赖的大型语言模型综述：提出可信大模型七大维度

综述由AI生成大型语言模型的可信度评估面临缺乏明确指导方针的挑战。提出了包含可靠性、安全性、公平性、抵御误用能力、解释性和推理能力、遵循社会规范以及鲁棒性在内的七大核心维度。文章详细阐述了每个维度的定义与子类别，并通过测量研究分析了当前主流模型的对齐表现。结果表明，虽然对齐程度更高的模型整体表现更好，但在特定类别上仍存在改进空间，强调了进行细粒度分析和持续改进的重要性。

全栈工匠发布于 2025/2/6更新于 2026/6/223 浏览

可信赖的大型语言模型综述

引言

确保大型语言模型（LLMs）按照人类的意图行事，即对齐（Alignment），已经成为在实际应用中部署 LLMs 之前的关键任务。例如，OpenAI 在发布 GPT-4 之前花费了六个月的时间进行迭代对齐。然而，实践者面临的一个主要挑战是缺乏明确的指导方针，以评估 LLM 的输出是否与社会规范、价值观和法规相符。这一障碍阻碍了 LLMs 的系统性迭代和部署。

为了解决这个问题，本文提出了一个全面的调查，探讨了评估 LLM 可信度时需要考虑的关键维度。调查涵盖了 LLM 可信度的七个主要类别：可靠性、安全性、公平性、抵御误用的能力、解释性和推理能力、遵循社会规范以及鲁棒性。每个主类别进一步细分为几个子类别，总共有 29 个子类别。此外，选择了 8 个子类别进行进一步研究，在几个广泛使用的 LLMs 上设计并进行了相应的测量研究。测量结果表明，总的来说，对齐度更高的模型在整体可信度方面表现得更好。然而，对齐的有效性因考虑的不同可信度类别而异。这突显了进行更细粒度的分析、测试和不断改进 LLM 对齐的重要性。

通过阐明 LLM 可信度的这些关键维度，本文旨在为该领域的实践者提供有价值的见解和指导。理解并解决这些问题对于在各种应用中实现 LLMs 的可靠和伦理上的正确部署至关重要。

背景与挑战

自然语言处理（NLP）的格局随着大型语言模型的出现而发生了深刻的变革。这些语言模型的特点是参数数量庞大，通常达到数十亿，且在大量的数据语料库上进行训练。近年来，LLMs 的影响确实是革命性的，它们彻底改变了学术研究和各种工业应用。值得注意的是，OpenAI 开发的 LLMs，包括 ChatGPT，取得了卓越的成功，其中 ChatGPT 被认为是迄今为止增长最快的网络平台。

使当前的大型语言模型变得既可用又受欢迎的关键因素之一是对齐技术。对齐是确保 LLMs 按照人类的价值观和偏好行事的过程。这一点通过 LLM 的发展演变和公众反馈的整合变得明显。

在过去，早期版本的 LLMs，如 GPT-3，能够生成有意义和信息丰富的文本。但是，它们存在许多问题，严重影响了它们的可靠性和安全性。例如，这些模型容易生成事实上不正确的文本，包含幻觉。此外，生成的内容经常展现出偏见，进一步加强刻板印象和社会偏见。而且，LLMs 倾向于生成社会上破坏性的内容，包括有毒的语言，这对它们的可靠性和实用性产生了不良影响。此外，它们容易被误用，导致产生有害的宣传，这对它们负责任的部署带来了重大关切。此外，人们发现 LLMs 容易受到对抗性攻击，如提示攻击，进一步损害了它们的性能和伦理完整性。

观察到的 LLMs 的不稳定行为可以归因于许多因素。也许最重要的一个是对从互联网收集的大型训练语料库的缺乏监督，这个语料库包含了与大多数人同意的价值观不一致的广泛元素，包括有害内容、两极化的意见、歧视，有时还有非法建议。这些问题现象从不完美的训练数据传播到 LLMs，结果，LLMs 可能被用来再现和生成不可靠的、不道德的和危险的内容。此外，单纯地优化训练和生成文本的目标函数，而不考虑人类价值观，也是另一个原因。

为了应对这些挑战，研究人员提出对齐是朝着开发值得信赖的 LLMs 的关键步骤，确保这些模型能够有效地为人类用户提供建设性的好处。对齐的主要目标是确保 LLMs 生成的输出与人类用户的偏好一致。对齐在增强 LLMs 方面的成功在未对齐的 GPT-3 和对齐版本 ChatGPT 的接受度之间形成了鲜明的对比。

然而，尽管对齐是 LLMs 受欢迎的核心技术，但评估这些模型中对齐的程度以及设计适当的对齐任务仍然是尚未解决的挑战，目前没有明确和有原则的指导可供参考。特别地，缺乏既定和统一的讨论，涵盖使 LLMs 值得信赖的全方位对齐。

可信度分类体系

鉴于确保 LLMs 的可信度和其负责任的部署的重要性，开发一个更为健壮和详细的对齐评估分类体系显得至关重要。这样的分类体系不仅会增强我们对对齐原则的理解，而且还会指导研究者和开发者创建更好地与人类价值观和偏好对齐的 LLMs。

本文提出了一个更为细致的 LLM 对齐要求分类体系，它不仅可以帮助从业者解开和理解对齐的维度，还为数据收集努力提供了可行的指导方针，以开发出可取的对齐过程。例如，'有害'内容的概念可以进一步细分为对个人用户造成的伤害（如情感伤害、冒犯和歧视）、对社会造成的伤害（如创造暴力或危险行为的指导）或对利益相关者造成的伤害（如提供导致错误业务决策的误导信息）。

七大核心维度

可靠性（Reliability） 可靠性是主要的关注点，因为幻觉目前是 LLM 中一个众所周知的问题，它可以显著损害其输出的信任度。几乎所有的 LLM 应用（可能除了创意写作）都会受到事实错误答案的负面影响。根据应用的风险有多高，它可以造成从有趣的胡言乱语到财务或法律灾难的一系列伤害。
安全性（Safety） 安全性是一个重要的话题，因为它几乎影响到所有的应用和用户。不安全的输出可能会对用户造成多种心理伤害，对平台造成公关风险。这包括防止生成仇恨言论、骚扰内容以及任何可能导致物理伤害的建议。
公平性（Fairness） 公平性很重要，因为与普遍共享的人类道德不一致的偏见 LLM 可能会对用户产生歧视，降低用户信任，对部署者产生负面的公众意见，并违反反歧视法。需要确保模型在不同人口统计群体间表现一致。
抵御误用的能力（Misuse Resistance） 抵抗误用实际上是必要的，因为 LLM 可以多种多样的方式被利用来故意伤害其他人。这包括防止模型被用于生成网络钓鱼邮件、恶意软件代码或自动化攻击脚本。

可信赖的大型语言模型综述：提出可信大模型七大维度

可信赖的大型语言模型综述