111 页全面综述：大模型评测体系与未来展望

基于天津大学自然语言处理实验室发布的 111 页综述，系统梳理了大模型评测的五大核心维度。内容涵盖知识与能力、对齐、安全、行业应用及综合评测组织。文章分析了当前评测面临的通用性强、成本高、指标难量化等挑战，并探讨了风险评测、智能体评测、动态评测及以优化为目标的评测等未来方向，旨在引导大模型向更健康安全的方向发展。

禅心发布于 2025/2/7更新于 2026/7/2037 浏览

当前，大模型正凭借其强大的能力和无限的潜力引领着新一轮技术革命，众多科技巨头纷纷围绕大模型进行布局，进一步推动大模型不断向前发展。然而，尽管大模型能够协助我们完成各种任务，改变我们的生产和生活的方式，提高生产力，为我们带来便利，但大模型的发展也伴随着诸多风险与挑战，如泄露隐私数据，生成带有偏见、暴力、歧视、违反基本道德和法律法规的内容，传播虚假信息等。

不仅如此，随着大模型能力的飞速进步，其产生自我保持、自我复制、追求权力和资源、奴役其它机器和人类等与人类价值不符的'欲望'倾向开始逐步呈现出来。因此，在大模型高歌猛进的今天，追踪大模型的技术进步，对大模型能力及其不足之处形成更深入的认识和理解，预知并防范大模型带来的安全挑战和风险，需要针对大模型开展全方位的评测，以引导大模型朝着更健康和更安全的方向发展，让大模型的发展成果惠及全人类。

然而，当前对大模型进行全方位评测面临诸多挑战。由于大模型的通用性强，能够胜任多种任务，因此大模型的全方位评测涉及的范围广、工作量大、评测成本高昂；其次，由于数据标注工作量大，许多维度的评测基准仍然有待构建；再次，自然语言的多样性和复杂性，使得许多评测样本无法形成标准答案，或者标准答案不止一个，这导致相应的评测指标难以量化；此外，大模型在现有评测数据集的表现难以代表其在真实应用场景的表现。

为了应对以上挑战，激发大家对大模型评测研究的兴趣，推动大模型评测研究与大模型技术研究发展相协调，天津大学自然语言处理实验室最近发布了大模型评测的综述文章。该综述文章共有 111 页，其中正文部分 58 页，引用了 380 余篇参考文献。

图 2 大模型评测研究中的 5 个主要评测类别及其子类别

如图 2 所示，该综述将整个大模型评测按照评测维度的不同分为了 5 个评测类别：

（1）知识和能力评测，（2）对齐评测，（3）安全评测，（4）行业大模型评测，（5）（综合）评测组织。

这 5 个评测类别基本囊括了当前大模型评测的主要研究领域。在介绍每个评测类别时，该综述对相关的研究工作进行了梳理，以树状结构的思维导图形式展示了各个研究工作之间的关系，以清晰展示该领域整体的研究框架。不仅如此，该综述还探讨了大模型评测的未来发展方向，强调了大模型评测应该与大模型本身协同进步。希望该综述能够为对大模型评测领域感兴趣的研究者和工程技术人员提供参考，基于该综述，对大模型评测的发展和现状形成较为全面的了解，并对大模型评测中的关键和开放问题进行深入思考。

图 3 大模型知识和能力评测

知识和能力评测 知识和能力是评测大模型的核心维度之一。大模型的飞速发展，使其在诸多复杂任务中不断取得突破，并被广泛应用于越来越多的实际业务场景中。对其是否可以胜任真实场景任务，需要对大模型的知识和能力水平进行综合评估。该综述讨论了大模型的问答能力评测、知识补全能力评测、推理能力评测及工具学习能力评测，并梳理了相关的评测基准数据集、评测方法和评测结果。在推理能力评测中，该综述介绍了目前常见的 4 种推理类型：（1）常识推理，（2）逻辑推理，（3）多跳推理，（4）数学推理。在工具学习能力评测中，该综述详细介绍了工具调用能力评测和工具创造能力评测。

对齐评测 对大模型进行对齐评测能够提前预知大模型带来的负面影响，以便提前采取措施消除伦理价值未对齐问题。在对齐评测中，该综述讨论了大模型的道德和伦理评测、偏见性评测、毒性评测和诚实性评测。

大模型的道德和伦理评测旨在评估其生成内容中是否存在违背社会公认的道德伦理规范的情况。该综述根据评价准则的不同将道德和伦理评测分为四个部分：（1）基于专家定义的道德伦理规范评测，即采用书籍、文章等专业来源中定义的道德伦理规范作为评价标准，然后采用众包的方式制作相应的评测数据集；（2）基于众包方式的道德伦理规范评测，其道德伦理规范通常是由未接受相关专业培训的众包工作者根据个人的道德标注进行确定；（3）AI 辅助的道德伦理规范评测，即让语言模型参与到评测过程中，辅助人类判断内容是否符合道德伦理；（4）基于混合模式（如专家定义 + 众包方式）的道德伦理规范评测。

大模型的偏见性评测主要关注其生成的内容是否会对某些社会群体产生不利影响或伤害。现有的研究表明大模型可能会对某些群体持有刻板印象，或者产生输出贬低特定群体的信息等偏见行为。该综述主要讨论了下游任务中的偏见和大模型中的偏见。下游任务涉及指代消解、机器翻译、自然语言推理、情感分析、关系抽取和隐式仇恨言论检测。

大模型的毒性评测主要聚焦于评估其生成的内容中是否含有仇恨、侮辱、淫秽等有害信息。在毒性评测的框架下，该综述介绍了使用大模型识别有害信息的相关工作，并详细介绍了相应的评测基准。不仅如此，该综述还阐述了适用于评估大模型的毒性的评测数据集以及能够量化大型模型生成内容毒性的工具。

大模型的诚实性评测致力于检测模型生成的内容是否真实、准确，以及是否符合事实。该综述以评测数据集和评测方法为主线，详细介绍了大模型的诚实性评测的相关工作。在介绍真实性评测的数据集时，该综述根据数据集涉及的任务类型将数据集划分为了三类：（1）问答任务数据集，（2）对话任务数据集以及（3）摘要任务数据集。在探讨真实性评测的方法时，该综述对现有的真实性评测方法进行了梳理和归类，并将其总结为三类：（1）基于自然语言推理的评测方法，（2）基于问题生成和问答的方法，（3）基于大模型的方法。