了解 LLM 评估和基准:完整指南
了解 LLM 评估和基准:完整指南 分享
随着大型语言模型 (LLM) 在业务流程中的快速发展和集成,确保这些模型的可靠性和高效性变得至关重要。这一需求凸显了理解和部署强大的评估和基准测试技术对于成功实施模型的重要性。
LLM 会针对语言生成、翻译、推理、总结、问答和相关性等各种任务进行评估和基准测试。一组具有代表性的评估有助于在不同维度上构建全面、稳健且安全的模型,并检测一段时间内的任何回归。
在本博客中,我们探讨了评估指标的细微差别、LLM 基准在量化模型性能方面的重要性以及构建标准化指标所面临的挑战。我们还谈到了基准测试的最新趋势,并提供了构建有效评估协议的全面指南。
让我们开始吧!
目录
LLM 评估基础知识
在 LLM 中,评估是指测量和评估模型在各种基本任务中的表现和有效性。它涉及应用一系列指标来衡量模型预测或生成句子中下一个单词、理解上下文、总结数据和响应查询的准确程度。评估至关重要,因为它有助于确定模型的优势和劣势,提供改进领域的见解,并最终指导过程。确保 LLM 提供高质量、可靠且上下文准确的输出至关重要。
a. 关键评估指标
有几种指标可用于评估 LLM 的表现。在本节中,我们将探讨一些突出的指标及其特征。
- BLEU:双语评估算法 (BLEU) 通常用于机器翻译,它计算模型输出与一组人工编写的参考翻译之间的 n-gram(来自给定文本样本的 n 个项目的连续序列)的重叠度。BLEU 分数越高,表示文本生成效果越好,因为模型的输出与参考更相似。然而,值得注意的是,BLEU 有局限性,包括无法评估生成文本的语义含义或相关性。
- ROUGE:以回忆为导向的要点评估 (ROUGE) 是另一种重要的评估指标,可用于文本摘要等任务。ROUGE 包括几个变体,例如ROUGE-N、ROUGE-L和ROUGE-S。
ROUGE-N测量生成文本 与 参考文本之间的 n-gram 重叠度。它测量两个摘要之间的 N-gram(给定文本样本中的 N 个项目的连续序列)重叠度。ROUGE-N 的公式为:
ROUGE-L考虑生成文本和参考文本之间的最长公共子序列 (LCS)。这有助于评估生成文本的整体连贯性。
ROUGE-S测量生成文本和参考文本之间的跳跃双字母组合(按顺序排列的两个单词,无论中间有多少个单词)的重叠度。它有助于评估语言模型的灵活性。
ROUGE 的每个变体都提供了独特的见解,但与任何指标一样,它们也有局限性,应与其他评估方法结合使用以进行全面评估。
- MoverScore:MoverScore 是一种较新的评估指标,旨在衡量两段文本之间的语义相似性。MoverScore 使用 Word Mover's Distance,这种方法计算一段文本中的单词需要“行进”才能到达另一段文本中单词的精确分布的最小距离。然后,它会根据不同单词对文本整体含义的重要性调整此距离。与一些较旧的指标相比,MoverScore 提供了更细致的语义相似性评估,但它需要大量计算,并且可能并不总是与人类判断一致。
- 困惑度:困惑度量化了模型预测样本(在本例中为一段文本)的能力。困惑度分数越低,表示模型在样本预测方面表现更好。在 LLM 中,困惑度衡量了模型在预测序列中下一个单词时的不确定性。虽然困惑度可以提供模型性能的有用定量指标,但它没有考虑生成文本的定性方面,例如其连贯性或相关性。因此,困惑度通常与其他评估指标一起使用,以进行更可靠的评估。
- 精确匹配:精确匹配是问答和机器翻译中广泛使用的评估指标。它衡量与参考答案完全匹配的预测百分比。虽然精确匹配可以作为模型准确性的有用指标,但它不考虑近似误差或部分正确的答案。它也不考虑生成文本和参考文本之间的语义相似性。因此,它通常与其他更细致入微的评估指标结合使用。
- 精确度:精确度衡量预测的正向观察结果中正确的比例。在 LLM 中,精确度是正确预测的单词或短语占模型预测的单词或短语总数的比例。高精度分数表示当模型预测单词或短语时,它很可能是正确的。但是,精确度不考虑模型可能遗漏的相关单词或短语(假阴性),因此它与召回率一起使用以进行更平衡的评估。
- 召回率:召回率也称为敏感度或真阳性率,衡量的是正确识别的实际阳性比例。召回率是正确预测的单词或短语占参考文本中正确单词或短语总数的比例。高召回率分数表明模型在检测相关单词或短语方面的效率。但是,召回率不考虑模型可能错误预测的不相关单词或短语的数量(假阳性),因此它通常与精确度相结合,以进行更全面的评估。
- F1 分数: F1 分数是一种常用的评估指标,它通过同时考虑精确度和召回率来平衡衡量模型的性能。它是精确度和召回率的调和平均值,这两个指标的权重相同。较高的 F1 分数表示该模型在精确度(可以正确预测单词或短语)和召回率(可以从参考文本中正确识别相关单词或短语)之间取得了良好的平衡。F1 分数介于 0 到 1 之间,其中 1 表示精确度和召回率都完美。它在假阳性和假阴性都同样重要的场景中特别有用。
b. 人工评估参数
人工评估指标对于从定性角度评估模型的性能至关重要,而自动化指标可能无法完全捕捉到这一点。人工评估指标涉及人工评估者从连贯性、相关性和流畅性等各个方面审查和评估模型输出。与提供即时定量反馈的自动化指标不同,人工评估可以提供有关模型输出与人类判断和期望的一致性的细致见解。这种评估方法可能更耗时,但对于全面的 LLM 评估策略仍然至关重要。
c. 自动评估与人工评估
在评估 LLM 时,自动评估和人工评估发挥着截然不同但又相互补充的作用。自动评估使用 BLEU、ROUGE 和困惑度等指标快速、定量地衡量模型的性能。但是,它们可能会遗漏输出的细微差别和定性方面。另一方面,人工评估通过评估输出的连贯性、相关性和流畅性来捕捉这些细微差别。但是,它们可能具有主观性并且耗时。平衡的评估策略通常会将两者结合起来以进行全面评估。
法学硕士 (LLM) 培训基准
LLM 基准是研究界广泛采用的标准数据集和任务,用于评估和比较各种模型的性能。它们通常带有预定义的训练、验证和测试集划分,以及既定的评估指标和协议。基准为系统地比较不同的模型和方法提供了共同的基础。它们通过设定模型应该满足或超越的挑战来评估该领域的进展。指标直接评估模型输出,而基准则提供了一个商定的背景,用于理解这些指标的值在进展或能力方面意味着什么。
a. 用于衡量法学硕士成绩的著名基准
业界广泛使用多种基准来评估和量化 LLM 的表现和相关性。一些最突出的 LLM 基准如下:
- GLUE(通用语言理解评估):此 LLM 基准测试提供了全面的基准,用于评估和比较模型在各种自然语言理解任务上的表现。GLUE 涵盖情绪分析、文本蕴涵和句子相似性等任务。通过提供多种挑战,GLUE 旨在衡量模型理解上下文、推断含义和处理语言的能力,其水平堪比人类。此基准测试有助于识别 LLM 的优势和劣势,并通过鼓励开发更强大、更通用的模型来推动(NLP) 研究的进步。
- MMLU(大规模多任务语言理解): MMLU 是一个强大的 LLM 基准,用于评估模型对广泛主题的理解深度。它为模型提供了来自人文、社会科学、历史、计算机科学和法律等各个领域的任务,以涵盖各种知识领域和推理技能。通过在这一广泛而多样的任务集上评估模型,MMLU 旨在衡量模型知识的广度及其复杂推理、上下文理解和迁移学习的能力。该基准代表着朝着开发能够理解和生成跨各个领域的上下文文本的 LLM 迈出了重要一步。然而,值得注意的是,诸如 MMLU 之类的基准对其实施方式很敏感。
- AlpacaEval: AlpacaEval 是一个自动化的 LLM 评估框架,旨在衡量 LLM 遵循一般用户指令的能力。AlpacaEval 使用 AlpacaFarm 评估集,其中包含各种指令。该系统采用基于 GPT-4 的自动注释器将模型响应与参考模型进行比较,从而在 AlpacaEval 排行榜上显示胜率。该基准提供了有关模型处理复杂、面向任务的提示能力的宝贵见解,并促进了在不同环境中更有用、更可靠的 LLM 的开发。
- HELM(语言模型整体评估): HELM 旨在通过提供全面的评估框架来提高 LLM 的透明度。HELM 涵盖了多种场景和指标,以检查语言模型的功能和局限性。HELM 使用七个主要指标来评估模型:准确性、稳健性、校准、公平性、偏差、毒性和效率。此外,HELM 还评估了 26 个特定场景,以分析推理和虚假信息等方面。考虑到 LLM 在各个行业的广泛影响力,HELM 有助于满足提高 LLM 透明度的需求。
b. 现有基准的局限性
由于 LLM 本身的复杂性以及技术的快速发展,评估 LLM 面临着巨大的挑战。当前的 LLM 基准面临以下挑战和限制。
- 提示的影响:性能指标可能对特定提示敏感,可能会掩盖模型的实际功能。
- 构建有效性:由于涉及的任务范围广泛,因此为不同的用例建立可接受的答案具有挑战性。
- 范围有限:各种基准在评估法学硕士的具体任务或能力方面范围有限。这些基准在评估法学硕士的未来技能方面可能不那么有效。
- 标准化不足:基准测试标准化不足导致不同的研究人员和专家使用不同的基准测试和实现来评估LLM性能,从而造成基准测试结果不一致。
- 人工评估:人工评估耗时、昂贵,且可能存在不一致,从而阻碍了抽象摘要和其他需要主观判断的任务的效率。
解决这些限制并制定更全面、更现实、更符合道德的基准仍然是机器学习面临的关键挑战。
定义有效的评估协议
定义有效的评估协议对于构建一个有助于准确评估 LLM 性能和实用性的强大框架至关重要。这些协议应涵盖自动和人工评估、各种基准以及对道德方面的考虑。它们应根据模型的具体用例进行量身定制,以确保全面和相关的评估。以下是有效评估的主要考虑因素:
1. 明确LLM评估目标
目标应与模型的预期用例保持一致,无论是文本生成、翻译、摘要还是其他任务。目标应指导评估指标和 LLM 基准的选择,以确保它们准确衡量模型在最重要的领域的表现。这种方法有助于确定优势和劣势,指导模型的进一步改进。
b. 选择相关的指标和基准
所选指标应与评估目标保持一致,并全面展示模型的性能。这些指标可能包括用于衡量准确率的精确度、召回率和 F1 分数,以及用于评估文本生成质量的 BLEU 或 ROUGE。您应根据基准测试模型在与其用例相关的各种任务中性能的能力来选择基准。指标和基准的选择会显著影响评估结果和随后的模型微调。
c. 平衡定量和定性分析
使用自动化指标进行定量分析可以客观衡量模型的性能。但是,它可能无法捕捉到各种任务的所有细微差别。通过人工定性分析进行补充,可以帮助评估模型输出的连贯性、相关性和流畅性等方面。这种平衡可以更全面地了解模型的功能和局限性,确保其在统计上表现良好并生成高质量、有意义的输出。
法学硕士 (LLM) 评估的最新发展
自然语言生成 (NLG) 领域的研究人员继续致力于开发评估框架,以便对 LLM 进行更可靠、更稳健的评估。该领域的最新进展之一是 G-Eval 的引入。G-Eval 也称为 GPT-Eval,是一个独特的框架,专注于使用现有的 LLM(例如 GPT-4)来评估 NLG 系统生成的文本的质量。
(图片来源:eugeneyan.com)
这种评估方法侧重于增强对生成的文本输出质量的评估与人类的一致性。通过结合思路链 (CoT) 方法和表格填写范式,G-Eval 旨在提供更准确、更可靠的 LLM 输出评估。通过文本摘要和对话生成等任务中的实验,使用 GPT-4 的 G-Eval 在摘要任务中与人类判断表现出显著的 Spearman 相关性 0.514,远远超过了以前的评估方法。Spearman 的相关系数范围从 -1(强负相关)到 +1(强正相关)。
包起来
评估和基准测试 LLM 对于量化其在各种任务上的可靠性和有效性至关重要。这些基准测试可确保 LLM 高效并符合相关行业标准。有各种各样的指标和基准测试有助于定义模型的有效性,因此根据 LLM 所针对的任务范围确定最适合您模型的基准测试至关重要。
在 Turing,我们帮助优化您的 LLM 性能,以确保它们在不同指标上表现出色并提供高基准分数。我们拥有丰富的经验,并帮助基础 LLM 公司通过监督微调和 RLHF 改进其模型。我们能够快速扩大团队(由 LLM 工程师、数据科学家和领域专家组成),这使我们能够为 LLM 项目提供出色的投资回报。立即与我们联系,了解我们如何帮助您构建更强大、更可靠的模型。