大型语言模型数据合成与增强综述
综述了大型语言模型(LLM)的数据合成与增强技术。针对高质量数据增长滞后于模型扩展速度的问题,文章回顾了数据准备、预训练、微调、指令调整、偏好对齐及应用等全生命周期的数据生成方法,包括数据标注、重构、协同标注及模型蒸馏和自我提升等策略。同时分析了理解、逻辑、记忆、生成功能维度的应用,并讨论了当前面临的方法依赖、数据质量、隐私安全等挑战及未来发展方向。

综述了大型语言模型(LLM)的数据合成与增强技术。针对高质量数据增长滞后于模型扩展速度的问题,文章回顾了数据准备、预训练、微调、指令调整、偏好对齐及应用等全生命周期的数据生成方法,包括数据标注、重构、协同标注及模型蒸馏和自我提升等策略。同时分析了理解、逻辑、记忆、生成功能维度的应用,并讨论了当前面临的方法依赖、数据质量、隐私安全等挑战及未来发展方向。

大型语言模型(LLM)的成功与否,本质上与用于训练和评估的海量、多样化和高质量数据的可用性息息相关。然而,高质量数据的增长速度明显落后于训练数据集的扩展速度,从而导致迫在眉睫的数据耗尽危机。这突显了提高数据效率和探索新数据来源的迫切需求。在此背景下,合成数据已成为一种有前景的解决方案。目前,数据生成主要包括两种主要方法:数据增强和合成。本文全面回顾并总结了 LLM 生命周期中的数据生成技术,包括数据准备、预训练、微调、指令调整、偏好对齐和应用。此外,我们还讨论了这些方法目前面临的限制,并探讨了未来发展和研究的潜在途径。我们的愿望是使研究人员清楚地了解这些方法,使他们能够在构建 LLM 时迅速确定适当的数据生成策略,同时为未来的探索提供有价值的见解。
近年来,LLM 在许多行业取得了巨大的进步。但是大模型的性能高度依赖它们接受训练的数据的质量和数量。大模型对训练数据集的需求增长速度远高于数据增长的速度,最后可用数据会被用尽,导致 LLM 无法继续进步。因此,数据合成与数据扩充技术对于 LLM 的发展是至关重要的。该领域在时间上和位置上的趋势显示,以前的调查主要侧重于应用这些方法来支持特定的下游任务或 LLM 的特定阶段,而本工作强调面向 LLM 的技术在提高 LLM 在其生命周期和核心功能的各个阶段的整体性能方面的直接作用。本综述的主要内容和分类涵盖了 LLM 的数据扩充与合成的发展。
数据扩充是一种从数据到数据的生成方法,通常涉及处理原始数据以增加其多样性和数量,而不显著改变其本质特征。我们系统地将现有的数据扩充研究分为三个不同的类别:数据标注,数据重构,和协同标注。
数据合成旨在从零开始或基于生成模型创建全新的数据,这类似于真实数据的分布。本文将数据合成方法分为三大类:通用模型蒸馏,领域模型蒸馏和模型自我提升。
在数据准备阶段,数据合成和扩充旨在生成多样化和高质量的数据集,用于 LLM 的训练,解决现实世界数据稀缺的挑战。
这种方式旨在利用通用 LLM 的强大功能来提取高质量的数据。
数据扩充旨在进一步处理现有数据,以获得更多样化的高质量数据。
在预训练阶段,数据合成和扩充可以为 LLMs 提供丰富、多样和可控的训练数据,从而提高模型性能并减少偏差。
在预训练阶段,模型自我提升表示通过 LLM 合成数据,并进一步利用合成数据来预训练相同的 LLM。
通用模型蒸馏表示利用通用 LLM 提取高质量数据的强大能力。
数据扩充旨在进一步处理现有数据,以获得更加多样化的数据集。在预训练阶段,主要有两种方法:数据重构和非 LLMs 驱动的方法。
模型自我提升方法使 LLM 能够通过反馈过程从其输出中学习,从而消除了对外部支持的需要。根据该方法是否使用迭代自我改进和合成数据的模态,我们将现有的自我改进策略分为两类:单次自我提升和迭代自我提升。
通用模型蒸馏表示从强大的 LLM 中提取高质量的微调数据。在本综述中,我们将现有的通用模型提取方法分为五类:通过种子合成数据、迭代式合成数据、合成推理步骤、基于分类法的合成和合成多模态数据。
数据扩充涉及通过各种技术增强现有数据,以创建更广泛、更多样的数据集。在微调阶段,主要有两种方法:数据标记和数据重构。
在指令调优阶段,数据合成旨在探索合成指令或提示内容,以通过 LLMs 生成遵循指令的高质量数据。根据合成数据的方式,它们包括以下几类:通用模型蒸馏、模型自我提升、数据扩充
为了获得多样化的数据,一种流行的方法是采用更强的 LLM 来合成数据并执行针对较弱 LLM 的指令调整,包括单模态综合和多模态综合。
模型自改进旨在从模型本身引导合成数据,包括单模态合成和多模态合成
数据扩充旨在通过多样化训练样本来增强模型性能,而不需要额外的数据。它利用高质量的指令或提示来生成用户期望的和匹配目标任务的扩充数据。主要有三种类型:数据标注、数据重构和协同标注。
偏好对齐是通过系统地提炼大型模型以匹配复杂的人类偏好来实现的。这一过程始于一般模型提炼,它综合了广泛的偏好数据,提供了跨不同任务的基本一致性。领域模型提取然后使用专门的数据集优化模型,增强特定领域的性能。模型自我提升允许模型使用自我生成的反馈,在最少的人工干预下迭代地改进它们的能力。数据扩充通过扩展和多样化训练数据来进一步加强模型概括。这些相互关联的方法形成了一个一致的框架,用于优化与一般和特定领域人类偏好的模型对齐。
通用模型蒸馏。通用模型提炼旨在通过利用大型语言模型 (LLM) 和外部工具来更好地将模型与复杂的人类偏好相匹配,从而生成高质量的偏好数据。这一过程对于提高 LLM 在实际应用中的性能至关重要,特别是在安全性、可靠性和伦理考虑等领域。这种方法的主要挑战之一是模型固有的偏见和局限性。为了解决这个问题,可以从多个模型中提取精华,而不是依赖单个模型,以减少偏差并增加响应的多样性。
领域模型蒸馏侧重于通过在专门的领域和特定的数据集上训练模型来优化特定任务的模型,通常使用强化学习和偏好建模技术。这种方法使模型能够在不同的领域中表现良好,增强了它们处理复杂的、专门的任务的能力。通过这个过程,模型被蒸馏以满足各种领域的要求,包括面向安全的场景,总结,数学问题解决,基于搜索的问题回答,以及代码生成和逻辑推理。
模型自我提升的重点是使较弱的 LLM 能够迭代地增强它们的性能,不需要额外的人工注释数据。这种方法包括两个类别:自我反馈循环和依靠外部评估者评估模型的响应。这两种方法都旨在通过减少对人工干预的依赖来创建可扩展的改进系统,允许模型通过内部调整或外部指导来不断优化其性能。
数据扩充对于通过创建现有数据的特定于任务的变化来增强大型模型对齐是必不可少的,这加强了模型的泛化和稳健性。这种方法增加了训练数据的多样性,不需要额外的数据收集。像数据标注,数据重构,和协同标注被用于确保补充的数据保持相关和一致,有助于跨各种任务的更精确的模型性能。
大多数大型语言模型都是在通用语料库上进行预训练和微调的。然而,与大量的通用数据不同,特定领域的数据集通常很少,因为创建它们需要大量的知识。为了解决这个问题,许多研究已经探索了具有为每个应用定制的不同特征的专门数据的合成。
在数学场景中应用 LLM,涉及问题理解和回答,需要密集的逻辑推理。许多研究人员提出,在训练语料库中生成更多的基本原理语料库和不同的问题和答案有助于模型更好地理解和推理。多样化的问题和解决方案也可以增强逻辑思维模式的数学理解和推理能力。由于数学问题和答案是可验证的,一些方法通过自我生成的模拟问题和已经被自己或外部工具和模型验证的证明来扩展训练语料库。
科学应用需要对知识密集型概念和推理的深刻理解,这需要高质量的数据集来进行有效的指令微调。然而,生成这样的数据集是具有挑战性的,因为不同学科之间的格式各不相同,并且底层逻辑可能难以表达。统一不同学科的格式是处理科学相关语料库的第一步,通过将结构化数据转换成可读文本或专门的标记器。然后从收集的原始数据中生成指令调节数据集。
产生增强代码生成性能的合成数据已经被研究了很长时间,这需要清楚地理解问题和精确的推理来产生正确的代码。由于可以在模拟编码环境中轻松验证代码的准确性,这使得能够为编码任务生成大规模指令内调整数据集。
在医疗应用中,大模型主要作为医疗对话聊天机器人,需要与患者进行多轮对话交互。为了实现交互式数据合成,首先收集专门的文档作为种子语料库,例如医疗诊断记录。在此基础上,借助于通用大型语言模型,可以生成不同的问答对,并用于提高理解能力产生有益的反应。在处理敏感病历时,隐私也是一个首要问题,一些文献从知识图中提取医学知识,并生成没有任何个人信息的合成医学文本。
以法律领域为基础的法律助理因提供负担得起和方便的法律服务,特别是在法律问答和咨询领域,已经获得了相当大的关注。最近的研究集中在通过使用数据合成来提高响应的清晰度和正确性的微调数据集的数量和质量。
从 LLMs 的功能角度来看,数据扩充和合成可分为四类:理解、逻辑、记忆和生成。通过探索 LLMs 中的四个基本功能,数据合成和扩充可以充分捕捉大规模数据中的内在模式,并将其有效地应用于下游应用和任务
理解功能利用对 LLM 的强大语言理解来理解数据。从理解的内容来看,它包括单模态理解和多模态理解。单模态理解主要理解文本的语义,包括文本理解和语义标注。多模态理解结合了多种模态。
逻辑功能在合成和扩充数据的过程中充分利用推理和逻辑功能。根据逻辑的应用,有以下三类:代码逻辑、数学逻辑和推理。
当合成数据时,记忆功能记住并利用 LLM 中先前学习的信息。根据记忆内容的性质,记忆功能可以分为三类:程序记忆、语义记忆和情景记忆。
生成功能旨在为下游任务和应用程序生成连贯且上下文相关的内容。基于生成内容的形式,有以下两类:内容生成 (例如,文本和多模态生成) 和检索增强生成。
尽管合成和扩充数据很重要,但是使用不同的合成和扩充方法仍然存在严峻的挑战
与已经存在的多样、可信、高质量的真实数据不同,数据合成和扩充的性质可能会影响生成数据的质量。
数据合成和扩充对于推进 LLM 至关重要,特别是在满足 LLM 对大规模和高质量数据的需求方面。这项调查提供了一个面向 LLM 的数据合成和增强技术的全面审查,系统地探索了它们在 LLM 的整个生命周期和核心功能中的应用,同时建立了一个连接现有研究的框架,强调了关键方法,并阐明了优势和局限性。我们预计,面向 LLM 的数据合成和增强方法的进步将释放新的可能性,以提高数据效率,改善跨任务的通用性,并推动以数据为中心的人工智能的发展。我们希望这项调查能作为未来研究的基础,激励面向 LLM 的数据合成和增强领域的创新和进步。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML 转 Markdown 互为补充。 在线工具,Markdown 转 HTML在线工具,online