大模型数据建设:工程化视角与策略实践
引言
在当前大模型技术快速发展的背景下,数据对模型效果的影响力日益增强。对于希望从零开始训练一个具有千亿参数规模的大型模型的团队来说,整个任务流程的规划和执行成为了一个重要议题。本文从工程化视角详细探讨数据建设过程,包括数据准备、预训练配比、后训练筛选以及数据版本的动态调整。
本文探讨大模型数据建设的工程化方法,涵盖数据准备、预训练配比及后训练筛选。重点介绍了先导模型在监控数据变化中的应用,分析了 DoReMi、DoGE 等数据混合策略及其对模型性能的影响。同时总结了数学与中文数据的重要性,以及 CherryLLM、LESS 等高质量数据筛选技术,并通过问答环节解答了 Scaling Law、数据来源及 PDF 处理等实际问题。

在当前大模型技术快速发展的背景下,数据对模型效果的影响力日益增强。对于希望从零开始训练一个具有千亿参数规模的大型模型的团队来说,整个任务流程的规划和执行成为了一个重要议题。本文从工程化视角详细探讨数据建设过程,包括数据准备、预训练配比、后训练筛选以及数据版本的动态调整。
理想情况下,大模型的训练流程可以分为三个阶段:数据准备、预训练与后训练。然而,实际情况远比这一理想化的模型复杂。实际操作中,这一过程的复杂性主要体现在两个方面:
预训练周期长:预训练阶段不仅时间跨度长,而且涉及大量的数据和资源协调。一个模型从开始训练到结束,可能会经历季节的更迭。这意味着数据管理不能是一次性的,而必须是持续的过程。
数据版本动态调整:伴随模型训练进展,数据版本需要持续动态调整。初始的数据准备可能无法完全满足模型训练的需求,因此在整个训练过程中需要不断地进行微调。此外,在后训练阶段,还需要对数据进行筛选,以适应模型训练的前进方向。这种动态性要求建立自动化或半自动化的数据处理流水线。
影响数据版本更新的主要因素包括:
在工程实践中,常用的方法是训练一个先导模型来监控数据变化并及时作出调整。先导模型的规模通常较小,如 1B 参数级别。当需要调整数据时,可通过先导模型进行一系列实验,包括数据去重、清洗及配比调整等,并对效果进行评估。一旦确定可行方案,即可同步应用于主模型。
在某些情况下,一级先导模型可能无法完全满足数据调整的需求,这时可能需要二级甚至多级先导模型来进行更细致的追随训练。在多级先导模型的设置中,可能需要进行二次甚至多次的先导实验,以确保决策的准确性。这种多级实验虽然增加了时间和算力成本,但在减少 token 消耗的同时,提高了实验结果的可靠性。
在训练过程中,通过对先导模型进行评测,可以发现特定领域的不足之处(如数学或编程能力)。基于评测结果,可以针对性地调整数据配置,从而改善模型性能。例如,如果评测显示数学能力不足,则应增加高质量数学题目的比例。
不同的数据版本更新方式会触发不同的数据处理流程。如果数据更新是由数据变化触发的,则可能需要从头到尾进行数据处理的各个步骤;如果是通过评测引导的方法来触发,则只需调整数据配比和领域选择。这有助于平衡计算资源与模型迭代速度。
在大模型的预训练过程中,数据配比对于模型性能有着至关重要的影响。通过采用 DoReMi 方法、双层优化算法以及在线领域采样权重调整等策略,可以有效提高模型的训练效率与性能。在实际应用中,还需考虑特定领域数据的重要性以及数据处理与解析的技术挑战。
我们平常提到的'数据配比',是指在预训练阶段对不同来源的数据配置不同权重,以期达到最优训练效果的过程。论文中通常采用的对应术语是'数据混合'(Data Mixing)。
DoReMi 方法是一种不依赖于特定任务的、在小模型上寻找最优数据混合比例的方法。该方法的基本流程如下:
DoReMi 方法相较于原始权重,在预训练效果上有明显提升。例如,采用 DoReMi 方法找到的最优化权重与使用经验配比所得到的最终模型训练效果对比显示,DoReMi 方法在下游任务上取得了显著的提升,且随着模型参数量的增加,依然稳定提升。
另一种方法是通过双层优化算法直接训练代理模型来调整预训练数据的权重。这种方法的核心在于通过两步更新:第一步更新权重,第二步更新代理模型本身的权重。该算法更侧重于学习对整体梯度贡献较大的领域,即找出哪些领域的样本对代理模型的影响最大。这种方法不需要单独的参考模型,简化了训练流程,降低了实现复杂度。
更进一步的方法是利用多臂老虎机(Multi-Armed Bandit)算法在线调整领域采样权重。该算法在强化学习中较为常见,通过模拟拉取老虎机的不同手臂来获得奖励。在预训练模型场景中,大模型可以被视为老虎机,不同的数据集对应不同的手臂。训练过程中,根据获得的奖励(即单个样本的损失)来调整采样权重,以优化整体训练效果。这种方法能够实时响应数据分布的变化。
通过分析现有方法,可以总结出以下两点特征:
在工程化实践中,数据配比的调整是一个主动触发的过程,主要思路如下:
在实际应用中,需要考虑以下几点:
在大模型的训练过程中,后训练数据的选择和筛选对于模型性能的提升至关重要。随着训练数据从单纯追求数量转向重视质量,如何高效筛选出高质量的数据成为了一个关键议题。
后训练数据筛选的发展趋势表现为从追求数据量的增加转向关注数据质量的提升。这意味着不仅要保证数据的多样性,还要确保数据的质量,使模型能够在有限的数据集上达到最佳训练效果。低质量数据不仅浪费算力,还可能导致模型遗忘或产生幻觉。
为了实现这一目标,研究者们提出了多种数据筛选方法,旨在从海量数据中挑选出最具价值的部分。
在后训练数据筛选的过程中,可以将方法大致分为两大类:
在现有筛选方法的基础上,探索更为理想的筛选指标。理想指标应当具备以下特性:
在实际应用中,后训练数据筛选涉及多个层面的考量:
使用少量数学相关的微调数据,可以促进模型在多项通用任务上获得全面的能力提升。数学数据往往蕴含严密的逻辑推理,能够迁移到其他需要推理的任务中。
A1:在数据量和模型效果之间存在类似于模型参数量维度的 scaling law。但关键在于数据质量,高质量的数据是提升模型效果的基础。对于不同级别的模型,所需的高质量数据量可能存在底线,这一底线需要通过实验来探索。特别是对于大型模型,由于训练成本高昂,难以重复多次实验,因此在实际操作中需通过追随训练等方法逐步优化。
A2:数学数据主要来源于各类题库。市面上这类数据库存有限,建议可通过小模型从网页数据中提取数学知识相关内容进行扩充。爬虫结合正则表达式或 NLP 模型是常见的提取手段。
A3:数据进入模型训练的顺序确实有影响,但实际操作中难以全面评估所有可能的顺序。可以通过领域细分和实验来探究这一影响,但需要大量算力支持。通常建议先通用后专用,或者交替训练以避免灾难性遗忘。
A4:先导模型与主模型在结构上可以有所差异,但需要先导模型能够有效地反映数据质量。目前尚无明确理论指导先导模型的选择,但通常会选择在较小参数量下训练效果较好的模型作为先导模型。架构一致性有助于梯度方向的类比。
A5:PDF 文件处理的难点在于需要同时处理公式、表格和不同版面等复杂元素。有效的 PDF 处理工具应具备多种专用模型,如版面解析、表格处理和公式识别模型。特别需要注意的是,工具应擅长处理公式与文本混排的情况,这是 OCR 技术的痛点。
大模型的数据建设是一项系统工程,需要结合工程化思维与算法创新。从数据准备到配比优化,再到质量筛选,每一个环节都直接影响最终模型的上限。未来,随着自动化数据工程的发展,数据建设的效率与质量将成为核心竞争力。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online