重用,不要重新训练:训练语言模型持续预演的秘诀

重用,不要重新训练:训练语言模型持续预演的秘诀

重用,不要重新训练:
训练语言模型持续预演的秘诀

Jupinder ParmarCorrespondence to: [email protected] SatheeshMostofa PatwaryMohammad ShoeybiBryan Catanzaro
NVIDIA

摘要

由于语言模型扩展了参数数量和预训练数据集大小,除了资源最充足的团队之外,预训练的计算成本变得很棘手。 这种不断增加的成本使得在完成预训练后能够重用模型变得更加重要;允许模型的能力进一步提高,而无需从头开始训练。 在这项工作中,我们详细介绍了一组指南,涵盖如何设计有效的数据分布和学习率计划以进行语言模型的持续预训练。 当在训练有素的 15B 参数模型之上的持续预训练运行中应用这些发现时,与预训练集上持续预训练的基线相比,我们的平均模型精度提高了 9%。 由此产生的配方提供了一个实用的起点,通过重用而不是重新训练来开始开发语言模型。

重用,不要重新训练:

训练语言模型持续预演的秘诀

1简介

过去几年,语言建模能力取得了巨大进步(Brown 等人,2020;Chowdhery 等人,2022;OpenAI,2024;Team,2024)。 虽然这些进步使语言模型 (LM) 成为高技能的会话代理(OpenAI,2024;Anthropic,2024;Team,2024),但随着预训练变得越来越复杂,它们的计算成本也随之增加由于模型参数数量(Team 等人,2024;DeepSeek-AI 等人,2024) 和预训练数据集大小(Touvron 等人,2023;Gemma Team),成本越来越高, 2024; Parmar 等人, 2024) 规模持续增长。 随着设定最先进精度的新 LM 的频繁发布,仅几个月前开发的 LM 就变得过时了,因为它们的功能不再达到标准。 这使得模型开发人员可以选择从头开始预训练新的 LM,或者重用现有的 LM 并使用新信息更新它们,以匹配当前最佳的 LM 能力。

由于现代 LM 的预训练会产生巨大的计算成本,频繁的完全再训练是很棘手的。 这使得通过持续的预训练重用已经开发的语言模型成为一个有吸引力的提议。 虽然最近的著作(Ibrahim 等人,2024;Jang 等人,2022;Ke 等人,2023;Çağatay Yıldız 等人,2024) 推荐了在使语言模型适应新的语言模型时继续预预的指南。数据域或分布变化、关于如何通过持续预训练从先前最终确定的检查点提高模型通用能力的直觉或建议尚未得到广泛探索。 在本文中,我们重点关注这一尚未充分研究的环境,并确定策略,使已经训练有素的语言模型能够改进薄弱领域,而不会出现其他能力下降的情况。

在我们的实验中,我们从一个 15B 参数 LM 开始,该 LM 已经看到了 8T 预训练数据的标记 (Parmar 等人, 2024)。 使用这种规模的训练有素的模型进行实验可以确保我们的发现可以转移到大多数设置和模型大小。 我们首先确定在继续预训练期间应使用的数据分布类型,并发现最好有两个分布,最后一个分布更重视与我们想要在模型中提高的能力相关的数据源。 其次,我们确定哪种学习率计划可以在持续预训练期间实现最有效的学习,并确定最有效的学习率计划在学习率大小和衰减陡度之间取得平衡。 最后,我们展示了在数据分布之间切换的学习率值如何影响下游准确性,并确定应该进行此切换的点。

这些发现最终形成了一个配方,可用于执行持续的预训练,以提高现有 LM 的能力。 我们证明了这个配方在从 100B 到 1 万亿 Token 的持续训练规模上是有益的,说明了它在各种设置中使用的灵活性和鲁棒性。 我们希望这个方法能够让模型提供者放弃从头开始定期重新训练模型的需要,因为它使得可以重用经过训练的模型来获得改进的功能。

2相关作品

持续训练方法旨在采用已经训练好的模型并合并新数据,使其适应给定领域,或专门用于特定任务(Rolnick 等人,2019;Caccia 等人,2021;Lesort 等人,2022 ;古普塔等人,2023;林等人,2024)。 持续训练过程中出现的主要挑战是使模型能够学习新信息而不忘记以前获得的知识或能力(Robins,1995;French,1999)。 持续训练期间使用的学习率计划和数据分布(Gupta 等人, 2023; Ibrahim 等人, 2024; Winata 等人, 2023; Scialom 等人, 2022) 已被证明特别重要防止这种灾难性的遗忘。

对于语言学习者来说,持续训练的一个主要设置是通过使用晚于构建预训练集的日期收集的数据将更新的知识嵌入到模型中(Jin 等人, 2022; Jang 等人, 2022 ,2023;Loureiro等人,2022;秦等人,2022)。 这些研究结果发现,使用经验回放(Chaudhry等人,2019)和知识蒸馏(Hinton等人,2015)特别有效。 持续训练也常用于语言模型,使模型适应来自新领域的数据(Ke 等人,2023;Gururangan 等人,2020;Wu 等人,2024)。 许多领域自适应方法持续训练用新数据更新模型的部分权重,以确保以前的知识不会丢失。 例如,(Wu 等人, 2024) 通过扩展 Transformer 块并仅更新新添加的权重来实现这一点。

与我们探索的环境更相关的是,一些研究利用持续预训练来专门针对给定任务或领域 进行语言学习(Zan 等人,2022;Yadav 等人,2023;Ma 等人,2023;Yang 等人,2024;拉布拉克等人,2024)。 尽管研究了持续预训练的有效策略,但这些研究与我们的不同,因为它们的目的不是提高 LM 的一般能力、训练更少的 token,并使用更小的模型大小。 提供与我们的比较设置的主要研究是(Ibrahim等人,2024),它提供了一个基于学习率计划和示例重放建议的方法,用于在继续预训练期间保持通用能力数据分布变化。 他们的实验设置由一个 10B 参数模型组成,该模型针对 300B Token 进行了预训练。 我们的研究与 (Ibrahim 等人, 2024) 不同,因为我们的目标是进一步提高 LM 的一般能力,并且在我们的实验设置中,我们使用 15B 参数对最多 1T Token 进行持续预训练在 8T Token 上预训练的模型。

3实验设置

持续预训练过程如下:首先预训练模型,然后选择数据分布和学习率计划,进行持续预训练运行,最后返回有望改进的模型。 在深入研究定义持续训练配方的实验之前,我们详细介绍了所使用的数据集和模型架构。

3.1数据源

3.1.1预训练

我们的预训练数据集由三个不同领域的数据组成:英语自然语言数据、多语言自然语言数据和源代码数据。 表突出显示了组成预训练集的数据源及其各自的词符计数。 在我们的英语语料库中,Web Crawl 数据源自 Common Crawl (CC) 快照,而其余类别则由高质量数据集组成。 例如,杂项类别包含 BigScience ROOTS (Lachaux 等人, 2020)、Reddit 和 Pile-Stories (Gao 等人, 2020),百科全书类别包含维基百科和 Stack Exchange,科学论文包括 ArXiv 和 PubMed。

多语言数据集由 53 种语言组成,大部分示例来自 CC 快照,尽管一小部分来自机器翻译并行语料库(Schwenk 等人,2019;El-Kishky 等人,2019) 。 最后,我们的源代码数据来自经过许可许可的 GitHub 存储库,总共超过 43 种语言。

Data typeData sourceTokens (B)
EnglishWeb Crawl5,106
Misc.179
News93
Scientific Papers82
Books80
Legal50
Encyclopedia31
Finance20
MultilingualWeb crawl2,229
Parallel corpora55
Source CodeGitHub583

表格1:预训练数据构成。 附录和详细介绍了多语言和编码语言。

我们预训练了 8T Token 的模型。 鉴于当前最先进的 LM 已针对数万亿个 token 进行了预训练,我们希望在预训练模型之上进行实验,该模型象征着继续预训练配方将用于的模型类型。

3.1.2继续预训练

由于持续预训练中最有可能的情况是可用数据集正是构成预训练集的数据集,因此我们绝大多数持续预训练数据混合都由预训练数据源组成。 唯一的新附加数据源是一组问答 (QA)、对齐样式示例。 此类示例已被证明可以更好地提取 LM 中存储的知识(Allen-Zhu 和 Li,2023)。 这组 QA 数据总共 2.8B 个 token,表  突出显示了 QA 示例类型的类别。

Data typeData sourceTokens (B)
QAWorld Knowledge1.13
Reasoning0.92
STEM0.31
Chat0.26
Code0.19

表2:QA 的五个组成类别,对齐样式​​数据。

3.2模型架构和超参数

我们使用带有因果注意掩模的 15B 参数解码器 Transformer (Vaswani 等人, 2017) LM 进行实验。 它有32亿个嵌入参数和125亿个非嵌入参数。 其他架构规范包括:32 个 Transformer 层、6144 的隐藏大小、48 个注意力头、旋转位置嵌入 (RoPE) (Su 等人, 2023)、MLP 层中的平方 ReLU 激活、SentencePiece (Kudo 和 Richardson,2018) 词汇量为 256k、无偏差项、无约束输入输出嵌入的分词器。 此外,我们使用具有 8 KV 头的分组查询注意力(GQA)(Ainslie 等人,2023)。

该模型使用序列长度 4,096 进行预训练,并在预训练标记的前 5% 上使用批量大小提升,从批量大小 384 开始,逐渐增加到 1,152 个批量大小。 我们使用余弦学习率计划,并预热 16B Token ,从最大学习率 (LR) 𝜂𝑚⁢𝑎⁢𝑥=4.5⁢𝑒⁢-⁢4 衰减到 𝜂𝑚⁢𝑖⁢𝑛=4.5⁢𝑒⁢-⁢5。 我们使用 AdamW (Loshchilov 和 Hutter,2019) 优化器进行训练,其中 𝛽1=0.9、𝛽2=0.95 和权重衰减为 0.1。 在继续预训练中,唯一改变的超参数是学习率计划。

3.3评估

我们使用一组代表性任务来评估模型,以测试其在英语、多语言和编码领域的能力变化。 为了评估英语能力,我们对广泛使用的 MMLU (Hendrycks 等人,2020) 和 Hellaswag (Zellers 等人,2019) 基准进行评估。 MMLU 衡量模型跨 57 个领域的世界知识,而 Hellaswag 评估自然语言推理中的常识推理能力。 对于我们的多语言评估,我们使用多语言小学数学 (MGSM) (Shi 等人,2022) 基准,并专门报告西班牙语、日语和泰语语言子集的平均准确度,因为它们分别代表高、中、低资源语言。 最后,为了评估模型的编码能力,我们利用 HumanEval (Chen 等人,2021) 的 Python 代码生成任务,并在 pass@1 (Kulal 等人,2019)< 中报告评估结果/t1> 设置。 在下面的结果中,我们报告了所有四项任务的平均分数,并在附录中分享了完整详细的评估分数。

4继续预训练配方

构成我们持续预训练配方的实验结果分享如下:

Recipe• Start with a data distribution that is similar to the pretraining set but places larger weight on high quality sources before transitioning to a second distribution that incorporates QA data and upweights sources in areas of model weakness.• The learning rate schedule should start from 𝜂𝑚⁢𝑖⁢𝑛 of the pretrained model and decay with cosine annealing to 𝜂𝑚⁢𝑖⁢𝑛100.• The switch between data distribution should occur at 𝜂𝑚⁢𝑎⁢𝑥5 in the learning rate schedule.

5实验

预训练基础模型的结果如表所示。 我们持续训练方法的目标是定义有助于最大限度地提高这一基准的步骤。 所有详细实验均针对 300B Token 进行连续预训练。 此外,我们注意到,在我们的实验中,我们选择从预训练模型加载优化器状态,​​因为我们发现加载优化器状态或从头开始初始化时,评估精度的差异可以忽略不计。 因此,我们期望无论最终的实践者是否具有可用的预训练模型的优化器状态,​​所得到的结果都将成立。

ModelAverage Accuracy
Pretrained48.9

表3:预训练 8T Token 后的模型准确率。 每个任务的评估分数在表  中共享,我们发现该模型在评估基于 STEM 的推理能力的任务上尤其困难。

5.1数据分发

www.zeeklog.com  - 重用,不要重新训练:训练语言模型持续预演的秘诀

图1:一般混合 (GB) 考虑的各种分布的细目。 鉴于其在所有评估领域的强劲表现,我们使用 Upweight Non Web w/ High Quality Web 作为 GB 的前进方向。

任何训练运行的一个关键组成部分是数据分布——它定义了模型看到的信息并直接影响模型的能力。 由于连续预训练建立在已经看到给定预训练分布的模型之上,因此定义一个数据分布非常重要,该数据分布允许模型学习新概念,而又不会偏离预训练分布太远,这样模型就可以学习新概念。开始出现训练不稳定和准确性下降的情况。 通过一系列的运行来解决数据分布的哪些组成最能提高预训练模型的能力,我们确定了可以应用于大多数连续预训练场景的一般特征。 在这些实验中,我们使用从 𝜂𝑚⁢𝑖⁢𝑛 开始并通过余弦退火衰减到 0 的学习率计划。

首先,我们检查包含 QA 数据是否可以提高模型提取存储知识的能力(Allen-Zhu 和 Li,2023),从而提高模型准确性。 与这个问题相关的另一个问题是如何最好地将 QA 数据,或更一般地说,预训练数据分布中未包含的任何数据集合并到持续训练运行中:立即在开始时和整个持续训练中,或相当保留,直到按照课程学习设置继续训练结束(Soviany 等人,2022;Blakeney 等人,2024)。 我们假设,在持续预训练开始时包含新数据源可以使模型最好地学习新信息,但可能会导致学习不稳定,可以通过在学习率达到目标时在运行结束时显示新数据集来缓解学习不稳定。攻击性较小。 为了回答这些问题,我们将连续训练完全与预训练数据混合进行比较,完全与 QA 数据混合进行比较,并与预训练和 QA 数据混合的混合进行比较,其中我们从预训练混合开始并切换到 QA 数据在训练跑的后期混合。 此场景中的 QA 数据混合将 QA 数据集添加到预训练数据分布中,权重为 10%。

Data BlendAvg. Acc.
Pretraining51.5
QA53.4
Pretraining (250B), QA (50B)54.3

表 4:使用两个数据分布,并且 QA 数据出现在后者中,通过持续的预训练可以带来最大的改进。 () 表示每个混合的训练标记数量。 表  中共享了每个任务的评估分数。

表  表明,合并 QA 数据的效果明显优于仅使用预训练集中的现有数据。 此外,与在整个训练过程中使用 QA 混合相比,首先对大多数训练标记使用预训练数据混合,然后在继续预训练结束时过渡到 QA 数据混合,可以提高准确性。 这表明持续的预训练运行应该从与预训练更接近的数据分布开始,然后进行混合,然后引入新数据。 展望未来,我们将初始混合称为一般混合 GB,将后者称为 QA 混合 QB,并讨论如何改进它们以实现进一步的改进。

我们假设最佳 GB 将更加重视高质量数据源和模型薄弱环节,同时又不会偏离预训练分布太远。 这样的混合将增强所需领域的知识,并为 QB 混合奠定模型,而不必担心遇到较大的训练不稳定。 图说明了我们考虑的各种GB分布;除了增加感兴趣来源的权重之外,我们还可以将网络抓取子集为高质量文档,通过在维基百科上训练的 KenLM 模型 (Heafield,2011) 的困惑度分数的底部四分之一来确定,或完全删除网络爬行。 对持续训练的所有 300B 标记的各种 GB 分布进行实验,表  显示每种分布都对预训练分布进行了改进。 尽管它没有达到最高的平均准确率,但我们选择 Upweight Non Web with High Quality Web 作为 GB 的前进方向,因为与其他人相比,它在所有考虑的任务中最一致地取得了高分,如表

Data BlendAvg. Acc.
Pretraining51.5
Reweight Domains51.7
Pretraining w/ High Quality Web52.5
No Web52.9
UW Non Web w/ High Quality Web52.0

表 5:各种GB候选分布的评估结果。 表  中共享了每个任务的评估分数

有了 GB 分布,我们现在希望通过首先细化 QA 数据中源的权重,然后从整体上优化 QB 分布来定义 QB 分布。 在初始 QB 分布中,QA 数据按原样添加,该权重如图 中的 QA 混合 1 所示。 鉴于预训练模型在 STEM 任务上表现不佳,我们创建了两个额外的混合,它们都增加了 QA STEM 数据的权重,同时保持 QA 世界知识的原始权重(混合 2)或 QA 聊天(混合 3),数据如图 。 我们选择保持世界知识和聊天信息的权重,因为这些示例涵盖了广泛的主题,并有助于更好地分别调整模型对问题的响应。 表  强调,在将每个 QA 混合添加到已识别 GB 的 250B 标记之后的初始 QB 分布中后,强调 STEM 和聊天信息的 QA 数据会产生最佳结果。

www.zeeklog.com  - 重用,不要重新训练:训练语言模型持续预演的秘诀

图2:QA 数据的各种分布。 我们使用混合 3。

Data BlendAvg. Acc.
QA 154.3
QA 2 (+STEM, +World Knowledge)53.0
QA 3 (+STEM, +Chat)54.9

表 6:各种 QA 混合候选的评估结果。 表  中共享了每个任务的评估分数

我们现在将 QA 数据合并到整个 QB 分布中。 在之前的运行中,除了 QA 数据集之外,QB 分布也完全反映了预训练集。 我们根据模型弱点区域中源的更积极的权重以及 QA 数据集上的权重来定义一系列新的分布,如图  所示。 表  详细说明了 QB 中的积极权重是有益的,我们使用称为 QA 混合的 QB 向前推进。 通过细化 GB 和 QB 分布,平均评估精度从预训练模型的 48.9 提高到 55.4,提高了 13%。

Data BlendAvg. Acc.
Pretraining blend w/ QA data54.3
General blend w/ QA data54.2
QA55.4
QA w/ Upweighted STEM54.4
QA w/ 1.5e QA data54.9
QA w/ 3.5e QA data54.4

表 7:各种QB候选分布的评估结果。 表  中共享了每个任务的评估分数

www.zeeklog.com  - 重用,不要重新训练:训练语言模型持续预演的秘诀

图3:余弦衰减时间表,最大 LR 为 4.5⁢𝑒⁢-⁢5。 每个时间表都以不同的方式优先考虑 LR 幅度和衰减斜率。

www.zeeklog.com  - 重用,不要重新训练:训练语言模型持续预演的秘诀

图4:QB 考虑的各种分布的细分。 𝑁e 指的是 QA 数据的 𝑁 epoch。 最终选择的分布显示为 QA Blend,它使用了 2 个 epoch 的 QA 数据。

5.2学习率表

学习率计划极大地影响了持续预训练的训练动态和效果(Gupta 等人,2023;Ibrahim 等人,2024;Winata 等人,2023)。

在我们上面继续的预训练实验中,学习率计划从最大 LR 𝜂𝑚⁢𝑎⁢𝑥ct=4.5⁢𝑒⁢-⁢5 开始,它等于 𝜂𝑚⁢𝑖⁢𝑛,并使用余弦退火衰减到最小 LR 0。 如图所示,最小 LR 为 0 会促进陡峭的衰减斜率,但 LR 的大小会受到严重影响,特别是在使用 QB 的 Token 上,这可能会影响模型提取的能力QA 数据的全部效用。 为了了解连续预训练运行中学习率计划的这两个特征之间的权衡,我们尝试了两个额外的最小学习率值:𝜂𝑚⁢𝑎⁢𝑥ct10=4.5⁢𝑒⁢-⁢6和𝜂𝑚⁢𝑎⁢𝑥ct100=4.5⁢𝑒⁢-⁢7。

LR ScheduleAvg. Acc.
Decay to 𝜂𝑚⁢𝑎⁢𝑥ct10 54.8
Decay to 𝜂𝑚⁢𝑎⁢𝑥ct100 55.7
Decay to 055.4

表8:具有不同最小 LR 值的学习率计划的评估结果。 表  中共享了每个任务的评估分数

表  强调,实际上最好在 LR 大小和衰减斜率之间找到一个中间立场,因为 𝜂𝑚⁢𝑎⁢𝑥ct100 的最小 LR 可以实现最佳精度。 与使用 𝜂𝑚⁢𝑎⁢𝑥ct10 的最小 LR 时不同,这样的最小 LR 值允许学习率计划对 QB Token 具有合理的衰减,而不会严重牺牲 LR 的大小,就像使用最小 LR 的情况一样LR 为 0。

与上面详述的时间表相比,使用不同的学习率预热和最大 LR 值进行的实验导致了准确性回归。 此外,我们使用不同的退火方案 WSD (Hu 等人,2024) 进行了烧蚀,但结果与余弦退火相比没有竞争力。 附录中分享了这两项研究的完整详细信息和结果。

5.3数据分布切换

到目前为止,我们已经在持续预 250B Token 后在 GB 和 QB 训练之间切换。 我们认为这是次优的,因为尚不清楚固定数量的 Token 之后的分布之间的切换如何可以轻松地转化为不同词符范围的连续训练运行。 我们假设数据分布之间切换的最佳点取决于学习率计划。 图  突出显示了如果分布切换发生在最大 LR 的逐渐变小的分数处,QB 混合的 Token 数量和学习率值将如何不同。 当分数变为 0 时,衰减斜率和学习率幅度都会缩小,这意味着学习率曲线中可能存在一个最佳点,其中这两个特征仍然有利于实现学习,但也不会过于激进。 QB 分布中的数据偏移导致训练不稳定的点。

www.zeeklog.com  - 重用,不要重新训练:训练语言模型持续预演的秘诀

图5:QB Token 的数量(阴影区域)如何根据不同的分布切换点而变化。

表  强调了在 𝜂𝑚⁢𝑎⁢𝑥ct5 处 GB 和 QB 之间的切换实现了最佳精度,并且比启发式选择的切换点平均提高了 0.4 个点。 为了确认这个分布切换点在不同数量的连续预训练 Token 上成立,我们在 100B Token 规模上进行了消融,发现 𝜂𝑚⁢𝑎⁢𝑥ct5 再次最大化了结果,如表 .

Distribution SwitchAvg. Acc.
At 𝜂𝑚⁢𝑎⁢𝑥ct (from step 0)52.8
At 𝜂𝑚⁢𝑎⁢𝑥ct2 54.7
At 𝜂𝑚⁢𝑎⁢𝑥ct5 56.1
At 𝜂𝑚⁢𝑎⁢𝑥ct10 55.0
At 𝜂𝑚⁢𝑎⁢𝑥ct50 54.6

表 9:不同分布切换点的评估结果。 表中共享了每个任务的评估分数

这完成了我们继续预训练的秘诀。 我们强调此配方的实用性,因为它允许模型达到 56.1 的平均准确度,这比预训练分布上的持续训练的自然基线提高了 9 个,如表  中所示。 %。

6消融

6.1变化的词符地平线

我们展示了所识别的持续预训练配方在不同数量的持续标记下使用时的有效性。 表  说明,在从 100B 到 1T Token 的持续训练范围内,所识别的配方始终获得改进的评估结果 – 使用 1T 持续训练 Token 时,比预训练模型实现了 16% 的增益。 我们确实注意到,从 300B 到 1T Token 的准确率提高的斜率低于从 100B 到 300B Token 的准确率提高的斜率,我们假设,由于我们在进行大量连续训练 Token 时主要重复使用预训练集中的文档,因此重复次数相同数据源上的纪元的边际效用递减。

Num CPT TokensMMLUAvg. Acc.
0B59.348.9
100B63.055.0
300B63.856.1
1T65.356.8

表 10:连续预训练(CPT)配方在不同词符范围内的表现。 表中共享了每个任务的评估分数

6.2文档挖掘

为了提高长期持续预训练运行中多个时期的数据源的实用性,我们的目标是找到对模型改进最有帮助的示例子集。 由于 QA 数据集被证明可以显着提高模型准确性,因此我们假设将每个预训练数据源限制为与 QA 示例最相似的文档集将是有益的。 为此,我们使用 E5-large-v2 (Wang 等人, 2022) 文本嵌入模型来获取预训练和 QA 集中每个文档的嵌入。 使用 Faiss 库(Johnson 等人,2017),我们在所有这些嵌入中高效地执行 50 个最近邻搜索,以获得与 QA 集中每个示例最相似的 50 个非 QA 文档。 已识别的示例子集构成 60B 个 Token ,我们将这种方法称为文档挖掘。

表  显示了一个训练运行,其中我们仅使用通过文档挖掘识别的示例替换 QB 分布中的所有非 QA 数据源。 我们发现这些文档极大地提高了持续预训练运行的性能,并相信文档挖掘是从现有数据源中提取进一步实用性的可行方法。

BlendMMLUAvg. Acc.
CT 1T65.356.8
CT 1T w/ Mined Docs66.657.9

表 11:挖掘与 QA 文档相关的示例进一步提高了准确性。 表  中共享了每个任务的评估分数

7结论

我们研究如何有效地继续训练 LM 以提高他们现有的能力。 我们的实验表明,仔细定义持续预训练期间使用的数据分布和学习率衰减计划尤为重要,以便模型能够平滑地从预训练分布过渡并更好地学习新强调的数据源。 根据这些发现,我们提出了一个通用方案,模型开发人员可以使用该方案在他们自己的 LM 上执行持续的预训练,并表明对于我们的基本模型,我们能够将累积精度提高超过 18%。 我们希望这将成为一个起点,使未来的语言模型能够通过重用现有模型来开发,而不是从头开始重新训练。

局限性

在我们继续预训练配方的开发过程中,我们仅沿着数据分布和超参数配置的轴进行实验。 尽管我们没有将它们纳入我们的研究中,但探索其他方面(例如改变学习算法)可能会带来额外的好处。 此外,考虑到我们的研究是在具有给定配置的模型之上进行的,并且该模型是使用特定数据分布进行预训练的,因此当我们在与所使用的设置高度不同的设置中使用时,我们强调的结果可能无法很好地推断。学习。 最后,我们将持续预训练的目标限制为提高预训练模型的通用能力;然而,在考虑模型重用时还有许多其他角度,例如领域专业化和将新知识有效添加到现有模型中。

参考

  • Ainslie et al. (2023)Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebrón, and Sumit Sanghai. 2023.GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints.arXiv preprint arXiv:2305.13245.
  • Allen-Zhu and Li (2023)Zeyuan Allen-Zhu and Yuanzhi Li. 2023..Preprint, arXiv:2309.14316.
  • Anthropic (2024)Anthropic. 2024.The Claude 3 Model Family: Opus, Sonnet, Haiku.
  • Blakeney et al. (2024)Cody Blakeney, Mansheej Paul, Brett W. Larsen, Sean Owen, and Jonathan Frankle. 2024..Preprint, arXiv:2406.03476.
  • Brown et al. (2020)Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. 2020..Preprint, arXiv:2005.14165.
  • Caccia et al. (2021)Massimo Caccia, Pau Rodriguez, Oleksiy Ostapenko, Fabrice Normandin, Min Lin, Lucas Caccia, Issam Laradji, Irina Rish, Alexandre Lacoste, David Vazquez, and Laurent Charlin. 2021..Preprint, arXiv:2003.05856.
  • Chaudhry et al. (2019)Arslan Chaudhry, Marcus Rohrbach, Mohamed Elhoseiny, Thalaiyasingam Ajanthan, Puneet K. Dokania, Philip H. S. Torr, and Marc’Aurelio Ranzato. 2019..Preprint, arXiv:1902.10486.
  • Chen et al. (2021)Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin, Brooke Chan, Scott Gray, Nick Ryder, Mikhail Pavlov, Alethea Power, Lukasz Kaiser, Mohammad Bavarian, Clemens Winter, Philippe Tillet, Felipe Petroski Such, Dave Cummings, Matthias Plappert, Fotios Chantzis, Elizabeth Barnes, Ariel Herbert-Voss, William Hebgen Guss, Alex Nichol, Alex Paino, Nikolas Tezak, Jie Tang, Igor Babuschkin, Suchir Balaji, Shantanu Jain, William Saunders, Christopher Hesse, Andrew N. Carr, Jan Leike, Josh Achiam, Vedant Misra, Evan Morikawa, Alec Radford, Matthew Knight, Miles Brundage, Mira Murati, Katie Mayer, Peter Welinder, Bob McGrew, Dario Amodei, Sam McCandlish, Ilya Sutskever, and Wojciech Zaremba. 2021..Preprint, arXiv:2107.03374.
  • Chowdhery et al. (2022)Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, et al. 2022.PaLM: Scaling Language Modeling with Pathways.arXiv preprint arXiv:2204.02311.
  • DeepSeek-AI et al. (2024)DeepSeek-AI, :, Xiao Bi, Deli Chen, Guanting Chen, Shanhuang Chen, Damai Dai, Chengqi Deng, Honghui Ding, Kai Dong, Qiushi Du, Zhe Fu, Huazuo Gao, Kaige Gao, Wenjun Gao, Ruiqi Ge, Kang Guan, Daya Guo, Jianzhong Guo, Guangbo Hao, Zhewen Hao, Ying He, Wenjie Hu, Panpan Huang, Erhang Li, Guowei Li, Jiashi Li, Yao Li, Y. K. Li, Wenfeng Liang, Fangyun Lin, A. X. Liu, Bo Liu, Wen Liu, Xiaodong Liu, Xin Liu, Yiyuan Liu, Haoyu Lu, Shanghao Lu, Fuli Luo, Shirong Ma, Xiaotao Nie, Tian Pei, Yishi Piao, Junjie Qiu, Hui Qu, Tongzheng Ren, Zehui Ren, Chong Ruan, Zhangli Sha, Zhihong Shao, Junxiao Song, Xuecheng Su, Jingxiang Sun, Yaofeng Sun, Minghui Tang, Bingxuan Wang, Peiyi Wang, Shiyu Wang, Yaohui Wang, Yongji Wang, Tong Wu, Y. Wu, Xin Xie, Zhenda Xie, Ziwei Xie, Yiliang Xiong, Hanwei Xu, R. X. Xu, Yanhong Xu, Dejian Yang, Yuxiang You, Shuiping Yu, Xingkai Yu, B. Zhang, Haowei Zhang, Lecong Zhang, Liyue Zhang, Mingchuan Zhang, Minghua Zhang, Wentao Zhang, Yichao Zhang, Chenggang Zhao, Yao Zhao, Shangyan Zhou, Shunfeng Zhou, Qihao Zhu, and Yuheng Zou. 2024..Preprint, arXiv:2401.02954.
  • El-Kishky et al. (2019)Ahmed El-Kishky, Vishrav Chaudhary, Francisco Guzmán, and Philipp Koehn. 2019.Ccaligned: A massive collection of cross-lingual web-document pairs.arXiv preprint arXiv:1911.06154.
  • French (1999)Robert M. French. 1999..Trends in Cognitive Sciences, 3(4):128–135.
  • Gao et al. (2020)Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe, Charles Foster, Jason Phang, Horace He, Anish Thite, Noa Nabeshima, Shawn Presser, and Connor Leahy. 2020.The Pile: An 800gb dataset of diverse text for language modeling.arXiv preprint arXiv:2101.00027.
  • Gemma Team (2024)Google DeepMind Gemma Team. 2024.Gemma: Open Models Based on Gemini Research and Technology.
  • Gupta et al. (2023)Kshitij Gupta, Benjamin Thérien, Adam Ibrahim, Mats L. Richter, Quentin Anthony, Eugene Belilovsky, Irina Rish, and Timothée Lesort. 2023.Preprint, arXiv:2308.04014.
  • Gururangan et al. (2020)Suchin Gururangan, Ana Marasović, Swabha Swayamdipta, Kyle Lo, Iz Beltagy, Doug Downey, and Noah A. Smith. 2020..In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 8342–8360, Online. Association for Computational Linguistics.
  • Heafield (2011)Kenneth Heafield. 2011.Kenlm: Faster and smaller language model queries.In Proceedings of the sixth workshop on statistical machine translation, pages 187–197.
  • Hendrycks et al. (2020)Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. 2020.Measuring Massive Multitask Language Understanding.arXiv preprint arXiv:2009.03300.
  • Hinton et al. (2015)Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. 2015..Preprint, arXiv:1503.02531.
  • Hu et al. (2024)Shengding Hu, Yuge Tu, Xu Han, Chaoqun He, Ganqu Cui, Xiang Long, Zhi Zheng, Yewei Fang, Yuxiang Huang, Weilin Zhao, Xinrong Zhang, Zheng Leng Thai, Kaihuo Zhang, Chongyi Wang, Yuan Yao, Chenyang Zhao, Jie Zhou, Jie Cai, Zhongwu Zhai, Ning Ding, Chao Jia, Guoyang Zeng, Dahai Li, Zhiyuan Liu, and Maosong Sun. 2024..Preprint, arXiv:2404.06395.
  • Ibrahim et al. (2024)Adam Ibrahim, Benjamin Thérien, Kshitij Gupta, Mats L. Richter, Quentin Anthony, Timothée Lesort, Eugene Belilovsky, and Irina Rish. 2024..Preprint, arXiv:2403.08763.
  • Jang et al. (2023)Joel Jang, Seonghyeon Ye, Changho Lee, Sohee Yang, Joongbo Shin, Janghoon Han, Gyeonghun Kim, and Minjoon Seo. 2023..Preprint, arXiv:2204.14211.
  • Jang et al. (2022)Joel Jang, Seonghyeon Ye, Sohee Yang, Joongbo Shin, Janghoon Han, Gyeonghun Kim, Stanley Jungkyu Choi, and Minjoon Seo. 2022..Preprint, arXiv:2110.03215.
  • Jin et al. (2022)Xisen Jin, Dejiao Zhang, Henghui Zhu, Wei Xiao, Shang-Wen Li, Xiaokai Wei, Andrew Arnold, and Xiang Ren. 2022..Preprint, arXiv:2110.08534.
  • Johnson et al. (2017)Jeff Johnson, Matthijs Douze, and Hervé Jégou. 2017..Preprint, arXiv:1702.08734.
  • Ke et al. (2023)Zixuan Ke, Yijia Shao, Haowei Lin, Tatsuya Konishi, Gyuhak Kim, and Bing Liu. 2023..Preprint, arXiv:2302.03241.
  • Kudo and Richardson (2018)Taku Kudo and John Richardson. 2018.Sentencepiece: A Simple and Language Independent Subword Tokenizer and Detokenizer for Neural Text Processing.arXiv preprint arXiv:1808.06226.
  • Kulal et al. (2019)Sumith Kulal, Panupong Pasupat, Kartik Chandra, Mina Lee, Oded Padon, Alex Aiken, and Percy Liang. 2019..Preprint, arXiv:1906.04908.
  • Labrak et al. (2024)Yanis Labrak, Adrien Bazoge, Emmanuel Morin, Pierre-Antoine Gourraud, Mickael Rouvier, and Richard Dufour. 2024..Preprint, arXiv:2402.10373.
  • Lachaux et al. (2020)Marie-Anne Lachaux, Baptiste Roziere, Lowik Chanussot, and Guillaume Lample. 2020..Preprint, arXiv:2006.03511.
  • Lesort et al. (2022)Timothée Lesort, Massimo Caccia, and Irina Rish. 2022..Preprint, arXiv:2104.01678.
  • Lin et al. (2024)Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, Yelong Shen, Ruochen Xu, Chen Lin, Yujiu Yang, Jian Jiao, Nan Duan, and Weizhu Chen. 2024..Preprint, arXiv:2404.07965.
  • Loshchilov and Hutter (2019)Ilya Loshchilov and Frank Hutter. 2019..Preprint, arXiv:1711.05101.
  • Loureiro et al. (2022)Daniel Loureiro, Francesco Barbieri, Leonardo Neves, Luis Espinosa Anke, and Jose Camacho-Collados. 2022..Preprint, arXiv:2202.03829.
  • Ma et al. (2023)Shirong Ma, Shen Huang, Shulin Huang, Xiaobin Wang, Yangning Li, Hai-Tao Zheng, Pengjun Xie, Fei Huang, and Yong Jiang. 2023..Preprint, arXiv:2312.15696.
  • OpenAI (2024)OpenAI. 2024..Preprint, arXiv:2303.08774.
  • Parmar et al. (2024)Jupinder Parmar, Shrimai Prabhumoye, Joseph Jennings, Mostofa Patwary, Sandeep Subramanian, Dan Su, Chen Zhu, Deepak Narayanan, Aastha Jhunjhunwala, Ayush Dattagupta, Vibhu Jawa, Jiwei Liu, Ameya Mahabaleshwarkar, Osvald Nitski, Annika Brundyn, James Maki, Miguel Martinez, Jiaxuan You, John Kamalu, Patrick LeGresley, Denys Fridman, Jared Casper, Ashwath Aithal, Oleksii Kuchaiev, Mohammad Shoeybi, Jonathan Cohen, and Bryan Catanzaro. 2024..Preprint, arXiv:2402.16819.
  • Qin et al. (2022)Yujia Qin, Jiajie Zhang, Yankai Lin, Zhiyuan Liu, Peng Li, Maosong Sun, and Jie Zhou. 2022..Preprint, arXiv:2203.06311.
  • Robins (1995)Anthony V. Robins. 1995..Connect. Sci., 7:123–146.
  • Rolnick et al. (2019)David Rolnick, Arun Ahuja, Jonathan Schwarz, Timothy P. Lillicrap, and Greg Wayne. 2019..Preprint, arXiv:1811.11682.
  • Schwenk et al. (2019)Holger Schwenk, Guillaume Wenzek, Sergey Edunov, Edouard Grave, and Armand Joulin. 2019.Ccmatrix: Mining billions of high-quality parallel sentences on the web.arXiv preprint arXiv:1911.04944.
  • Scialom et al. (2022)Thomas Scialom, Tuhin Chakrabarty, and Smaranda Muresan. 2022..Preprint, arXiv:2205.12393.
  • Shi et al. (2022)Freda Shi, Mirac Suzgun, Markus Freitag, Xuezhi Wang, Suraj Srivats, Soroush Vosoughi, Hyung Won Chung, Yi Tay, Sebastian Ruder, Denny Zhou, Dipanjan Das, and Jason Wei. 2022..Preprint, arXiv:2210.03057.
  • Soviany et al. (2022)Petru Soviany, Radu Tudor Ionescu, Paolo Rota, and Nicu Sebe. 2022..Preprint, arXiv:2101.10382.
  • Su et al. (2023)Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, and Yunfeng Liu. 2023..Preprint, arXiv:2104.09864.
  • Team (2024)Gemini Team. 2024..Preprint, arXiv:2312.11805.
  • Team et al. (2024)Reka Team, Aitor Ormazabal, Che Zheng, Cyprien de Masson d’Autume, Dani Yogatama, Deyu Fu, Donovan Ong, Eric Chen, Eugenie Lamprecht, Hai Pham, Isaac Ong, Kaloyan Aleksiev, Lei Li, Matthew Henderson, Max Bain, Mikel Artetxe, Nishant Relan, Piotr Padlewski, Qi Liu, Ren Chen, Samuel Phua, Yazheng Yang, Yi Tay, Yuqi Wang, Zhongkai Zhu, and Zhihui Xie. 2024..Preprint, arXiv:2404.12387.
  • Touvron et al. (2023)Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. 2023.Llama 2: Open Foundation and Fine-tuned Chat Models.arXiv preprint arXiv:2307.09288.
  • Vaswani et al. (2017)Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Ł ukasz Kaiser, and Illia Polosukhin. 2017..In Advances in Neural Information Processing Systems, volume 30. Curran Associates, Inc.
  • Wang et al. (2022)Liang Wang, Nan Yang, Xiaolong Huang, Binxing Jiao, Linjun Yang, Daxin Jiang, Rangan Majumder, and Furu Wei. 2022.Text embeddings by weakly-supervised contrastive pre-training.arXiv preprint arXiv:2212.03533.
  • Winata et al. (2023)Genta Indra Winata, Lingjue Xie, Karthik Radhakrishnan, Shijie Wu, Xisen Jin, Pengxiang Cheng, Mayank Kulkarni, and Daniel Preotiuc-Pietro. 2023..Preprint, arXiv:2305.16252.
  • Wu et al. (2024)Chengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, Jiahao Wang, Ye Feng, Ying Shan, and Ping Luo. 2024..Preprint, arXiv:2401.02415.
  • Yadav et al. (2023)Prateek Yadav, Qing Sun, Hantian Ding, Xiaopeng Li, Dejiao Zhang, Ming Tan, Xiaofei Ma, Parminder Bhatia, Ramesh Nallapati, Murali Krishna Ramanathan, Mohit Bansal, and Bing Xiang. 2023..Preprint, arXiv:2307.02435.
  • Yang et al. (2024)Xianjun Yang, Junfeng Gao, Wenxin Xue, and Erik Alexandersson. 2024..Preprint, arXiv:2401.01600.
  • Zan et al. (2022)Daoguang Zan, Bei Chen, Dejian Yang, Zeqi Lin, Minsu Kim, Bei Guan, Yongji Wang, Weizhu Chen, and Jian-Guang Lou. 2022..Preprint, arXiv:2206.06888.
  • Zellers et al. (2019)Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, and Yejin Choi. 2019.Hellaswag: Can a machine really finish your sentence?In ACL.
  • Çağatay Yıldız et al. (2024)Çağatay Yıldız, Nishaanth Kanna Ravichandran, Prishruit Punia, Matthias Bethge, and Beyza Ermis. 2024..Preprint, arXiv:2402.17400.

附录A数据

A.1多语言数据

预训练集中包含的 53 种多语言语言为:AR、AZ、BG、BN、CA、CS、DA、DE、EL、ES、ET、FA、FI、FR、GL、HE、HI、HR、HU、 HY、ID、IS、IT、JA、KA、KK、KN、KO、LT、LV、MK、ML、MR、NE、NL、NO、PL、PT、RO、RU、SK、SL、SQ、SR、 SV、TA、TE、TH、TR、UK、UR、VI 和 ZH。

A.2代码数据

我们的预训练集中包含 43 种编程语言: assembly、c、c-sharp、common-lisp、cpp、css、cuda、dart、dockerfile、fortran、go、haskell、html、java、javascript、json、julia、 jupyter-scripts、lua、makefile、markdown、mathematica、omniverse、pascal、perl、php、python、R、restructedtext、ruby、rust、scala、shell、sql、swift、systemverilog、tex、typescript、verilog、vhdl、视觉-基本、xml 和 yaml。

附录B实验

下面分享了我们每个实验的所有考虑任务的评估结果。

TaskPretrained Model
MMLU59.3
HellaSwag80.4
HumanEval31.1
MGSM (ES, JA, TH)24.9

表 12:预训练 8T Token 后的模型准确率。 我们发现该模型在基于 STEM 的推理任务上表现不佳,因为它在 MGSM 和 MMLU 的 STEM 子任务上得分较低。

B.1数据分布

表  分享了第  节中提到的每个实验的所有任务的结果。

Data BlendMMLUHellaSwagHumanEvalMGSM (ES, JA, TH)
Pretraining61.981.228.134.7
QA6278.732.940.1
Pretraining (250B) + QA (50B)62.682.229.942.4
Pretraining61.981.228.134.7
Reweight Domains61.981.729.933.2
Pretraining w/ High Quality Web62.280.934.132.9
No Web62.381.829.937.7
Upweight Non Web w/ High Quality Web62.681.431.732.1
QA 163.082.429.941.9
QA 2 (+STEM, +World Knowledge)63.982.329.336.7
QA 3 (+STEM, +Chat)64.182.228.744.7
QA64.282.430.544.5
QA w/ Upweighted STEM64.182.328.142.9
QA w/ 1.5e QA data64.182.228.744.7
QA w/ 3.5e QA data64.427.482.443.3

表 13: 节中提到的关于定义持续预训练的数据分布的每个实验的每任务评估结果。

B.2学习率表

LR ScheduleMMLUHellaSwagHumanEvalMGSM (ES, JA, TH)
Decay to 𝜂𝑚⁢𝑎⁢𝑥ct10 63.982.429.343.7
Decay to 𝜂𝑚⁢𝑎⁢𝑥ct100 64.282.231.145.2
Decay to 064.230.582.444.5

表 14:表  中提到的实验的每个任务评估结果,用于确定持续预训练的适当学习率衰减计划。

在确定持续预训练的学习率计划时,我们尝试了不同程度的热身和 𝜂𝑚⁢𝑎⁢𝑥ct 值。 我们考虑的组合是:从 𝜂𝑚⁢𝑖⁢𝑛 到 𝜂𝑚⁢𝑎⁢𝑥ct=1.5∗𝜂𝑚⁢𝑖⁢𝑛 的预热,从 0.5∗𝜂𝑚⁢𝑖⁢𝑛 到 𝜂𝑚⁢𝑎⁢𝑥ct=𝜂𝑚⁢𝑖⁢𝑛 的预热,以及从 0 到预期的预热如果预训练学习率计划被扩展以包含连续的训练标记(即从 8T 到 8.3T),则学习率值将是。 我们使用𝜂𝑚⁢𝑖⁢𝑛指定预训练模型的最小学习率值,即4.5⁢𝑒⁢-⁢5。 图突出显示了这些计划中的每一个,我们注意到选择这些组合是为了量化在持续预训练学习率计划中使用热身时的不同程度的攻击性。

www.zeeklog.com  - 重用,不要重新训练:训练语言模型持续预演的秘诀

图6:我们试验的不同预热级别的余弦衰减时间表。

正如表  中突出显示的,我们发现在持续学习率计划中包含任何级别的热身都会导致评估精度回归,这表明最好直接从 𝜂𝑚⁢𝑖⁢𝑛 衰减。

LR ScheduleMMLUHellaSwagHumanEvalMGSM (ES, JA, TH)Avg. Acc.
Warmup to 6.75⁢𝑒⁢-⁢5 64.081.931.142.354.8
Warmup to 4.5⁢𝑒⁢-⁢5 64.082.132.941.555.1
Warmup to Expected LR63.382.131.742.554.9
No Warmup64.231.182.245.255.7

表 15:在持续预训练的学习率计划中包含热身的比较。 无需预热即可达到最佳评估结果。

除了余弦退火之外,我们还尝试了 WSD 学习率调度器(Hu 等人,2024)。 表  将 WSD 的最佳设置与余弦退火进行了比较。 WSD 计划产生的评估精度明显低于余弦退火。 我们假设,在持续的预训练中,将预训练期间使用的衰减时间表切换是有害的。 因此,对于使用余弦退火进行预训练的模型,继续训练中的学习率计划也应该使用余弦退火。

LR ScheduleMMLUHellaSwagHumanEvalMGSM (ES, JA, TH)Avg. Acc.
WSD63.680.228.139.552.8
Cosine Annealing64.282.231.145.255.7

表 16:我们发现,与余弦退火相比,WSD 会导致评估精度显着下降。 两个学习率计划都衰减到𝜂𝑚⁢𝑎⁢𝑥ct100。

B.3数据分布切换

表  强调了我们在第  节中的实验结果在 100B Token 的持续训练词符范围内也成立。 这表明无论连续训练标记的数量如何,在 𝜂𝑚⁢𝑎⁢𝑥ct5 处 GB 和 QB 分布之间的转换是最佳的。

Distribution SwitchMMLUHellaSwagHumanEvalMGSM (ES, JA, TH)
At 𝜂𝑚⁢𝑎⁢𝑥ct (from step 0)65.078.729.937.7
At 𝜂𝑚⁢𝑎⁢𝑥ct2 60.981.632.344.1
At 𝜂𝑚⁢𝑎⁢𝑥ct5 63.882.232.346.1
At 𝜂𝑚⁢𝑎⁢𝑥ct10 63.982.229.344.7
At 𝜂𝑚⁢𝑎⁢𝑥ct50 63.381.631.142.3

表 17:表中提到的关于如何在持续预训练中切换数据分布的实验的每任务评估结果。

Distribution SwitchMMLUHellaSwagHumanEvalMGSM (ES, JA, TH)AVG
At 𝜂𝑚⁢𝑎⁢𝑥ct (from step 0)64.179.231.140.053.6
At 𝜂𝑚⁢𝑎⁢𝑥ct2 63.281.627.444.154.1
At 𝜂𝑚⁢𝑎⁢𝑥ct5 63.081.931.743.655.0
At 𝜂𝑚⁢𝑎⁢𝑥ct10 63.681.830.539.753.9
At 𝜂𝑚⁢𝑎⁢𝑥ct50 63.381.631.142.354.6

表 18:以 100B Token 的持续预训练规模消融数据分发切换实验。 根据 300B 词符持续训练范围的结果,𝜂𝑚⁢𝑎⁢𝑥ct5 处的切换分布实现了最高准确度。

附录 C消融

C.1变化的词符地平线

当将持续预训练 token 的数量扩展到 1T 时,我们发现现有的 QB 分布会导致小型 QA 数据集需要接受大量 epoch 的训练。 为了纠正这个问题,我们减少了 QA 数据集的权重,使其训练时间不超过 4 个 epoch。 图展示了在1T连续预训练 Token 规模下使用时QB的分布。

www.zeeklog.com  - 重用,不要重新训练:训练语言模型持续预演的秘诀

图7:将持续预训练 Token 数量扩展至 1T 时的 QB 混合分布。

Num CT TokensMMLUHellaSwagHumanEvalMGSM (ES, JA, TH)AVG
0B59.380.431.124.948.9
100B63.081.931.743.655.0
300B63.882.232.346.156.1
1T65.382.434.145.5

表 19:表  中提到的实验的每任务评估结果,显示所识别的持续预配方如何在不同数量的持续训练标记下执行。

BlendMMLUHellaSwagHumanEvalMGSM (ES, JA, TH)
CT 1T65.382.434.145.5
CT 1T w/ Mined Docs66.681.736.646.7

表 20:表中提到的实验的每任务评估结果,说明文档挖掘如何提高持续预训练中现有数据源的效用。

Read more

Uber 推出数据湖集成神器 DBEvents,支持 MySQL、Cassandra 等

Uber 推出数据湖集成神器 DBEvents,支持 MySQL、Cassandra 等

在全球市场保持 Uber 平台的可靠性和实时性是一项 7*24 小时不能间断的任务。当旧金山的人们进入梦乡时,巴黎的上班族们正发送着 Uber 车辆订单准备出门工作。而同一时刻在地球的另一端,孟买的居民可能正在用 Uber Eats 订购晚餐。 我们在 Uber 的大数据平台上促成各种互动,使用我们的Marketplace来匹配乘客和司机;食客、餐馆和配送伙伴;货车司机和运货人。从数据的角度来洞察这些交互有助于我们为全球用户提供优质且有意义的产品体验。 食客们希望食物能及时送达,乘客也希望在最短的时间内被接到,我们的数据必须尽可能快的反映出现场发生的事件。但随着四面八方的数据汇入我们的数据湖,在这种规模下保持数据的新鲜度成为了一项重大的挑战。 虽然现在已经有一些为公司提供 24 小时数据新鲜度的方案,但对于 Uber 的实时性需求来说还是过时了。此外,对于 Uber 的数据规模和运营规模,这种方案无法保证可靠运行。 为了满足我们的特殊需求,我们开发了 DBEvents——一种专为高数据质量和新鲜度而设计的变更数据获取系统。变更数据获取系统(CDC, Change Data Ca

By Ne0inhk
资深架构分享-zookeeper之curator详解

资深架构分享-zookeeper之curator详解

为了更好的实现java操作zookeeper服务器,后来出现Curator框架,非常的强大,目前已经是apache的顶级项目,里面提供了更多丰富的操作。例如:session超时重连,主从选举,分布式计数器,分布式锁等适用于各种复杂的zookeeper场景的API封装。 源码:https://github.com/limingios/netFuture/源码 官方源码 http://curator.apache.org/ 这个跟zkclient的区别是,zkclient就类似mybatis,curator类似hibernate。 * maven依赖 <dependency> <groupId>org.apache.curator</groupId> 基础框架 <artifactId>curator-framework</artifactId> <version><

By Ne0inhk
Kafka权威指南,Kafka消费者

Kafka权威指南,Kafka消费者

Kafka 消费者 应用程序使用 KafkaConsumer 向 Kafka 订阅主题,并从订阅的主题上接收消息。 Kafka 消费者从属于消费者群组。一个群组里的消费者订阅的是同一个主题,每个消费者接收主题一部分分区的消息。 1个消费者接收4个分区的消息: 2个消费者接收4个分区的消息: 4个消费者接收4个分区的消息: 5个消费者接收4个分区的消息: 如果消费者群组的消费者超过主题的分区数量,那么有一部分消费者就会被闲置,不会接收到任何消息。 两个消费者群组对应一个主题: 当一个消费者被关闭或发生崩溃时,它就离开群组,原本由它读取的分区将由群组里的其他消费者来读取。分区的所有权从一个消费者转移到另一个消费者,这样的行为被称为再均衡。在再均衡期间,消费者无法读取消息,造成整个群组一小段时间的不可用。 消费者通过向被指派为群组协调器的 broker 发送心跳来维持它们和群组的从属关系以及它们对分区的所有权关系。消费者会在轮训消息或提交偏移量时发送心跳。如果消费者停止发送心跳的时间足够长,会话就会过期,群组协调器认为它已经死亡,就会触发一次再均衡。 如果一个消费者发生

By Ne0inhk
MySQL乱码的原因和设置UTF8数据格式

MySQL乱码的原因和设置UTF8数据格式

MySQL使用时,有一件很痛苦的事情肯定是结果乱码。将编码格式都设置为UTF8可以解决这个问题,我们今天来说下为什么要这么设置,以及怎么设置。 MySQL字符格式 字符集 在编程语言中,我们为了防止中文乱码,会使用unicode对中文字符做处理,而为了降低网络带宽和节省存储空间,我们使用UTF8进行编码。对这两者有什么不同不够了解的同学,可以参考Unicode字符集和UTF8编码编码的前世今生这篇文章。 同样在MySQL中,我们也会有这样的处理,我们可以查看当前数据库设置的编码方式(字符集): mysql> show variables like '%char%'; +--------------------------+----------------------------------+ | Variable_name | Value | +--------------------------+----------------------------------+ | character_set_client | latin1 | | character_set_con

By Ne0inhk