LLM 预训练与 SFT 数据配比调研

背景与目标

本文旨在探讨在基于 Llama3 等基座模型进行继续训练与监督微调（SFT）时，如何合理配置预训练与 SFT 的数据比例。由于 Llama3 的具体数据配比方案未完全公开，通过调研其他主流开源模型及研究论文中的公开方案，总结有效的数据配比思路，确保在提升模型能力的同时不严重损害原有基座效果。

一种潜在的保护原模型能力的方法是：直接进行继续训练或 SFT，随后通过参数合并（Merge）技术来保留原始效果。本文将重点调研现有的公开方案，包括预训练数据配比、SFT 配比方案以及探测 Llama3 配比的潜在方法。

Llama 和 Qwen 技术报告分析

最新的 Qwen2 和 Llama3.1 技术报告公布了许多数据细节，特别是关于数据配比的问题。

Qwen2

预训练数据增强

Qwen2 的预训练数据分为启发式方法过滤和 Qwen 模型过滤。虽然实现细节未完全阐明，但根据相关工作推断，启发式方法可能类似于 C4 数据的过滤方法。Qwen 模型过滤可能是由 GPT 对模型数据进行 1-5 的质量分数打标，随后对 Qwen 的一个小版本（如 0.5B）进行微调，使其只输出 1-5 的分数 token。

数据扩充

Qwen2 包含了代码、数学、多模态数据以及多语数据。最关心的数据分布依然是含糊的，目标是让数据分布与人类相似的学习一致。通过实验，对不同来源和领域划分方法进行混合。

数据规模

Qwen1.5 使用了 3T 数据，而 Qwen2 扩充至 7T 数据。团队还尝试继续放宽数据质量筛选阈值，扩充到 12T 数据。然而，在打榜精度上，7T 和 12T 的训练并无显著差异，这表明单纯增加数据量并非唯一提升路径。

长上下文训练

Qwen2 的长上下文训练分为几个阶段：

4k 上下文训练
32k 上下文训练
使用 RoPE 位置编码，将频率从 1 万增加到 100 万（频率越高，能容纳的上下文越长）

此外，Qwen2 还使用了 YARN 和 Dual Chunk Attention 机制，支持 131k 上下文（实践上，是对长上下文进行 Chunk 切分，随后在 chunk 内与 chunk 间进行相对位置信息的捕捉）。

后训练

核心是使用了大量非人工合成数据，值得关注的趋势是：

人机协作数据打标：使用 InsTag 模型生成标签，人工改进表述。依据标签多样性、语义性、复杂度、意图完整性评估筛选出具有代表性的数据；借助一些 LLM 数据演进生成的工作，例如 Self-Evolution，进行数据合成；最后也包括人工标注。
自动数据合成：例如，使用 Rejection Sampling 进行数学任务推导，或者通过 Execution Feedback 对代码任务进行执行筛选。随后是 SFT 常见的 Data Repurposing，为各种任务，借助 LLM 基于某些源数据，来构造任务数据。对于 Qwen 它还做了安全审查。

Llama3.1

数据清洗与质量过滤

Llama3.1 对数据进行了清洗和过滤，包括：

排除不安全的网站 URL
HTML 数据抽取（发现在预训练数据里包含 markdown 是有害的）
去重（URL、MinHash for Docs、ccNet for Lines 会删除导航栏 cookie 警告以及一些高质量数据）
启发式过滤（n-gram 去重、脏词过滤、KL 散度过滤等）
数据质量过滤：fasttext 判断 docs 与 Wikipedia 的相关，distilRoberta 分类器由 Llama2 打质量标签训练去预测质量分数。distilRoberta 分类器还被训练去判断代码和数学推理的数据。

相较于前代版本，有了更多的多模态数据，唯独中文的不多。

数据配比

基于知识分类和 Scaling Law 实验来测试配比的合理性。

知识分类：分类器划分预训练数据为领域知识数据，例如按着艺术、娱乐…分类
Scaling Law 实验确定数据配比：基于同一个数据配比，训练若干个不同的小模型（从 40M 到 16B），观察其 scaling 曲线。（推测是人工设置的配比候选），最终结构：50% 通用、25% 数学以及推理、17% 代码、8% 多语。最终通用是什么样子也不清楚。

LLM 预训练与 SFT 数据配比调研