大模型 LLM 合成训练样本的数据分布问题 | 极客日志

PythonAI算法

大模型 LLM 合成训练样本的数据分布问题

综述由AI生成探讨了大模型 LLM 训练中合成训练样本的数据分布问题。通过统计字符串字母个数的实验案例，发现初始均匀随机采样生成的训练数据与实际测试分布存在偏差，导致模型在处理短单词和重复序列时准确率大幅下降。文章分析了分布偏移的原因，提出了通过加权短单词频率和增加重复序列概率的改进方案。实验结果表明，调整后的数据分布使模型成功解决了边缘案例的预测错误。最后总结了合成数据构建的最佳实践，强调训练数据分布应与实际应用场景保持一致，并需主动覆盖边缘情况以提升模型鲁棒性。

DockerOne发布于 2025/2/7更新于 2026/6/228 浏览

大模型 LLM 合成训练样本的数据分布问题

在研究大语言模型（LLM）的训练过程中，数据质量与分布对模型性能有着决定性影响。近期在进行一项关于 LLM'统计字符串中字母个数'能力的实验时，发现合成数据集的生成策略直接影响了模型的泛化能力。本文通过具体案例，分析合成训练样本中的数据分布偏差问题及其解决方案。

1. 实验背景与初始方案

为了测试模型对简单计数任务的理解能力，我们构建了基于英文单词的合成数据集。任务要求模型根据给定的字符串，统计其中包含的字母总数（不含空格）。分词逻辑基于预定义的常见英文单词表。

初始阶段，合成随机字符串的代码逻辑如下：

# self.words 为常见英文单词数组，长度为 3432
if random.random() < 0.1:
    ss = random.choices(self.words, k=random.randint(1, 9))
else:
    ss = random.choices(self.words, k=random.randint(1, 99))

该逻辑采用均匀随机采样（Uniform Random Sampling），从词汇表中选取 1 到 99 个单词组成句子。生成的样本示例如下：

how many letters are there in the following string: "spread high"? 10
how many letters are there in the following string: "european contradictory"? 21
how many letters are there in the following string: "lock over constitution smart boil superior patient teenager graduation drop speaker pronounce contribution boring step carpet realize format surprise disappoint promote track thick rank affect nurse preparation armchair data warn pint construction tale organization tank wear understand vast tremble"? 261

使用单卡 GPU 训练约 12 小时后，模型在测试集上的准确率达到了 99.937%。这一结果看似非常理想，但在人工进行边缘情况（Edge Case）测试时，发现了明显的缺陷。

2. 问题现象：分布偏移导致的失效

尽管整体准确率高，但模型在处理某些特定模式的输入时表现极差。这些模式在实际场景中其实更为常见或简单，例如短单词重复、高频小词等。

错误预测案例：

Input: how many letters are there in the following string: "a a"?
Output: 4 (Expected: 2)

 how many letters are there  the following : ?
  (Expected: )

 how many letters are there  the following : ?
  (Expected: )

 how many letters are there  the following :  ( times)?
  (Expected: )

 how many letters are there  the following : ?
  (Expected: )

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 提升短单词在单词表中的比例
self.short_words = []
for w in self.words:
    if len(w) == 1:
        self.short_words += [w] * 50
    elif len(w) == 2:
        self.short_words += [w] * 10
    elif len(w) == 3:
        self.short_words += [w] * 3

self.words_new = self.words + self.short_words

# 提升同一个单词在字符串中多次出现的概率
if random.random() < 0.05:
    words = random.choices(self.words_new, k=random.randint(1, 5))
else:
    words = self.words_new

if random.random() < 0.1:  
    ss = random.choices(words, k=random.randint(1, 9))
else:
    ss = random.choices(words, k=random.randint(1, 99))

大模型 LLM 合成训练样本的数据分布问题

大模型 LLM 合成训练样本的数据分布问题

1. 实验背景与初始方案

2. 问题现象：分布偏移导致的失效

更多推荐文章

相关免费在线工具

3. 原因分析：训练数据分布偏差

3.1 短单词频率过低

3.2 重复序列概率极低

4. 解决方案：调整合成策略

4.1 提升短单词权重

4.2 强制引入重复序列

5. 验证结果

6. 讨论：合成数据最佳实践

7. 结论

更多推荐文章

相关免费在线工具

大模型 LLM 合成训练样本的数据分布问题

大模型 LLM 合成训练样本的数据分布问题

1. 实验背景与初始方案

2. 问题现象：分布偏移导致的失效

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 原因分析：训练数据分布偏差

3.1 短单词频率过低

3.2 重复序列概率极低

4. 解决方案：调整合成策略

4.1 提升短单词权重

4.2 强制引入重复序列

5. 验证结果

6. 讨论：合成数据最佳实践

7. 结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具