大模型训练数据争议与同质化现实

大模型同质化的根源正在从架构转向数据：不少创业公司直接用 GPT-4、Claude 等闭源模型生成问答样本做微调，大厂也在 YouTube、Google Doc、授权书籍和图像之外寻找可用数据，训练边界因此变得暧昧。随着高质量互联网数据接近枯竭，合成数据、数据定价、透明度和合规审查成为新的焦点；但这些替代方案都伴随偏差、版权和“模型崩溃”风险。行业真正的分水岭，已经不是谁能拿到更多算力，而是谁能更稳地获取、处理并说明数据来源。

全栈工匠发布于 2026/6/300 浏览

在人工智能领域，训练数据这件事一直说得少、做得多。最近围绕大模型'套壳'、数据来源和版权边界的讨论又热了起来，核心问题其实很直接：当大家都在用相似的数据、相似的办法去补训练集，模型之间的差异还能剩多少？

数据捷径把模型拉向同一条路

投资了 OpenAI 竞争对手 Anthropic 的门罗风投（Menlo Ventures）总经理 Matt Murphy 说过一句很直白的话：'如果所有人都用一样的数据，你又怎么会比其他人好呢？'这句话几乎把行业里最尴尬的一层窗户纸捅破了。

大模型训练通常分两步。第一步是训练基座模型，靠的是海量数据和高算力，目标是让模型先'看懂世界'。这一步最烧钱，也最耗时间，所以不少创业公司干脆不自己从头做，直接拿 Meta 或 Mistral AI 这类开源模型当底座。

第二步是微调。这个阶段更像是在给模型定方向，数据量少一些，但要求更精，也更贴近具体场景。问题就出在这里：没有自有数据的团队，常会买 GPT-4、Claude 这类闭源模型的账号，向它们提问，再把问题和回答拼成训练样本喂回自己的模型。做编程助手的团队尤其爱这么干，比如先扔一段代码，再让 GPT-4 解释这段代码的问题，现成的数据就出来了。

理论上，这类做法并不被允许。但行业里对它的态度一直很暧昧。甚至有说法称，OpenAI 的 Sam Altman 去年在一次会议上对创业者表示可以这么做。Google 也没能完全摆脱类似争议：它曾被指用百度文心一言生成的中文内容训练 Gemini，还有员工因为公司用 ChatGPT 生成的数据训练自家模型而离职。

在这种默认放行的氛围下，类似做法扩散得很快。Unsloth AI 联合创始人 Daniel Han 说，他们不少客户都会拿 GPT-4 或 Claude 生成的数据优化模型。原本只是给人分享 ChatGPT 对话的 ShareGPT，也慢慢变成了数据抓取的入口；OpenPipe 这类工具则把整个流程进一步自动化。

结果并不意外：市面上的创业公司越来越像，模型也越来越像。旧金山的 Martian 这类公司甚至开始做'平替'生意，帮企业在一堆差不多的 AI 服务里挑一个能用的。投资人显然不喜欢这种局面。问题不只是模型效果难分高下，更在于你很难知道它到底是怎么训练出来的。数据来源一旦说不清，信任就会跟着打折。

缺数据，成了所有人的新问题

如果说 2023 年行业里最常听到的是'缺芯'，那 2024 年更像是'缺数据'。而且不是创业公司才缺，大厂也一样缺。

OpenAI 很早就遇到过这个问题。根据公开信息，早在 2021 年，它就因为训练数据不足而把目光投向 YouTube 视频，借助 Whisper 将超过 100 万小时的视频转成文字，再拿去训练 GPT-4。消息人士还提到，OpenAI 总裁 Greg Brockman 亲自参与了视频收集。

Google 发现这件事后，并没有公开大声指责，因为它自己也在做类似的事。公司发言人否认了未经授权抓取数据的说法，但同时，Google 也在研究 YouTube、Google Doc 这类自家产品里的数据能怎么用。到了去年 7 月，Google 还更新隐私政策，明确加入了'可使用网络公开信息和其他公共来源信息训练 AI 模型'的表述。

Meta 的处理方式也差不多。内部曾有人提醒版权风险，但最后公司还是跟着行业先例走，使用有版权保护的书籍、文章等材料。泄露出来的录音里，高管们甚至讨论过，如果被起诉，可以借 2015 年作家协会诉 Google 案失败的结果来辩护。反倒是看起来最有优势的 Facebook 和 Instagram，能拿来训练的高质量内容并没有想象中那么多：老帖子删得差不多了，社交平台本来也不太适合长篇内容。

Adobe 是少数愿意公开谈训练数据的大公司之一，但它最近也被推到了风口上。它一直宣称自己只用授权图库训练 Firefly，不会像 Midjourney、DALL·E 那样碰未经授权的素材。后来却被发现，训练集里其实包含 AI 生成图片，而且 Adobe 是知情的。

Adobe 说，AI 生成图只占训练数据的 5% 左右。但问题没那么简单，这些图本身也是别的文生图模型'生成'出来的，版权争议并不会因为比例小就自动消失。Adobe 高级副总裁 Ashley Still 还曾在公开场合说，企业用户很感激他们没有'盗取网上的知识产权'。这话现在回头看，多少有点讽刺。

互联网快被榨干了

我们曾经默认互联网足够大，大到能喂饱所有模型。现在看，这个判断太乐观了。

Epoch 研究机构的 Pablo Villalobos 之前估算过，高质量数据可能会在 2024 年中期出现供不应求；他们后来又把时间往后推到了 2028 年。即便如此，压力也已经提前出现了。Epoch 估算 GPT-4 用掉了约 12 万亿 token，而如果按尺度定律（Scaling Law）继续往上走，GPT-5 可能需要 60-100 万亿 token。按这个量级算，现有高质量文本和图像数据加起来还远远不够。

Sam Altman 也已经在暗示方向会变：'我想，那个追求庞大模型的时代已经快要到头了。我们将用其他方法来让它们变得更好。'这话听起来像路线调整，背后其实是现实逼出来的。

现在更实际的思路，是想办法把数据价值算清楚。消息人士称，OpenAI 和 Google 都在考虑做一套系统，衡量某一批数据对模型训练的贡献，好给数据提供者定价。这个方向不新，但离真正落地还有距离。

在那之前，创业公司能做的事情其实很朴素：把数据来源讲明白。透明度不是漂亮话，它至少能让外部知道模型到底用了什么、没用了什么。做不到这一点，再谈'负责任的 AI'就有点空。

替代方案不少，但都不轻松

数据越来越贵之后，行业自然开始找别的路。合成数据是最常被提起的方案之一。它的好处很明显：可以用现有模型生成训练样本，不必完全依赖真实用户数据，隐私压力也会小一些。问题也摆在那儿，合成数据用多了会越来越像自己，最后容易把模型带进'越训越窄'的循环里。

大模型训练数据争议与同质化现实

数据捷径把模型拉向同一条路

缺数据，成了所有人的新问题

互联网快被榨干了

替代方案不少，但都不轻松

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

大模型训练数据争议与同质化现实

数据捷径把模型拉向同一条路

缺数据，成了所有人的新问题

互联网快被榨干了

替代方案不少，但都不轻松

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具