在人工智能领域,训练数据这件事一直说得少、做得多。最近围绕大模型'套壳'、数据来源和版权边界的讨论又热了起来,核心问题其实很直接:当大家都在用相似的数据、相似的办法去补训练集,模型之间的差异还能剩多少?
数据捷径把模型拉向同一条路
投资了 OpenAI 竞争对手 Anthropic 的门罗风投(Menlo Ventures)总经理 Matt Murphy 说过一句很直白的话:'如果所有人都用一样的数据,你又怎么会比其他人好呢?'这句话几乎把行业里最尴尬的一层窗户纸捅破了。
大模型训练通常分两步。第一步是训练基座模型,靠的是海量数据和高算力,目标是让模型先'看懂世界'。这一步最烧钱,也最耗时间,所以不少创业公司干脆不自己从头做,直接拿 Meta 或 Mistral AI 这类开源模型当底座。
第二步是微调。这个阶段更像是在给模型定方向,数据量少一些,但要求更精,也更贴近具体场景。问题就出在这里:没有自有数据的团队,常会买 GPT-4、Claude 这类闭源模型的账号,向它们提问,再把问题和回答拼成训练样本喂回自己的模型。做编程助手的团队尤其爱这么干,比如先扔一段代码,再让 GPT-4 解释这段代码的问题,现成的数据就出来了。
理论上,这类做法并不被允许。但行业里对它的态度一直很暧昧。甚至有说法称,OpenAI 的 Sam Altman 去年在一次会议上对创业者表示可以这么做。Google 也没能完全摆脱类似争议:它曾被指用百度文心一言生成的中文内容训练 Gemini,还有员工因为公司用 ChatGPT 生成的数据训练自家模型而离职。
在这种默认放行的氛围下,类似做法扩散得很快。Unsloth AI 联合创始人 Daniel Han 说,他们不少客户都会拿 GPT-4 或 Claude 生成的数据优化模型。原本只是给人分享 ChatGPT 对话的 ShareGPT,也慢慢变成了数据抓取的入口;OpenPipe 这类工具则把整个流程进一步自动化。
结果并不意外:市面上的创业公司越来越像,模型也越来越像。旧金山的 Martian 这类公司甚至开始做'平替'生意,帮企业在一堆差不多的 AI 服务里挑一个能用的。投资人显然不喜欢这种局面。问题不只是模型效果难分高下,更在于你很难知道它到底是怎么训练出来的。数据来源一旦说不清,信任就会跟着打折。
缺数据,成了所有人的新问题
如果说 2023 年行业里最常听到的是'缺芯',那 2024 年更像是'缺数据'。而且不是创业公司才缺,大厂也一样缺。
OpenAI 很早就遇到过这个问题。根据公开信息,早在 2021 年,它就因为训练数据不足而把目光投向 YouTube 视频,借助 Whisper 将超过 100 万小时的视频转成文字,再拿去训练 GPT-4。消息人士还提到,OpenAI 总裁 Greg Brockman 亲自参与了视频收集。
Google 发现这件事后,并没有公开大声指责,因为它自己也在做类似的事。公司发言人否认了未经授权抓取数据的说法,但同时,Google 也在研究 YouTube、Google Doc 这类自家产品里的数据能怎么用。到了去年 7 月,Google 还更新隐私政策,明确加入了'可使用网络公开信息和其他公共来源信息训练 AI 模型'的表述。
Meta 的处理方式也差不多。内部曾有人提醒版权风险,但最后公司还是跟着行业先例走,使用有版权保护的书籍、文章等材料。泄露出来的录音里,高管们甚至讨论过,如果被起诉,可以借 2015 年作家协会诉 Google 案失败的结果来辩护。反倒是看起来最有优势的 Facebook 和 Instagram,能拿来训练的高质量内容并没有想象中那么多:老帖子删得差不多了,社交平台本来也不太适合长篇内容。
Adobe 是少数愿意公开谈训练数据的大公司之一,但它最近也被推到了风口上。它一直宣称自己只用授权图库训练 Firefly,不会像 Midjourney、DALL·E 那样碰未经授权的素材。后来却被发现,训练集里其实包含 AI 生成图片,而且 Adobe 是知情的。
Adobe 说,AI 生成图只占训练数据的 5% 左右。但问题没那么简单,这些图本身也是别的文生图模型'生成'出来的,版权争议并不会因为比例小就自动消失。Adobe 高级副总裁 Ashley Still 还曾在公开场合说,企业用户很感激他们没有'盗取网上的知识产权'。这话现在回头看,多少有点讽刺。
互联网快被榨干了
我们曾经默认互联网足够大,大到能喂饱所有模型。现在看,这个判断太乐观了。
Epoch 研究机构的 Pablo Villalobos 之前估算过,高质量数据可能会在 2024 年中期出现供不应求;他们后来又把时间往后推到了 2028 年。即便如此,压力也已经提前出现了。Epoch 估算 GPT-4 用掉了约 12 万亿 token,而如果按尺度定律(Scaling Law)继续往上走,GPT-5 可能需要 60-100 万亿 token。按这个量级算,现有高质量文本和图像数据加起来还远远不够。
Sam Altman 也已经在暗示方向会变:'我想,那个追求庞大模型的时代已经快要到头了。我们将用其他方法来让它们变得更好。'这话听起来像路线调整,背后其实是现实逼出来的。
现在更实际的思路,是想办法把数据价值算清楚。消息人士称,OpenAI 和 Google 都在考虑做一套系统,衡量某一批数据对模型训练的贡献,好给数据提供者定价。这个方向不新,但离真正落地还有距离。
在那之前,创业公司能做的事情其实很朴素:把数据来源讲明白。透明度不是漂亮话,它至少能让外部知道模型到底用了什么、没用了什么。做不到这一点,再谈'负责任的 AI'就有点空。
替代方案不少,但都不轻松
数据越来越贵之后,行业自然开始找别的路。合成数据是最常被提起的方案之一。它的好处很明显:可以用现有模型生成训练样本,不必完全依赖真实用户数据,隐私压力也会小一些。问题也摆在那儿,合成数据用多了会越来越像自己,最后容易把模型带进'越训越窄'的循环里。


