5 月 24 日,由阿里研究院牵头,阿里巴巴集团、数字中国研究院(福建)、阿里云智能集团联合编写的《大模型训练数据白皮书》在第七届数字中国峰会期间正式发布。该白皮书深入探讨了大模型训练所需的数据类型、质量评估标准及合成数据应用方案,为人工智能发展提供了重要的理论支撑与实践指导。
自《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》发布以来,我国数据要素建设不断深入。在国家数据局等 17 部门联合印发的《'数据要素×'三年行动计划(2024—2026 年)》中,明确提出了'建设高质量语料库和基础科学数据集,支持开展人工智能大模型开发和训练'的目标。通过数据要素建设推动人工智能大模型发展,可以有效解决我国人工智能特别是大模型研发所面临的数据瓶颈,进一步发挥大模型对于世界知识数据的汇集和处理能力,创造更大的生产力,助力我国从数据经济走向智能经济新发展模式。
大模型是数据要素价值释放的最短路径。通过理解其训练所使用的数据类型,可以更好理解大模型发挥价值的内在机制。促进高质量训练数据的建设,需要综合利用政府、企业、社会等各方资源推动数据的开放共享和开发利用;需要构建共享、共创、共赢的合作生态和更开放的环境,不囿于版权等制度所存在的争议;需要给技术的发展预留空间,并相信随着技术的日益成熟,相应的商业模式和制度设计也都会逐步完善。作为支撑大模型发展的三大基石之一,我们希望中国的大模型发展,可以在数据方向上有所突破,助力我国在国际竞争中取得优势地位。
本白皮书首先分析了大模型训练所需的数据类型,并从产业实践出发破解了对训练数据的常见迷思和误解。在上述基础上,本书进而对训练数据的质量和规模进行讨论,发现高质量数据应在实践中检验效果,而难以用前置的客观标准衡量。同时,本书探讨了合成数据作为解决高质量训练数据供给不足的新方案,及其在大模型训练中的潜力。在训练数据合规方面,针对模型训练的特点,本书提出顺应模型发展的数据治理思路。最后,本书论述构建政府和社会力量协同的数据生态对满足大模型训练数据需求的重要性,并以阿里巴巴的实践为案例做说明和阐述。


01 训练数据对大模型发展的重要性
算法、算力与数据,是支撑大模型发展的三大基石。更高质量、更丰富的数据是以 GPT 为例的生成式人工智能大模型成功的驱动力。随着模型规模的扩大,数据的质量与多样性对模型性能的影响愈发显著。数据不仅是模型的燃料,更是决定模型上限的关键因素。

02 模型训练所需的数据类型
数据作为大模型训练的基础,提供了大模型所必需的知识和信息。区别于以往搜索系统、个性化推荐等所需的大量用户行为和偏好数据,随着技术的演进,大模型所需的数据是对知识性内容有强需求,是一种新的类型。
1. 训练大语言模型的数据
大语言模型所需要的数据内容与质量将根据训练的阶段有所不同,包括预训练(Pre-training)、监督微调(SFT)、基于人类反馈的强化学习(RLHF)三个阶段,三个阶段分别需要的语料特征可以概括为'广'、'齐'和'专'。
- 预训练阶段:需要海量、多样化的通用文本数据,覆盖互联网公开内容、书籍、代码等,旨在让模型掌握语言规律和世界知识。
- 监督微调阶段:需要高质量的指令 - 回答对数据,用于教会模型遵循人类指令,提升任务完成能力。
- 强化学习阶段:需要人类偏好数据,用于对齐模型输出与人类价值观,减少有害或无意义内容的生成。
2. 训练多模态模型的数据
多模态模型则模拟人类大脑处理信息的方式,把各种感知模态结合起来,以更全面、综合的方式理解和生成信息,其在训练阶段更多地需要大量图像 - 文本对、视频 - 文本对等有标注数据集。









