AI 大模型所需的数据类型与质量要求
数据将是未来 AI 大模型竞争的关键要素。人工智能发展的突破得益于高质量数据的发展。例如,大型语言模型的最新进展依赖于更高质量、更丰富的训练数据集:与 GPT-2 相比,GPT-3 对模型架构只进行了微小的修改,但花费精力收集更大的高质量数据集进行训练。ChatGPT 与 GPT-3 的模型架构类似,并使用 RLHF(来自人工反馈过程的强化学习)来生成用于微调的高质量标记数据。
以数据为中心的 AI
人工智能领域强调'以数据为中心'的 AI,即在模型相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果。提升数据集质量的方法主要有:添加数据标记、清洗和转换数据、数据缩减、增加数据多样性、持续监测和维护数据等。未来数据成本在大模型开发中的成本占比或将提升,主要包括数据采集、清洗、标注等成本。
AI 大模型需要高质量、大规模、多样性的数据集
- 高质量:高质量数据集能够提高模型精度与可解释性,并且减少收敛到最优解的时间,即减少训练时长。
- 大规模:OpenAI 在《Scaling Laws for Neural Language Models》中提出 LLM 模型所遵循的'伸缩法则'(scaling law),即独立增加训练数据量、模型参数规模或者延长模型训练时间,预训练模型的效果会越来越好。
- 丰富性:数据丰富性能够提高模型泛化能力,过于单一的数据会非常容易让模型过拟合训练数据。
数据集产生流程
建立数据集的流程主要分为以下环节:
- 数据采集:采集视频、图片、音频和文本等多种类型和格式的数据。常用方式包括系统日志采集、网络数据采集、ETL 等。
- 数据清洗:由于采集到的数据可能存在缺失值、噪声数据、重复数据等质量问题,需执行清洗任务。这是数据预处理中至关重要的环节,清洗后数据的质量很大程度上决定了 AI 算法的有效性。
- 数据标注:最重要的一个环节。管理员根据需求将待标注数据划分为不同任务,每个任务有不同的规范和标注点要求,分配给多个标注员完成。
- 模型训练:利用标注好的数据训练出需要的算法模型。
- 模型测试:审核员进行测试并将结果反馈给训练人员,通过调整参数获得性能更好的模型。
- 产品评估:使用并进行上线前的最后评估,确保满足目标。
主要大语言模型数据集
参数量和数据量是判断大模型的重要参数。2018 年以来,大语言模型训练使用的数据集规模持续增长。2018 年的 GPT-1 数据集约 4.6GB,2020 年的 GPT-3 数据集达到了 753GB,而到了 2021 年的 Gopher,数据集规模已经达到了 10,550GB。总结来说,从 GPT-1 到 LLaMA 的大语言模型数据集主要包含六类:维基百科、书籍、期刊、Reddit 链接、CommonCrawl 和其他数据集。
维基百科
维基百科是一个免费的多语言协作在线百科全书。截至 2023 年 3 月,拥有 332 种语言版本,总计 60,814,920 条目。其中,英文版维基百科中有超过 664 万篇文章。文本很有价值,因为它被严格引用,以说明性文字形式写成,并且跨越多种语言和领域。一般来说,重点研究实验室会首先选取它的纯英文过滤版作为数据集。
书籍
书籍主要用于训练模型的故事讲述能力和反应能力,包括小说和非小说两大类。数据集包括 Project Gutenberg 和 Smashwords (TorontoBookCorpus/BookCorpus) 等。Project Gutenberg 是一个拥有 7 万多本免费电子书的图书馆,包括世界上最伟大的文学作品。BookCorpus 以作家未出版的免费书籍为基础,这些书籍来自于世界上最大的独立电子书分销商之一的 Smashwords。
期刊
期刊可以从 ArXiv 和美国国家卫生研究院等官网获取。预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础,因为学术写作通常来说更有条理、理性和细致。ArXiv 是一个免费的分发服务和开放获取的档案,包含物理、数学、计算机科学等领域的 200 多万篇学术文章。美国国家卫生研究院支持各种生物医学和行为研究领域的研究,从其官网能够获取最新的医学研究论文。
WebText(来自 Reddit 链接)
Reddit 链接代表流行内容的风向标。WebText 是一个大型数据集,它的数据是从社交媒体平台 Reddit 所有出站链接网络中爬取的,每个链接至少有三个赞,代表了流行内容的风向标,对输出优质链接和后续文本数据具有指导作用。


