AI 大模型所需的数据类型与质量要求

综述由AI生成探讨了 AI 大模型对数据的核心需求，包括高质量、大规模及多样性。详细阐述了数据集的生命周期，涵盖采集、清洗、标注、训练与评估流程。列举了主流大语言模型数据集如维基百科、书籍、期刊、WebText、CommonCrawl 及 ThePile，并分析了多模态数据集在语音、图像、视频结合方面的应用。针对中国 AI 大模型数据现状，指出虽然数据资源丰富但优质中文数据集稀缺，主要依赖头部企业自有数据及垂直领域内容。最后强调数据质量的重要性及未来数据生态建设的必要性。

邪神洛基发布于 2025/2/7更新于 2026/6/226 浏览

AI 大模型所需的数据类型与质量要求

数据将是未来 AI 大模型竞争的关键要素。人工智能发展的突破得益于高质量数据的发展。例如，大型语言模型的最新进展依赖于更高质量、更丰富的训练数据集：与 GPT-2 相比，GPT-3 对模型架构只进行了微小的修改，但花费精力收集更大的高质量数据集进行训练。ChatGPT 与 GPT-3 的模型架构类似，并使用 RLHF（来自人工反馈过程的强化学习）来生成用于微调的高质量标记数据。

以数据为中心的 AI

人工智能领域强调'以数据为中心'的 AI，即在模型相对固定的前提下，通过提升数据的质量和数量来提升整个模型的训练效果。提升数据集质量的方法主要有：添加数据标记、清洗和转换数据、数据缩减、增加数据多样性、持续监测和维护数据等。未来数据成本在大模型开发中的成本占比或将提升，主要包括数据采集、清洗、标注等成本。

AI 大模型需要高质量、大规模、多样性的数据集

高质量：高质量数据集能够提高模型精度与可解释性，并且减少收敛到最优解的时间，即减少训练时长。
大规模：OpenAI 在《Scaling Laws for Neural Language Models》中提出 LLM 模型所遵循的'伸缩法则'（scaling law），即独立增加训练数据量、模型参数规模或者延长模型训练时间，预训练模型的效果会越来越好。
丰富性：数据丰富性能够提高模型泛化能力，过于单一的数据会非常容易让模型过拟合训练数据。

数据集产生流程

建立数据集的流程主要分为以下环节：

数据采集：采集视频、图片、音频和文本等多种类型和格式的数据。常用方式包括系统日志采集、网络数据采集、ETL 等。
数据清洗：由于采集到的数据可能存在缺失值、噪声数据、重复数据等质量问题，需执行清洗任务。这是数据预处理中至关重要的环节，清洗后数据的质量很大程度上决定了 AI 算法的有效性。
数据标注：最重要的一个环节。管理员根据需求将待标注数据划分为不同任务，每个任务有不同的规范和标注点要求，分配给多个标注员完成。
模型训练：利用标注好的数据训练出需要的算法模型。
模型测试：审核员进行测试并将结果反馈给训练人员，通过调整参数获得性能更好的模型。
产品评估：使用并进行上线前的最后评估，确保满足目标。

主要大语言模型数据集

参数量和数据量是判断大模型的重要参数。2018 年以来，大语言模型训练使用的数据集规模持续增长。2018 年的 GPT-1 数据集约 4.6GB，2020 年的 GPT-3 数据集达到了 753GB，而到了 2021 年的 Gopher，数据集规模已经达到了 10,550GB。总结来说，从 GPT-1 到 LLaMA 的大语言模型数据集主要包含六类：维基百科、书籍、期刊、Reddit 链接、CommonCrawl 和其他数据集。

维基百科

维基百科是一个免费的多语言协作在线百科全书。截至 2023 年 3 月，拥有 332 种语言版本，总计 60,814,920 条目。其中，英文版维基百科中有超过 664 万篇文章。文本很有价值，因为它被严格引用，以说明性文字形式写成，并且跨越多种语言和领域。一般来说，重点研究实验室会首先选取它的纯英文过滤版作为数据集。

书籍

书籍主要用于训练模型的故事讲述能力和反应能力，包括小说和非小说两大类。数据集包括 Project Gutenberg 和 Smashwords (TorontoBookCorpus/BookCorpus) 等。Project Gutenberg 是一个拥有 7 万多本免费电子书的图书馆，包括世界上最伟大的文学作品。BookCorpus 以作家未出版的免费书籍为基础，这些书籍来自于世界上最大的独立电子书分销商之一的 Smashwords。

期刊

期刊可以从 ArXiv 和美国国家卫生研究院等官网获取。预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础，因为学术写作通常来说更有条理、理性和细致。ArXiv 是一个免费的分发服务和开放获取的档案，包含物理、数学、计算机科学等领域的 200 多万篇学术文章。美国国家卫生研究院支持各种生物医学和行为研究领域的研究，从其官网能够获取最新的医学研究论文。

WebText（来自 Reddit 链接）

Reddit 链接代表流行内容的风向标。WebText 是一个大型数据集，它的数据是从社交媒体平台 Reddit 所有出站链接网络中爬取的，每个链接至少有三个赞，代表了流行内容的风向标，对输出优质链接和后续文本数据具有指导作用。

AI 大模型所需的数据类型与质量要求

AI 大模型所需的数据类型与质量要求

以数据为中心的 AI

AI 大模型需要高质量、大规模、多样性的数据集

数据集产生流程

主要大语言模型数据集

维基百科

书籍

期刊

WebText（来自 Reddit 链接）

Commoncrawl/C4

更多推荐文章

相关免费在线工具

其他数据集

多模态数据集

语音 + 文本

图像 + 文本

视频 + 图像 + 文本

图像 + 语音 + 文本

视频 + 语音 + 文本

中国 AI 大模型数据集从哪里来

国内缺乏高质量数据集的主要原因

未来专业及垂直内容平台有望成为国内优质中文数据集的重要来源

结语

更多推荐文章

相关免费在线工具

AI 大模型所需的数据类型与质量要求

AI 大模型所需的数据类型与质量要求

以数据为中心的 AI

AI 大模型需要高质量、大规模、多样性的数据集

数据集产生流程

主要大语言模型数据集

维基百科

书籍

期刊

WebText（来自 Reddit 链接）

Commoncrawl/C4

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

其他数据集

多模态数据集

语音 + 文本

图像 + 文本

视频 + 图像 + 文本

图像 + 语音 + 文本

视频 + 语音 + 文本

中国 AI 大模型数据集从哪里来

国内缺乏高质量数据集的主要原因

未来专业及垂直内容平台有望成为国内优质中文数据集的重要来源

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具