跳到主要内容 AI 大模型所需的数据类型与质量要求 | 极客日志
Python AI 算法
AI 大模型所需的数据类型与质量要求 探讨了 AI 大模型对数据的核心需求,包括高质量、大规模及多样性。详细阐述了数据集的生命周期,涵盖采集、清洗、标注、训练与评估流程。列举了主流大语言模型数据集如维基百科、书籍、期刊、WebText、CommonCrawl 及 ThePile,并分析了多模态数据集在语音、图像、视频结合方面的应用。针对中国 AI 大模型数据现状,指出虽然数据资源丰富但优质中文数据集稀缺,主要依赖头部企业自有数据及垂直领域内容。最后强调数据质量的重要性及未来数据生态建设的必要性。
邪神洛基 发布于 2025/2/7 更新于 2026/4/20 1 浏览数据将是未来 AI 大模型竞争的关键要素。人工智能发展的突破得益于高质量数据的发展。例如,大型语言模型的最新进展依赖于更高质量、更丰富的训练数据集:与 GPT-2 相比,GPT-3 对模型架构只进行了微小的修改,但花费精力收集更大的高质量数据集进行训练。ChatGPT 与 GPT-3 的模型架构类似,并使用 RLHF(来自人工反馈过程的强化学习)来生成用于微调的高质量标记数据。
以数据为中心的 AI 人工智能领域强调'以数据为中心'的 AI,即在模型相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果。提升数据集质量的方法主要有:添加数据标记、清洗和转换数据、数据缩减、增加数据多样性、持续监测和维护数据等。未来数据成本在大模型开发中的成本占比或将提升,主要包括数据采集、清洗、标注等成本。
AI 大模型需要高质量、大规模、多样性的数据集
高质量 :高质量数据集能够提高模型精度与可解释性,并且减少收敛到最优解的时间,即减少训练时长。
大规模 :OpenAI 在《Scaling Laws for Neural Language Models》中提出 LLM 模型所遵循的'伸缩法则'(scaling law),即独立增加训练数据量、模型参数规模或者延长模型训练时间,预训练模型的效果会越来越好。
丰富性 :数据丰富性能够提高模型泛化能力,过于单一的数据会非常容易让模型过拟合训练数据。
数据集产生流程
数据采集 :采集视频、图片、音频和文本等多种类型和格式的数据。常用方式包括系统日志采集、网络数据采集、ETL 等。
数据清洗 :由于采集到的数据可能存在缺失值、噪声数据、重复数据等质量问题,需执行清洗任务。这是数据预处理中至关重要的环节,清洗后数据的质量很大程度上决定了 AI 算法的有效性。
数据标注 :最重要的一个环节。管理员根据需求将待标注数据划分为不同任务,每个任务有不同的规范和标注点要求,分配给多个标注员完成。
模型训练 :利用标注好的数据训练出需要的算法模型。
模型测试 :审核员进行测试并将结果反馈给训练人员,通过调整参数获得性能更好的模型。
产品评估 :使用并进行上线前的最后评估,确保满足目标。
主要大语言模型数据集 参数量和数据量是判断大模型的重要参数。2018 年以来,大语言模型训练使用的数据集规模持续增长。2018 年的 GPT-1 数据集约 4.6GB,2020 年的 GPT-3 数据集达到了 753GB,而到了 2021 年的 Gopher,数据集规模已经达到了 10,550GB。总结来说,从 GPT-1 到 LLaMA 的大语言模型数据集主要包含六类:维基百科、书籍、期刊、Reddit 链接、CommonCrawl 和其他数据集。
维基百科 维基百科是一个免费的多语言协作在线百科全书。截至 2023 年 3 月,拥有 332 种语言版本,总计 60,814,920 条目。其中,英文版维基百科中有超过 664 万篇文章。文本很有价值,因为它被严格引用,以说明性文字形式写成,并且跨越多种语言和领域。一般来说,重点研究实验室会首先选取它的纯英文过滤版作为数据集。
书籍 书籍主要用于训练模型的故事讲述能力和反应能力,包括小说和非小说两大类。数据集包括 Project Gutenberg 和 Smashwords (TorontoBookCorpus/BookCorpus) 等。Project Gutenberg 是一个拥有 7 万多本免费电子书的图书馆,包括世界上最伟大的文学作品。BookCorpus 以作家未出版的免费书籍为基础,这些书籍来自于世界上最大的独立电子书分销商之一的 Smashwords。
期刊 期刊可以从 ArXiv 和美国国家卫生研究院等官网获取。预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础,因为学术写作通常来说更有条理、理性和细致。ArXiv 是一个免费的分发服务和开放获取的档案,包含物理、数学、计算机科学等领域的 200 多万篇学术文章。美国国家卫生研究院支持各种生物医学和行为研究领域的研究,从其官网能够获取最新的医学研究论文。
WebText(来自 Reddit 链接) Reddit 链接代表流行内容的风向标。WebText 是一个大型数据集,它的数据是从社交媒体平台 Reddit 所有出站链接网络中爬取的,每个链接至少有三个赞,代表了流行内容的风向标,对输出优质链接和后续文本数据具有指导作用。
Commoncrawl/C4 Commoncrawl 是 2008 年至今的一个网站抓取的大型数据集。它致力于为互联网研究人员免费提供互联网副本,用于研究和分析,数据包含原始网页、元数据和文本提取,文本包含 40 多种语言和不同领域。重点研究实验室一般会首先选取它的纯英文过滤版(C4)作为数据集。
其他数据集 ThePile 数据集:一个 825.18GB 的英语文本数据集,用于训练大规模语言模型。由 ArXiv、WebText、Wikipedia 等在内的 22 个不同的高质量数据集组成。除了训练大型语言模型外,还可以作为语言模型跨领域知识和泛化能力的广泛覆盖基准。其他数据集包含了 GitHub 等代码数据集、StackExchange 等对话论坛和视频字幕数据集等。
多模态数据集 模态是事物的一种表现形式,多模态通常包含两个或者两个以上的模态形式,包括文本、图像、视频、音频等。多模态大模型需要更深层次的网络和更大的数据集进行预训练。过去数年中,多模态大模型参数量及数据量持续提升。
语音 + 文本 SEMAINE 数据集:创建了一个大型视听数据库,作为构建敏感人工侦听器代理的迭代方法的一部分,该代理可以使人参与持续的、情绪化的对话。高质量的录音由高分辨率摄像机和同步录制的麦克风提供。录音共有 150 个参与者,总共有 959 个与单个角色的对话,每个对话大约持续 5 分钟。录音被转录和广泛注释,追踪情感维度和相关类别。
图像 + 文本 COCO 数据集:Microsoft Common Objects in Context,起源于微软于 2014 年出资标注的数据集,被视为计算机视觉领域最受关注和最权威的比赛之一。是一个大型的、丰富的物体检测、分割和字幕数据集。图像包括 91 类目标,328,000 张图像和 2,500,000 个 label。
ConceptualCaptions 数据集:图像标题注释数据集,其中包含的图像比 MS-COCO 数据集多一个数量级,并代表了更广泛的图像和图像标题风格。通过从数十亿个网页中提取和过滤图像标题注释来实现这一点。
ImageNet 数据集:建立在 WordNet 结构主干之上的大规模图像本体。目标是填充 WordNet 的同义词集中的大多数。当前状态有 12 个子树,5247 个同义词集,总共 320 万张图像。
LAION-400M 数据集:通过 CommonCrawl 提取出随机抓取 2014-2021 年的网页中的图片、文本内容。通过 OpenAI 的 Clip 计算,去除了原始数据集中文本和图片嵌入之间预先相似度低于 0.3 的内容,提供了 4 亿个初筛后的图像文本对样本。
LAION-5B 数据集:包含 58.5 亿个 CLIP 过滤的图像 - 文本对的数据集,比 LAION-400M 大 14 倍,是世界第一大规模、多模态的文本图像数据集,共 80T 数据。
LanguageTable 数据集:一套人类收集的数据集,是开放词汇视觉运动学习的多任务连续控制基准。
IAPRTC-12 数据集:图像集合包括从世界各地拍摄的 2 万张静态自然图像,每张图片都配有最多三种不同语言的文本标题。
视频 + 图像 + 文本 YFCC100 数据集:包含 1 亿媒体对象的数据集,其中大约 9920 万是照片,80 万是视频,所有这些都带有创作共用许可。数据集中的每个媒体对象都由几块元数据表示,例如 Flickr 标识符、所有者名称、相机、标题、标签、地理位置、媒体源。
图像 + 语音 + 文本 CH-SIMS 数据集:中文单模态和多模态情感分析数据集,包含 2,281 个精细化的野外视频片段,既有多模态注释,也有独立单模态注释。允许研究人员研究模态之间的相互作用,或使用独立的单模态注释进行单模态情感分析。
视频 + 语音 + 文本 IEMOCAP 数据集:南加州大学语音分析与解释实验室收集的一种新语料库,名为'上的二元会话',这些标记提供了他们在脚本和自发口语交流场景中面部表情和手部动作的详细信息。语料库包含大约 12 小时的数据。详细的动作捕捉信息、激发真实情绪的交互设置以及数据库的大小使这个语料库成为社区中现有数据库的有价值的补充,用于研究和建模多模态和富有表现力的人类交流。
中国 AI 大模型数据集从哪里来 国内各行业数据资源丰富,2021-2026 年数据量规模 CAGR 高于全球,数据主要来源于政府/传媒/服务/零售等行业。据 IDC,2021-2026 年中国数据量规模将由 18.51ZB 增长至 56.16ZB,CAGR 达到 24.9%,高于全球平均 CAGR。从数据来源看,国内各行业数据差异化发展,2021 年政府、传媒、专业服务、零售等行业数据量占比较高,分别为 30.4%、13.4%、13.0%、9.6%,其中接近 90% 的数据为非结构化数据,这也要求了海量数据采集设备和软件的互联互通以及互动互控。另外随着智能化转型的深入,制造、交通运输、批发、教育等行业数据规模在未来也拥有较大的增长潜力。
尽管国内数据资源丰富,但由于数据挖掘不足,数据无法自由在市场上流通等现状,优质中文优质数据集仍然稀缺。目前中文优质数据仍然稀缺,如 ChatGPT 训练数据中中文资料比重不足千分之一,为 0.0991%,而英文资料占比超过 92.6%。据加利福尼亚大学和 Google 研究机构发现,机器学习和自然语言处理模型使用的数据集 50% 由 12 家 Top 机构提供,其中 10 家为美国机构,1 家为德国机构,仅 1 家机构来自中国,为香港中文大学。值得一提的是,数据集与数据机构的基尼系数有升高的趋势,即数据集被少数 Top 机构或特定数据库掌控的集中有所增加。
国内缺乏高质量数据集的主要原因 目前国内科技互联网头部企业主要基于公开数据及自身特有数据差异化训练大模型。具体而言,百度'文心'大模型训练特有数据主要包括万亿级的网页数据,数十亿的搜索数据和图片数据等。阿里'通义'大模型的训练数据主要来自阿里达摩院。腾讯'混元'大模型特有的训练数据主要来自微信公众号,微信搜索等优质数据。华为'盘古'大模型的训练数据出公开数据外,还有 B 端行业数据加持,包括气象,矿山,铁路等行业数据。商汤'日日新'模型的训练数据中包括了自行生成的 OmniObjects3D 多模态数据集。
未来专业及垂直内容平台有望成为国内优质中文数据集的重要来源
专业内容平台 :知乎作为问答知识平台,拥有超过 4300 万创作者产生的超过 3.5 亿条优质中文问答内容,涉及政治,经济,文化,历史,科技等几乎全部门类。其问答的数据形式天然适合作为大语言类模型训练使用。微信公众号作为内容分享平台,背靠国民级应用微信生态链,2022 年公众号产出超 3.9 亿篇文章,其中既有专业领域内容分析,也有时事热点分析,这些内容对语言模型的训练迭代有重要作用。
垂类内容平台 :参考彭博基于金融垂类数据发布 BloombergGPT 案例,国内在金融,医疗,生物等行业公司的数据可以作为细分领域大模型精确训练的基础。
结语 数据存量的增长速度远远低于数据集规模的增长速度,如果当前的趋势继续下去,数据集最终将由于数据耗尽而停止增长。在语言模型方面,语言数据的质量有好坏,互联网用户生成的语言数据质量往往低于书籍、科学论文等更专业的语言数据,高质量数据训练出的模型性能更好。
未来的大模型竞争将不仅仅是模型架构的竞争,更是数据资源获取与治理能力的竞争。解决数据稀缺问题,需要从开源社区共享、行业数据合规流通、合成数据技术等多个维度入手。只有构建起高质量、多样化且可持续更新的数据生态,才能支撑起下一代人工智能系统的长期演进。
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
curl 转代码 解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
Base64 字符串编码/解码 将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
Base64 文件转换器 将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online