大模型数据标注合规指南:从技术到法规
引言
数据标注(Data Annotation)是大模型产品开发设计的关键环节,也是生成式 AI 数据保护合规合格与否的试金石。大型语言模型(LLM)如 GPT-4o 是通过大量数据训练出来的,具有处理和生成自然语言的能力。为了让大模型能够理解和生成准确的内容,就需要对训练数据进行精细的标注。这一过程被称为数据标注,是开发大模型中数据预处理的重要起始环节。
通过数据标注的数据,才有机会形成一个数据集,并基于样本数据集投喂于算法模型训练之中,从而形成大模型系统及后续应用产品。不论是类似 GPT-4o 这类大模型,还是文心一言大模型,通过互联网采集非结构化的海量数据后,均需要对该类数据进行一定程度的标注。标注越准确的数据及形成的数据集,才能够为大模型生成的质量带来更好的效果。
01 数据标注的技术背景与演进
1.1 数据标注的定义与类型
大型语言模型 (LLM) 的数据标注,就是指标记、分类和标记数据的过程,从而促进机器学习算法理解和生成准确的预测。除了能够提供良好的识别分类能力外,如将文本分为不同的类别(如新闻、娱乐、科技等),也可以进行大语言模型中的情感分析,即标注文本及回答的情感倾向(如积极、消极、中性)。例如,GPT-4o 已经能够识别人类语气的微妙变化,并以不同的情感风格生成回应。
在计算机视觉领域,数据标注还包括边界框(Bounding Box)、多边形分割(Segmentation)以及关键点检测等任务。这些标注工作决定了模型感知世界的方式。尽管人工标注方式能够有效提升数据集质量和精度,但是人工标注的方法也是人工智能发展的瓶颈——这需要耗费巨额的资金以及人力成本,大量的数据标注服务公司聘请大量的数据标注员工没日没夜机械地标注各类数据。
1.2 监督学习与自监督学习
数据的质量对于大模型的训练至关重要,在模型训练之前,通常依赖专业数据团队对数据集进行预处理。在实践中,有大量平台提供数据标注服务,这些系统支持修改标注标签体系,可调整标签名称或补充/删减标签类目。
相比之下,经过监督学习训练的人工智能系统需要大量的图像样本,并且可能仍然无法对特殊情况下的对象进行分类。这足以说明,像特斯拉 FSD V12 这种纯视觉模式下的端到端自动驾驶能力确实足够令世人瞩目。答案也快浮出水面——自监督学习(Self-Supervised Learning,SSL)中,数据标注不再是刚需。生成式人工智能是深度学习的一个子领域,深度学习是一种机器学习方法,而机器学习又能区别为监督学习和自监督学习等模式。前者就是繁重的人工标注,需要在人类标签标注的监督中学习;后者,在无须人类提供标签投喂的条件下,成为大模型数据预训练中的趋势。
自监督学习在机器学习和人工智能领域中日益受到关注,因为它可以在很大程度上减少对手工数据标注的依赖。然而,需要明确的是,自我监督学习并不是完全不需要数据标注,而是通过不同的方法减少标注数据的需求。不管是特斯拉,还是 OpenAI,均已将自监督学习作为重要数据标注的手段,从而大大提升了数据预训练处理中的效率。
比如 OpenAI DALL-E 2 为了将互联网上数亿张有字幕的图像上进行训练,可以自动标注风险图片,删除并重新权重其中一些图像,以改变模型学习的内容。业界还有一些公司提供数据引擎能力,如 Labelbox 在其《人工智能数据引擎的完整指南》报告中称:'自动化标注技术已被证明可为 AI 团队减少多达 50% 的贴标签时间和成本。'
02 AI 数据标注的法规碰撞
似乎是 AI 的兴起,才让数据法律人第一次硬着头皮进入可怕的技术赛道。在数据标注这件事情上,自 2024 年初以来,几乎全球任一事关 AI 立法的法规项,均对数据标注这一问题提出了严肃的立法要求。
2.1 欧盟与法国法规
《欧盟人工智能法案》规定:'使用涉及用数据训练模型的技术的高风险人工智能系统应在符合(法案)所述质量标准的训练、验证和测试数据集的基础上开发……应特别涉及……(c)相关数据准备处理操作,如数据标注、标签、清理、丰富和汇总'。
2024 年 3 月 22 日,法国数据保护机构 (CNIL) 发布《GDPR 实践指南 - 个人数据安全 2024》指南文件,明确指出,人工智能设计和训练的'基本预防措施'须包括检查数据标注的质量、可能存在的偏见、数据源的可靠性,特别是为了防止数据被第三方操纵(例如投毒),避免'针对来源未知或不可靠,或其质量,特别是数据标注质量未经验证的数据训练模型',确保用于学习和推理的数据和标注的质量和完整性。
2024 年 6 月 3 日,欧盟数据保护机构 EDPS 在《Generative AI and the EUDPR. First EDPS Orientations for ensuring data protection compliance when using Generative AI systems.》报告'8.生成型人工智能系统是否尊重数据准确性原则?'篇章中,要求生成型人工智能系统须在其生命周期的所有阶段,特别是在预训练阶段,一要验证用于训练模型的数据集(含第三方)的结构和内容的安全和质量,二是针对数据采集、预处理(包括标注、标签、清理、充实和汇总等)中所用数据准确性,并须获得数据提供方的合同性保证。
2.2 法国 CNIL 咨询重点
在各区域立法中,最值得一提的,仍然是法国'立法'。2024 年 6 月 10 日,法国数据保护机构 CNIL 在发布《人工智能:关于人工智能系统开发的新公众咨询》中,对包括人工智能系统开发合法权益、法律依据、数据主体权利、数据标注以及确保 AI 系统开发安全七个话题展开公众咨询。


