大模型数据标注合规指南:从技术到法规
探讨大模型开发中的数据标注环节及其合规要求。数据标注是训练高质量生成式人工智能的基础,涉及监督学习与自监督学习的平衡。文章分析了欧盟人工智能法案、GDPR 及中国生成式人工智能服务管理暂行办法对数据标注的具体规定,包括数据质量、偏见控制、准确性验证等。同时提供了合规落地的实施建议,涵盖标注规则制定、人员培训、第三方数据集管理及安全审计流程,旨在帮助企业在满足法律要求的同时提升模型性能。

探讨大模型开发中的数据标注环节及其合规要求。数据标注是训练高质量生成式人工智能的基础,涉及监督学习与自监督学习的平衡。文章分析了欧盟人工智能法案、GDPR 及中国生成式人工智能服务管理暂行办法对数据标注的具体规定,包括数据质量、偏见控制、准确性验证等。同时提供了合规落地的实施建议,涵盖标注规则制定、人员培训、第三方数据集管理及安全审计流程,旨在帮助企业在满足法律要求的同时提升模型性能。

数据标注(Data Annotation)是大模型产品开发设计的关键环节,也是生成式 AI 数据保护合规合格与否的试金石。大型语言模型(LLM)如 GPT-4o 是通过大量数据训练出来的,具有处理和生成自然语言的能力。为了让大模型能够理解和生成准确的内容,就需要对训练数据进行精细的标注。这一过程被称为数据标注,是开发大模型中数据预处理的重要起始环节。
通过数据标注的数据,才有机会形成一个数据集,并基于样本数据集投喂于算法模型训练之中,从而形成大模型系统及后续应用产品。不论是类似 GPT-4o 这类大模型,还是文心一言大模型,通过互联网采集非结构化的海量数据后,均需要对该类数据进行一定程度的标注。标注越准确的数据及形成的数据集,才能够为大模型生成的质量带来更好的效果。
大型语言模型 (LLM) 的数据标注,就是指标记、分类和标记数据的过程,从而促进机器学习算法理解和生成准确的预测。除了能够提供良好的识别分类能力外,如将文本分为不同的类别(如新闻、娱乐、科技等),也可以进行大语言模型中的情感分析,即标注文本及回答的情感倾向(如积极、消极、中性)。例如,GPT-4o 已经能够识别人类语气的微妙变化,并以不同的情感风格生成回应。
在计算机视觉领域,数据标注还包括边界框(Bounding Box)、多边形分割(Segmentation)以及关键点检测等任务。这些标注工作决定了模型感知世界的方式。尽管人工标注方式能够有效提升数据集质量和精度,但是人工标注的方法也是人工智能发展的瓶颈——这需要耗费巨额的资金以及人力成本,大量的数据标注服务公司聘请大量的数据标注员工没日没夜机械地标注各类数据。
数据的质量对于大模型的训练至关重要,在模型训练之前,通常依赖专业数据团队对数据集进行预处理。在实践中,有大量平台提供数据标注服务,这些系统支持修改标注标签体系,可调整标签名称或补充/删减标签类目。
相比之下,经过监督学习训练的人工智能系统需要大量的图像样本,并且可能仍然无法对特殊情况下的对象进行分类。这足以说明,像特斯拉 FSD V12 这种纯视觉模式下的端到端自动驾驶能力确实足够令世人瞩目。答案也快浮出水面——自监督学习(Self-Supervised Learning,SSL)中,数据标注不再是刚需。生成式人工智能是深度学习的一个子领域,深度学习是一种机器学习方法,而机器学习又能区别为监督学习和自监督学习等模式。前者就是繁重的人工标注,需要在人类标签标注的监督中学习;后者,在无须人类提供标签投喂的条件下,成为大模型数据预训练中的趋势。
自监督学习在机器学习和人工智能领域中日益受到关注,因为它可以在很大程度上减少对手工数据标注的依赖。然而,需要明确的是,自我监督学习并不是完全不需要数据标注,而是通过不同的方法减少标注数据的需求。不管是特斯拉,还是 OpenAI,均已将自监督学习作为重要数据标注的手段,从而大大提升了数据预训练处理中的效率。
比如 OpenAI DALL-E 2 为了将互联网上数亿张有字幕的图像上进行训练,可以自动标注风险图片,删除并重新权重其中一些图像,以改变模型学习的内容。业界还有一些公司提供数据引擎能力,如 Labelbox 在其《人工智能数据引擎的完整指南》报告中称:'自动化标注技术已被证明可为 AI 团队减少多达 50% 的贴标签时间和成本。'
似乎是 AI 的兴起,才让数据法律人第一次硬着头皮进入可怕的技术赛道。在数据标注这件事情上,自 2024 年初以来,几乎全球任一事关 AI 立法的法规项,均对数据标注这一问题提出了严肃的立法要求。
《欧盟人工智能法案》规定:'使用涉及用数据训练模型的技术的高风险人工智能系统应在符合(法案)所述质量标准的训练、验证和测试数据集的基础上开发……应特别涉及……(c)相关数据准备处理操作,如数据标注、标签、清理、丰富和汇总'。
2024 年 3 月 22 日,法国数据保护机构 (CNIL) 发布《GDPR 实践指南 - 个人数据安全 2024》指南文件,明确指出,人工智能设计和训练的'基本预防措施'须包括检查数据标注的质量、可能存在的偏见、数据源的可靠性,特别是为了防止数据被第三方操纵(例如投毒),避免'针对来源未知或不可靠,或其质量,特别是数据标注质量未经验证的数据训练模型',确保用于学习和推理的数据和标注的质量和完整性。
2024 年 6 月 3 日,欧盟数据保护机构 EDPS 在《Generative AI and the EUDPR. First EDPS Orientations for ensuring data protection compliance when using Generative AI systems.》报告'8.生成型人工智能系统是否尊重数据准确性原则?'篇章中,要求生成型人工智能系统须在其生命周期的所有阶段,特别是在预训练阶段,一要验证用于训练模型的数据集(含第三方)的结构和内容的安全和质量,二是针对数据采集、预处理(包括标注、标签、清理、充实和汇总等)中所用数据准确性,并须获得数据提供方的合同性保证。
在各区域立法中,最值得一提的,仍然是法国'立法'。2024 年 6 月 10 日,法国数据保护机构 CNIL 在发布《人工智能:关于人工智能系统开发的新公众咨询》中,对包括人工智能系统开发合法权益、法律依据、数据主体权利、数据标注以及确保 AI 系统开发安全七个话题展开公众咨询。
人工智能系统开发中的'数据标注'问题,是第一次以如此优先级的方式,罕见的列在如此重要的话题层级中。CNIL 关于 AI 数据标注的咨询文档认为'数据标注阶段对于保证训练模型的质量至关重要,数据标注阶段是开发高质量人工智能模型的决定性一步,无论是对于性能问题还是对于尊重人们的权利'。同时,咨询文档强调了准确和道德数据标注在 AI 开发中的关键作用,特别是遵守 GDPR 原则,如数据最小化、准确性和公平性,咨询文档还提供了确保数据质量的实用措施,包括制定精确的标注协议、持续验证程序和道德监督,还强调了告知个人数据标注过程和尊重其权利的重要性。
针对数据标注的最小化原则,CNIL 要求人工智能系统开发人员在之前从开源或非开源收集、购买或下载后使用的带标注的数据集应仅包含与其开发的系统功能相关的标注。针对准确性原因,CNIL 要求开发人员必须采取适当的措施来确保注释标准的客观性,不应存在有辱人格的标注风险。针对标注质量,CNIL 要求开发人员采购并依赖可靠、稳健、受控的标注系统服务或工具,并签署必要的协议。针对用户权利,CNIL 要求开发者告知数据标注处理的相关内容,比如标注的目的、是否向第三国转移等。用户还可以提出删除、更正、查阅等主体权利。这是因为,在涉及个人数据的人工智能系统中,对数据进行标注意味着一种画像标签标识机制。
中国《生成式人工智能服务管理暂行办法》第八条规定:'在生成式人工智能技术研发过程中进行数据标注的,提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作。'当主管部门提出监督检查时,开发者还需要按要求对训练数据来源、规模、类型、标注规则、算法机制机理等予以说明,并提供必要的技术、数据等支持和协助。
这,构成了中国人工智能数据标注合规动作的开端。为了支撑配套,我国《网络安全技术 生成式人工智能服务安全基本要求》与在研国家标准《网络安全技术 生成式人工智能预训练和优化训练数据安全规范》《网络安全技术 生成式人工智能数据标注安全规范》均为《办法》的配套支撑文件。
TC260-003《生成式人工智能服务安全基本要求》对标注人员、标注规则及标注内容准确等提出要具体的要求,包括标注人员培训和考核,制定标注规则并要求须对附录 31 种安全风险均应有对应的标注规则,等等。《网络安全技术 生成式人工智能服务安全基本要求》基本上沿用了 TC260-003,仅删除了'宜对安全性标注数据进行隔离存储'的合规要求。
更详细的标注配套是《网络安全技术 生成式人工智能数据标注安全规范》,该标准规范针对生成式人工智能产品研制中的人工标注环节,对人工标注规则制定、标注实施安全、标注质量及安全性核验要求、标注人员安全管理要求、过程安全控制要求、安全证实方法等方面提出规范指引。
中国版数据标注合规方案将会是人工智能企业的必修法律课。因为,这一合规短板不仅将影响企业开发大模型的上线备案申报,更在未来引发连锁式多米诺骨牌效应。至少,简单来看,中国版数据标注合规方案要管标注人、建制度、建标注检测流程、管三方数据集等环节。可能稍有不慎,我们连为何被处罚都不明不白。
企业应建立专门的数据标注管理制度,明确标注工作的责任主体、操作流程和质量标准。制度中应包含数据分级分类管理策略,确保敏感数据(如个人隐私信息、商业秘密)在标注前经过脱敏处理。同时,需制定详细的数据标注安全规范,规定标注人员的权限范围、操作日志记录要求以及数据访问审计机制。
标注人员是数据合规的第一道防线。企业应对标注人员进行背景调查,签署保密协议,并进行定期的法律法规培训。培训内容应包括个人信息保护法、数据安全法以及行业特定的合规要求。此外,应建立标注人员的绩效考核体系,将数据质量、合规执行情况纳入考核指标,确保标注人员具备足够的专业素养和法律意识。
建立多层级的质量审核机制,包括初标、复核、抽检等环节。引入自动化质检工具,利用规则引擎或辅助模型对标注结果进行一致性校验。定期进行数据风险评估,识别潜在的数据偏见、数据投毒风险以及合规漏洞。对于高风险场景,应邀请外部专家或第三方机构进行独立审计,确保标注数据的真实性和合法性。
在使用第三方数据集时,必须进行严格的尽职调查。确认数据来源的合法性,获取合法授权,并审查第三方提供的数据标注质量报告。合同中应明确数据所有权、使用权、隐私保护义务以及违约责任。建立第三方数据接入的白名单机制,定期更新和维护合作方资质,防止因第三方违规导致自身承担连带责任。
数据标注合规是一个动态过程,而非一次性任务。企业应建立持续的监控机制,跟踪法律法规的变化和技术的发展,及时调整内部合规策略。同时,制定数据泄露或合规违规的应急预案,一旦发生事故,能够迅速响应,降低损失,并向监管机构如实报告。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online