2024 年大模型时代下数据标注的变革趋势
斯坦福大学李飞飞等人在相关研究论文中指出,实现可信 AI,数据的设计、改进和质量评估是关键。以数据为中心的人工智能将重点转移到训练数据的治理和增强,高质量的训练数据集、完备的数据应用策略将会更好地服务于模型的开发与应用。
大模型的热潮为人工智能开启了新的篇章,作为人工智能的重要生产要素,数据集的作用更加凸显。然而,飞速发展的大模型时代,训练数据供需两端也在发生转变,适配于大模型领域的数据处理工具应运而生。本文将深入探讨在 2024 年及未来,数据标注领域发生的深刻变化。
一、标注需求的变化:从客观到主观
与以往的传统标注工序不同,以大模型为代表的新兴技术对标注提出了全新的要求。
1. 传统标注 vs 大模型标注
- 传统标注:以自动驾驶数据标注为例,主要是对图像或者点云数据进行拉框、标点、标线、标多边形等操作。这类工作通常有明确的物理边界,需要严格按照客户给定的标注规范进行,标注要求偏客观,标准统一性强。
- 大模型标注:主要涉及回答质量评估,如排序、打分、修正等,以及多轮对话的构建。大模型生成的多个结果哪个更接近满分答案,每个标注员的标准是不一样的,标准对齐较难,因此标注过程更具主观性。
2. 核心任务类型
在大模型数据处理中,标注任务主要分为以下几类:
- 偏好排序(Preference Ranking):给定一个问题,模型生成多个答案,标注人员需根据准确性、有用性、安全性等维度对答案进行排序。
- 指令微调(SFT)编写:根据给定的指令或提示,人工编写高质量的问题与答案对,用于监督微调。
- 安全评估:识别并标记可能包含幻觉、有害内容、虚假信息、歧视或语言偏见的内容。
二、标注人员的变化:从劳动密集转向知识密集
区别于传统的数据标注,大模型数据标注对标注人员的要求变得更高,呈现出明显的知识密集型特征。
1. 能力素质要求
- 学历背景:通常要求本科及以上学历,具备更强的理解能力和逻辑思维能力。
- 专业领域:不再局限于单一领域,而是覆盖金融、医疗、科技、文学创作等多个垂直行业。标注人员需要具备特定领域的专业知识,才能准确评估模型输出的专业性。
- 主观判断力:能够处理模糊性问题,在缺乏标准答案的情况下做出合理的价值判断。
2. 团队构成
专业的标注团队通常由经过严格筛选和培训的人员组成。通过专业化培训和针对性考试,不断提升标注人员的专业理解力、逻辑思维、总结能力。稳定的专业标注人员队伍是保障数据集高质量的关键。
三、价值观的变化:负责任的大模型
价值对齐是 AI 安全的一个核心议题。随着大模型能力的增强,确保其能力和行为跟人类的价值、真实意图和伦理原则相一致变得尤为重要。
1. 安全与信任
- 内容合规:不能输出带有歧视性的、有毒有害的、恶意引导性的内容。
- 协作安全:确保人类与人工智能协作过程中的安全与信任,防止模型被滥用。
2. 对抗测试与红队演练
专业人员可以编写各种对抗攻击,如试探性的或者危险性的问题,以发现潜在问题并予以解决。通过红队测试(Red Teaming),帮助发现模型在不准确信息(幻觉)、有害内容、虚假信息、歧视、语言偏见等方面的问题。这是构建负责任大模型不可或缺的一环。
四、标注工具的变化:更适配大模型数据处理需求
为了推动大模型领域发展,帮助快速解决训练数据需求,业界开发了更适配于大模型数据的标注工具。
1. 问答质量评估模板
针对现有大语言模型的数据标注,一种常见类型是对已有的问答数据进行评分评估。例如,客户给定了一个问题以及多个答案,也可以是一个问题,通过外部模型生成答案,然后对答案进行打分、排序、评估敏感信息等。工具需提供灵活的评分规则和布局配置。
2. 多轮问答模板
另一种则是根据提示,自行编写多轮问答数据,适用于监督微调 SFT。例如,客户只给定了一个指令,需要团队根据指令去编写问题与答案。工具需支持上下文管理、历史对话记录查看等功能。


