大模型时代下的私有数据安全与利用
01 大模型时代下的数据安全与利用问题
众所周知,大模型是当前研究的热点之一,且已成为当前发展的主流趋势。我们团队最近的研究方向从传统的联邦学习转变为探索这一范式在大模型时代的新拓展,即基于知识迁移的联邦学习。我们认为在大模型时代,这种新的联邦学习模式非常适用。因此,本文将简要介绍联邦学习在大模型时代的定位与应用,分享关于基于知识迁移的联邦学习的技术进展,并介绍结合大模型的联邦知识计算平台 FLAIR。
自 2016 年起,国家积极推动数据要素的高水平应用和数据安全治理,同时强调数据与 AI 相辅相成。大家逐渐形成一个共识,就是数据要素的价值在于其流通。然而,在数据流通与应用过程中,必须防止数据滥用并保障数据安全。为此,2016 年谷歌首次提出联邦学习这一机器学习范式,迅速吸引了广泛的研究和企业关注,并在金融偏好、推荐等领域得到应用。
近年来,大模型的兴起使得数据要素市场规模持续扩大。大模型也给这个不断壮大的市场提供了一个全新的、强大的工具,创造了更多新的应用场景和市场机会。可以说几乎所有的应用都值得由大模型重新做一遍。
大模型重新设计数据要素相关应用具有巨大潜力。例如,ChatGPT 等大模型在多种任务中已显示出卓越性能,然而,将大模型在特定垂直行业中高效、高质量地应用,依然面临挑战。比如,若要在特定领域微调大模型,如何获取大量高质量的训练或微调数据,以及如何利用大规模计算资源进行训练或微调,都是重大难题。即使不进行训练或微调,避开收集数据的问题,部署一个高效的大模型进行推理也需大量计算资源。
尽管收集大规模高质量数据具有挑战性,但我们每天产生的大量数据并未被充分利用。由于隐私问题,这些数据主要存储在本地,未得到应用。这些数据像孤岛般散落在各处,如手机、电脑以及自动驾驶车辆中的传感器采集的数据,或分散在不同的医院和大型企业中。我们可利用的公开数据集只占所有数据的一小部分。因此,如何打破数据孤岛,同时保护数据隐私,综合利用所有数据,成为了一个重要且富有挑战性的问题。
有人可能会考虑直接将数据集中发送给大模型以进行应用或推理,但这显然是不可行的。首先,这违反了数据安全中的基本原则——数据不出域。同时,大模型的出现也为私有数据安全保护带来了新的挑战。鉴于远端大模型可能带来的数据泄露风险,许多公司禁止将公司数据上传至远端服务器或限制员工访问如 ChatGPT 这类远端大模型。此外,关于隐私泄露的真实案例不断被报道,这些对数据安全的担忧严重阻碍了大模型和 AI 技术在实际中的应用和落地。
前面提到的主要是数据安全问题,实际上模型安全也是一大问题。模型训练方拥有模型权重的知识产权,他们不希望模型参数被他人轻易利用或窃取。因此,闭源模型的开发商不愿意将模型直接发送给使用方进行本地部署。所以,大模型时代的应用落地面临着数据安全问题和模型与数据流通之间的巨大矛盾。
如果将闭源模型更换为开源模型并在数据侧进行本地部署,是否可以解决这个问题呢?答案是否定的。因为数据侧通常只有能够支撑训练小型模型的计算资源,部署大型模型可能会带来过大的压力。如果我们将开源模型部署在第三方云端,是否可行呢?答案仍然是否定的,因为许多公司不信赖将其私有数据发送到第三方云端,尤其是一些国有企业,他们会考虑到数据和国家安全问题。同时,我们还需要考虑第三种情况,即单个数据持有者拥有的私有数据量可能较少,在大模型时代,如何联合多个私有数据持有方共同训练一个更好的模型也是一个值得研究的问题。在此过程中,如何使用大模型来提升每个小模型,以及如何利用每个小模型的专业能力来帮助大模型在这个领域进一步提升,都是值得研究的问题,并且目前是一个开放的研究领域。
02 隐私计算与联邦知识迁移技术
在上一章节中介绍了大模型时代下数据和模型安全以及使用上的问题。接下来,将分享一些现有的解决方案,以及团队正在研究的基于知识迁移的联邦学习技术。
目前存在多种保护数据隐私的方法,包括常见的同态加密、多方安全计算和差分隐私技术。这些方法都可应用于机器学习和模型训练,但通常以牺牲计算效率或损害模型性能为代价来提升数据安全。另外,可信第三方计算依赖于可信的第三方存在,并需要特殊硬件来实现代码和数据的隔离。
联邦学习是一种独特的技术,由谷歌在 2016 至 2017 年间提出的 Cross-device 联邦学习的一种架构,允许在不泄露每个参与方本地数据的情况下进行联合建模。在这个模型中,模型参数而非原始数据作为信息交互的载体,实现了跨成千上万客户端的联合模型建立与协同进化。随后,联邦学习的应用扩展到了 Cross-silo 场景,此场景涉及较少的参与方,通常是大型企业,参与度较高,较少出现参与方因各种原因无法参与合作的情况。相比之下,在 Cross-device 场景中,成千上万的参与方因网络等问题退出合作的情况则更为常见。
联邦学习也可以根据参与方间本地数据的切分方式进行分类。如果不同参与方持有不同用户但相同特征的数据,称为横向联邦学习。相反,如果参与方拥有相同用户但不同特征的数据,则称为纵向联邦学习。而当参与方的数据在用户和特征的重合度都很低时,这种情况被称为联邦迁移学习,此时通常需要运用迁移学习技术来提升模型性能。
联邦学习面临的核心挑战是如何在数据安全、模型性能和模型效率三者之间寻找平衡,尤其在各种限制都可能存在的情况下。目前,我们已经有了一些实现这三者间某两者平衡的方法。例如,多方计算和同态加密(MPC 和 HE)正在寻求数据安全与模型效率之间的平衡,而差分隐私(DP)则在探索数据安全与模型性能之间的平衡。另外,模型压缩或量化等技术正在寻求模型性能与模型效率之间的平衡,这在大模型时代由于超大规模参数带来的巨大训练开销,显得愈发重要。此外,我们还在探索一些新的研究热点,如客户端本地模型的个性化和模型公平性等。
在大模型时代,为了平衡模型性能与模型效率,已经开发了多种策略,其中包括利用分布式训练配合资源优化和并行处理来分散训练压力,或者仅训练模型的 Adapter 层,而不是全部参数,以减少训练所需的参数量。此外,还有利用 Prompt Tuning 技术进行提示的微调而非模型参数的微调。这些方法有效减少了训练参数及参与方间的通信开销,但依然要求参与方本地具备一定的计算能力和资源,以支持大模型的部署、训练或至少进行推理。


