AI 公司滥用用户协议:将用户视为数据提款机的现象分析
引言:被忽视的用户协议
在登录各类应用时,签署用户协议是必须完成的步骤,否则无法正常使用服务。然而,绝大多数用户不会认真通读一遍冗长的用户协议,这导致协议往往成为厂商动'歪脑筋'的灰色地带。随着大模型预训练语料库逐渐枯竭,AI 公司的目光开始转向用户数据,并在用户协议的条款上下了文章。
最近,AI 公司与用户之间的冲突与矛盾日益增多且规模扩大,核心焦点集中在一个常被忽略的文件上:用户协议。
典型案例:X(Twitter)与 Grok 的数据争议
近期,X(原 Twitter)及其所有者马斯克因平台政策调整被推上风口浪尖。原因是 X 被发现'光明正大'地利用用户的帖子来训练其自研的大模型 Grok。
长期以来,部分平台利用用户数据训练模型是一种心照不宣的行业惯例,但通常采取隐蔽操作,不敢摆在台面上。然而,此次 X 的做法引发了众怒。在没有任何公告或通知的情况下,X 偷偷上线了一项新协议,声明将使用用户帖子和数据训练 AI,且该条款默认选中,用户被视为默认同意。
该设置入口隐藏极深,若不刻意寻找几乎无法发现。更令人不满的是,关闭选项仅存在于电脑网页版,手机端直接找不到入口,导致用户无法关闭。直到有用户偶然发现并曝光此事,相关讨论热度迅速飙升,在 X 平台上突破了千万次浏览。
评论区充斥着愤怒的指责和询问如何关闭的帖子。经确认,关闭路径为:更多 - 设置和隐私 - 隐私和安全 - 数据分享和个性化 - Grok。官方最终承认了这一机制,并以官方口吻告知关闭方法,但措辞中流露出一种'给予用户关闭权限是恩赐'的态度,暗示其他公司甚至不提供此选项。
行业普遍现象:从 Meta 到 WPS
X 并非首个此类案例,只是因其用户基数庞大而引发高度关注。未被广泛报道但同样侵犯用户权益的案例比比皆是。
Meta 与欧盟隐私法规的冲突
Meta 曾试图利用对数据管理严格的欧洲用户数据进行模型训练,并修改隐私政策规定:'如果用户选择不同意该隐私权政策则应该主动停止使用 Facebook 和 Instagram 等产品,否则均为接受新政策。'
该政策宣布于 2024 年 6 月 26 日生效,但在欧洲引发了强烈舆论反弹。欧盟监管机构紧急出手叫停,认为这违反了 GDPR 关于知情同意的原则。
WPS 文档数据的使用
国内办公软件 WPS 去年 11 月也被曝出在协议中加入条款,声称将对用户主动上传的文档材料进行脱敏处理后作为 AI 训练的基础材料。这一行为遭到用户强烈抵制,WPS 随后紧急发布公告道歉并修改协议。
番茄小说与创作者权益
2024 年 6 月至 7 月,番茄小说陆续向作家推送 AI 补充协议,要求将作品用于 AI 训练。作家群体反应激烈,中下层作者纷纷加入抗议,部分万粉作家甚至在书内更新章节发布离开声明。最终,在巨大的舆论压力下,番茄小说上线了解除相关条款的功能入口,事件才得以平息。
核心矛盾:技术需求与个人权利的博弈
上述案例表明,公众抵制的从来不是 AI 技术本身。X 上的用户依然乐于与 Grok 互动,WPS 用户也认可 AI 辅助功能,番茄小说的作者期待 AI 润色工具。大家反对的是平台在不声不响的情况下,剥夺用户对自己知识、记忆和创作内容的控制权。
生成式 AI 发展到今天,互联网公开数据已接近挖掘殆尽。各平台上的大量用户生成内容(UGC)成为了最大的数据宝藏。这就像一群组织在囤积粮食,当公开储备耗尽后,便开始觊觎私人仓库。
有的平台像明抢,踹开房门征用;有的则像偷运,通过隐蔽管道持续抽取。直到用户发现异常想理论时,对方却称:'管子就在你自己家里,不想给就拔掉。'这种不对等的权力关系是愤怒的源泉。
对于创作者而言,作品不仅是心血,更是生存饭碗。平台无偿占用这些内容训练商业模型,若未来产生收益也与创作者无关,用户更像被榨干汁水的甘蔗渣。
类比分析:Temu 商家维权事件的启示
近期拼多多旗下海外电商平台 Temu 的商家维权事件与 AI 数据争议有异曲同工之妙。2023 年下半年至 2024 年初,Temu 修订《售后服务规则》,提出对质量问题商品按总价 5 倍赔付,虽然后期调整为根据品质分数划分罚款,但具体标准仍不透明。
商家面临高额罚款风险,例如一件利润 6 元的衣服可能因退货被罚 250 元。由于缺乏申诉渠道和透明度,近 800 名中小商家冲至广州 Temu 总部维权。这反映了平台规则制定权的滥用问题,与 AI 公司单方面修改用户协议类似,都是强势方对弱势方的压迫。
技术视角:数据是如何被'提取'的
从技术层面看,AI 模型训练需要海量的高质量文本数据。传统的爬虫抓取公开网页成本高昂且法律风险大,而通过用户协议获取授权数据则更为便捷。数据经过清洗、分词(Tokenization)、向量化(Embedding)后进入模型参数空间。
一旦用户数据被纳入训练集,它将成为模型权重的一部分。这意味着用户的表达风格、观点偏好可能被模型学习并固化。虽然技术上可以通过'遗忘学习'(Machine Unlearning)移除特定数据的影响,但目前该技术尚不成熟,难以保证完全移除痕迹。因此,事前授权比事后补救更为关键。


