AI 公司滥用用户协议：将用户视为数据提款机的现象分析

引言：被忽视的用户协议

在登录各类应用时，签署用户协议是必须完成的步骤，否则无法正常使用服务。然而，绝大多数用户不会认真通读一遍冗长的用户协议，这导致协议往往成为厂商动'歪脑筋'的灰色地带。随着大模型预训练语料库逐渐枯竭，AI 公司的目光开始转向用户数据，并在用户协议的条款上下了文章。

最近，AI 公司与用户之间的冲突与矛盾日益增多且规模扩大，核心焦点集中在一个常被忽略的文件上：用户协议。

典型案例：X（Twitter）与 Grok 的数据争议

近期，X（原 Twitter）及其所有者马斯克因平台政策调整被推上风口浪尖。原因是 X 被发现'光明正大'地利用用户的帖子来训练其自研的大模型 Grok。

长期以来，部分平台利用用户数据训练模型是一种心照不宣的行业惯例，但通常采取隐蔽操作，不敢摆在台面上。然而，此次 X 的做法引发了众怒。在没有任何公告或通知的情况下，X 偷偷上线了一项新协议，声明将使用用户帖子和数据训练 AI，且该条款默认选中，用户被视为默认同意。

该设置入口隐藏极深，若不刻意寻找几乎无法发现。更令人不满的是，关闭选项仅存在于电脑网页版，手机端直接找不到入口，导致用户无法关闭。直到有用户偶然发现并曝光此事，相关讨论热度迅速飙升，在 X 平台上突破了千万次浏览。

评论区充斥着愤怒的指责和询问如何关闭的帖子。经确认，关闭路径为：更多 - 设置和隐私 - 隐私和安全 - 数据分享和个性化 - Grok。官方最终承认了这一机制，并以官方口吻告知关闭方法，但措辞中流露出一种'给予用户关闭权限是恩赐'的态度，暗示其他公司甚至不提供此选项。

行业普遍现象：从 Meta 到 WPS

X 并非首个此类案例，只是因其用户基数庞大而引发高度关注。未被广泛报道但同样侵犯用户权益的案例比比皆是。

Meta 与欧盟隐私法规的冲突

Meta 曾试图利用对数据管理严格的欧洲用户数据进行模型训练，并修改隐私政策规定：'如果用户选择不同意该隐私权政策则应该主动停止使用 Facebook 和 Instagram 等产品，否则均为接受新政策。'

该政策宣布于 2024 年 6 月 26 日生效，但在欧洲引发了强烈舆论反弹。欧盟监管机构紧急出手叫停，认为这违反了 GDPR 关于知情同意的原则。

WPS 文档数据的使用

国内办公软件 WPS 去年 11 月也被曝出在协议中加入条款，声称将对用户主动上传的文档材料进行脱敏处理后作为 AI 训练的基础材料。这一行为遭到用户强烈抵制，WPS 随后紧急发布公告道歉并修改协议。

番茄小说与创作者权益

2024 年 6 月至 7 月，番茄小说陆续向作家推送 AI 补充协议，要求将作品用于 AI 训练。作家群体反应激烈，中下层作者纷纷加入抗议，部分万粉作家甚至在书内更新章节发布离开声明。最终，在巨大的舆论压力下，番茄小说上线了解除相关条款的功能入口，事件才得以平息。

核心矛盾：技术需求与个人权利的博弈

上述案例表明，公众抵制的从来不是 AI 技术本身。X 上的用户依然乐于与 Grok 互动，WPS 用户也认可 AI 辅助功能，番茄小说的作者期待 AI 润色工具。大家反对的是平台在不声不响的情况下，剥夺用户对自己知识、记忆和创作内容的控制权。

生成式 AI 发展到今天，互联网公开数据已接近挖掘殆尽。各平台上的大量用户生成内容（UGC）成为了最大的数据宝藏。这就像一群组织在囤积粮食，当公开储备耗尽后，便开始觊觎私人仓库。

有的平台像明抢，踹开房门征用；有的则像偷运，通过隐蔽管道持续抽取。直到用户发现异常想理论时，对方却称：'管子就在你自己家里，不想给就拔掉。'这种不对等的权力关系是愤怒的源泉。

对于创作者而言，作品不仅是心血，更是生存饭碗。平台无偿占用这些内容训练商业模型，若未来产生收益也与创作者无关，用户更像被榨干汁水的甘蔗渣。

类比分析：Temu 商家维权事件的启示

近期拼多多旗下海外电商平台 Temu 的商家维权事件与 AI 数据争议有异曲同工之妙。2023 年下半年至 2024 年初，Temu 修订《售后服务规则》，提出对质量问题商品按总价 5 倍赔付，虽然后期调整为根据品质分数划分罚款，但具体标准仍不透明。

商家面临高额罚款风险，例如一件利润 6 元的衣服可能因退货被罚 250 元。由于缺乏申诉渠道和透明度，近 800 名中小商家冲至广州 Temu 总部维权。这反映了平台规则制定权的滥用问题，与 AI 公司单方面修改用户协议类似，都是强势方对弱势方的压迫。

技术视角：数据是如何被'提取'的

从技术层面看，AI 模型训练需要海量的高质量文本数据。传统的爬虫抓取公开网页成本高昂且法律风险大，而通过用户协议获取授权数据则更为便捷。数据经过清洗、分词（Tokenization）、向量化（Embedding）后进入模型参数空间。

一旦用户数据被纳入训练集，它将成为模型权重的一部分。这意味着用户的表达风格、观点偏好可能被模型学习并固化。虽然技术上可以通过'遗忘学习'（Machine Unlearning）移除特定数据的影响，但目前该技术尚不成熟，难以保证完全移除痕迹。因此，事前授权比事后补救更为关键。