斯坦福 AI 团队被曝抄袭清华系大模型
斯坦福AI 团队近期曝出抄袭事件,涉嫌抄袭中国国产大模型成果——模型结构和代码几乎一模一样。此事在 AI 圈内引发震动。
Llama3-V 发布与争议
斯坦福的这项研究名为Llama3-V,于 5 月 29 日发布,宣称只需 500 美元就能训练出一个 SOTA(State-of-the-Art)多模态大模型,性能声称优于 GPT-4V、Gemini Ultra 和 Claude Opus。

Llama3-V 的 3 位作者拥有名校头衔及特斯拉、SpaceX 等大厂背景,项目发布后迅速受到关注,一度冲上 HuggingFace 趋势榜首页。

然而,有细心的网友发现该项目的'配方'异常熟悉。经比对,发现其与MiniCPM-Llama3-V 2.5(出自清华系明星创业公司面壁智能)高度相似。

网友随后在面壁智能 GitHub 项目下留言指出抄袭问题,并附上证据:
你们家大模型被斯坦福团队抄袭了!

最直接的证据是两张模型代码的对比图,显示模型结构、代码、配置文件简直一模一样,仅变量名有所更改。

面对质疑,斯坦福团队的做法是删除相关页面,导致 GitHub 和 HuggingFace 上的项目链接均显示 404。

详细抄袭证据分析
1. 代码和架构高度一致
网友整理的证据显示,Llama3-V 的模型架构和代码与 MiniCPM-Llama3-V 2.5 几乎完全相同。配置文件仅修改了图像切片、分词器、重采样器和数据加载等格式化和变量名。

虽然 Llama3-V 作者表示参考了 LLaVA-UHD 架构,但在 ViT 和 LLM 的具体实现上,却与 LLaVA-UHD 不同,反而与 MiniCPM-Llama3-V 2.5 出奇一致。甚至使用了 MiniCPM-Llama3-V 2.5 的分词器,连定义的特殊符号都'巧合'匹配。

2. 时间线逻辑矛盾
针对网友质疑 Llama3-V 作者如何在 MiniCPM-Llama3-V 2.5 发布前使用其分词器的问题,作者声称使用的是面壁智能上一代 MinicPM-V-2 项目。但事实是,HuggingFace 中 MiniCPM-V2 与 MiniCPM-Llama3-V 2.5 的分词器是两个不同的文件,大小也不同。MiniCPM-Llama3-V 2.5 的分词器是用 Llama3 分词器加上 MiniCPM-V 系列模型的特殊 token 组成,而 MiniCPM-V2 的发布都在 Llama3 开源之前,不可能包含 Llama3 分词器。

3. 技术理解错误与删除质疑
Llama3-V 作者随后无故删除了网友在页面上提交的质疑。此外,他们对 MiniCPM-Llama3-V 2.5 架构或自己的代码似乎并不完全了解。例如,感知器重采样器(Perceiver resampler)是单层交叉注意力,而非双层自注意力,但 Llama3-V 的技术博客里作者的理解明显错误。

SigLIP 的 Sigmoid 激活也不用于训练多模态大语言模型,仅用于预训练 SigLIP,视觉特征提取不需要 Sigmoid 激活。

基于以上三点,网友认为足以证明 Llama3-V 项目窃取了 MiniCPM-Llama3-V 2.5 项目的学术成果。
4. 内部数据行为一致性
网友补充了两点关键证据。首先,尝试运行 Llama3-V 时,发现提供的代码无法与 HuggingFace 的 checkpoint 一起使用,反馈未获回复。将下载的权重变量名改为 MiniCPM-Llama3-V 2.5 后,模型竟能用原代码成功运行。

其次,向 MiniCPM-Llama3-V 2.5 的 checkpoint 添加高斯噪声后,结果与 Llama3-V 极其相似。

收到提醒后,MiniCPM-Llama3-V 2.5 团队展开调查,使用 Llama3-V 的 checkpoint 和 MiniCPM-Llama3-V 2.5 的代码正确获取了推理结果。更为关键的证据出现了:Llama3-V 在一些未公开的实验性特征上表现出与 MiniCPM-Llama3-V 2.5 高度相似的行为,这些特征是根据 MiniCPM-Llama3-V 2.5 团队内部数据训练的。
例如,识别清华简。这是 MiniCPM-Llama3-V 2.5 特有的功能之一,训练图像来自最近出土文物扫描,由团队标注,尚未公开发布。Llama3-V 的识别情况与其极为相似,识别错误的情况也出奇一致。

MiniCPM-Llama3-V 2.5 团队在 1000 张竹简图像上测试了几种基于 Llama3 的视觉 - 语言模型,结果显示每两个模型之间的重叠为零,而 Llama3-V 和 MiniCPM-Llama3-V 2.5 之间的重叠达到了惊人的 87%。
此外,两者甚至具有相似的错误分布。Llama3-V 和 MiniCPM-Llama3-V 2.5 分别做出 236 和 194 个错误预测,重叠部分为 182 个。按照指令获得的 MiniCPM-Llama3-V2.5-noisy 显示出与 Llama3-V 几乎相同的定量结果。

在另一个内部数据训练的未公开功能——WebAgent 上,也出现了同样的情况,Llama3-V 甚至和新定义的 WebAgent 模式中犯的错误都一样。

鉴于这些结果,MiniCPM-Llama3-V 2.5 团队表示很难将这种不寻常的相似性解释为巧合,希望 Llama3-V 作者能对这个问题给出一个正式的解释。

斯坦福团队已删库跑路
虽然斯坦福的 2 位本科生已经下架了几乎所有与之相关的项目,但在最初面对质疑时,他们曾做出些许解释,强调 Llama3-V 这项工作早于面壁智能的 MiniCPM,只是使用了他们的 tokenizer。

不过作者对 Medium 上的声明做了保留:
非常感谢那些在评论中指出与之前研究相似之处的人。
我们意识到我们的架构非常类似于 OpenBMB 的'MiniCPM-Llama3-V 2.5,他们在实现上比我们抢先一步。
我们已经删除了关于作者的原始模型。

对此,一部分网友表示,既然选择删掉项目,则表示确实存在问题。但也有声音认为,MiniCPM-Llama3-V 2.5 也是在 Llama3 基础上做的改良,直接拿来 tokenizer 是否算借鉴尚有讨论空间。
就在事件发酵期间,斯坦福作者在中午时间做出了最新回应,但随后这条回应也被删除。

而面壁智能这边,CEO 李大海也做出了正式回应。

目前,这一事件仍在持续发酵中,AI 社区对于学术诚信与开源协作的边界进行了广泛讨论。此次风波不仅涉及技术层面的代码复用问题,更触及了科研伦理的核心。对于开发者而言,尊重原创、规范引用是行业发展的基石。随着更多细节的披露,各方期待一个公正透明的调查结果,以维护开源社区的信任机制。