字节扣子搭建大模型擂台:匿名 PK 与用户评价机制
字节跳动的扣子(coze.cn),近期为国产大模型们组了个大局——在同一个'擂台'上,两个大模型为一组,直接以匿名的方式 PK 效果!

例如我们对两位参赛'选手'同时提问今年高考的作文题目:
阅读下面的材料,根据要求写作。(60 分)
随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?
以上材料引发了你怎样的联想和思考?请写一篇文章。
要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于 800 字。
点击问题的一瞬间,两位'选手'便立刻开始作答:

不难看出,两个大模型不论是在生成答案的速度,或是内容的侧重上均有所不同。直到有一方作答完毕,这时候我们就可以开始投票了,一共有四个选项可选:

- A 表现更好
- 两个都好
- 两个都差
- B 表现更好
在这个案例中,因为生成速度相似,我们姑且以个人文字审美为标准,先将票投给大模型 A。
投票结束后,两位'选手'的庐山真面目也就揭晓了,分别是通义千问(A)和智谱(B)。

这便是字节跳动的 AI 应用开发平台扣子上新的玩法——模型广场。这种打擂台的模型,与此前国外极具权威性的大模型擂台Chatbot Arena类似。它同样是通过用户的参与,匿名两个模型,根据生成内容的表现来打分。

而且这种模式还得到了 AI 大神Karpathy的高度认可:
是我唯二信任的测试基准之一。


















