跳到主要内容

极客日志面向AI+效率的开发者社区

首页博客 GitHub 精选镜像 AI 生图工具 UI配色美学隐私政策关于联系

搜索内容 / 工具 / 仓库 / 镜像...⌘K 搜索

字节扣子搭建大模型擂台：匿名 PK 与用户评价机制 | 极客日志

编程语言SaaSAI

字节扣子搭建大模型擂台：匿名 PK 与用户评价机制

字节跳动推出扣子平台模型广场功能，引入类似 Chatbot Arena 的匿名 PK 模式。用户可对两个匿名大模型的生成结果进行投票，从而评估模型性能。该功能支持随机 Bot 对战、指定 Bot 对战及纯模型对战三种模式，旨在通过人类反馈替代传统静态基准测试。此外，文章详细介绍了在扣子平台上创建 Bot 的简易流程，涵盖模型选择、技能插件配置及发布步骤。这种人机协作的评价体系有助于降低 AI 应用开发门槛，推动生态发展。

PgDevote发布于 2025/2/7更新于 2026/7/2032 浏览

字节扣子搭建大模型擂台：匿名 PK 与用户评价机制

字节扣子搭建大模型擂台：匿名 PK 与用户评价机制

字节跳动的扣子（coze.cn），近期为国产大模型们组了个大局——在同一个'擂台'上，两个大模型为一组，直接以匿名的方式 PK 效果！

字节扣子搭建大模型擂台

例如我们对两位参赛'选手'同时提问今年高考的作文题目：

阅读下面的材料，根据要求写作。（60 分）

随着互联网的普及、人工智能的应用，越来越多的问题能很快得到答案。那么，我们的问题是否会越来越少？

以上材料引发了你怎样的联想和思考？请写一篇文章。

要求：选准角度，确定立意，明确文体，自拟标题；不要套作，不得抄袭；不得泄露个人信息；不少于 800 字。

点击问题的一瞬间，两位'选手'便立刻开始作答：

字节扣子搭建大模型擂台

不难看出，两个大模型不论是在生成答案的速度，或是内容的侧重上均有所不同。直到有一方作答完毕，这时候我们就可以开始投票了，一共有四个选项可选：

字节扣子搭建大模型擂台

A 表现更好
两个都好
两个都差
B 表现更好

在这个案例中，因为生成速度相似，我们姑且以个人文字审美为标准，先将票投给大模型 A。

投票结束后，两位'选手'的庐山真面目也就揭晓了，分别是通义千问（A）和智谱（B）。

字节扣子搭建大模型擂台

这便是字节跳动的 AI 应用开发平台扣子上新的玩法——模型广场。这种打擂台的模型，与此前国外极具权威性的大模型擂台Chatbot Arena类似。它同样是通过用户的参与，匿名两个模型，根据生成内容的表现来打分。

字节扣子搭建大模型擂台

而且这种模式还得到了 AI 大神Karpathy的高度认可：

是我唯二信任的测试基准之一。

字节扣子搭建大模型擂台

不过有一说一，扣子能让自家'院子'里的大模型们玩这种模式，也是实属罕见。那么模型广场具体又该如何操作？是否能够 hold 住脑洞大开的问题？我们这就来实测一波。

匿名 PK，够直接，够刺激

我们现在打开扣子的官网（coze.cn），点击左侧的导航栏**'探索'列表中'模型广场'**，便可开始体验了。

字节扣子搭建大模型擂台

整体来看，对战的模式一共分为三大类：

随机 Bot 对战
指定 Bot 对战
纯模型对战

刚才我们所展示的 PK 案例，就是点击**'随机开始'按钮而来，也就是随机 Bot 对战**。具体而言，扣子会从已经上架的 Bot 中随机挑选一个，然后选择匿名的两个大模型进行 PK。这个模式考验的便是大模型们在任意业务场景下的文本生成、技能和知识调用等能力。

例如我们再来体验一番，这一次的场景就变成了数学老师，我们选择的问题：

某班 30 人中有 15 人参加数学建模竞赛，有 8 人参加数学竞赛，有 6 人参加英语竞赛，有 3 人三科竞赛都参加，请问三科竞赛都不参加的至少有多少人？

字节扣子搭建大模型擂台

我们按照生成结果的简洁性，这次把票投给模型 B，可以看到这次参赛的'选手'分别是通义千问（A）和MiniMax（B）。

字节扣子搭建大模型擂台

而指定 Bot 对战，则是需要我们先在模型广场下方的众多 Bot 中挑选一个要测试的场景，然后扣子再从系统中选择匿名的两个大模型来 PK。这个模式在业务场景方面就会更加聚焦和细分。

例如我们在茫茫 Bot 中，一眼就相中了**'弱智吧十年练习生'**：

字节扣子搭建大模型擂台

这一次我们自己来提问：

被门夹过的核桃，还能补脑吗？

字节扣子搭建大模型擂台

从答案中不难看出，两位'选手'都没有 get 到这句话里隐藏的'你脑袋被门夹了'的梗，因此——

字节扣子搭建大模型擂台

两个都差。

字节扣子搭建大模型擂台

最后一个模式便是纯模型对战——忽略编排等各种 Bot 配置的影响，直接评估大模型的文本生成能力。

字节扣子搭建大模型擂台

我们依旧'弱智吧 Style'：

高考满分才 750，怎么才能考 985？

字节扣子搭建大模型擂台

两个大模型都精准 get 到了 985 是什么意思，因此依旧是——

字节扣子搭建大模型擂台

两个都好。

字节扣子搭建大模型擂台

值得一提的是，无论在哪种模式之下，'选手'如果在回答问题过程中暴露了自己的身份，那么用户所投出的票将被视为无效。

以上便是扣子给国产大模型们打擂台匿名 PK 的三种模式了。而纵观扣子此次的新发布，除了大模型本身之外，另外一个关键要素便是 Bot。并且若是亲身体验一番下来，在扣子中创建 Bot 这件事，最为直接的感受就是够简单、够丰富。

小朋友都能搭建的 Bot

其实模型广场是一个名叫**'扣子 AI 工坊'**（Coze AI Factory）活动的内容之一，是由扣子和英特尔联合推出的主题 Bot 征集活动。聚焦的是图文创作、实用工具、互动创意三个赛道。

但如果来到扣子的**'Bot 商店'，就不难发现，这里的 Bot 们并非是一尘不变的那种；相反，倒是非常紧跟热点，非常 fashion。例如正值刚刚高考完，Bot 商店首页的'头条位置'留给的就是一个名叫'高考专业指南'**的 Bot，可以说是相当的应景。

字节扣子搭建大模型擂台

除此之外，像**'国内高校百科'和'测测你的本命粽子'等 Bot，也是紧跟热点和节假日。而且 Bot 的数量之多，简直是刷不到底**：

字节扣子搭建大模型擂台

但比起数量来说，更重要的还是在扣子中创建复杂的 Bot，仅需鼠标'点点点'，就连小朋友都能完成。

第一步：基础信息配置

第一大步，点击创建 Bot，简单填写基本信息：

字节扣子搭建大模型擂台

这一步主要定义 Bot 的名称、描述以及头像，是用户识别 Bot 的第一印象来源。

第二步：核心模型选择

第二大步，选择自己想要用的大模型：

字节扣子搭建大模型擂台

目前可选的大模型包括豆包、通义千问、智谱、MiniMax、月之暗面和百川。不同的模型在逻辑推理、创意写作或代码生成上各有优劣，开发者可根据应用场景灵活切换。

第三步：技能与插件集成

第三大步，给 Bot 添加**'技能点'**，同样是'点点点'的操作，就能在扣子已经拥有的海量插件、工作流等内容里 pick 自己想要的那一个。

字节扣子搭建大模型擂台

这里可以接入搜索插件、知识库检索、API 调用等功能，极大地扩展了大模型的能力边界。例如，通过接入联网搜索插件，Bot 可以获取实时新闻；通过接入知识库，Bot 可以基于企业内部文档回答问题。

第四步：发布与调试

最后，一键'发布'，就可以上线想要拥有的 Bot。在发布前，建议先在预览窗口进行多轮对话测试，确保 Prompt 工程和插件配置无误。

操作之简单，也就不难理解为何扣子上 Bot 的数量会如此惊人了。

为什么人类反馈比静态评测更重要？

传统的 LLM 评测往往依赖静态数据集（如 MMLU、GSM8K 等），但这些数据集存在数据泄露和泛化性不足的问题。随着模型能力的提升，单纯依靠固定题库已难以区分模型的真实水平。

Chatbot Arena 及类似的模型广场引入了 Elo 评级系统，通过成对比较和人类投票，构建了一个动态的、反映真实用户偏好的排行榜。这种方式更接近于 RLHF（人类反馈强化学习）中的奖励信号来源，能够捕捉到模型在长文本连贯性、指令遵循度、安全性等方面的细微差异。

此外，这种模式还得到了 Jeff Dean 和李开复等行业领袖的高度认可。一言蔽之，字节要做的，就是把 AI 应用开发门槛打下去，把生态壮大起来，让 AI 应用能'多快好省'地用起来。

扣子在下一步什么棋？

我们再回到这次扣子新发布的模型广场，也正如我们在文章最开始提到的，这种把擂台玩法嵌入到自家大模型应用开发平台的，目前在业界算是少见。那么，字节为什么要这么做？

首先从效果层面来看，从刚才我们创建 Bot 的过程中不难发现，它所依赖的能力最根本的就是来自扣子生态中所集成的大模型们。而也正如业界已达成的共识那样——没有一个大模型能够'一统天下'，每个大模型都有自己的擅长之处。加之每个 Bot 也都是在细分场景里各有侧重，因此合适的 Bot 遇到合适大模型，势必将产生 1+1＞2 的效果。

其次从操作层面来看，模型广场的出现着实是为 Bot 开发者节省了挨个模型比对、试错的成本。这无疑是给本就操作简易的扣子在操作上锦上添花。

最后是在可信度层面上，扣子所 pick 的类似 Chatbot Arena 的擂台模式，已然成为业界对大模型性能认可度的标杆。毕竟除了前文提到的 Karpathy 之外，Jeff Dean 和李开复也对这种模式给予过高度的认可。

扣子地址：coze.cn

目录

字节扣子搭建大模型擂台：匿名 PK 与用户评价机制
匿名 PK，够直接，够刺激
小朋友都能搭建的 Bot
第一步：基础信息配置
第二步：核心模型选择
第三步：技能与插件集成
第四步：发布与调试
为什么人类反馈比静态评测更重要？
扣子在下一步什么棋？

免费图片AI生成工具免费生成了解详情

Magick API 一键接入全球大模型注册送1000万token查看
免费图片视频在线生成30秒，将你的创意变成现实开始设计
X/Twitter免费视频下载器免登陆无限额度免费视频解析下载了解详情
100+免费在线小游戏爽一把

极客日志微信公众号二维码

微信扫一扫，关注极客日志

微信公众号「极客日志V2」，在微信中扫描左侧二维码关注。展示文案：极客日志V2 zeeklog

更多推荐文章

C++ 面试高频考点与核心技术解析
GitHub Copilot：Python 开发者的 AI 助手
AI 大模型图像生成方案选型：Stable Diffusion 与 DALL·E 实战对比
2026 年 3 月 GESP C++ 一级真题及解析：数字替换
2026 年 3 月 GESP 真题：C++ 一级数字替换
剑指 Offer 第 2 版：二叉树算法解析
C++ 深入解析 std::back_inserter 用法与原理
Python 基础与环境配置
基于 VoxCPM-1.5-TTS 的软件操作语音指引实践
GitHub Copilot 性能优化实战：提升 AI 代码建议响应速度
Java 注解详解：原理、分类与 Spring Boot 应用
Spring AI MCP Server 集成与使用指南
Rust 异步代码的测试与调试艺术
Java 拼图小游戏开发实战：界面、逻辑与交互优化
WebGL 缓冲区使用与多点绘制实战
ToDesk ToClaw AI 科技新闻日报自动化实战
Git LFS 跨平台安装指南：Linux/macOS/Windows 配置实战
C++ 模板与内存管理详解
毕业论文降低 AI 检测率的原理与实操方法
大模型原理、训练流程与应用场景全面解析

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online