大模型实时对战《街霸》：GPT-3.5 胜 GPT-4，新型基准测试引发关注

综述由AI生成介绍一种名为 Street Bench 的新型大模型基准测试，通过让大模型控制格斗游戏角色进行实时对战来评估其动态决策能力。测试结果显示 GPT-3.5 表现优于 GPT-4，揭示了推理延迟与模型规模在实时交互场景中的权衡关系。该基准引入了 AI 间交互及游戏引擎规则评判，为评估大模型理解环境并采取行动的能力提供了新思路，区别于传统强化学习或静态问答测试。文章深入分析了视觉 - 语言 - 动作闭环的实现细节，探讨了自然语言作为中间表示的优势，以及延迟敏感型应用在具身智能领域的意义。

雪落无声发布于 2025/2/7更新于 2026/6/215 浏览

大模型实时对战《街霸》：GPT-3.5 胜 GPT-4，新型基准测试引发关注

让大模型直接操纵格斗游戏《街霸》里的角色进行捉对 PK，谁更能打？GitHub 上一种新型 Benchmark 引发了技术社区的广泛关注。

什么是 Street Bench

与传统的 LLM 竞技场（LLM Arena）不同，后者通常由两个大模型分别输出答案再由人类评分，Street Bench 引入了两个 AI 之间的交互，且由游戏引擎中确定的规则评判胜负。这种新玩法旨在评估大模型理解环境并根据特定情况采取行动的能力。

开发者在 Mistral 举办的黑客马拉松活动上开发了该项目，初期仅使用 OpenAI 和 Mistral 系列模型进行了测试。经过 342 场对战后，根据棋类、电竞常用的 ELO 算法得出的排行榜显示了一个出人意料的结果：最新版 gpt-3.5-turbo 成绩断崖式领先，Mistral 小杯排第二。更小的模型甚至超过了更大的模型，如 GPT-4 和 Mistral 中杯大杯。

考验 AI 的动态决策力

AI 想在格斗游戏里称王，需要哪些硬实力呢？开发者给出了几个核心标准：

反应要快：格斗游戏讲究实时操作，犹豫就是败北。
脑子要灵：高手应该预判对手几十步，未雨绸缪。
思路要野：常规套路人人会，出奇制胜才是制胜法宝。
适者生存：从失败中吸取教训并调整策略。
久经考验：一局定胜负不说明问题，真正的高手能保持稳定的胜率。

具体玩法与技术实现

每个大模型控制一个游戏角色，程序向大模型发送屏幕画面的文本描述，大模型根据双方血量、怒气值、位置、上一个动作、对手的上一个动作等信息做出最优决策。

第一个挑战是定位人物在场景中的位置。通过检测像素颜色来判断，但由于目前大模型数学能力还都不太行，直接发送坐标值效果不好，最终选择了将位置信息改写成自然语言描述。所以对于 AI 来说，实际上他们在玩的是一种奇怪的文字冒险游戏。

再把大模型生成的动作招式映射成按键组合，就能发送给游戏模拟器执行了。在试验中发现，大模型可以学会复杂的行为，比如仅在对手靠近时才攻击，可能的情况下使用特殊招式，以及通过跳跃来拉开距离。

为什么更大的模型表现反而差？

从结果上可以看出，与其他测试方法不同，在这个规则下似乎更大的模型表现越差。开发者对此解释到：目标是评估大模型的实时决策能力，规则上允许 AI 提前生成 3-5 个动作，更大的模型能提前生成更多的动作，但也需要更长的时间。

在推理上的延迟差距是有意保留的，但后续或许会加入其他选项。这意味着在实时交互场景中，推理速度（Latency）成为了比单纯参数规模更重要的指标。如果模型思考时间过长，错过了游戏的最佳帧数窗口，即便策略再优也无法获胜。

后续也有用户提交了流行开源模型的对战结果，在 7B 及以下量级的战斗中，还是 7B 模型排名更靠前。从这个角度看，这种新型基准测试为评估大模型的实用性提供了新思路。

技术深度分析：Agent 评估的新范式

现实世界的应用往往比聊天机器人复杂得多，需要模型具备快速理解、动态规划的本领。正如开发者所说，想要赢，要在速度和精度之间做好权衡。

1. 视觉 - 语言 - 动作的闭环

该 Benchmark 构建了一个完整的感知 - 决策 - 执行闭环。传统的 NLP 任务通常是输入文本输出文本，而此任务要求模型处理视觉信息（转化为文本描述），结合状态信息（血量、位置），输出动作指令（按键组合）。这更接近于具身智能（Embodied AI）的雏形。

2. 自然语言作为中间表示的优势

选择将位置信息改写成自然语言而非坐标，反映了当前多模态大模型的特性。直接输出数字可能导致格式错误或精度丢失，而自然语言描述（如'对手在左侧'）更符合大模型的训练分布，降低了推理的不确定性。这也提示了未来 Agent 开发中，中间表示层（Intermediate Representation）设计的重要性。

3. 与传统强化学习的区别

与传统的强化学习（RL）也有所不同。强化学习模型相当于根据奖励函数'盲目地'采取不同行动，通过试错优化策略；而大模型完全了解自身处境并有目的的采取行动，利用了预训练知识中的通用逻辑。这种混合模式结合了 RL 的环境适应性和 LLM 的常识推理能力。

4. 延迟敏感型应用的意义

在实时对抗环境中，Token 生成速度直接决定了系统的响应延迟。GPT-3.5 之所以胜出，很大程度上得益于其较小的参数量带来的更快推理速度。这对于自动驾驶、机器人控制等对实时性要求极高的领域具有参考意义：在边缘设备上部署轻量级模型可能比云端调用大模型更具优势。

大模型实时对战《街霸》：GPT-3.5 胜 GPT-4，新型基准测试引发关注

大模型实时对战《街霸》：GPT-3.5 胜 GPT-4，新型基准测试引发关注

什么是 Street Bench

考验 AI 的动态决策力

具体玩法与技术实现

为什么更大的模型表现反而差？

技术深度分析：Agent 评估的新范式

1. 视觉 - 语言 - 动作的闭环

2. 自然语言作为中间表示的优势

3. 与传统强化学习的区别

4. 延迟敏感型应用的意义

更多推荐文章

相关免费在线工具

总结与展望

更多推荐文章

相关免费在线工具

大模型实时对战《街霸》：GPT-3.5 胜 GPT-4，新型基准测试引发关注

大模型实时对战《街霸》：GPT-3.5 胜 GPT-4，新型基准测试引发关注

什么是 Street Bench

考验 AI 的动态决策力

具体玩法与技术实现

为什么更大的模型表现反而差？

技术深度分析：Agent 评估的新范式

1. 视觉 - 语言 - 动作的闭环

2. 自然语言作为中间表示的优势

3. 与传统强化学习的区别

4. 延迟敏感型应用的意义

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

总结与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具