由知名机构 LMSYS 推出的 LMArena(原 Chatbot Arena 升级版)发布了最新排行榜。这些榜单完全基于全球用户的真实盲测投票,用户看不到模型名字,只凭输出质量投票,因此结果特别公平、可信,被视为 AI 模型实力最权威的'民意测评'。截至 2026 年 1 月 13 日更新,四个核心领域——Text Arena(文本能力)、WebDev Leaderboard(网页开发)、Vision Arena(视觉理解)、Text-to-Image Arena(文生图)——的排名已经出炉。
Text Arena:文本能力综合王者,Google 与 xAI 激烈争夺

Text Arena 主要考察模型在对话、推理、写作等文本任务上的表现,是最受关注的通用能力榜单。目前总投票超过数百万次,竞争极其激烈。
最新排名前五如下:
- Gemini-3-Pro(Google)——Elo 1490,稳居第一,投票超 2.5 万次
- Grok-4.1-Thinking(xAI)——Elo 1477,紧追其后
- Gemini-3-Flash(Google)——Elo 1471,性价比版本表现亮眼
- Claude-Opus-4-5-Thinking-32K(Anthropic)——Elo 1469
- Grok-4.1(xAI)——Elo 1466
可以看到,Google 的 Gemini 3 系列几乎包揽前三,尤其是旗舰版 Gemini-3-Pro 以明显优势领跑,说明它在复杂推理、长上下文处理上特别受用户青睐。xAI 的 Grok 4.1 系列紧随其后,特别是开启 Thinking(链式思考)模式后表现更强,体现了 Elon Musk 团队在实时信息与幽默风格上的独特优势。Anthropic 的 Claude Opus 新版也非常强劲,长期以来以安全、可靠著称。
整体来看,2026 年初的文本大模型已经进入 Elo 1400+ 时代,前十名差距很小,说明顶级模型实力趋于接近,Google 暂时占据明显领先位置。
WebDev Leaderboard:编程与网页开发,Anthropic 意外夺冠

WebDev Leaderboard 专门测试模型在网页开发、代码生成、交互应用构建等实际编程任务上的能力,投票数近 10 万次,非常贴近开发者真实需求。
最新前五名:
- Claude-Opus-4-5-Thinking-32K(Anthropic)——Elo 1511,大幅领先
- GPT-5.2-High(OpenAI)——Elo 1481
- Claude-Opus-4-5(Anthropic)——Elo 1479
- Gemini-3-Pro(Google)——Elo 1468
- Gemini-3-Flash(Google)——Elo 1455
这里最亮眼的是 Anthropic 的 Claude Opus 系列直接包揽前两名(含 Thinking 模式),Elo 高达 1511,领先第二名 30 分,这在编程领域非常罕见。说明 Claude 在新版中对代码逻辑、调试、复杂前端后端集成的处理特别出色,深受开发者喜爱。OpenAI 的 GPT-5.2 高配版位居第二,延续了 GPT 系列在编程领域的传统优势。Google 的 Gemini 虽然也很强,但暂时落后于前两者。
对开发者来说,这个榜单特别有参考价值——如果你在做网页或全栈开发,优先试试 Claude Opus 新版准没错。




