Claude 3 系列模型深度评测：性能是否全面超越 GPT-4？

详细评测了 Anthropic 发布的 Claude 3 系列模型，包括 Opus、Sonnet 和 Haiku。测试显示 Opus 在多项基准测试中得分超过 GPT-4 和 Gemini 1.0 Ultra，尤其在数学、编程及多语言理解方面表现优异。新模型支持 200K 上下文窗口，并具备强大的视觉分析能力。尽管定价较高，但在智能水平、长文本处理及安全合规性上树立了新的行业标杆，标志着大模型竞争进入新阶段。

指针猎手发布于 2025/2/6更新于 2026/7/1031 浏览

Claude 3 系列模型深度评测：性能是否全面超越 GPT-4？

引言

大模型的纯文本方向，似乎已经卷到了新的高度。昨晚，OpenAI 最大的竞争对手 Anthropic 发布了新一代 AI 大模型系列——Claude 3。该系列的发布引发了全球技术社区的广泛关注，许多开发者开始实测其能力边界。

模型系列概览

Claude 3 系列包含三个模型，按能力由弱到强排列分别是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。

Claude 3 Opus

Opus 是智能程度最高的模型，支持 200k tokens 上下文窗口，在高度复杂的任务上实现了当前 SOTA（State of the Art）的性能。该模型能够以绝佳的流畅度和人类水平的理解能力来处理开放式 prompt 和未见过的场景。在多项基准测试中，Opus 的得分超过了 GPT-4 和 Gemini 1.0 Ultra，在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。

Claude 3 Sonnet

Sonnet 在智能程度与运行速度之间实现了理想的平衡，尤其是对于企业工作负载而言。与同类模型相比，它以更低的成本提供了强大的性能，并专为大规模 AI 部署中的高耐用性而设计。Sonnet 支持的上下文窗口为 200k tokens。在实际体验中，有研究者表示 Sonnet 解出了一道此前只有 GPT-4 才能解开的谜题。

Claude 3 Haiku

Haiku 是速度最快、最紧凑的模型，具有近乎实时的响应能力。有趣的是，它支持的上下文窗口同样是 200k。该模型能够以无与伦比的速度回答简单的查询和请求，用户通过它可以构建模仿人类交互的无缝 AI 体验。Haiku 可以在不到三秒的时间内读完一篇包含密集图表和图形信息的 arXiv 平台论文（约 10k tokens）。

核心性能表现

推理与知识水平

Anthropic 表示，Claude 3 Opus 拥有人类本科生水平的知识。作为 Claude 3 系列中智能水平最高的模型，Opus 在 AI 系统的大多数评估基准上都优于竞品，包括本科水平专家知识（MMLU）、研究生水平专家推理（GPQA）、基础数学（GSM8K）等基准。并且，Opus 在复杂任务上表现出接近人类水平的理解力和流畅度，引领通用智能的前沿。

此外，包括 Opus 在内，所有 Claude 3 系列模型都在分析和预测、细致内容创建、代码生成以及西班牙语、日语和法语等非英语语言对话方面实现了能力增强。

代码能力

Anthropic 提出新模型的代码能力有大幅提升。有人直接拿基础 ASCII 码丢给 Claude，结果发现它毫无压力。前段时间，刚刚从 OpenAI 离职的 Karpathy 提出过一个「分词器」挑战，具体是将他录制的 2 小时 13 分的教程视频放进 LLM，让其翻译为关于分词器的书籍章节或博客文章的格式。面对这项任务，Claude 3 接住了。Karpathy 给出了比较充分、客观的评价："从风格上看，确实相当不错！如果仔细观察，会发现一些微妙的问题 / 幻觉。不管怎么说，这个几乎现成就能使用的系统还是令人印象深刻的。"

视觉与多模态能力

在新模型发布后，Claude 首次带来了对多模态能力的支持（Opus 版本的 MMMU 得分为 59.4%，超过 GPT-4V，与 Gemini 1.0 Ultra 持平）。用户现在可以上传照片、图表、文档和其他类型的非结构化数据，让 AI 进行分析和解答。

Claude 3 具有与其他头部模型相当的复杂视觉功能。它们可以处理各种视觉格式数据，包括照片、图表、图形和技术图表。Anthropic 表示，它们的一些客户 50% 以上的知识库以各种数据格式进行编程，例如 PDF、流程图或演示幻灯片。因此，新模型强大的视觉能力非常有帮助。

实测显示，当输入一张含有泰迪和炸鸡的图片时，Claude 3 给出了准确的描述，指出图片是一组拼贴画，包含狗和炸鸡块。对于图像中的人数统计，它也给出了正确答案。此外，Claude 3 可以从照片中提取文本，即使是中文、日文的竖行顺序也可以正确识别。

长上下文窗口

这三个模型也延续了 Claude 系列模型的传统强项——长上下文窗口。其初始阶段支持 200K token 上下文窗口，不过，Anthropic 表示，三者都支持 100 万 token 的上下文输入（向特定客户开放），这大约是英文版《白鲸》或《哈利・波特与死亡圣器》的长度。

为了有效地处理长上下文提示，模型需要强大的召回能力。Needle In A Haystack（NIAH）评估衡量模型可以从大量数据中准确回忆信息的能力。Anthropic 通过在每个提示中使用 30 个随机 Needle/question 对在不同的众包文档库上进行测试，增强了该基准的稳健性。Claude 3 Opus 不仅实现了近乎完美的召回率，超过 99% 的准确率。而且在某些情况下，它甚至识别出了评估本身的局限性，意识到「针」句子似乎是人为插入到原始文本中的。

Claude 3 系列模型深度评测：性能是否全面超越 GPT-4？

Claude 3 系列模型深度评测：性能是否全面超越 GPT-4？

引言

模型系列概览

Claude 3 Opus

Claude 3 Sonnet

Claude 3 Haiku

核心性能表现

推理与知识水平

代码能力

视觉与多模态能力

长上下文窗口

定价与可用性

更多推荐文章

相关免费在线工具

安全与合规

技术报告解读

总结与展望

更多推荐文章

相关免费在线工具

Claude 3 系列模型深度评测：性能是否全面超越 GPT-4？

Claude 3 系列模型深度评测：性能是否全面超越 GPT-4？

引言

模型系列概览

Claude 3 Opus

Claude 3 Sonnet

Claude 3 Haiku

核心性能表现

推理与知识水平

代码能力

视觉与多模态能力

长上下文窗口

定价与可用性

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

安全与合规

技术报告解读

总结与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具