Claude 3 系列模型深度评测:性能是否全面超越 GPT-4?
本文详细评测了 Anthropic 发布的 Claude 3 系列模型,包括 Opus、Sonnet 和 Haiku。测试显示 Opus 在多项基准测试中得分超过 GPT-4 和 Gemini 1.0 Ultra,尤其在数学、编程及多语言理解方面表现优异。新模型支持 200K 上下文窗口,并具备强大的视觉分析能力。尽管定价较高,但在智能水平、长文本处理及安全合规性上树立了新的行业标杆,标志着大模型竞争进入新阶段。

本文详细评测了 Anthropic 发布的 Claude 3 系列模型,包括 Opus、Sonnet 和 Haiku。测试显示 Opus 在多项基准测试中得分超过 GPT-4 和 Gemini 1.0 Ultra,尤其在数学、编程及多语言理解方面表现优异。新模型支持 200K 上下文窗口,并具备强大的视觉分析能力。尽管定价较高,但在智能水平、长文本处理及安全合规性上树立了新的行业标杆,标志着大模型竞争进入新阶段。

大模型的纯文本方向,似乎已经卷到了新的高度。昨晚,OpenAI 最大的竞争对手 Anthropic 发布了新一代 AI 大模型系列——Claude 3。该系列的发布引发了全球技术社区的广泛关注,许多开发者开始实测其能力边界。
Claude 3 系列包含三个模型,按能力由弱到强排列分别是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。
Opus 是智能程度最高的模型,支持 200k tokens 上下文窗口,在高度复杂的任务上实现了当前 SOTA(State of the Art)的性能。该模型能够以绝佳的流畅度和人类水平的理解能力来处理开放式 prompt 和未见过的场景。在多项基准测试中,Opus 的得分超过了 GPT-4 和 Gemini 1.0 Ultra,在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。
Sonnet 在智能程度与运行速度之间实现了理想的平衡,尤其是对于企业工作负载而言。与同类模型相比,它以更低的成本提供了强大的性能,并专为大规模 AI 部署中的高耐用性而设计。Sonnet 支持的上下文窗口为 200k tokens。在实际体验中,有研究者表示 Sonnet 解出了一道此前只有 GPT-4 才能解开的谜题。
Haiku 是速度最快、最紧凑的模型,具有近乎实时的响应能力。有趣的是,它支持的上下文窗口同样是 200k。该模型能够以无与伦比的速度回答简单的查询和请求,用户通过它可以构建模仿人类交互的无缝 AI 体验。Haiku 可以在不到三秒的时间内读完一篇包含密集图表和图形信息的 arXiv 平台论文(约 10k tokens)。
Anthropic 表示,Claude 3 Opus 拥有人类本科生水平的知识。作为 Claude 3 系列中智能水平最高的模型,Opus 在 AI 系统的大多数评估基准上都优于竞品,包括本科水平专家知识(MMLU)、研究生水平专家推理(GPQA)、基础数学(GSM8K)等基准。并且,Opus 在复杂任务上表现出接近人类水平的理解力和流畅度,引领通用智能的前沿。
此外,包括 Opus 在内,所有 Claude 3 系列模型都在分析和预测、细致内容创建、代码生成以及西班牙语、日语和法语等非英语语言对话方面实现了能力增强。
Anthropic 提出新模型的代码能力有大幅提升。有人直接拿基础 ASCII 码丢给 Claude,结果发现它毫无压力。前段时间,刚刚从 OpenAI 离职的 Karpathy 提出过一个「分词器」挑战,具体是将他录制的 2 小时 13 分的教程视频放进 LLM,让其翻译为关于分词器的书籍章节或博客文章的格式。面对这项任务,Claude 3 接住了。Karpathy 给出了比较充分、客观的评价:"从风格上看,确实相当不错!如果仔细观察,会发现一些微妙的问题 / 幻觉。不管怎么说,这个几乎现成就能使用的系统还是令人印象深刻的。"
在新模型发布后,Claude 首次带来了对多模态能力的支持(Opus 版本的 MMMU 得分为 59.4%,超过 GPT-4V,与 Gemini 1.0 Ultra 持平)。用户现在可以上传照片、图表、文档和其他类型的非结构化数据,让 AI 进行分析和解答。
Claude 3 具有与其他头部模型相当的复杂视觉功能。它们可以处理各种视觉格式数据,包括照片、图表、图形和技术图表。Anthropic 表示,它们的一些客户 50% 以上的知识库以各种数据格式进行编程,例如 PDF、流程图或演示幻灯片。因此,新模型强大的视觉能力非常有帮助。
实测显示,当输入一张含有泰迪和炸鸡的图片时,Claude 3 给出了准确的描述,指出图片是一组拼贴画,包含狗和炸鸡块。对于图像中的人数统计,它也给出了正确答案。此外,Claude 3 可以从照片中提取文本,即使是中文、日文的竖行顺序也可以正确识别。
这三个模型也延续了 Claude 系列模型的传统强项——长上下文窗口。其初始阶段支持 200K token 上下文窗口,不过,Anthropic 表示,三者都支持 100 万 token 的上下文输入(向特定客户开放),这大约是英文版《白鲸》或《哈利・波特与死亡圣器》的长度。
为了有效地处理长上下文提示,模型需要强大的召回能力。Needle In A Haystack(NIAH)评估衡量模型可以从大量数据中准确回忆信息的能力。Anthropic 通过在每个提示中使用 30 个随机 Needle/question 对在不同的众包文档库上进行测试,增强了该基准的稳健性。Claude 3 Opus 不仅实现了近乎完美的召回率,超过 99% 的准确率。而且在某些情况下,它甚至识别出了评估本身的局限性,意识到「针」句子似乎是人为插入到原始文本中的。
在定价上,能力最强的 Claude 3 也比 GPT-4 Turbo 要贵得多:GPT-4 Turbo 每百万 token 输入 / 输出收费为 10/30 美元;而 Claude 3 Opus 为 15/75 美元。尽管价格较高,但考虑到其在复杂任务上的表现,对于企业级应用来说可能具有更高的性价比。
Opus 和 Sonnet 现可在 claude.ai 和 Claude API 中使用,Haiku 也将于不久后推出。亚马逊云科技也第一时间宣布新模型登陆了 Amazon Bedrock。
以前的 Claude 模型经常做出不必要的拒绝,这表明模型缺乏语境理解。Anthropic 在这一领域取得了有意义的进展:与前几代模型相比,即使用户 prompt 接近系统底线,Opus、Sonnet 和 Haiku 拒绝回答的可能性明显降低。如下所示,Claude 3 模型对请求表现出更细致的理解,能够识别真正的有害 prompt,并且拒绝回答无害 prompt 的频率要少得多。
Anthropic 表示,其已建立专门团队来跟踪和减少安全风险。该公司也在开发 Constitutional AI 等方法来提高模型的安全性和透明度,并减轻新模式可能引发的隐私问题。虽然与之前的模型相比,Claude 3 模型系列在生物知识、网络相关知识和自主性的关键指标方面取得了进步,但根据研究,新模型处于 AI 安全级别 2(ASL-2)以内。
在使用体验上,Claude 3 比以往模型更加擅长遵循复杂的多步骤指令,更加可以遵守品牌和响应准则,从而可以更好地开发可信赖的应用。此外,Anthropic 表示 Claude 3 模型现在更擅长以 JSON 等格式生成流行的结构化输出,从而可以更轻松地指导 Claude 进行自然语言分类和情感分析等用例。
目前,Anthropic 已经放出了 42 页的技术报告《The Claude 3 Model Family: Opus, Sonnet, Haiku》。我们看到了 Claude 3 系列模型的训练数据、评估标准以及更详细的实验结果。
在训练数据方面,Claude 3 系列模型接受了截至 2023 年 8 月互联网公开可用的专用混合数据的训练,以及来自第三方的非公开数据、数据标签服务商和付费承包商提供的数据、Claude 内部的数据。
针对这份技术报告,爱丁堡大学博士生符尧在第一时间给出了自己的分析。他认为,被评估的几个模型在 MMLU / GSM8K / HumanEval 等几项指标上基本没有区分度,真正需要关心的是为什么最好的模型在 GSM8K 上依然有 5% 的错误。真正能够把模型区分开的是 MATH 和 GPQA,这些超级棘手的问题是 AI 模型下一步应该瞄准的目标。与 Claude 之前的模型相比,改进比较大的领域是金融和医学。
从目前的评测基准和体验看来,Claude 3 在智能水平、多模态能力和速度上都取得了长足的进步。随着新系列模型的进一步优化和应用,我们或许将看到更加多元化的大模型生态。对于开发者而言,掌握大模型技术意味着更多的可能性,包括全栈工程、模型微调、垂直领域应用开发等。尽管学习曲线存在,但系统的学习和实践将帮助从业者在这个高需求、高待遇的热门领域占据优势。
未来,随着更多企业接入此类 API 服务,大模型将在数据分析、决策辅助、自动化流程等方面发挥更大作用。建议开发者关注官方文档,尝试不同层级的模型以适应不同的业务场景,同时注意成本控制与安全合规。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online