2025 年世界主流大模型编程能力排行

2025 年主流大模型编程能力基于 LiveCodeBench、CodeForces 等基准测试数据，按中位通过率分为 T0 至 T4 五个等级。GPT-4o、Claude-3.5-Sonnet 和 Gemini-1.5-Pro 位居 T0 天花板，具备竞赛与工程双通能力。DeepSeek-Coder-V2 和 Qwen2.5-Coder-32B 属于 T1 准天花板，工程能力强且部分免费商用。Qwen2.5-Coder-14B 及 GPT-3.5 为 T2 主力模型适合日常开发。7B 及以下参数模型如 Qwen2.5-Coder-7B 适用于边缘设备，而 1-2B 小模型仅适合教学演示。

安卓系统发布于 2026/2/8更新于 2026/5/2333 浏览

以下排名仅考察'模型本身写代码的能力'（算法、数据结构、调试、复杂工程），不考察论文、数学推理、多模态。数据来自 2025-08 公开基准（LiveCodeBench v5、CodeForces、HumanEval+、SWE-bench Verified）和社区实测，按中位通过率排序。T0 为当前天花板，T4 为入门玩具。

T0 天花板（竞赛/工程双通）

模型	公开基准	实测亮点	中位通过率
GPT-4o-2025-05	LiveCodeBench 5: 79.2%	CodeForces Div1 中位 1900；SWE-bench Verified 43%	79%
Claude-3.5-Sonnet-2025-06	LiveCodeBench 5: 78.1%	10 小时完成完整 Linux 驱动；CF Div1 1850	78%
Gemini-1.5-Pro-2025-08	HumanEval+: 92.4%	一次提交通过 Google 内部代码审查 42%	77%

2025 结论：GPT-4o > Claude-3.5 > Gemini-1.5（差距<2%）。

T1 准天花板（工程强，竞赛中上）

模型	实测亮点	中位通过率
DeepSeek-Coder-V2-0724	SWE-bench 34%；32k 上下文免费	72%
Qwen2.5-Coder-32B-Instruct	HumanEval+ 88.1%；免费商用	70%
Llama-3.1-405B-Instruct	LiveCodeBench 68%；开源最大	68%

T2 主力模型（日常 CRUD/脚本）

模型	中位通过率	备注
Qwen2.5-Coder-14B	65%	免费、速度秒开

模型	中位通过率	备注
Qwen2.5-Coder-7B	55%	树莓派 5 可跑
DeepSeek-Coder-6.7B	52%	ARM 终端流畅

模型	中位通过率	备注
Qwen2.5-Coder-1.5B	42%	手机 NPU 可跑
CodeLlama-7B	38%	入门玩具

2025 年世界主流大模型编程能力排行

T0 天花板（竞赛/工程双通）

T1 准天花板（工程强，竞赛中上）

T2 主力模型（日常 CRUD/脚本）

更多推荐文章

相关免费在线工具

T3 轻量级（边缘/嵌入式）

T4 玩具级（教学/演示）

一句话记忆（2025-08 有效）

更多推荐文章

相关免费在线工具

2025 年世界主流大模型编程能力排行

T0 天花板（竞赛/工程双通）

T1 准天花板（工程强，竞赛中上）

T2 主力模型（日常 CRUD/脚本）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

T3 轻量级（边缘/嵌入式）

T4 玩具级（教学/演示）

一句话记忆（2025-08 有效）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具