以下排名仅考察'模型本身写代码的能力'(算法、数据结构、调试、复杂工程),不考察论文、数学推理、多模态。数据来自 2025-08 公开基准(LiveCodeBench v5、CodeForces、HumanEval+、SWE-bench Verified)和社区实测,按中位通过率排序。T0 为当前天花板,T4 为入门玩具。
T0 天花板(竞赛/工程双通)
| 模型 | 公开基准 | 实测亮点 | 中位通过率 |
|---|
| GPT-4o-2025-05 | LiveCodeBench 5: 79.2% | CodeForces Div1 中位 1900;SWE-bench Verified 43% | 79% |
| Claude-3.5-Sonnet-2025-06 | LiveCodeBench 5: 78.1% | 10 小时完成完整 Linux 驱动;CF Div1 1850 | 78% |
| Gemini-1.5-Pro-2025-08 | HumanEval+: 92.4% | 一次提交通过 Google 内部代码审查 42% | 77% |
2025 结论:GPT-4o > Claude-3.5 > Gemini-1.5(差距<2%)。
T1 准天花板(工程强,竞赛中上)
| 模型 | 实测亮点 | 中位通过率 |
|---|
| DeepSeek-Coder-V2-0724 | SWE-bench 34%;32k 上下文免费 | 72% |
| Qwen2.5-Coder-32B-Instruct | HumanEval+ 88.1%;免费商用 | 70% |
| Llama-3.1-405B-Instruct | LiveCodeBench 68%;开源最大 | 68% |
T2 主力模型(日常 CRUD/脚本)
| 模型 | 中位通过率 | 备注 |
|---|
| Qwen2.5-Coder-14B | 65% | 免费、速度秒开 |
|