引言
本文主要用途是 AI Coding,从各种渠道获取到了很多不同的大模型排序。最多的是 Opus 4.6 > K2.5 > GLM-5 > Sonnet 4.5 > M2.5。
但我希望从自身实践的角度进行测试,我把所有的平台都办了月卡,在此基础上添加了 DeepSeek V2。
结论
确实 Claude Opus 4.6 更适合 AI Coding
智谱 GLM-5 可能是真的因为资源不够,感觉降智,速度也慢,前两天他们发通知寻求资源,目前可能不推荐
调研
我从多个维度进行了评审:
📊 评审维度明细
1. 代码生成能力(权重 40%)
测试目标:模型独立完成指定功能代码的能力
- 测评数据集:HumanEval 经典编程题(抽样 10 题)
- 核心指标:Pass@1(一次生成代码直接通过所有测试用例的比例)
- 评分逻辑:题目完全通过得 10 分,失败得 0 分
- 实测结果:DeepSeek 10/10(100% 通过),Kimi 2/10(20% 通过)
2. Debug 修复能力(权重 35%)
测试目标:模型排查和修复代码问题的能力
- 测评数据集:DebugBench 真实 bug 场景(抽样 9 题)
- 覆盖 Bug 类型:语法错误、逻辑错误、性能优化三类
- 核心指标:Bug 修复通过率
- 评分逻辑:成功修复得 10 分,修复失败/引入新问题得 0 分
- 实测结果:DeepSeek 9/9(100% 通过),Kimi 7/9(77.8% 通过)
3. 代码重构/项目理解能力(权重 25%)
测试目标:模型对复杂项目的理解和工程化能力
- 测评题目:手工设计的企业级真实场景(10 题)
- 覆盖题型:
- 读懂代码意图
- 函数拆分重构
- 接口改造升级
- 单元测试生成
- 跨文件依赖问题排查
- 评分维度:每道题从**正确性 (40%)、可读性 (30%)、完整性 (30%)**三个角度综合打分(满分 10 分)
- 实测结果:DeepSeek 平均 9.2/10,Kimi 平均 9.0/10
4. 性价比维度
测试目标:模型的投入产出比
- 统计指标:
- 实际消耗的总 Token 量
- 输入/输出 Token 单价
- 本次测试实际花费金额
- 百万 Tokens 调用成本估算
- 实测结果:DeepSeek 4.5 万 tokens 花费 0.19 元,性价比是 Kimi 的 2.26 倍
5. 公平性校验维度
为了保证测评结果客观公正,专门对可能影响结果的因素做了校验:
- Temperature 差异影响:Kimi API 强制 t=1 vs DeepSeek 可设置 t=0,明确标注对代码生成任务的影响
- 裁判偏差:DeepSeek 自裁判可能偏高,Kimi 使用 DeepSeek 作为第三方裁判更客观
- 样本量说明:当前样本量 30 题,统计意义有限,建议后续扩大到 100+ 题
- 数据污染风险:评估经典题目被模型训练集见过的可能性
6. 环境一致性维度
所有模型在完全相同的环境下测试:
- 统一评测框架:llm-coding-bench v1.0
- 统一代码执行超时:10 秒
- 统一随机种子:42
- 统一裁判模型:DeepSeek-Chat(第三方交叉验证)
🎯 综合评分公式:
综合分 = (代码生成 Pass@ × ) + (Debug 通过率 × ) + (重构平均分 × )

