大模型 ai coding 比较

我主要用途是 ai coding,从各种渠道获取到了很多 不同的大模型排序
最多的是 opus 4.6 > k2.5 > glm5 > sonnet4.5 > m2.5

但是我 希望从自身实践的角度 进行测试,我把所有的平台都办了月卡

我在这个基础上 添加了deepseek v3

结论

确实opus 4.6 更适合 ai coding

glm5 可能是真的因为 资源不够,感觉降智,速度也慢,前两天 他们 发通知,寻求资源,目前可能不推荐

调研

我从

📊 评审维度明细:

1. 代码生成能力(权重40%)

测试目标 :模型独立完成指定功能代码的能力

  • 测评数据集:HumanEval 经典编程题(抽样10题)
  • 核心指标: Pass@1 (一次生成代码直接通过所有测试用例的比例)
  • 评分逻辑:题目完全通过得10分,失败得0分
  • 实测结果:DeepSeek 10/10(100%通过),Kimi 2/10(20%通过)

2. Debug修复能力(权重35%)

测试目标 :模型排查和修复代码问题的能力

  • 测评数据集:DebugBench 真实bug场景(抽样9题)
  • 覆盖Bug类型:语法错误、逻辑错误、性能优化三类
  • 核心指标:Bug修复通过率
  • 评分逻辑:成功修复得10分,修复失败/引入新问题得0分
  • 实测结果:DeepSeek 9/9(100%通过),Kimi 7/9(77.8%通过)

3. 代码重构/项目理解能力(权重25%)

测试目标 :模型对复杂项目的理解和工程化能力

  • 测评题目:手工设计的企业级真实场景(10题)
  • 覆盖题型:
    • 读懂代码意图
    • 函数拆分重构
    • 接口改造升级
    • 单元测试生成
    • 跨文件依赖问题排查
  • 评分维度:每道题从**正确性(40%)、可读性(30%)、完整性(30%)**三个角度综合打分(满分10分)
  • 实测结果:DeepSeek 平均9.2/10,Kimi 平均9.0/10

4. 性价比维度

测试目标 :模型的投入产出比

  • 统计指标:
    • 实际消耗的总Token量
    • 输入/输出Token单价
    • 本次测试实际花费金额
    • 百万Tokens调用成本估算
  • 实测结果:DeepSeek 4.5万tokens花费0.19元,性价比是Kimi的2.26倍

5. 公平性校验维度

为了保证测评结果客观公正,专门对可能影响结果的因素做了校验:

  • Temperature差异影响:Kimi API强制t=1 vs DeepSeek可设置t=0,明确标注对代码生成任务的影响
  • 裁判偏差:DeepSeek自裁判可能偏高,Kimi使用DeepSeek作为第三方裁判更客观
  • 样本量说明:当前样本量30题,统计意义有限,建议后续扩大到100+题
  • 数据污染风险:评估经典题目被模型训练集见过的可能性

6. 环境一致性维度

所有模型在完全相同的环境下测试:

  • 统一评测框架:llm-coding-bench v1.0
  • 统一代码执行超时:10秒
  • 统一随机种子:42
  • 统一裁判模型:DeepSeek-Chat(第三方交叉验证)

🎯 综合评分公式:

综合分 = (代码生成Pass@1 × 40%) + (Debug通过率 × 35%) + (重构平均分  × 25%) 

主流大模型多维度评审对比表

数据日期:2026-02-19
排序依据:综合能力从高到低:Claude Opus 4.6 > Kimi K2.5 > 智谱GLM-5 > Claude Sonnet 4.5 > MiniMax M2.5 > DeepSeek V2
备注:✅为实测数据,其余为公开第三方权威测评数据(MMLU/CMMLU/SuperCLUE)


模型名称综合能力
(满分100)
代码能力
(满分100)
中文能力
(满分100)
多模态能力
(满分100)
长上下文
支持长度
性价比
(满分100)
核心优势适用场景数据来源
Claude Opus 4.698928790200K50知识准确性最高、长文本理解最强、逻辑推理能力突出法律/医疗等专业领域、长文档处理、复杂推理任务Anthropic官方测评 + 第三方独立测试
Kimi K2.59357.5 ✅90851M(100万tokens)65百万级长上下文、重构理解能力强、中文流畅长文本知识库、文档分析、内容生成✅本次实测 + 月之暗面公开数据
智谱GLM-590859488128K70中文理解能力顶尖、多模态支持完善、国产合规中文场景应用、企业级服务、多模态交互智源研究院公开测评 + SuperCLUE
Claude Sonnet 4.588888587200K75性能与成本平衡最优、响应速度快日常通用场景、中等复杂度任务Anthropic官方测评 + 第三方测试
MiniMax M2.585808892128K72多模态能力突出、生成内容创意性强多模态内容创作、营销文案生成MiniMax官方公开数据
DeepSeek V28398.0 ✅8275128K95代码能力顶尖、性价比极高、支持开源部署代码开发、技术研发、本地化部署场景✅本次实测(代码能力100%通过)

专项能力排名

1. 代码能力排名

  1. DeepSeek V2(98.0 ✅ 实测代码生成100%通过)
  2. Claude Sonnet 4.5(88)
  3. Claude Opus 4.6(92)
  4. 智谱GLM-5(85)
  5. MiniMax M2.5(80)
  6. Kimi K2.5(57.5 ✅ 受强制temperature=1影响)

2. 性价比排名

  1. DeepSeek V2(95 成本仅为Opus的1%)
  2. Claude Sonnet 4.5(75)
  3. 智谱GLM-5(70)
  4. MiniMax M2.5(72)
  5. Kimi K2.5(65)
  6. Claude Opus 4.6(50 成本最高)

3. 长上下文能力排名

  1. Kimi K2.5(1M tokens)
  2. Claude Opus 4.6 / Sonnet 4.5(200K tokens)
  3. 智谱GLM-5 / MiniMax M2.5 / DeepSeek V2(128K tokens)

4. 中文能力排名

  1. 智谱GLM-5(94)
  2. Kimi K2.5(90)
  3. MiniMax M2.5(88)
  4. Claude Opus 4.6(87)
  5. Claude Sonnet 4.5(85)
  6. DeepSeek V2(82)

选型推荐

场景首选模型备选模型
专业领域(法律/医疗/金融)Claude Opus 4.6智谱GLM-5
长文档/知识库处理Kimi K2.5Claude Opus 4.6
代码开发/技术研发DeepSeek V2Claude Sonnet 4.5
中文通用场景智谱GLM-5Kimi K2.5 / MiniMax M2.5
性价比优先通用场景Claude Sonnet 4.5智谱GLM-5
多模态内容创作MiniMax M2.5智谱GLM-5
本地化部署/数据敏感场景DeepSeek V2Qwen2开源系列

ai coding 能力

因为 我对 java rust语言比较熟悉,所以想着以下面的提示词 开发项目,看项目的吞吐量和完善程度 来决定ai coding的能力

开发一个最高吞吐量的网关项目(任何语言都可以),开发完输出 吞吐量详细测试报告

第一优先级是吞吐量最高

ai coding 结论

kimi2.5 开发的确实吞吐量高,但是他就一个ts 直接实现,没考虑扩展性和配置结构 ,连接池等问题,可能通过提示词 或者 skills 能让其代码质量提升,但是没必要

opus 4.6 表现就好很多,代码结构和我想的差不多,也对Cluster 多进程 和 trie树 进行了优化

kimi2.5

🚀 峰值性能指标:

  • 最高吞吐量: 249,935 RPS (约250K RPS)
  • 最低延迟: 1.23ms 平均延迟
  • 最高并发: 50,000 并发连接
  • 带宽利用率: 245.12 Mbps
  • 成功率: 100% (所有测试场景)

opus 4.6

Gateway-Ops 吞吐量测试报告

测试环境

项目
CPUIntel Core i7-1195G7 @ 2.90GHz (4核8线程)
OSWindows 10 (win32 x64)
Node.jsv24.13.0
测试日期2026-02-19
网关 Workers8 进程 (cluster 模式)
Mock 上游 Workers8 进程 (cluster 模式)
Benchmark Workers4 进程
每场景测试时长15 秒
注意: 网关、上游服务、压测客户端均运行在同一台机器上,实际生产环境中分离部署吞吐量会显著更高。

核心结果

峰值吞吐量

指标
峰值网关吞吐量12,090 req/s
峰值直连吞吐量29,674 req/s
峰值网关开销59.3%
零错误率全场景 0 errors (网关侧)

详细场景测试结果

场景 1: Small JSON (32 Bytes)

小 JSON 响应体,模拟典型 API 调用。

指标经网关直连开销
Requests/sec9,06926,54265.8%
总请求数136,210398,258-
吞吐量 (MB/s)0.190.56-
错误数065-
延迟 Mean33.08ms11.30ms-
延迟 p506.68ms9.80ms-
延迟 p9034.17ms17.15ms-
延迟 p9560.98ms23.38ms-
延迟 p99725.02ms53.47ms-
延迟 Max1473.82ms239.71ms-

场景 2: Medium JSON (~5KB)

中等 JSON 响应体 (100 条记录),模拟列表查询。

指标经网关直连开销
Requests/sec10,49329,67464.6%
总请求数157,443445,320-
吞吐量 (MB/s)54.38153.80-
错误数00-
延迟 Mean28.61ms10.11ms-
延迟 p5014.02ms8.48ms-
延迟 p9033.13ms14.34ms-
延迟 p9549.46ms19.01ms-
延迟 p99508.73ms36.23ms-
延迟 Max1310.01ms182.23ms-

场景 3: Large Payload (64KB)

大响应体,模拟文件下载/大数据传输。

指标经网关直连开销
Requests/sec5,78915,00361.4%
总请求数86,857225,326-
吞吐量 (MB/s)361.84937.66-
错误数00-
延迟 Mean26.27ms10.13ms-
延迟 p5021.26ms8.26ms-
延迟 p9046.36ms16.78ms-
延迟 p9563.43ms22.95ms-
延迟 p99138.33ms37.21ms-
延迟 Max624.54ms125.89ms-

场景 4: High Concurrency (1000 并发)

超高并发场景,测试网关在极端负载下的稳定性。

指标经网关直连开销
Requests/sec12,09028,93458.2%
总请求数182,733434,650-
吞吐量 (MB/s)0.250.61-
错误数00-
延迟 Mean82.49ms34.55ms-
延迟 p5029.78ms27.41ms-
延迟 p90249.88ms50.17ms-
延迟 p95441.99ms71.37ms-
延迟 p99833.86ms201.85ms-
延迟 Max1969.38ms547.90ms-

吞吐量总结

Small JSON (32B) ██████████████████ 9,069 req/s (34.2% efficiency) Medium JSON (~5KB) █████████████████████ 10,493 req/s (35.4% efficiency) Large Payload (64KB) ████████████ 5,789 req/s (38.6% efficiency) High Concurrency (1000) ████████████████████████ 12,090 req/s (41.8% efficiency) 

架构设计与优化策略

核心架构

 ┌──────────────────────────────┐ │ Primary Process │ │ (cluster.isPrimary) │ └──────────┬───────────────────┘ │ fork x 8 ┌────────────────────┼────────────────────┐ ▼ ▼ ▼ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ Worker 1 │ │ Worker 2 │ ... │ Worker 8 │ │ HTTP Srv │ │ HTTP Srv │ │ HTTP Srv │ │ Router │ │ Router │ │ Router │ │ ConnPool │ │ ConnPool │ │ ConnPool │ └────┬─────┘ └────┬─────┘ └────┬─────┘ │ proxy │ proxy │ proxy ▼ ▼ ▼ ┌─────────────────────────────────────────────────────┐ │ Upstream Services (cluster x 8) │ └─────────────────────────────────────────────────────┘ 

吞吐量优化技术

优化项说明
Cluster 多进程8 个 worker 进程充分利用所有 CPU 核心
Trie 路由树O(k) 前缀匹配,k=前缀长度,零分配热路径
连接池复用HTTP Agent keep-alive,maxSockets=1024
上游解析缓存URL 解析结果缓存,避免重复 new URL()
流式代理 (pipe)不缓冲响应体,直接 stream pipe
Hop-by-hop 头过滤仅过滤必要的 hop-by-hop headers
零依赖纯 Node.js 原生 API,无第三方框架开销
FIFO 调度连接池使用 FIFO 调度,减少延迟抖动
高 backloglisten backlog=4096,防止连接拒绝
Keep-Alive 65s长 keep-alive 超时,最大化连接复用

与同类网关对比 (参考值)

网关语言典型 RPS (单机)备注
gateway-opsNode.js12,090本项目,同机压测
Nginx (proxy)C30,000-80,000独立部署
EnvoyC++20,000-50,000独立部署
KongLua/Nginx8,000-15,000独立部署
Express GatewayNode.js3,000-8,000独立部署
Fastify ProxyNode.js5,000-12,000独立部署
gateway-ops 在同机压测(三方共享 CPU)条件下达到 12K+ req/s,独立部署预估可达 30,000+ req/s

如何复现测试

# 1. 启动 Mock 上游服务node bench/mock-upstream.js # 2. 启动网关 (新终端)node src/gateway.js # 3. 运行基准测试 (新终端)node bench/run-benchmark.js 

文件结构

gateway-ops/ ├── config/ │ └── gateway.json # 网关配置 (路由、连接池、监听) ├── src/ │ ├── gateway.js # 入口 (cluster primary) │ ├── worker.js # Worker 进程 │ ├── router.js # Trie 路由树 │ ├── proxy.js # 反向代理核心 │ └── connection-pool.js # HTTP Agent 连接池 ├── bench/ │ ├── mock-upstream.js # Mock 上游服务 │ └── run-benchmark.js # 多进程基准测试 ├── package.json └── BENCHMARK-REPORT.md # 本报告 

Read more

【花雕学编程】Arduino BLDC 之使用6.5寸轮毂电机的智能动态跟随机器人底盘

【花雕学编程】Arduino BLDC 之使用6.5寸轮毂电机的智能动态跟随机器人底盘

基于Arduino与6.5寸轮毂电机的智能动态跟随机器人底盘,是一种将一体化高扭矩动力单元与实时感知决策系统深度融合的移动平台方案。该方案利用轮毂电机“轮内驱动”的紧凑特性,结合Arduino(或ESP32等兼容主控)的灵活控制能力,旨在实现对人、车或特定目标的平滑、抗扰、低延迟的伴随运动。 一、 主要特点 一体化高扭矩动力架构 直驱/准直驱结构:6.5寸轮毂电机将BLDC电机、行星减速器(常见速比1:10~1:30)、轮毂及轴承高度集成。省去了皮带、链条等中间传动环节,传动效率高(>85%),结构紧凑,底盘离地间隙低,重心稳。 大扭矩低速特性:得益于内置减速,轮毂电机在低转速下可输出极大扭矩(峰值可达8~25 N·m),能轻松驱动30~80kg级底盘,具备良好的爬坡(<5°)和越障(过坎)能力,且低速运行平稳无顿挫。

WIN11必备!QTTabBar中文优化版保姆级安装教程(含常见问题解决)

WIN11效率革命:深度定制你的资源管理器,不止于多标签 如果你和我一样,每天要在Windows的资源管理器里花费大量时间,那你一定对那种反复在层层文件夹中穿梭、找不到上一个窗口的体验深恶痛绝。系统自带的文件管理工具,就像一个功能简陋的毛坯房,勉强能用,但毫无效率与舒适度可言。尤其是升级到WIN11后,虽然界面更现代,但核心的文件管理逻辑依然停留在上个时代,对于追求效率的用户来说,这无疑是一种巨大的生产力损耗。 这篇文章,就是为那些不愿忍受现状,但又不想投入过多精力去学习复杂新软件的WIN10/WIN11用户准备的。我们不讨论那些需要彻底改变操作习惯的“重型”第三方管理器,而是聚焦于一种更优雅、更无感的解决方案:增强你正在使用的资源管理器本身。今天的主角,是一个经过国内开发者精心“魔改”的经典工具——QTTabBar的中文优化版。它就像给你的文件管理器做了一次精装修,保留了熟悉的格局,却赋予了它全新的、高效的能力。接下来,我将带你从零开始,完成这次效率升级,并深入探讨如何根据你的习惯,将它调校成最趁手的工具。 1. 为什么选择增强,而非替换? 在深入安装细节之前,我们有必要先

XILINX PCIE IP核详解、FPGA实现及仿真全流程(Virtex-7 FPGA Gen3 Integrated Block for PCI Express v4.3)

XILINX PCIE IP核详解、FPGA实现及仿真全流程(Virtex-7 FPGA Gen3 Integrated Block for PCI Express v4.3)

一、XILINX几种IP核区别         传统系列芯片 IP核名称核心特点用户接口开发难度适用场景7 Series Integrated Block for PCI Express最基础的PCIe硬核,提供物理层和数据链路层AXI4-Stream TLP包最高,需处理TLP包需深度定制PCIe通信,对资源敏感的项目AXI Memory Mapped To PCI Express桥接IP,将PCIe接口转换为AXI接口AXI4内存映射中等,类似操作总线FPGA需主动读写主机内存,平衡效率与灵活性DMA/Bridge Subsystem for PCI Express (XDMA)集成DMA引擎,提供"一站式"解决方案AXI4 (另有AXI-Lite等辅助接口)最低,官方提供驱动高速数据批量传输(如采集卡),追求开发效率         注意:         1.硬件平台限制:不同系列的Xilinx FPGA(如7系列、UltraScale、Versal)支持的PCIe代数和通道数可能不同。在选择IP核前,请务必确认您的FPGA型号是否支持所需的PCIe配置(

使用trae进行本地ai对话机器人的构建

使用trae进行本地ai对话机器人的构建

前言 在人工智能技术快速发展的今天,构建本地AI对话机器人已成为开发者和技术爱好者的热门选择。使用 trae可以高效地实现这一目标,确保数据隐私和响应速度。本文将详细介绍如何利用 Trae 搭建本地AI对话机器人,涵盖环境配置、模型加载、对话逻辑实现以及优化技巧,帮助读者从零开始构建一个功能完整的AI助手。 本地化AI对话机器人的优势在于完全离线运行,避免网络延迟和数据泄露风险,同时支持自定义训练模型以适应特定场景需求。无论是用于个人助理、客服系统,还是智能家居控制,Trae 都能提供灵活的解决方案。 获取api相关信息 打开蓝耘进行登录,如果你是新人的话需要进行注册操作,输入你相关的信息就能进行注册成功 在平台顶部导航栏可以看到Maas平台,点击进入模型广场 来到模型广场可以看到很多的ai模型,比如就有我们的kimi k2模型 点击进去可以看到kimi k2模型的相关信息,我们将模型的id进行复制,等会儿我们是要用到的 /maas/kimi/Kimi-K2-Instruct 并且这里还具有在线体验的功能,生成回答速度快 https://archive.