12个国产大模型大战高考数学,意外炸出个大bug

12个国产大模型大战高考数学,意外炸出个大bug

12个国产大模型大战高考数学,意外炸出个大bug

原创 关注前沿科技  2024年06月08日 13:27 北京

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

继国产大模型之后,是时候再战一下高考数学了。

数学高考Ⅰ卷的题目,目前已经陆陆续续在网上有所公布(图片格式)。

www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug

那么现在,是时候考验国产大模型们的数学能力了。

有请“选手们”登场——

Kimi通义千问文心一言豆包智谱清言百小应讯飞星火商量腾讯元宝天工海螺AI万知

www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug

国产大模型 vs 高考数学选择题

根据数学题目类型的不同,我们先来小试牛刀一下选择题

测评的方式是将题目(图片格式)“喂”给国产大模型们,要求它们给出相应题目的答案:

查看题目,给出第1题到第8题的答案。

接下来,我们就来一同看下国产大模型们的表现。

Kimi
www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug
通义千问
www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug
豆包
www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug
智谱清言
www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug
百小应
www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug
讯飞星火
www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug
商量
www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug
腾讯元宝
www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug
海螺AI
www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug
万知
www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug

不难看出,很多国产大模型还未做数学题,先败在了AI识图这个步骤,无法生成答案。

(PS:有几位选手测试时因为无法识别,未能完成答题,因此没有放出结果。)

那么我们最后来看下“踢馆选手”——GPT-4o

www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug

国产大模型 vs 数学大题

鉴于一些国产大模型AI识图有点困难,我们这次直接先把这次高考的大题题目文字给copy出来,再让它们作答:

设n为正整数,数列 ( a1, a_2, \cdots, a{4m+2} ) 是公差不为0的等差数列。若从中抽去项 ( ai ) 和 ( a_j ) (i < j) 后剩余的 ( 4m ) 项可被平均分为 m 组,且每组的 4 个数都能构成等差数列,则称数列 ( a_1, a_2, \cdots, a{4m+2} ) 是 (i, j) - 可分数列。
(1) 写出所有的 (i, j) (1 ≤ i < j ≤ 6),使得数列 ( a_1, a_2, a_3, a_4, a_5, a_6 ) 是 (i, j) - 可分数列;
(2) 当 ( m = 3 ) 时,证明:数列 ( a1, a_2, \cdots, a{13} ) 是 (2, 13) - 可分数列;
(3) 设 ( a1, a_2, \cdots, a{4m+2} ) 是 (i, j) - 可分数列。记数列 ( a1, a_2, \cdots, a{4m+2} ) 中任取两个数和 i (i < j),则数列是 (i, j) - 可分数列的概率为 ( p_n ),证明:( p_n \geq \frac{1}{8} )。
www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug

接下来,我们再来看下国产大模型们的表现。

Kimi
www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug
通义千问
www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug
文心一言
www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug
豆包
www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug
智谱清言
www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug
百小应
www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug
讯飞星火
www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug
商量
www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug
腾讯元宝
www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug
天工
www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug
海螺AI
www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug
万知
www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug

最后,还是有请“踢馆选手”——GPT-4o

www.zeeklog.com  - 12个国产大模型大战高考数学,意外炸出个大bug

那么,你觉得国产大模型们,识图+解数学题,哪家比较好一点呢?

你pick哪个国产大模型? 单选

Kimi

通义千问

文心一言

豆包

智谱清言

百小应

讯飞星火

商量

腾讯元宝

天工

海螺AI

万知

投票

最后,关于AI智能助手,这里也有一份最新用户数据分析报告供你参考:

Read more

决策树算法介绍:原理与案例实现

决策树算法介绍:原理与案例实现

决策树算法介绍:原理与案例实现 决策树算法介绍:原理与案例实现 一、决策树算法概述 决策树是一种基本的分类与回归方法,它基于树形结构进行决策。决策树的每一个节点都表示一个对象属性的测试,每个分支代表该属性测试的一个输出,每个叶节点则代表一个类别或值。决策树学习通常包括三个步骤:特征选择、决策树的生成和决策树的剪枝。 二、决策树算法原理 1. 特征选择 特征选择是决策树学习的核心。它决定了在树的每个节点上选择哪个属性进行测试。常用的特征选择准则有信息增益、增益比和基尼不纯度。 * 信息增益:表示划分数据集前后信息的不确定性减少的程度。选择信息增益最大的属性作为当前节点的测试属性。 * 增益比:在信息增益的基础上考虑了属性的取值数量,避免了对取值数量较多的属性的偏好。 * 基尼不纯度:在CART(分类与回归树)算法中,使用基尼不纯度作为特征选择的准则。基尼不纯度越小,表示纯度越高。 2. 决策树的生成 根据选择的特征选择准则,从根节点开始,递归地为每个节点选择最优的划分属性,并根据该属性的不同取值建立子节点。直到满足停止条件(如所有样本属于同一类,

By Ne0inhk
他给女朋友做了个树莓派复古相机,算法代码可自己编写,成本不到700元

他给女朋友做了个树莓派复古相机,算法代码可自己编写,成本不到700元

手机拍照不够爽,带个单反又太重? 试试做个树莓派复古相机,还能自己编写处理算法的那种—— 成本不到700元。 没错,颜值很高,拍出来的照片也能打: 你也可以快速上手做一个。 如何制作一个树莓派复古相机 目前,这部相机的代码、硬件清单、STL文件(用于3D打印)和电路图都已经开源。 首先是硬件部分。 这部复古相机的硬件清单如下: 树莓派Zero W(搭配microSD卡)、树莓派高清镜头模组、16mm 1000万像素长焦镜头、2.2英寸TFT显示屏、TP4056微型USB电池充电器、MT3608、2000mAh锂电池、电源开关、快门键、杜邦线、3D打印相机外壳、黑色皮革贴片(选用) 至于3D打印的相机外壳,作者已经开源了所需的STL文件,可以直接上手打印。 材料齐全后,就可以迅速上手制作了~ 内部的电路图,是这个样子的: 具体引脚如下: 搭建好后,整体电路长这样: 再加上3D外壳(喷了银色的漆)和镜头,一部简易的树莓派复古相机就做好了。 至于软件部分,

By Ne0inhk
🚀Zeek.ai一款基于 Electron 和 Vite 打造的跨平台(支持 Windows、macOS 和 Linux) AI 浏览器

🚀Zeek.ai一款基于 Electron 和 Vite 打造的跨平台(支持 Windows、macOS 和 Linux) AI 浏览器

是一款基于 Electron 和 Vite 打造的跨平台(支持 Windows、macOS 和 Linux) AI 浏览器。 集成了 SearXNG AI 搜索、开发工具集合、 市面上最流行的 AI 工具门户,以及代码编写和桌面快捷工具等功能, 通过模块化的 Monorepo 架构,提供轻量级、可扩展且高效的桌面体验, 助力 AI 驱动的日常工作流程。

By Ne0inhk
LibreChat 集成 Stripe 支付的奶妈级教程

LibreChat 集成 Stripe 支付的奶妈级教程

我们假设你已经熟悉基本的 React 和 Node.js 开发,并且正在使用 LibreChat 的默认技术栈(React 前端、Node.js 后端、Vite 构建工具,可能还有 Electron 桌面应用)。教程会特别考虑 Electron 环境下的适配问题(例如 macOS 中文路径或路由错误)。“奶妈级”带你从零开始实现支付功能(包括一次性支付和添加高级会员订阅) 教程目标 * 在 LibreChat 中添加支付页面,支持用户通过信用卡付款。 * 实现 Stripe 的一次性支付功能。 * (可选)扩展到订阅功能,管理高级会员状态。 * 解决 Electron 环境下的常见问题(如路由和路径解析)。 * 生成可公开推送的 Markdown 教程,方便社区参考。 前提条件 在开始之前,请确保你已准备好以下内容:

By Ne0inhk