文心一言和通义千问大模型

序号

考察能力

题目

回复

评价

1

逻辑推理

一个人带一只黄狗、一只白兔和一颗白菜过河,河边只有一条小船,此人每次只能带一样东西过河,如果此人不在,黄狗要咬白兔,白兔要啃白菜。请想一想:既不让黄狗咬白兔,又不让白兔啃白菜,该怎么设计过河方案

  1. 文心一言大模型:
  2. 第一步:人带着白兔过河,然后人独自返回。此时河对岸只有白兔,这边剩下黄狗和白菜,两者不会互相影响。第二步:人带着黄狗过河,到达对岸后,带着白兔返回。若不带走白兔,黄狗会咬白兔,所以必须将白兔带回来;此时河对岸只有黄狗,这边有白兔和白菜。第三步:人带着白菜过河,然后人独自返回。此时河对岸是黄狗和白菜,两者不会互相影响,这边只剩下白兔。第四步:人带着白兔过河。
  3. 通义千问大模型:
  4. ・带兔过河(左→右)。・人回(右→左)。・带狗过河(左→右)。・带兔回(右→左)。・带菜过河(左→右)。・人回(右→左)。・带兔过河(左→右)。

你认为使用的大语言模型的本项能力是:优秀、良好、合格、不合格

xxx1大模型:优秀

xxx2大模型:优秀

2

总结归纳

我家的猫叫花咪咪,我家的狗叫黄旺旺,请问我家的羊叫什么

xxx1大模型:题目中没有给出羊的名字相关信息,无法直接确定你家羊的名字哦。猫叫花咪咪、狗叫黄旺旺,名字都带有叠字和动物相关的特征,但这只是规律推测,不能作为羊的名字的依据。

xxx2大模型:从你给出的猫和狗的名字来看,名字有叠字的特点(咪咪、旺旺),不过并没有明确说明羊的名字,所以没办法准确告诉你羊叫什么,你可以给它起一个符合这个规律的名字,比如 “咩咩” 之类的。

xxx1大模型:优秀

xxx2大模型:良好

3

计算能力

753×951=?

xxx1大模型:753×951 的计算结果是 716103。计算过程:753×(900+50+1)=753×900 + 753×50 + 753×1=677700+37650+753=716103

xxx2大模型:753×951=716103

xxx1大模型:优秀

xxx2大模型:优秀

4

历史知识

“五代十国”包括哪些朝代

xxx1大模型:五代是指唐朝灭亡后依次更替的位于中原地区的五个政权,分别是后梁、后唐、后晋、后汉、后周。十国是指在五代之外,相继出现的十个割据政权,主要有前蜀、后蜀、南吴、南唐、吴越、闽国、楚、南汉、南平(荆南)、北汉。十国只是一个概称,并非恰好十个。

xxx2大模型:五代十国是中国历史上的分裂时期,“五代” 指中原地区的五个王朝:后梁、后唐、后晋、后汉、后周;“十国” 是中原以外的十个割据政权,包括前蜀、后蜀、吴、南唐、吴越、闽、楚、南汉、南平、北汉。

xxx1大模型:优秀

xxx2大模型:优秀

5

历史知识+逻辑推理

刘备怎样才能统一天下

xxx1大模型:刘备若想统一天下,需从以下几方面着手:1. 稳固后方:重视益州治理,发展农业、手工业,保障粮草供应,同时调和荆州派与益州派士族矛盾,避免内耗。2. 战略调整:关羽失荆州后,暂缓伐吴,继续联吴抗曹,避免两线作战;利用曹魏内部矛盾(如司马懿与曹氏宗亲的争斗),伺机北伐。3. 人才储备:除诸葛亮外,需发掘更多文武人才,避免人才断层;重视对下一代的培养,确保政权平稳交接。4. 民心向背:坚持 “仁政” 理念,在占领区减轻赋税,收拢民心,对比曹魏的苛政和东吴的士族垄断,形成优势。

xxx2大模型:刘备要统一天下,核心是解决战略失误和内部隐患,具体策略:1. 联吴到底:严格执行诸葛亮 “联吴抗曹” 的战略,约束关羽,避免与东吴冲突,合力对抗曹魏主力。2. 优化北伐:以益州为大后方,联合西北少数民族势力,从汉中、凉州两路出兵,牵制曹魏兵力,而非诸葛亮后期的单线北伐。3. 内部整合:平衡荆州集团、益州本土士族和东州集团的利益,吸纳本土人才,减少内部派系斗争,增强凝聚力。4. 抓住时机:趁曹丕篡汉、曹魏内部不稳时,打出 “兴复汉室” 的旗号,争取中原士族和百姓支持,扩大政治影响力。

xxx1大模型:优秀

xxx2大模型:优秀

6

创作能力

我是一个科技公司的老板,请帮我设计一份简短的公司年会发言稿,100字以内

xxx1大模型:各位同事,新年好!过去一年,我们以创新为刃,攻克难关,收获满满。新的一年,愿我们携手并肩,突破边界,再创辉煌!祝大家新年快乐,万事顺遂!

xxx2大模型:各位伙伴,岁末欢聚,感恩同行!这一年,我们靠技术突围,成绩亮眼。新征程,让我们聚力创新,勇攀高峰!祝大家新春快乐,阖家幸福!

xxx1大模型:优秀

xxx2大模型:优秀

7

角色扮演+创作能力

我是一名女学生,身高160cm,体重60kg,平时学习比较紧张,假如你是我的健身教练,请帮忙设计一个每天30min的健身计划

xxx1大模型:30 分钟学生健身计划1. 热身(5min):原地高抬腿 + 关节环绕,激活身体。2. 核心训练(10min):平板支撑(3 组 ×1min)、臀桥(3 组 ×15 次),改善体态。3. 有氧训练(10min):跳绳(间歇跳,30s 跳 + 30s 休),高效燃脂。4. 拉伸(5min):腿部 + 背部拉伸,缓解久坐疲劳。

xxx2大模型:每日 30min 健身计划(学生版)1. 热身(5min):开合跳 + 肩部绕环,避免运动损伤。2. 力量塑形(10min):深蹲(3 组 ×12 次)、靠墙静蹲(3 组 ×1min),锻炼下肢。3. 有氧(10min):原地慢跑 + 后踢腿,提升代谢。4. 放松(5min):瑜伽猫牛式 + 大腿拉伸,舒缓腰背。

xxx1大模型:优秀

xxx2大模型:良好

8

续写

如果由你来续写《红楼梦》的后40回,你会如何设计其中的情节?请用100字以内的篇幅概括

xxx1大模型:贾府获罪后,宝玉流落江南,偶遇出家的惜春,得见妙玉托孤信物。黛玉魂归之际,宝玉梦中得警幻提点,悟透因果。后宝钗病逝,宝玉在雪夜披蓑而行,于渡口重逢湘云,相视一笑泯恩仇。

xxx2大模型:贾府败落,宝玉被救后隐居山村,偶得黛玉生前诗稿,日夜研读。探春远嫁归来,助力贾府平反。宝玉看淡红尘,在黛玉坟前拜别后,随一僧一道而去,只留空空道人续写残篇。

xxx1大模型:优秀

xxx2大模型:优秀

9

伦理问题

一列火车正常行驶,前方轨道上有5个小孩在玩耍,而另一条废弃轨道上有一个小孩。如果你是火车司机,突然发现制动失灵,你会变更轨道吗

xxx1大模型:这是经典的电车难题,没有绝对正确的答案。从伦理角度,变更轨道意味着主动选择牺牲一人,违背了 “不主动伤害他人” 的原则;不变更轨道,虽非主动选择,但会造成更多伤亡。若我是司机,可能会陷入两难,更倾向于遵守轨道规则,不随意变更,因为废弃轨道上的小孩本无过错,不应为他人的违规买单。

xxx2大模型:个问题没有标准答案,核心是伦理抉择。我不会变更轨道,因为废弃轨道上的孩子是遵守规则的,而另一条轨道的孩子违规玩耍。如果为了救 5 人牺牲 1 个守规则的人,是对规则的破坏,可能会引发更严重的伦理隐患。

xxx1大模型:优秀

xxx2大模型:优秀

10

记忆能力

最近24h内,我提了几个问题?其中有几个关于历史的问题

xxx1大模型:我没有实时统计 24 小时内提问数量的功能,且未保留相关对话的实时记忆,无法准确回答这个问题哦。

xxx2大模型:于我的对话记忆是基于单轮或当前会话的,没有跨会话统计 24 小时内提问数量的能力,所以没办法告诉你具体的问题数和历史相关问题数。

xxx1大模型:合格

xxx2大模型:合格

11

简单比大小

数字9.11和9.9哪个大

xxx1大模型:比较 9.11 和 9.9 的大小,先看整数部分,两者都是 9,相等;再看十分位,9.11 的十分位是 1,9.9 的十分位是 9,因为 9>1,所以9.9>9.11。

xxx2大模型:9.9 更大。比较小数大小时,先比整数部分,整数部分相同再比十分位,9.9 的十分位是 9,9.11 的十分位是 1,9 大于 1,因此 9.9>9.11。

xxx1大模型:优秀

xxx2大模型:优秀

序号1-11是纯文本任务

序号

考察能力

题目

回复

评价

12

平面设计

请设计一个科技公司的Logo,要求扁平化风格,构图简洁明了

xxx1大模型:由几何图形 “圆形 + 箭头” 构成,圆形代表科技的包容与无限可能,箭头呈顺时针环绕,象征创新与发展。 色彩:主色调为科技蓝,搭配浅灰色,简洁大气。 文字:公司名称采用无衬线字体,位于图形右侧,与图形呼应,整体视觉平衡、简洁易记。

xxx2大模型:扁平化科技 Logo 设计 核心图形:两个重叠的正方形,外层浅蓝,内层深蓝,中间镂空一个小圆形,象征科技的精准与互联。 风格:无多余装饰,线条利落。 搭配:公司英文名缩写嵌入圆形内,整体简约现代,符合科技企业的专业形象。

你认为使用的大语言模型的本项能力是:优秀、良好、合格、不合格

xxx1大模型:良好

xxx2大模型:良好

13

文生图

请生成一张名为“花丛中的女孩”的图像:明媚的阳光下,一个身穿白裙子的女孩站在花丛中

xxx1大模型:明媚阳光洒落,金黄光线勾勒出花丛轮廓,各色野花盛放,穿白色连衣裙的女孩站在花丛中央,发丝轻扬,面带微笑,背景是澄澈蓝天,整体色调温暖清新。

xxx2大模型:生成的 “花丛中的女孩” 图像如下:晴朗日光下,大片粉紫色花田铺展,白裙女孩立于花中,裙摆被微风拂动,阳光透过花瓣在她身上洒下斑驳光影,画面清新治愈,充满自然气息。

xxx1大模型:优秀

xxx2大模型:优秀

14

图像识别

请识别图像中的景点

xxx1大模型:这是北京天坛公园的核心建筑祈年殿。它是明清两代皇帝祭天、祈谷的场所,以三重檐圆形攒尖顶、蓝琉璃瓦和精美的彩绘装饰为标志性特征,是中国古代建筑艺术的瑰宝之一。

xxx2大模型:该景点是北京天坛的祈年殿,属于天坛公园的主体建筑之一,以圆形三重檐的独特造型、蓝金配色的装饰风格闻名,是北京的标志性历史建筑之一。

xxx1大模型:优秀

xxx2大模型:优秀

15

图像识别

上传一张迈克尔·乔丹的图像,请大语言模型识别其中是谁

xxx1大模型:这是篮球运动员迈克尔・乔丹,他身穿芝加哥公牛队 23 号球衣,正在进行扣篮动作。迈克尔・乔丹是 NBA 传奇球星,被誉为 “篮球之神”,曾多次获得 NBA 总冠军、常规赛 MVP 等荣誉。

xxx2大模型:图中人物是迈克尔・乔丹,他是前美国职业篮球运动员,以芝加哥公牛队 23 号球衣为标志性形象之一,是篮球史上最具影响力的运动员之一。

xxx1大模型:优秀

xxx2大模型:优秀

16

图像识别

请识别图像中有几个人,他们在干什么

xxx1大模型:这张图中有 7 个人,他们穿着统一风格的服装(黑色内搭 + 军绿色外套),彼此搭着肩膀,表情开心、姿态放松,看起来是在进行合影留念,氛围轻松愉快。

xxx2大模型:图里有 7 个人,他们穿着带有相同标识的衣服,互相搂着肩膀,脸上带着笑容,应该是在拍摄集体照片,状态比较活泼。

xxx1大模型:优秀

xxx2大模型:优秀

17

图像识别

请识别图像中人物的表情,分析其此刻的心情

xxx1大模型:图中 7 个人的表情以大笑、咧嘴微笑为主,眉眼舒展、嘴角上扬,部分人还呈现出开心的夸张神态(比如张嘴露齿),这些表情都传递出愉悦、兴奋的情绪,说明他们此刻处于轻松、快乐的状态中。

xxx2大模型:图像里的人物大多是大笑的表情,嘴巴张开、笑容明显,神态放松且舒展,能看出他们现在的心情是开心、愉悦的,整体氛围比较欢快。

xxx1大模型:优秀

xxx2大模型:优秀

18

图像识别

请识别图像中人物的大概年龄

xxx1大模型:大概30岁

xxx2大模型:大概30岁

xxx1大模型:合格

xxx2大模型:合格

19

图像识别+数学能力

准备一张包含初中数学题的图像,请大语言模型求解,并给出求解的过程

xxx1大模型:

xxx2大模型:

xxx1大模型:

xxx2大模型:

序号12-19是图像处理任务

Read more

【AIGC前沿】MiniMax海螺AI视频——图片/文本生成高质量视频

【AIGC前沿】MiniMax海螺AI视频——图片/文本生成高质量视频

目录 1.MiniMax海螺AI视频简介 2.使用教程 1.MiniMax海螺AI视频简介 海螺视频,作为 MiniMax 旗下海螺 AI 平台精心打造的 AI 视频生成工具,致力于助力用户产出高品质视频内容。该工具依托 abab-video-1 模型,具备强大的文生视频功能。用户仅需输入关键词或简短语句,海螺视频就能据此创作出情节丰富的完整视频。此外,海螺视频运用 DiT 架构,能够精准模拟现实世界的物理规律,尤其在生成复杂场景与高动作场景时,展现出卓越的性能。 2.使用教程 点击如下链接,进入蓝耘元生代智算云平台主页 https://cloud.lanyun.net/#/registerPage?promoterCode=11f606c51e 点击主页上方栏的“MaaS平台” 然后点击左侧栏的“视觉模型”  可以看到可以免费体验一次I2V-01图片生成视频  点击如下红框处将图片上传  例如输入如下的图片 例如想让小狗动起来,可以在如下红框处输入相应的指令,然后点击立即生成

LLaMA-Factory评估指标实战:困惑度与BLEU分数深度解析

LLaMA-Factory评估指标实战:困惑度与BLEU分数深度解析 还在为LLM微调后的模型质量评估发愁吗?🤔 作为AI开发者和研究者,我们常常面临这样的困境:训练损失下降明显,但实际生成效果却让人失望。今天,我将带你深度解析LLaMA-Factory中的两大核心评估指标——困惑度(PPL)与BLEU分数,让你从"盲调"走向"精调"! 🎯 评估指标:模型优化的"导航仪" 在LLaMA-Factory微调框架中,评估指标就像GPS导航系统,实时告诉我们模型的学习状态和优化方向。困惑度衡量模型对文本序列的预测能力,数值越低越好;而BLEU分数则评估生成文本与参考文本的相似度,分数越高质量越优。 评估指标应用场景速览 场景类型推荐指标理想范围关键影响因素预训练任务困惑度<20数据质量、模型架构文本生成BLEU-420-40解码策略、训练数据量多轮对话综合评估多维度上下文理解能力 🚀 困惑度计算:从原理到实践 困惑度是评估语言模型性能的重要指标,它反映了模型预测下一个词的不确定性程度。简单来说,困惑度越低,模型对文本的理解就越准确。 困惑度计算技术内幕 在

【AIGC】COT思维链:让AI学会拆解问题,像人一样思考

【AIGC】COT思维链:让AI学会拆解问题,像人一样思考

COT思维链 * 引言 * 理解实践 * 存疑例子 * COT解决 * 内置COT * COT的优势 * COT的未来展望: * 结语 引言 在人工智能领域,我们一直在追求让机器像人类一样思考。然而,即使是最先进的AI,也常常被诟病缺乏“常识”,难以理解复杂问题,更不用说像人类一样进行逻辑推理和解决问题了。最经常的表现就是遇到不会的地方,或者一些人一眼能看出来的地方AI在那里胡扯。 为了解决这个问题,一种名为“思维链(Chain of Thought, COT)”的技术应运而生。COT的核心思想是:将复杂问题分解成一系列简单的子问题,并逐步推理出最终答案。 这就像人类在解决问题时,会先将问题拆解成一个个小步骤,然后一步步推理,最终得出结论。 理解实践 存疑例子 为了理解COT我们先来看个例子。经典的数strawberry里面的r有几个 from langchain_openai import ChatOpenAI from langchain.chains import LLMChain from

Qt Creator配置AI编程插件GitHub Copilot

Qt Creator配置AI编程插件GitHub Copilot

第一步:GitHub Copilot插件安装 QtCreator18.0为例,点击左侧Extensions菜单,在上方搜索栏搜索 GitHub Copilot, 然后点击右上角Active启动后重启QtCreator即可完成该工具安装. 第二步:copilot.vim 环境配置 去GitHub下载copilot.vim压缩包:copilot.vim。下载地址:https://github.com/github/copilot.vim 随后解压到自定义位置。 将其目录下.\dist\language-server.js地址填入设置的Path to language-serverjs项。 第三步:安装Node.js 去Node.js官网下载并安装node.js:node.js官网。 同样将node.exe地址链接到设置的Node.js path项。下载地址:https://nodejs.org/zh-cn 第四步: