多模态大模型学科能力综合强化 粤港澳大湾区比赛
赛题介绍
赛题背景及意义
在自然语言处理领域,大型语言模型表现出卓越的性能和出色的泛化能力。然而,它们只能处理文本信息,缺乏对真实世界中多模态信息的理解能力。与此同时,传统的视觉模型虽然能够识别图像,但通常无法满足现实世界中多种任务和场景的需求。
现有的多模态大模型通过简单地对齐预训练的视觉表示模型和大型语言模型,实现了跨模态感知能力。然而,这些架构大多局限于简单的模型对齐,缺乏深度模态融合,在复杂的多模态推理方面仍有不足。因此,本赛题聚焦于跨模态感知与推理的大模型开发,探索如何深度整合视觉和语言能力,使模型具备较强的跨模态感知与推理能力,从而有效解决通用场景中的复杂问题。
赛制
本赛题为【擂台赛道】
赛题描述
本次比赛的核心任务是利用提供的预训练大语言模型和视觉编码器,构建并优化多模态大语言模型。为了全面而客观地评估多模态大模型的性能,我们选用高中各学科的选择题进行测试,题目包含语文、数学、物理、化学、生物、政治、历史和地理八个科目,并涵盖示意图、折线图、地图、照片和几何图形等十二种图像类型。这要求参赛模型不仅需要掌握这些学科的知识,还需具备识别不同图像类型的能力,并能够基于多模态信息进行有效推理。参赛队伍可采用进一步预训练、多模态对齐、基于人类偏好的强化学习、有监督微调、知识蒸馏等多种技术策略来发展其模型。
在本次比赛中,我们提供双语(中英)语言模型作为基础语言模型,视觉表示模型采用。为保证比赛的公平性,参赛者只能基于提供的预训练模型进行开发,禁止使用其他预训练模型。比赛不限制多模态融合的具体架构,参赛者可以自由设计对齐策略(包括但不限于Q-Former、MLP、Adapter等)。我们提供了一个基于llava架构的训练。
数据说明
训练数据
可以使用公开或私有的数据集进行训练,禁止使用测试数据进行训练。决赛阶段将按照擂台赛规则进行。
测试数据
在初赛阶段,评测基准采用带图的高中知识选择题,测试多模态模型在感知、知识、推理等方面的综合能力。测试内容涵盖语文、数学、物理、化学、生物、政治、历史、地理八个科目,以及示意图、折线图、地图、照片、几何图形等十二种图像类型。每个问题都包括一个题干及其对应的四个选项,图像可能出现在题干中,也可能作为选项出现。模型需要基于给出的问题和图像,给出答案的选项。
测试数据包含两个独立且同分布的集合:A测试集和B测试集。A测试集是公开的,参赛队伍可以自行在此数据集上测试模型,并上传结果;系统将提供评分结果以供参赛队伍参考并优化模型。B测试集的数据不对外公开,选手需提交最终模型和推理脚本,由主办方负责运行模型并给出评分。最终,根据B测试集上的排名决定哪些队伍能够进入决赛阶段。
测试数据示例
1、如图是西周与战国两个时期相同文字的不同写法, 反映出字形发生了变化, 促成这一变化的主要因素是 ( )
A. 文字的频繁使用
B. 书写材料的不同
C. 各国变法的实施
D. “书同文”的推行
测试数据示例-语文
答案:A
2、如图, 网格纸上小正方形的边长为 1 , 粗线画出的是某几何体的三视图, 则此几何体的体积为 ( )
A. 6
B. 9
C. 12
D. 18
测试数据示例-数学
答案:B
3、研究表明, 氮氧化物和二氧化硫在形成雾霾时与大气中的氨有关(如图所示)。下列叙述错误的是()
A. 雾和霾的分散剂相同
B. 雾霾中含有硝酸铵和硫酸铵
C. 𝑁𝐻3 是形成无机颗粒物的催化剂
D. 雾霾的形成与过度施用氮肥有关
测试数据示例-化学
答案:C
4、如图所示区域降水季节分配较均匀。2010 年 5 月初, 该区域天气晴朗, 气温升, 出现了比常年严重的洪灾. 形成本区域降水的水汽主要来源于()
A. 太平洋
B. 印度洋
C. 大西洋
D. 北冰洋
测试数据示例-地理
答案:C
数据集获取
A榜测试集
链接:
提取码:niro
B榜测试集将在初赛结束后公开。
竞赛规则
参赛形式
大赛分为初赛和决赛两个比赛环节。
初赛
- 初赛时间:7月10日 - 9月30日。
- 初赛形式:初赛测评排行榜采用 A/B 榜机制,即共分为【初赛A榜评审】与【初赛B榜评审】,选手根据【提交指南】提交结果文件,完成提交后系统将及时出分,查看排行榜分数。
- 初赛晋级:A榜排行榜分数最高的前二十支队伍,经人工评审复现,确定分数有效后,将参与B榜测评,B榜排行榜分数最高的前十四支队伍晋级决赛,角逐最终奖项。(B榜评审开放时间待定)
决赛
- 决赛时间:10月-11月(具体时间待定)。
- 决赛队伍:初赛B榜排名前十四支队伍和出题方(擂主)组成十五支队伍共同参加决赛。
- 决赛形式:【擂台赛】 。
决赛采取擂台赛的形式,首先由出题方(擂主)提供之前未公开、与初赛同类型的数据进行算法设计与评测,参赛队伍在该数据上进行测试并排位。同时,任何决赛参赛队伍均可申请成为新擂主,并发布相应的训练集、验证集和测试集进行擂台赛,所有队伍在新擂主发表的数据集上重新测试并进行排位。决赛队伍也可不申请成为擂主,仅参加别的擂主发布的数据赛题进行比赛评测。 (决赛具体规则将在后续更新发布)
竞赛公平性要求
- 初赛完毕后即决出最终入围决赛排名。排名前20的队伍需要上传模型权重、训练测试代码、训练数据集以及详细的训练流程说明(包括GPU设置,数据使用情况、模型情况、训练参数设置、训练流程等,打包成Docker),主办方进行结果复现及数据集检查,经人工审核后,没有作弊行为的前14支队伍将入围决赛;
- 主办方进行官方复现与测试,要求模型能在8 x A800-80G服务器上在30小时内完成复现(微调+推理)。在主办方进行代码测试和复现过程中,相关的队伍有义务配合主办方进行代码复现(包括合成数据的复现)。无法提供代码进行测试及复现的队伍、或不配合进行代码测试及复现的队伍,将被取消获奖资格;
- 所有选手只能基于提供的基座模型进行开发,不得使用其他预训练模型作为基座模型;
- 不允许使用测试数据进行训练;
- 若发现有队伍存在违规作弊行为,主办方有权取消选手的获奖资格,晋级团队名额按排行榜成绩顺延。
违规作弊行为包括但不限于:
- 模型代码与文档描述不符
- 提交代码无法复现出评测结果
- 利用测试集训练模型
- 其它存在违反本次比赛规则的行为
多模态大模型学科能力综合强化
结束
11.30
报名
- 介绍
- 排行榜
- 大赛介绍
- 参赛须知
- 赛题介绍
- 评审&提交
大赛介绍
大赛简介
粤港澳大湾区(黄埔)国际算法算例大赛是由琶洲实验室(黄埔)受广州市黄埔区政府委托,于2022年创办的算法算例领域的国际性赛事。大赛“立足湾区、瞄准全国、辐射全球”,围绕大数据、人工智能、物联网、云计算等新一代信息技术,瞄准解决国家重大需求和领域尖端技术,面向全国遴选优质算法,面向全球聚集大数据与人工智能高精尖技术,面向国际招揽算法高端人才。当前,大赛已成功举办两届,在“汇聚问题、汇聚算法、汇聚人才”方面取得了显著成效。
2024 年第三届粤港澳大湾区(黄埔)国际算法算例大赛将在前两届的基础上继续扩大规模,汇聚来自世界各地的科研精英,全面推进与产业需求、行业技术、应用领域的深度融合,为国内众多算法领域的创新成就搭建展示和实践的平台,构建起立足黄埔、面向全国、辐射全球的高水平人工智能大赛格局。
赛程安排
2024年6月28日:大赛初赛、第一批赛题发布(初赛期间均可报名)
2024年7月中旬:第二批赛题发布
2024年7月下旬:第三批赛题发布
2024年9月30日:初赛结束及报名截止
2024年11月-12月:大赛决赛
2024年12月上旬:决赛答辩
2024年12月-2025年1月:获奖名单公布
2025年1月:颁奖典礼及奖金发放
赛制介绍
创新赛制:首届大赛创造性开辟了“擂台赛道”和“竞赛赛道”两个赛制,本届大赛将在此基础上增加“集成应用赛道”,三种赛制形式分别聚焦于理论研究、共性技术、实际应用,旨在加强产学研用的深度融合,鼓励企业和学术机构共同参与,实现理论研究与实际应用的无缝对接。本届大赛擂台赛道设置五个赛题,竞赛赛道设置四个赛题,集成应用赛道设置两个赛题。本赛道为“擂台制”赛道。
擂台赛道:
擂台赛道瞄准解决国家重大需求的基础算法,聚焦后深度学习的人工智能及相关领域的核心问题,驱动人工智能及相关学科领域的关键技术发展。擂台赛道由大赛组织方邀请领域内的顶尖专家教授作为赛题定义者,从学术前瞻性及未来人工智能相关学科的发展趋势出发,根据学术领域的研究与认知,设计具有科学性和前瞻性的赛题,面向全世界遴选优质算法,打造全球人工智能算法高地。
擂台赛道分为初赛和决赛两个阶段,出题方为擂主,擂主直接进入决赛。初赛由开发者下载数据集进行线下开发;决赛擂主将与入围决赛的14支团队选手共同进行开发,为体现赛事公平性,将统一征集相关赛题数据集,增加应用场景,进行决赛角逐。
竞赛赛道:
竞赛赛道瞄准行业领域发展的共性关键技术,聚焦不同行业领域,开发优质算法,以人工智能技术作为推动力,实现革命性的产业创新。竞赛赛道将由各领域的国内头部企业针对其发展的行业共性的“卡脖子”难题定义赛题任务,并提供真实场景数据,面向全球汇聚大数据与人工智能高精尖技术,招揽全球人工智能算法高端人才。
竞赛赛道分为初赛和决赛两个阶段,初赛评测排名前15支团队进入决赛,角逐奖项。
集成应用赛道:
集成应用赛道以创新为基、以发展为要,打破传统学科边界,以创新形式探索各领域交叉融合发展的无限可能,提升自主创新能力,增强自主发展安全性。该赛道强调对跨学科知识的整合应用,通过推动知识创新与技术创新的融合聚变,旨在为经济增长和社会进步贡献源头创新活力,以跨界的思维模式和技术实践,拓宽研究的视野,有效促进技术的实用化和产业化进程。
注:本届大赛该赛道限中国籍(内地)选手参赛。
集成应用赛道分为初赛和决赛两个阶段,初赛评测排名前15支团队进入决赛,角逐奖项。
大赛奖金
本届大赛奖金共计1000万,其中擂台赛道及竞赛赛道每个赛题奖金100万,集成应用赛道每个赛题奖金50万元,均以“50%大赛奖励资金+50%创业培育资金”的双轨制形式呈现,各赛道奖金明细如下:
1.擂台赛道及竞赛赛道各赛题奖金方案
奖项 | 奖金 | 团队数量 | 创业培育资金 |
---|---|---|---|
一等奖 | 20万 | 1 | 50万 |
二等奖 | 5万 | 2 | |
三等奖 | 2万 | 10 |
2.集成应用赛道各赛题奖金方案
奖项 | 奖金 | 团队数量 | 创业培育资金 |
---|---|---|---|
一等奖 | 10万 | 1 | 25万 + 定向项目 研究经费支持 |
二等奖 | 2.5万 | 2 | |
三等奖 | 1万 | 10 |
注:
1.大赛创业培育资金将用于与选手共同推动成果产业转化,根据实际项目合作情况分配,最终解释权归主办方所有。
2.高校导师带队参赛时,原则上导师分配给学生的奖金不得低于总金额的60%。