大模型作为深度学习的重要发展趋势,是大算力与强算法结合的产物。文章分析了大模型的发展现状,包括国内外参数规模的增长历程及代表性模型。阐述了大模型对人工智能产业的深远影响,主要体现在加速 AI 产业化进程、降低应用门槛、实现从作坊式到工厂模式的转型,以及利用自监督学习降低训练成本。此外,文章探讨了深度学习平台的体系架构,包括开源框架、算法模型库及工具平台,强调了其在驱动技术迭代、推动产业链协同及缩短智能化升级路径方面的核心作用。结论指出大模型凭借处理海量数据、提升准确性及支持多模态任务的能力,确立了其在深度学习领域的未来地位。
2924408371 浏览
当今社会是科技的社会,是算力快速发展的时代。随着数据中心、东数西算、高性能计算、数据分析、数据挖掘的快速发展,大模型得到了快速的发展。大模型是'大算力 + 强算法'相结合的产物,是人工智能的发展趋势和未来。目前,大规模的生态已初具规模。其可以实现从'手工作坊'到'工厂模式'的 AI 转型。大模型通常在大规模无标记数据上进行训练,以学习某种特征和规则。基于大模型开发应用时,可以对大模型进行微调,或者不进行微调,就可以完成多个应用场景的任务;更重要的是,大模型具有自监督学习能力,不需要或很少需要人工标注数据进行训练,降低训练成本,从而可以加快 AI 产业化进程,降低 AI 应用门槛。
大模型(预训练模型、基础模型等)是'大算力 + 强算法'结合的产物。大模型通常在大规模无标注数据上进行训练,以学习某种特征。在大模型进行开发应用时,将大模型进行微调,如对某些下游任务进行小规模标注数据的二次训练或不进行微调就可以完成。迁移学习是预训练技术的主要思想,当目标场景数据不足时,先在数据量大的公开数据集上训练基于深度神经网络的 AI 模型,然后将其迁移到目标场景中,通过目标场景中的小数据集进行微调,使模型达到要求的性能。在这个过程中,在公开数据集上训练的深度网络模型被称为'预训练模型'。使用预训练模型极大地减少了模型在标记数据量下游工作的需要,从而解决了一些难以获得大量标记数据的新场景。
人工智能正处于从'能用'到'好用'的应用落地阶段,但仍处于商业落地初期,主要面临场景需求碎片化、人力研发和应用计算成本高以及长尾场景数据较少导致模型训练精度不够、模型算法从实验室场景到真实场景差距大等行业问题。而大模型的出现,在增加模型通用性、降低训练研发成本等方面降低 AI 落地应用的门槛。
1、大模型可实现从'手工作坊'到'工厂模式'的 AI 转型
近十年来,通过'深度学习 + 大算力'获得训练模型成为实现人工智能的主流技术途径。由于深度学习、数据和算力可用这三个要素都已具备,全球掀起了'大炼模型'的热潮,也催生了一大批人工智能公司。然而,在深度学习技术出现的近 10 年里,AI 模型基本上都是针对特定的应用场景进行训练的,即小模型属于传统的定制化、作坊式的模型开发方式。传统 AI 模型需要完成从研发到应用的全方位流程,包括需求定义、数据收集、模型算法设计、训练调优、应用部署和运营维护等阶段组成的整套流程。这意味着除了需要优秀的产品经理准确定义需求外,还需要 AI 研发人员扎实的专业知识和协同合作能力才能完成大量复杂的工作。
落地阶段,通过'一模一景'的车间模式开发出来的模型,并不适用于垂直行业场景的很多任务。例如,在无人驾驶汽车的全景感知领域,往往需要多行人跟踪、场景语义分割、视野目标检测等多个模型协同工作;与目标检测和分割相同的应用,在医学影像领域训练的皮肤癌检测和 AI 模型分割不能直接应用于监控景点中的行人车辆检测和场景分割。模型无法重复使用和积累,这也导致了 AI 落地的高门槛、高成本和低效率。
传统的小模型训练过程涉及大量调参调优的手动工作,需要大量 AI 专业研发人员来完成;同时,模型训练对数据要求高,需要大规模的标注数据。但很多行业的数据获取困难,标注成本高,同时项目开发者需要花费大量时间收集原始数据。例如,人工智能在医疗行业的病理学、皮肤病学和放射学等医学影像密集型领域的影响不断扩大和发展,但医学影像通常涉及用户数据隐私,很难大规模获取到用于训练 AI 模型。在工业视觉瑕疵检测领域,以布匹瑕疵为例,市场上需要检测的织物种类有白坯布、色坯布、成品布、有色布、纯棉、混纺织物等缺陷种类繁多,颜色和厚度难以识别,需要在工厂长时间收集数据并不断优化算法才能做好缺陷检测。
我们认为,相比于传统的 AI 模型开发模式,大规模模型在研发过程中的流程更加标准化,在实现过程中具有更大的通用性,可以泛化到多种应用场景;并且大模型的自监督学习能力相较于传统的需要人工标注的模型训练能够显著降低研发成本,共同使得大模型对于 AI 产业具有重要意义,为解决 AI 落地难、促进 AI 产业化进程这一问题提供方向。
二、大模型带来更强大的智能能力
除通用能力强、研发过程标准化程度高外,大模型最大的优势在于'效果好'。它通过将大数据'喂'给模型来增强自学习能力,从而具有更强的智能程度。例如,在自然语言处理领域,百度、谷歌等探索巨头已经表明,基于预训练大模型的 NLP 技术的效果已经超越了过去最好的机器学习的能力。OpenAI 研究表明,从 2012 年到 2018 年的六年间,在最大规模的人工智能模型训练中所使用的计算量呈指数级增长,其中有 3.5 个月内翻了一番,相比摩尔定律每 18 个月翻一番的速度快很多。下一代 AI 大模型的参数量级将堪比人类大脑的突触水平,可能不仅可以处理语言模型,将更是一个多模态 AI 模型,可以处理多任务,比如语言、视觉和声音。
中间层代表算法模型,深度学习平台赋予开发者行业级的建模能力。采用预训练方式,减少数据采集、标注时间和人力成本,缩短模型训练过程,实现模型快速部署,加速 AI 技术技能开发。根据技术路线和应用价值,可以分为三类算法模型:一类是业界已经实践过的基础算法,如 VGGNet、ResNet 等主流 SOTA 模型;二是提供自然算法语言处理、计算机视觉、多模态等领域小样本细分场景的预训练模型,快速实现算法技能迁移;三是针对特定行业场景(如工业质检、安检等)的应用模型,根据用户真实的行业落地需求推荐合适的应用。结合落地机型和硬件,并提供相关实例。
上层是套件工具和能力平台,支持各层级模型的开发和部署,满足开发者各个阶段的需求。主要功能体现在以下几个方面:一是降低技术应用门槛,通过提供集成化、标准化的基础训练技术工具组件,支持可视化分析、预训练模型应用,降低训练和模型开发的门槛、云作业交付和其他功能;提供前沿技术研发工具,支撑联邦学习、自动机器学习、生物计算、图形神经网络等技术能力,为模型创新提供支持;三是提供图像分类、目标检测、图像分割等具体信息,满足行业实际需求面向业务场景的端到端开发包,涵盖数据增强、模块化设计、分布式训练、模型调参等流程,以及交叉部署平台,实现 AI 能力的快速应用;四是提供全生命周期管理,构建一体化深度学习模型开发平台,提供从数据处理、模型训练、模型管理到模型推理的全周期服务,加速人工智能技术开发和应用落地全过程,实现管控与协同。
二是推动产业链上下游协同创新。操作系统作为连接 PC 和移动互联网时代底层硬件架构、顶层软件系统和用户交互界面的控制中心,是微软、诺基亚、苹果、谷歌等公司驱动产业生态的核心工具统治地位。在人工智能时代,深度学习平台还起到连接顶层(顶层应用)和底层(下层芯片)的作用,类比为'人工智能时代的操作系统'。深度学习平台的出现,使得各种算法能够基于现有硬件系统高效开发迭代并部署大规模应用,为深度学习的不断发展奠定了基础。
三是缩短千行百业智能化升级路径。当前,人工智能工程应用迎来了快速发展的窗口期,如何缩短人工智能算法从建模到实际生产的周期,提高应用效率成为各行业关注的核心问题。深度学习平台提供从制造到工具、技术、机制等涵盖人工智能能力产生、应用、管理全过程的实用工程解决方案,解决人工智能面临的专业人才短缺、数据成本高、建模等问题。智能升级中的企业发展难、资源效率低等问题,满足了企业 AI 能力建设的需求,为智能升级奠定了基础。
面对多样化的部署环境,具备云端推理能力,成为开源开发框架成为业界普惠工具的重要标志。物联网智能时代,开发框架必须具备端、边、云全面支持的推理机架构,以及与训练框架集成的内部表达式和算子库,实现即时训练和最完备的模型支持。推理实现能力应跨越服务器、移动和 Web 前端,模型压缩工具可以帮助开发人员实现更小、更高性能的模型。在部署过程中,开发框架还应该提供全流程推理和场景部署工具链,以实现在硬件受限环境下的快速部署。工具或技术的蒸馏,进一步优化和支持推理引擎在服务器、移动终端/边缘终端、网页等各种硬件场景下的实现。
模型库是深度学习平台推动 AI 普惠化,实现快速产业赋能的关键能力。为解决人工智能算法工程化落地过程中面临的研发门槛高、周期长等问题,深度学习平台将模型库作为平台的核心能力进行建设,开发者依托模型库,无需从头编写代码即可实现算法能力,实现应用模型的不断复用,从而促进人工智能应用多样化和规模化发展。当前,深度学习平台均基于自身开发框架构建算法模型库,提供快速搭建人工智能应用能力,如 Meta 推出,提供算法模型库以及简易 API 和工作流程;主流平台构建产业级模型库并提供面向场景应用的模型开发套件,实现模型直接调用及二次开发的能力,提升算法研发应用效率。
深度学习平台在前沿技术领域持续创新,沉淀先进算法能力,推动 SOTA 模型应用落地。一方面,深度学习平台已成为先进算法模型的重要承载体,全球来看,AI 领域创新算法的提出六成以上使用国际主流开发开源框架进行验证;另一方面,学术界、产业界对先进算法的使用需求反推深度学习平台加强对 SOTA 模型库的能力建设,促进原创算法持续产生。当前,国际主流深度学习平台模型库不断加强对前沿算法模型的积累,将算法能力沉淀至深度学习平台模型库,为开发者提供前沿技术能力支撑。
模型库通过应用场景实践加速完善,产业赋能能力不断强化。为满足产业多样化场景需求,切实推动 AI 算法应用落地,模型库主要通过两个方面提升平台产业赋能能力。一是通过细化应用场景,丰富算法覆盖方向,拓展模型库能力边界。模型库基于计算机视觉、自然语言处理等基础算法,依据实际产业需求对能力应用场景进行细化,面向图像分割、车辆检测、个性化推荐等细分任务提供经过产业实践的模型。此外,通过引入预训练模型,为开发者提供灵活、可拓展的算法能力,可实现在小样本任务中的快速应用,如主流平台目前支持产业级多个开源算法模型,已在金融、能源、交通等各行各业广泛应用。二是从实际产业应用场景出发,聚焦 AI 工程化落地问题,通过提供轻量级、低能耗的产业级部署模型,解决实际应用场景中模型的精度与性能平衡问题。