大模型规模争议与场景化落地
知名科学杂志《Nature》曾发表文章探讨大模型规模参数大小的争议,引发行业对'AI大模型是否越大越好'的深入思考。随着大模型应用走向实践,这一问题成为当前AI行业发展的焦点。
01. 端侧小模型的优势与实践
在具体的应用场景中,大模型并非唯一选择。商汤科技发布的日日新SenseNova 5.0体系展示了'云、端、边'全栈大模型产品矩阵。通过SenseChat-Lite版本端侧大模型与GPT-4的对比演示,可以看出小模型在决策速度上的优势。当大模型还在计算时,小模型已完成判断并输出结果,这在实时性要求高的场景中至关重要。
这种思路符合业内共识:在实际应用中,需根据具体场景需求选择模型规模。例如,Anthropic发布的Claude 3系列提供了Haiku、Sonnet和Opus不同量级产品,以适应不同企业和场景。商汤科技同样基于此思路,发布了面向手机、平板、VR眼镜、智能汽车等设备的轻量级端侧大模型,结合端云解决方案,保持高性能和准确性。
此外,针对金融、代码、医疗、政务等领域,商汤推出了边缘产品'商汤企业级大模型一体机'。以'大医'医疗健康大模型一体机为例,它可在医疗机构内部一键部署,实现开箱即用,有效支持智能问诊、导诊、病历结构化及影像报告解读等场景,并支持调整回复内容的语言风格和格式要求。
02. 尺度定律与大算力支撑
从经济性而言,小模型更利于企业应用,但这并不意味着不需要训练大模型。业界普遍认可的尺度定律(Scaling Laws)指出,随着模型参数变大、数据量增加、训练时长加长,算法性能会提升。OpenAI于2020年发布的论文《Scaling Laws for Neural Language Models》验证了这一观点,即模型性能随参数大小增长而变好。
谷歌曾精调三个尺寸的Minerva模型,分别使用80亿、620亿和5400亿参数的预训练PaLM模型。结果显示,Minerva的性能随规模扩大而提高,最大模型在MATH数据集上准确率突破50%。基于这一认知,商汤科技发布的日日新·商量大模型5.0主模型,在语言、知识、推理、数学、代码等领域的客观评测上达到或超越了GPT-4 Turbo。
然而,大模型的参数争议也伴随着能耗问题。大规模训练需要巨大的算力和基础设施支持。商汤科技秉持'大模型+大算力'的双轮驱动战略,SenseCore商汤大装置作为新一代AI基础设施,可支撑超过20个千亿超大模型同时训练,并支持万亿参数大模型的全生命周期生成,为大模型的打造提供关键支撑。
03. 混合专家模式与场景平衡
离开基础理论和场景应用去抛弃任何一方都不可取。目前主流AI厂商在迭代模型时,往往推出主模型与小模型以及垂类专业模型,根据场景需求按需提供服务。日日新SenseNova 5.0大模型体系采用了混合专家模式(MoE),通过将模型分割成多个具有专门功能的模块,使模型在推理过程中能更有效地利用计算资源,提高泛化能力和应对复杂任务的性能。
商汤琼宇发布的3D高斯泼溅技术是混合专家模式思想的实际体现,具备轻量化的Web渲染能力,可降低城市级三维模型构建成本,已服务客户超过60个,实现15个城市120多种场景的重建。
未来不属于大模型或小模型,而是大小模型之间的平衡。如何打造大模型,又如何把大模型的能力调配出小模型服务好市场,将是各大厂商接下来的必修课程。通过不同技术和模型组件之间的配合,实现对特定任务的定制化处理和资源优化,从而加速大模型在不同场景中的应用,实现AI普惠。


