大模型发展：超越GPT-4与寻求场景平衡应用

综述由AI生成大模型规模参数大小争议引发行业关注。商汤科技发布日日新SenseNova 5.0体系，综合能力对标GPT-4 Turbo。文章探讨了尺度定律下大模型性能提升与能耗成本的矛盾，指出实际应用中需根据场景需求平衡大小模型能力。通过混合专家模式及SenseCore大算力基础设施，实现资源优化与场景适配，推动AI普惠。

Qiny01发布于 2025/2/6更新于 2026/5/3115 浏览

大模型规模争议与场景化落地

知名科学杂志《Nature》曾发表文章探讨大模型规模参数大小的争议，引发行业对'AI大模型是否越大越好'的深入思考。随着大模型应用走向实践，这一问题成为当前AI行业发展的焦点。

01. 端侧小模型的优势与实践

在具体的应用场景中，大模型并非唯一选择。商汤科技发布的日日新SenseNova 5.0体系展示了'云、端、边'全栈大模型产品矩阵。通过SenseChat-Lite版本端侧大模型与GPT-4的对比演示，可以看出小模型在决策速度上的优势。当大模型还在计算时，小模型已完成判断并输出结果，这在实时性要求高的场景中至关重要。

这种思路符合业内共识：在实际应用中，需根据具体场景需求选择模型规模。例如，Anthropic发布的Claude 3系列提供了Haiku、Sonnet和Opus不同量级产品，以适应不同企业和场景。商汤科技同样基于此思路，发布了面向手机、平板、VR眼镜、智能汽车等设备的轻量级端侧大模型，结合端云解决方案，保持高性能和准确性。

此外，针对金融、代码、医疗、政务等领域，商汤推出了边缘产品'商汤企业级大模型一体机'。以'大医'医疗健康大模型一体机为例，它可在医疗机构内部一键部署，实现开箱即用，有效支持智能问诊、导诊、病历结构化及影像报告解读等场景，并支持调整回复内容的语言风格和格式要求。

02. 尺度定律与大算力支撑

从经济性而言，小模型更利于企业应用，但这并不意味着不需要训练大模型。业界普遍认可的尺度定律（Scaling Laws）指出，随着模型参数变大、数据量增加、训练时长加长，算法性能会提升。OpenAI于2020年发布的论文《Scaling Laws for Neural Language Models》验证了这一观点，即模型性能随参数大小增长而变好。

谷歌曾精调三个尺寸的Minerva模型，分别使用80亿、620亿和5400亿参数的预训练PaLM模型。结果显示，Minerva的性能随规模扩大而提高，最大模型在MATH数据集上准确率突破50%。基于这一认知，商汤科技发布的日日新·商量大模型5.0主模型，在语言、知识、推理、数学、代码等领域的客观评测上达到或超越了GPT-4 Turbo。

然而，大模型的参数争议也伴随着能耗问题。大规模训练需要巨大的算力和基础设施支持。商汤科技秉持'大模型+大算力'的双轮驱动战略，SenseCore商汤大装置作为新一代AI基础设施，可支撑超过20个千亿超大模型同时训练，并支持万亿参数大模型的全生命周期生成，为大模型的打造提供关键支撑。

03. 混合专家模式与场景平衡

离开基础理论和场景应用去抛弃任何一方都不可取。目前主流AI厂商在迭代模型时，往往推出主模型与小模型以及垂类专业模型，根据场景需求按需提供服务。日日新SenseNova 5.0大模型体系采用了混合专家模式（MoE），通过将模型分割成多个具有专门功能的模块，使模型在推理过程中能更有效地利用计算资源，提高泛化能力和应对复杂任务的性能。

商汤琼宇发布的3D高斯泼溅技术是混合专家模式思想的实际体现，具备轻量化的Web渲染能力，可降低城市级三维模型构建成本，已服务客户超过60个，实现15个城市120多种场景的重建。

未来不属于大模型或小模型，而是大小模型之间的平衡。如何打造大模型，又如何把大模型的能力调配出小模型服务好市场，将是各大厂商接下来的必修课程。通过不同技术和模型组件之间的配合，实现对特定任务的定制化处理和资源优化，从而加速大模型在不同场景中的应用，实现AI普惠。

大模型发展：超越GPT-4与寻求场景平衡应用

大模型规模争议与场景化落地

01. 端侧小模型的优势与实践

02. 尺度定律与大算力支撑

03. 混合专家模式与场景平衡

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

大模型发展：超越GPT-4与寻求场景平衡应用

大模型规模争议与场景化落地

01. 端侧小模型的优势与实践

02. 尺度定律与大算力支撑

03. 混合专家模式与场景平衡

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具