近日,国内首批通过《生成式人工智能服务管理暂行办法》备案的大模型产品陆续上线,正式向全社会公众开放服务。大模型技术指的是使用大规模的神经网络模型,基于语言的交互来完成各类人工智能任务的技术。当前,大模型技术在全球快速迭代,目前已经有了 ChatGPT 等应用。那么,国内大模型市场发展的现状如何?
'百模大战'跑马圈地
国内人工智能大模型集中上线
在北京一家做大模型自主研发的创业企业,推出的大模型应用已经对社会开放服务近 10 天,工作人员还在对大模型生成内容进行优化和完善,目前大量的问答集中在文本创作、教育等领域。
某人工智能大模型企业首席执行官张鹏表示:它本身是一个大语言模型,所以在语言方面的能力更强,我们估算相当于一个本科毕业生的水平,数理类的能力接近中学水平。我们将在几个月时间对模型进行一次升级。
据统计,国内有 11 家大模型陆续通过《生成式人工智能服务管理暂行办法》备案,其中北京 5 家,上海 3 家率先上线,广东 2 家和安徽 1 家也陆续开放。
记者了解到,国内最新上线的通用大模型更像是一个基础设施,在它之上可以孵化更多专业领域的垂直模型,为各行各业的数字化转型服务。
业内人士表示,当前通用大模型的投入成本很高,还需要和具体的应用场景进行有效结合,相关产业还处在发展的初期阶段。
中央财经大学中国银行业研究中心研究员聂俊峰指出:处在市场跑马圈地、行业规则还没有建立、市场格局还没完全形成的阶段。人们把它称为'百模大战',从去年到现在,国内已经发生了接近 100 起以上的大模型行业的融资案例。从整个产业的投入估值来说,2023 年这个行业新增投入大概在 150 亿元到 200 亿元。
大模型人才稀缺薪资走高
算力算法市场活跃
大模型市场的升温也在带动上下游产业链,包括数据、算力和算法,相关领域的人才,例如大模型工程师,在国内也供不应求,收入水平也持续走高。
刘欣旸是一名大模型工程师,他每天主要的工作就是训练各个行业的大模型,在此之前,他从事的是搜索引擎的开发。在 2022 年,他转型研发大模型技术。
刘欣旸表示:我训练的大模型包括金融行业、房产行业以及医疗行业、水利。毕竟大模型是一个新产生的技术,它到可用还需要进行一定的训练。
根据相关机构的统计,国内人工智能工程师和算法科学家的平均年薪已经超过 60 万元,而且企业对大模型技术研发人才需求旺盛,部分核心领域存在较大的缺口。
某信息技术集团首席技术官刘会福认为:真正懂行业的专家是非常需要的,懂人工智能、懂算法、懂模型的也是非常需要的,因为每一轮人工智能发展的结果都是让那些善于用工具的人更好地生存。
大模型市场的升温也在带动算力算法产业,包括'大模型'的芯片、计算集群、服务器、通信网络硬件以及云计算、数据库、虚拟化功能等软件。算力基础设施和算力服务对大模型训练不可或缺,其性能、质量和稳定性决定了模型训练效果。
在国际市场上,目前一张专门用于训练人工智能大模型的芯片价格甚至被炒到了 4.5 万美元,折合人民币超过了 30 万元。国内相关领域芯片的自主研发也在提速。
清华大学人工智能国际治理研究院副院长梁正指出:算力是大模型落地一个比较高的门槛,这个层面国家已经在统筹部署,也就是我们国家层面算力网的建设,各个地方有一些计算中心,以前可能更多是 CPU,现在就是加上智算 GPU。
大模型岗位需求
大模型时代,企业对人才的需求变了,AIGC 相关岗位人才难求,薪资持续走高,AI 运营薪资平均值约 18457 元,AI 工程师薪资平均值约 37336 元,大模型算法薪资平均值约 39607 元。
大模型核心技术架构解析
为了更深入理解大模型的市场与技术背景,我们需要了解其底层技术架构。大模型通常基于 Transformer 架构,这是一种自注意力机制(Self-Attention)的深度学习模型。
1. 预训练(Pre-training)
预训练阶段需要海量的无标注文本数据,模型通过预测下一个词的概率来学习语言规律。这一过程消耗巨大的算力资源,通常需要数千张高性能 GPU 协同工作数周甚至数月。数据清洗的质量直接决定了模型的上限。
2. 监督微调(SFT)
预训练后的模型虽然具备语言能力,但往往缺乏指令遵循能力。通过人工构建高质量的指令 - 回答对数据进行微调,可以让模型更好地理解用户意图,完成特定任务。
3. 人类反馈强化学习(RLHF)
这是提升模型安全性和对齐人类价值观的关键步骤。通过引入奖励模型,根据人类偏好对模型输出进行排序和优化,使模型生成的内容更符合人类期望。
算力基础设施与国产化进展
大模型训练对硬件的要求极高,主要体现在显存带宽和计算密度上。NVIDIA 的 A100/H100 系列曾是主流选择,但由于供应链限制,国产替代方案成为关键。
1. 国产芯片布局
华为昇腾(Ascend)、寒武纪等厂商正在加速推出针对 AI 训练的专用芯片。这些芯片在 FP16/BF16 精度下的算力表现逐渐逼近国际水平,配合国产深度学习框架(如 MindSpore),正在构建自主可控的算力生态。


