大模型开启行业应用新纪元
大模型对各行各业的影响之大史无前例。通用大模型擅长处理多种任务,是技术的制高点,也是头部互联网企业的必争之地。国内外互联网巨头纷纷入局大模型赛道,微软 GPT-3/GPT-4、华为盘古大模型、百度文心一言、阿里通义千问、腾讯混元大模型、科大讯飞的星火认知大模型等各显神通。各家大模型在技术参数、落地应用、发展策略方面有何异同?未来又该何去何从?
大模型的四个特征
微软公司创始人比尔·盖茨表示,自 1980 年首次看到图形用户界面以来,以 GPT 为代表的大模型是他所见过的最具革命性的技术进步。
毫无悬念,大模型已经成为科技圈当仁不让的'顶流'。大模型的出现,加速了群雄并起、资本活跃的光辉时代的到来,让 AI(人工智能)再次拥有了高光时刻。
众所周知,AI 由模型、数据、算力三要素构成。相比于传统的识别型 AI(小模型),以 GPT 为代表的大模型在数据、模型等方面均带来了不同程度的革新,赋予了大模型更强的通用性。
对此,百度集团执行副总裁、百度智能云事业群总裁沈抖曾打过这样一个比方:大模型出现前的 AI 像是氧气——本身很有价值,但自己不会燃烧,必须找到可燃物才能发挥价值。这里的'可燃物',指的就是落地场景。
华为盘古大模型、百度文心一言、阿里通义千问、腾讯混元大模型和科大讯飞的星火认知大模型都是当前国内在人工智能领域具有代表性的大模型。这些大模型企业在 2C(消费)领域均有布局,但更多的精力放在推动 2B(行业)应用方面。总体来看,上述大模型有如下共同之处。
第一,具有开放性
这些模型通常都是由各自公司的云平台提供服务,开放给开发者和企业使用。通过 API 接口、SDK 工具包或特定的开发平台,开发者能够拥有使用模型的能力,进行应用的开发和部署。
第二,技术架构先进
这些模型通常基于深度学习技术和算法进行训练,具有强大的多语言翻译、理解、推理和生成能力,它们不断地进行迭代和优化,以提供更好的性能和服务。
第三,模型规模大
这些模型都是大规模的 AI 模型,具有非常多的参数,在多种语言和任务方面表现出色。它们的训练数据覆盖了广泛的领域和应用场景,能够提供较为全面和准确的信息处理。
第四,应用场景广泛
这些模型在多轮对话、逻辑推理、文本生成、情感搜索等场景中表现较好;腾讯混元大模型在微信、QQ、游戏等场景中更有优势;华为盘古大模型则在华为云、手机等场景中有着良好的应用。
从技术特点上来看,不同的大模型在技术实现上有差异,例如华为盘古大模型采用了全栈自主创新的技术;而阿里通义千问则开源了部分的模型参数;百度文心一言则基于百度的跨模态大模型 ERNIE-ViLG,具备跨模态、跨语言的深度语义理解与生成能力。
行业是必争之地'卷'应用才刚刚开始
大模型是新质生产力的重要组成部分,对各行各业影响之大可以说史无前例,将引领千行百业数智化创新发展。通用大模型擅长处理多种任务,是技术的制高点,也是头部互联网企业的必争之地。
毋庸置疑,大模型的市场竞争将会更加白热化,如果类比 PC 互联网时代和移动互联网时代,全球范围内的大模型底层平台很可能不会超过三个。
因此基于通用大模型的行业应用将是成功与否的关键。毕竟大模型的'华山论剑'不是纸上谈兵,必须在应用场景中取得'战绩',这也是大模型赋能生产力的关键。各家的大模型在各行业的应用情况也就是这场战事的焦点。
看参数
从大模型的参数来看,微软没有直接开发 GPT-3/GPT-4,而是与 OpenAI 合作,将 GPT-3/GPT-4 集成到微软的产品和服务中,例如 Microsoft 365、Azure 等。GPT-3 大约只有 1750 亿个参数,一年后发布的 GPT-4 就拥有大约 1.8 万亿个参数,学习了截止到今年 4 月份的人类知识,分布在 120 个神经网络层之上,迭代速度是最惊人的。
华为的盘古 NLP 大模型,是业界首个超千亿参数的中文预训练大模型,它利用大数据预训练,将多源丰富知识相结合,并通过持续学习吸收海量文本数据,不断提升模型的效果。
关于文心一言的参数级别,目前尚无具体公开数据。但根据相关报道,文心大模型 4.0 的参数量大于所有已公开发布参数的 LLM(Large Language Model 的缩写,指的是大型语言模型),预计能突破万亿级别;阿里通义千问 2.0、正式发布千亿级参数大模型通义千问 2.0;腾讯混元大模型是一款由腾讯全链路自研的通用大语言模型,拥有超千亿参数规模,预训练语料超 2 万亿 tokens;科大讯飞星火大模型具备超千亿参数规模。
看落地
微软更新了其 Office 的套件,为用户提供智能写作和自动生成文档的功能。微软还将 GPT-3/GPT-4 应用于其人工智能网络安全工具 Microsoft Security Copilot 中,该工具可以帮助网络管理员快速响应和消除安全威胁。
从行业应用的落地来看,微软目前在医疗保健、金融服务、通信行业取得进展。
在医疗保健方面,GPT-3/GPT-4 具有'通用结构化'能力,能从大规模临床文本中提取患者有效信息。虽然 GPT-4 仅接受了'通用'互联网数据而非特定医学数据的训练,但依然能够根据指定的医学标准构建复杂的临床研究,并在处理医疗图像和其他生物数据方面发挥更多作用。GPT-3/GPT-4 技术可以用于辅助医疗诊断和治疗。


