2022 年 11 月 30 日 ChatGPT 发布以来,作为其核心技术的大语言模型(Large Language Model,LLM)迅速成为全球技术热点。国内企业紧随其后,以百度的文心一言、阿里的通义千问、华为的盘古、科大讯飞的讯飞星火等为代表的大模型短时间内纷至沓来。在不到一年时间内,包括昆仑万维、京东、网易、贝壳等公司在内推出大模型的国内企业已有 100 多家,形成了百'模'群舞的壮观场面。
与此同时,各类科技相关领域的论坛及研讨会言必谈大模型。就金融科技领域峰会而言,大模型已经基本成为主题之一。'大模型改变世界''大模型是新时代的'发电厂''之类的言论铺天盖地而来,让身处其中的金融科技人员不免开始感觉到了恐慌。
这不由得让人联想到当年区块链推出时的场面。2019 年是区块链最火的一年,当时很多媒体、专家学者提出,区块链是一个可能改变时代发展进程的技术,将引领'第四次工业革命'。在密切注意区块链技术发展现状和趋势的前提下,国家层面提出要把区块链作为核心技术自主创新的重要突破口,加快推动区块链技术和产业创新发展。一夜春风来,万树梨花开,包括金融科技领域在内,各类区块链的应用层见迭出。而风口之下,百态尽显,其中不乏'拿着锤子找钉子'的现象。比如,有些应用场景仅仅使用了摘要加密技术,即敢声称是运用了区块链,甚至还有一些公司连夜更名,用招牌直接攀附上区块链的亲缘。
而今,大模型的横空出世,再次点燃了国内追逐新技术新应用的热情。那么大模型究竟是什么?它对金融科技应用到底有什么作用?笔者作为一名金融科技应用方面的从业者,在此谈谈自己的浅见。
一、大模型及其工作原理
- 大模型定义
大模型是人工智能细分领域的新技术,其关系结构如图 1 所示。
[图 1:大模型关系结构]
通俗来说,大模型就是用于人类语言处理的一种技术(随着多模态应用的出现,实际上大模型已不仅仅应用于人类语言的处理)。其专业解释即基于机器学习和自然语言处理(Natural Language Process,NLP)技术的模型,通过对大量的文本数据进行训练,来学习服务人类语言理解和生成的能力。
- 大模型是如何诞生的
(1)自然语言处理的局限
在人类语言的处理方面,不得不提的是 NLP。NLP 是一门融语言学、计算机科学、数学于一体的科学,是计算机科学领域与人工智能领域中的一个重要方向,主要研究能够实现人与计算机之间用自然语言进行有效通信的各种理论和方法,被称为'人工智能皇冠上的明珠'。NLP 与自动语音识别(Automatic Speech Recognition,ASR)、语音合成(Text-To-Speech,TTS)合称为语音交互领域的'三驾马车'。
人类语言的处理本质上是'序列处理',即当我们在理解一句话的意思时,孤立理解这句话的每个词是不够的,还需要处理这些词连接起来的整个序列,而且每往后处理一个 Token(可以理解为汉字或单词),都必须和前面已经处理过的所有 Token 关联起来进行分析和处理。
NLP 中有一个非常经典的模型,称为'循环神经网络(Recurrent Neural Network,RNN)',即通过循环的序列处理方式来实现人类语言处理。但这种方式存在两大缺陷:一是无法并行,一定程度上限制了处理的效率,从而影响所能处理的规模;二是如果序列太长会发生梯度消失或者梯度爆炸的问题,从而导致不能长期记忆(就像人一样,时间久了有些事情记不住),这就会在更大程度上影响所能处理的规模。
(2)Transformer 模型的出现
2017 年,谷歌发表了一篇题为 Attention is All You Need 的论文,文中提出的自注意力(Self-Attention)模式很好地解决了 NLP 中 RNN 序列处理的问题。其原理在于,利用张量计算序列中每一个 Token 与其他 Token 的紧密度关系,称之为'注意力指标'。该指标越高,说明关系越紧密,越发需要引起注意,并以此来预测和生成下一个 Token。这就是著名的 Transformer 模型。举例说明:
问:我们说爱因斯坦是个科学家,那么贝多芬是个______?答:音乐家。
在上述问题中,无疑最需要注意的词是'贝多芬',但是如果只注意'贝多芬'这个词,那么这道题回答为'男人'或者'外国人'也是正确的,但这肯定不是出题者希望得到的答案,因此前面'爱因斯坦'和'科学家'这两个词同样是需要注意的,即通过每个词之间的紧密度关系,预测和生成问题的答案。
Transformer 的自注意力机制使得每个 Token 都可以只计算自己的自注意力,而不需要关注其他 Token 的计算结果,因此它很好地解决了 RNN 无法并行计算的问题;同时也不会出现序列过长导致的梯度消失或梯度爆炸问题。
Transformer 的诞生很好地解决了 RNN 存在的限制处理规模的两个问题,从而为超大或巨大模型的处理创造了可能。
(3)大模型的诞生
此后,美国人工智能研究公司 OpenAI 开始了 Transformer 模型训练,即不断给模型灌输学习材料,持续进行模型调整。从 GPT-1 到 GPT-3 各个模型灌输的学习材料和对应的模型参数见表 1。
[表 1:GPT 系列模型参数与数据规模对比]
具体的训练方式实际上比较复杂,包括无监督学习、监督学习和强化学习三个阶段。
无监督学习: 把杂乱无序的信息如新闻、维基百科、帖子等各种人类语言资料都灌输给模型进行学习,旨在让模型掌握人类语言的规律。
监督学习: 提供经过人为规范了的标准语言范本并打上标签灌输给模型进行学习,旨在告诉模型什么样的回答方式是正确和规范的,以纠正大模型的一些问题,例如胡说八道(也称'机器幻觉')、回答问题不规范(只回答'是'或者'不是',而不进一步说明原因)、被诱导提供有害信息等。


