大模型学习路径:AI 小白体系化认知指南
为什么要写这篇文章?
首先关注到了两个变化。从 ChatGPT 发布之后,网上突然出现很多和 AI、大模型有关的话题,几乎每个科技领域的创作者都会做几期与之有关的视频,生怕赶不上这波流量热点。
作为一家科技公司的一员,也能明显感受到公司内部对这个话题讨论氛围的变化。印象中从 2022 年 7 月,就开始组织和智算有关的培训,不过当时还不是举公司之力去推,而且分享的内容也比较技术,所以整体关注度不算太高。而在早些时候,某车企的案例突然被曝光,当时除了感叹项目金额之大以外,好像也没有意识到这个项目的价值以及为什么要花这么多钱。包括那一年的云栖大会,还专门有一个展台是设给智算的,参观的人也不算多,听了介绍之后,也还是对智算一知半解。
但从去年开始,身边的人都陆续开始学习大模型,能明显发现找我开通相关课程权限的同学变多了,这里不仅有销售同学,也有很多产研同学申请权限。再到前段时间参加了一个教授做的和大模型有关的分享,是在一个工作日下午,居然在现场遇到了很多销售线的同学,这跟过往对大家参加培训的积极性的认知很不一样,说明这个话题对当前一线销售来说绝对是顶流。
其次我有一个困惑,我是做销售培训运营的,其实觉得过往陆续也积累了很多和智算大模型相关的培训,毕竟在 ChatGPT 发布之前,组织上就已经开始重视这一块的培训,但最近还是会收到很多对组织此类培训的迫切需求,而且需求往往都非常集中:基础知识!!!这让我意识到,虽然大模型时代已来,我们在推在卖的也都是围绕大模型的产品,但对像之前不太了解 AI 的小白来说,理解智算和大模型这些偏技术化的东西就仍然会比较费劲;而且现在的培训还是比较分散的,大家都是站在自己的角度来介绍各自板块的内容,每块内容又讲得非常专业,这就导致每一个话题或产品单独理解起来都有难度,比如深度学习、神经网络、AGI、EFLOPS…这些专有名词到底是什么意思,彼此之间有什么样的关联关系,和我们又有什么关系?如果自己都还是一知半解,就很难建立起一个相对体系化的认知,更别说给客户去讲明白了。
所以想写一篇文章,把围绕大模型背后一个个点状的专有名词的来龙去脉,以及看到的比较好的培训分享给串一串,这样我们就可以在大模型方面建立起一个相对体系化的认知框架,当再出现一个新的概念或产品的时候,应该就比较好理解背后的含义。
我想从以下四个方面分别谈一谈我自己的理解:
- 从 ChatGPT 来理解什么是大模型以及支撑模型背后的算法、算力和数据;
- 云计算厂商和大模型之间的关系;
- 大模型对未来生活和就业的影响;
- 对未来的一些猜想,在新基建领域,大模型是不是可以变成一种核心生产力。
一、通过了解 ChatGPT 来理解什么是大模型
不得不说,是 2022 年底 ChatGPT 的发布让人工智能再次被得到广泛关注。ChatGPT 所有人都听过,最初只粗浅地知道它是一个对话工具,好像很厉害,对 GPT 的认知也以为只是一个简单的品牌代号,没去想会有啥意思。但当后来认真了解了 ChatGPT 每一个字母的详细释义之后,才发现原来人家取名并不是随便取的,在 GPT 命名的时候就已经告诉我们大模型的一些突出特点了。
ChatGPT:
- chat——会聊天的
- G——generative,生成式
- P——pre-trained,预训练
- T——transformer,新型神经网络
会聊天的这个特点很显而易见,说明他是一个对话机器人。而后面的三个字母分别代表了这个机器人背后使用的三种关键技术。
首先讲'生成式',顾名思义也很好理解,如果用过此类工具就知道它们的内容生成形式是一个字一个字吐出来的,不像以前用搜索,一股脑儿啪给你一段话或一堆信息。其实在这个吐字的过程中模型是在做逐字的推理:基于上下文,预测下一个可能的字的输出概率,而且通常会生成好几个可供选择的候选答案,最终只选择概率最高的那个输出给你。
举个例子就很好理解:生日蛋糕很——ChatGPT——甜(0.2)、香(0.18)、大(0.15),最后给到你也就是'生日蛋糕很甜'。这里面可以看出推理的关键就是机器在根据概率来做选择性的输出。
再来看什么是'预训练'。在理解预训练之前,有必要先理解什么是训练。开篇中对训练和推理的过程做了非常通俗的介绍,从讲师的释义看,模型训练的过程简化起来就是:给机器一堆的 x 和 y,通过一通操作,最终得出一个所谓最合适的 w 和 b 的过程,最终抽象成一个函数来表达。所谓推理就更好理解了,就是基于已知函数,输入 x 得到 y 的过程。
理解了训练,再理解预训练就比较容易了。预训练就是让机器自己学习大量的资料,学习的目标是如果让它参加高考,至少能考六七十分水平的过程。这里学的知识一般都是一些通用知识,比如 ChatGPT 学的内容就包括维基百科、图书、杂志期刊、链接(高浏览网络内容)、网页内容、GitHub 代码这些。通过学习,让 ChatGPT 这个机器开始了解人类世界。
如果再把过程简化一点,把模型的训练简单看做是一个输入输出过程的话,这个过程就是:通过一套程序,触发机器去'学习'这些知识,最后的输出是啥呢?我理解最后的输出就是一堆的函数集,以及函数背后的 w 和 b,而这个 w 和 b,就是所谓的参数。咱们都知道 Qwen7B、14B,GPT3 的参数规模是 175B,这些 xx B 就代表的是参数量,比如 GPT3 的 175B,就代表这个模型有 1750 亿个参数。如果按照上面的理解,就是这个模型有很多的函数集,有 1750 亿个 w 和 b。什么概念呢?据说下载一个 LLaMa2 的开源模型需要 140G 的内存空间。


