沈向洋:通用人工智能时代,关于大模型的 10 个思考
9 月 28 日,第四届'青年科学家 50²论坛'在南方科技大学举行,美国国家工程院外籍院士沈向洋做了《通用人工智能时代,我们应该怎样思考大模型》的主题演讲。以下是他对大模型的十个核心思考及深度解析。
一、算力是门槛
今天的通用人工智能、大模型、深度学习,最重要的一件事情是最近这些年整个人工智能算力整体的增长。过去 10 年,大模型用到算力的增长,一开始是每年六七倍的增长,后来每年超过 4 倍的增长。
如果有一件事情一年涨 4 倍,10 年会涨多少倍?我们学计算机的人都知道有一个东西叫'摩尔定律',每 18 个月左右算力增长一倍,英特尔这么多年就是这样发展起来的。为什么英伟达现在已经超越了英特尔?很重要的原因就是它的增长速度不一样。如果 18 个月涨一倍,10 年大概涨 100 倍;如果每年涨 4 倍,10 年就是 100 万倍,这个增长是非常惊人的。
今天讲算力、大模型这件事情,最重要的就是 (算力和数据) 扩展(Scaling Laws),算力越多,智能越增长,现在大家都还没有摸到天花板。其中很不幸的是,整个数据量大了以后,算力的增长还不是线性增长,算力的增长更加像是一个平方的增长。因为模型大了以后,要把模型训练出来,数据的量也要堆上去,所以相对来讲更加像是一个平方的增长。所以对算力的要求,过去 10 年非常巨大。今天要做人工智能大模型,讲卡伤感情、没卡没感情。
二、关于数据的数据
算力、算法和数据,是人工智能重要的三个因素。前面提到我们需要很多的数据才能训练通用人工智能。当 ChatGPT3 出来的时候,当时还只是在发表论文阶段,说需要 2 万亿的 Token 的数据量;到 GPT-4 出来的时候,大概是 12T 的数量;GPT-4 不断地训练,今天估计它已经超过 20T 的数量。
对人工智能关心的人都知道,这么长时间以来大家一直等待着 GPT5 出来,但是它一直迟迟没出来,如果有 GPT-5 出来,我个人判断可能会上到 200T 的数据量。回过头来问,互联网上没有那么多好的数据,等你清洗完以后,可能 20T 就差不多到顶了,所以未来要做 GPT-5,除了现有的数据,还要更多的多模态数据,甚至人工合成的数据。
很有意思的一件事,就像过去三四十年,大家把自己的信息放到网上分享,以前我们觉得是在给搜索引擎打工,现在更加了不起的是,我们三四十年的积累,就是为了 ChatGPT 这样一个时刻,它把所有的东西整合在一起,通过强大的算力,把这样一个人工智能模型学出来,就是发生了这样一件事情。
三、大模型的下一章
干到今天了,下一步应该怎么办?首先是语言模型。以 ChatGPT 为代表,它的底层技术是自然语言处理。今天大家正在干的是多模态模型,以 GPT-4 为代表,里面很多技术是计算机视觉。再向前走,就是要做具身智能。
具身智能的目的在哪里?实际上是我们要建一个世界模型,就算是多模态的,底层的物理模型也是没有的,所以要做这样一个世界模型。世界模型就是你不仅要读万卷书,还要行万里路,把世界上更多的知识再反馈回你的大脑里。所以应该做机器人。机器人里面有一个特别的赛道叫自动驾驶,自动驾驶是一个特别的机器人,只是它是在给定的路线上行驶。
要怎么做?有很多多模态的科研工作要做,我相信一个非常重要的方向是多模态的理解和生成的统一。就算 Sora 做出来,它也是分开的,多模的生成和多模的理解没有统一起来。这方面有很多科研的工作我们可以做。举一个例子,我的几个学生做了一家大模型公司阶跃星辰,他们多模态的理解做得非常优秀。如果拿一张图给人工智能看一看,为什么图中的行为被称为'无效技能',AI 给你解释是,这个图看起来好像是一个小朋友在地上打滚,但是他妈妈无动于衷,自己在看手机和喝饮料,所以小朋友这个技能就被称为无效技能。AI 现在对图的理解做得越来越好。
四、人工智能的范式转移
两个礼拜前,OpenAI 发布了最新一个模型就是 o1。前面我也提到 GPT 一直发展,到了 GPT4 以后,GPT5 一直出不来,大家就在想,如果只是大模型参数的增长,是不是走到顶了?没有人知道,现在它并没有放出来,我们国内也没有做出更加超大的模型。
但是现在一个新的维度出现了,不是做前面的预训练 (扩展),而是在做推理的时候再去做扩展。它是从原来的 GPT 这样一个思路,变成了今天的自主学习的道路,就是在推理这一步强化学习,不断地自我学习的过程。
以前我们做预训练,基本上就是预测下一个字是什么,下一个 token 是什么,现在新的思路是要打草稿,试试看这条路对不对,那条路对不对,就像人的大脑的思考,有一个快系统、一个慢系统,就像我们做数学题一样,先打个草稿,看看哪个路走得通,有一个思维链,再看优化思维链过程中的机会。到现在为止只有 OpenAI 把这样一个系统放出来,我也鼓励大家看看这里面的一些例子。
最重要的是,它整个过程非常像人类思考问题、分析问题,打草稿、验证、纠错、重新来,这个思路空间就会非常大。做这件事也需要非常多的算力才行。
五、大模型横扫千行百业
所有的公司都要面对大模型带来的机会,但是不需要每个公司都做通用的大模型,如果你连 1 万张卡没有,是没有做通用大模型的机会的,要做通用大模型,至少要有万卡。
比如说 GPT4 出来的时候,它的训练的总量是 2×10^25 FLOPS。这么大的训练量,1 万张 A100 卡也要跑一年时间才能跑到这个量,如果这个量都跑不到,就不存在做出真正的通用大模型。有了通用大模型,我们在这个基础上可以建自己的行业大模型,比如金融、保险,可能千卡就可以做得非常好,在上面做一些微调。对一个企业来讲,你有自己的数据,有内部数据、客户数据,把这些数据拿出来,几十张、上百张卡就可以做一个面向自己企业的非常好的模型。所以它是一层一层不断地搭起来的。


