二、LLM 的未来
接下来讨论大模型是如何逐步进化的,以及目前的进展情况。
更高更快更强 - 规模化定律
首先要提到的是关于大模型效果的规模化定律(Scaling Law)。简单说就是大模型在预估下一个词这一任务上的效果只跟两个因子相关,并且与这两个因子存在着某种函数关系,这两个因子就是模型参数量和训练数据量。只要知道了这两个因子,就可以比较置信地预估出模型在预估下一个词这个任务上的效果。
就当前来讲,这一准则还没有显现出到顶的迹象,所以在更多的数据上训练更大的模型,仍然大概率会得到更好的模型(就预估下一个词这个任务而言)。所以模型、算法本身的进步显得并不是那么必要,只要有更好的计算机,更多的数据,更大的模型,训练更长的时间,就可以'毫不费力'地获得一个更好的模型。虽然在实践中,预估下一个词的准确性通常不是优先考虑的指标,但是从经验上看这一任务和许多我们关心的任务都有一定的关联性。
这就是目前为什么计算资源显得尤其重要的原因,因为计算资源保证了可以使用更多的数据来训练更大的模型,从而取得更好的效果。每个人都在争取更大的 GPU 集群和更多的数据,因为这些目前来看几乎保证了可以得到一个效果优异的模型。模型结构和算法上的进步也有很多人在投入其中,也取得了一些不错的成果,但从根本上来讲,规模化是提供了一条保证成功的道路。
个人认为规模化定律这一发现具有非凡的意义,不仅在于提供了一种获取更好模型的'捷径',更是在于如果将神经网络类比成人脑,目前大模型的参数量已经可以与人脑神经元比肩,并且在一些场景下也展现了非凡的能力。规模化定律也是指引了一条通向超越人类智能的一个方向。
向智人进化 - 学会使用工具
接下来是通过一个例子来演示一下语言模型的特性,以及它们是如何随着时间的推移而演进的。现在对 ChatGPT 输入如下信息:
收集关于 scale.ai 的相关信息,包括创立时间、规模、融资轮次和估值,将这些信息通过表格组织起来。
在微调阶段,ChatGPT 已经见过了很多类似的问题,因此它可以理解这个问题的具体需求。这类问题不能通过传统的语言模型(生成一个一个的字,从而组成一句话的形式)来解决,因为涉及到一些事实类的信息,需要依赖一些工具。首先一个工具是浏览器,就像我们遇到这类问题会首先想到去网上搜索一样。ChatGPT 理解这个问题,然后转向搜索引擎,搜索引擎会将搜索结果文本给回 ChatGPT,ChatGPT 就可以根据搜索结果生成如下的回复。
[图片:ChatGPT 生成的 Scale.ai 融资信息表格]
ChatGPT 将每一轮的融资和估值情况按照我们的需求列成了表格,并且每一轮的信息都给了引用的链接,表示这部分信息是从哪里获取的。最后一行那里写了【抱歉无法提供 A 轮和 B 轮的估值情况】,说明 ChatGPT 从搜索引擎没有找到对应的信息,所以上面表格右下角那里写了【Not Available】。
因为可以观察到 C/D/E 轮的估值和融资之间大概存在着某种比例关系,所以可以让 ChatGPT 大概猜测一下 A/B 轮的融资和估值。于是继续问:
根据 C、D、E 轮的融资/估值的比例关系,大概猜一下 A 轮和 B 轮的估值。
如果是人遇到这个问题,我们可能不会心算这个比例,因为心算这个数值的除法还是有点难的。同样这个运算对于 ChatGPT 来讲也是有点难的,所以 ChatGPT 也学会了使用计算器。计算器也是它可以使用的一项工具,于是就很容易推算出了如下结果。
[图片:ChatGPT 使用计算器推算出的估值结果]
ChatGPT 推算出了 A 轮和 B 轮的估值分别是 7000 万和 2.83 亿,对不对无所谓,反正是猜的。现在我想让这些数据以图表的形式呈现给我,于是提出如下要求:
请将这些数据组织成 2 维图表的形式。x 轴代表日期,y 轴代表 scale.ai 的估值,其中 y 轴的值进行对数缩放。搞一个好看又专业的图表给我,并且图表里要带网格线。
这里 ChatGPT 再次使用工具,调用了 Python 的 matplotlib 库来绘制出了下面这个二维图表:
import matplotlib.pyplot as plt
# 模拟绘图逻辑
plt.plot(date_list, valuation_list)
plt.yscale('log')
plt.grid(True)
plt.show()
[图片:ChatGPT 绘制的 Scale.ai 估值趋势图]
更进一步,我们可以要求模型对公司估值趋势进行预估:
基于上面的图表,请画出一条趋势线,一直延伸到 2025 年底。然后画一条代表今天这个时间的垂直线,根据绘制的趋势线,告诉我今天 scale.ai 的估值是多少。


