AI 大语言模型进入爆发阶段
2022 年 12 月 ChatGPT 突然爆火,原因是其表现出来的智能化已经远远突破了我们的常规认知。虽然其呈现在使用者面前仅仅只是一个简单的对话问答形式,但是它的内容化水平非常强大,甚至在某些方面已经超过人类了,这是人工智能板块的重大突破。
近半年来,整个行业都在致力于研发和应用大型模型。这涉及到算力的提升、大型模型算法的优化以及相关语料和数据的准备。行业对此非常关注,各个参与者都铆足干劲,特别是一些大型企业纷纷下水,担心被 AI 浪潮拍在沙滩上。
在这张图中,我们可以看到一些主要的玩家,比如 Meta(即 Facebook)、OpenAI 和谷歌,以及国内的华为、阿里巴巴和百度。尤其是在大型模型领域,它们都在做相应的投入和研发。最近,有一个名为 Stable Diffusion 的技术非常令人震撼。它可以让你无限地放大和缩小一张图片,甚至将其放大到地球的大小,这对整个行业都是一个巨大的挑战。

另外值得一提的是 Meta,两年前,Facebook 将其名称改为 Meta,并宣布将全力发展元宇宙。但是为什么元宇宙还没有崛起呢?因为元宇宙需要人们用工具去创造其中的 3D 内容。但是现在,如果将 Stable Diffusion 技术与元宇宙技术结合起来,所有的场景都不需要手动创造了。这是非常令人震撼的,也可能会推动元宇宙的爆发。因为在这之前,元宇宙最大的瓶颈就是内容。如果人工智能能够与之很好地结合并生成内容,对元宇宙的推动将是非常巨大的。所以,我们可以无限地想象这个技术将如何改变我们的生活。
什么是大语言模型?
大语言模型是 AI 中的一个重要组成部分,它主要用于生成内容。我们可以通过这个模型给定一段文字,然后生成相应的文字、图片或图生图,以及将文字转换为声音或视频等等。这个模型的架构被称为 Transformer,它是一种深层次的生成式模型。在卷积神经网络中,有许多层和参数,通过降维计算和权重来生成每个节点的可能性。虽然理解这个模型可能对于数学不太好的人来说有些复杂,但我们可以大致了解它的工作原理、功能和优势,以便在后续的应用开发中打下基础。
总结下来大模型其实就是三块大的能力:自然语言理解与生成,推理能力以及通识能力。
首先最重要的是自然语言的理解能力。在过去,我们经常进行各种搜索,包括在电商网站上进行搜索。当你在输入框中输入想要购买的物品,比如电脑,系统会给你返回一大堆相关的结果。这种搜索的本质是什么呢?其实它是通过给每个商品打上标签的方式进行的,比如只要是电脑,系统就会给它打上电脑的标签。当你输入电脑时,系统会命中所有带有电脑标签的商品,然后给你返回搜索结果。所以从本质上说,这种搜索是基于你的输入进行分词和命中,而没有理解你的意图。
但现在,自然语言理解的技术已经得到了很大的进步,在搜索层面上可以实现更多的功能。我们可能都尝试过 ChatGPT、文心一言等等,当你输入一段话时,它会给你返回一系列相关的信息。这是因为它真正地理解了你的语言含义,理解了你的意图,然后才进行相应的操作。所以在搜索方面,实现这种真正的理解并提供相关结果是可能的。
比如你要去购买电脑,你可以对着 AI 输入'我是一个程序员,平时主要用来写 Python 程序,现在要购买一台 1 万元左右的电脑',这是会自动给你推荐符合的商品,这就是体验方式的不一样。这个模型他理解了你的需求,然后再去完成特定的任务。
第二个很重要的是推理能力。同样是上文买电脑的例子,我只是描述了我的职业属性以及使用需求,而大语言模型会根据我提供的信息来推理出我需要购买电脑或者电脑的配件。这是它在基于我的语言理解去做的推理。
很典型的一个例子是 ChatGPT-4 发布时的一个举例,将一个有气球的图片传给 ChatGPT,这时候你问 ChatGPT:'如果我把气球的绳子剪断会怎样?'回答是'气球会飞走'。

对于人类来说,这些回答很正常,但对于机器来说却是令人震撼的,这意味着 AI 已经能够理解物理世界的一些现象。
例如,当给 AI 展示一张烧红的铁的图片,并问它如果用手去碰会怎样,它能回答'你要当心受伤'。这个回答展示了 AI 的通识能力,它知道烧红的铁温度很高,然后进行推理得出碰到它会受伤的结论,并知道人的手不能碰高温物体。这些都属于通识知识,对我们来说很基本。但在这个大型模型出现之前,这个问题一直困扰着科学界很长时间,即使像 AlphaGo 这样的强大 AI 也不知道烧红的铁不能用手碰。
大语言模型的核心要素
算法和模型是区分大语言模型研发的核心要素。算法和模型影响的模型丰富度、模型准确性、能力涌现等都成为评价大语言模型优劣的核心指标。
目前 LLM 市场有三大方向,分别是 OpenAI、Google 和 Meta。



