1. 背景介绍
1.1 奇点到来:ChatGPT 引爆 AIGC
2022 年末,ChatGPT 一经推出即火爆全球。作为一款自然语言处理(Natural Language Processing, NLP)大模型,ChatGPT 在意图理解和内容生成上表现出了令人惊叹的性能。
2023 年初,ChatGPT 的升级版 GPT-4 引入了对图片、语音的支持等多模态能力,多项考试分数已经超越了大部分人类。
2024 年初,OpenAI 发布文生视频大模型 Sora,在全球视频大模型领域取得里程碑式进展。
如果说 2016 年 AlphaGo 在围棋上战胜人类棋王是 AI 在专业领域战胜人类的起点,那么以 ChatGPT 为代表的大模型的发布,则标志着泛化能力更强、通用任务处理更出色的生成式人工智能(AIGC: Artificial Intelligence Generated Content)的奇点来临。
1.2 全球热潮:全球 AI 市场预计将于 2030 年达到 1 万亿美元
随着技术的进步,全球人工智能市场正在经历爆发式增长。根据多家权威机构预测,到 2030 年,全球 AI 市场规模有望突破 1 万亿美元。这一趋势不仅体现在技术投资上,更体现在各行各业对 AI 技术的深度整合中。
1.3 AGI 看到希望
通用人工智能(AGI: Artificial General Intelligence)一直是 AI 领域的终极目标。大模型的出现让 AGI 的实现看到了新的曙光。虽然目前我们仍处于狭义人工智能阶段,但大模型的泛化能力正在逐步缩小与人类智能的差距。
1.4 高估的短期与低估的长期
2023 年大众对 AI 的看法: 这是啥 -> 好像也没那么厉害 -> 和我没太大关系。
短期: AGI 并没有马上催生出大量'明星 APP'和'变现机器'。只有 ChatGPT、Character.ai 等少数 App 实现了用户突破。大量上层应用 APP 就像韭菜一样:不仅昙花一现,迅速被 OpenAI 官方所取代,而且还无法做到成本打平。于是,投资人极端谨慎,公众也渐渐对于 AI 麻木。
长期: 技术的稳定的、加速度的迭代。2023 年 3 月预测的众多技术到现在都有了长足进步:视频生成、音频生成、代理 Agent、记忆能力、模型小型化……它们距离商用可能还有各种各样的问题,但捅破这层窗户纸只是时间问题。
人间一日,AI 十年,技术加速迭代已是常态。大模型技术浪潮是我们切身经历的这个时代最显著的技术变革,目前还没有看到阻止 AGI 出现的硬性限制,且我们距离 AGI 只有几年距离,各位实施线同事要饱含热情投入进来。
1.5 为什么大语言模型开启了迈向通用人工智能之路?
认知智能是智能的终极体现,人机同频的交流是智能被实现的象征。无论一个人工智能算法有多强大的能力,只要它不能普适性地理解人类、不能让人类理解、不能与人类顺畅交流,它终归是无法融入人类和商业社会的(残酷的是,一个真人也是一样)。人工智能的终极评判标准,就是人机同频交流。
在'人机同频交流'的大目标下,自然语言处理这一领域的关键性不言而喻。人类 90% 的信息获取与交流都依赖于语言,人类所有的逻辑、情感、知识、智慧、甚至社会的构建、文明的传承依赖于对语言的理解和表达。因此,计算机想要具备'看人类所看,想人类所想,与人类同频'的能力,就必须理解人类所使用的自然语言。而自然语言处理(Natural Language Process)正是研究如何让计算机认知人类语言、理解人类语言、生成人类语言、甚至依赖这些语言与人进行交流、完成特定语言任务的关键学科。毫不夸张的说,人工智能能否真正'智能',很大程度上都依赖于自然语言处理领域的发展。也正因如此,ChatGPT 在人类语言领域的成功,很大程度上给出了通向通用人工智能的希望。
1.6 只是预测下一个'词'而已?
从表面上看,大语言模型的核心任务确实是预测文本序列中的下一个 token。然而,这种看似简单的机制通过海量数据的训练和巨大的参数量,涌现出了复杂的推理和理解能力。
1.7 引爆新一轮技术革命的真实原因:涌现能力
1)大语言模型的训练目标是什么?
通常来说,大语言模型的原始训练目标都是为了生成自然、连贯的文本,这也就是为什么 GPT-3 模型最早是被用来编写新闻稿件、写小说、编写产品介绍文案、诗歌等。由于模型本身接受了大量的文本进行预训练,因此根据提示补全和创造文本可以看成是模型的原生技能。
2)引爆新一轮技术革命的真实原因:大语言模型的涌现能力
不过,仅仅能进行文本创造,并不足以让大语言模型掀起新的一轮技术革命。人们真正看好大语言模型技术的根本在于当模型足够大(参数足够大 & 训练数据足够多)时模型展示出了'涌现能力'。 所谓涌现能力(Emergent Capabilities),指的是模型在没有针对特定任务进行训练的情况下,仍然能够在合理提示下处理这些任务的能力;有时也可以将涌现能力理解为模型潜力。巨大的技术潜力,才是 LLM 爆火的根本原因。


