一、认识大模型
1.1 从人工智能到大模型的演变
人工智能按照技术实现的不同可被划分为多个子领域,各个子领域之间往往相互关联和影响。大模型是人工智能领域的一个重要里程碑,它推动了人工智能技术的发展,并为人类的未来带来新的可能性。
1、机器学习
机器学习 (Machine Learning, ML) 是一门研究计算机如何在没有明确编程的情况下,通过对数据进行分析、学习,自动改进其行为或做出预测的学科。关键概念包括监督学习、无监督学习和强化学习。
机器学习旨在使计算机系统具备从经验中学习的能力,以适应新情况、解决问题或完成特定任务。以教一个孩子区分不同的水果为例:
- 监督学习:你拿着一个苹果和一个香蕉,告诉孩子:'这是苹果,它的形状是圆的,颜色通常是红色或绿色;这是香蕉,它的形状是长条形,颜色通常是黄色。'孩子会学习到特征与类别的对应关系。监督学习需要在机器进行学习时人为提供数据对象的类别。
- 无监督学习:你让孩子观察一堆水果,没有直接告诉他每一个水果的名称。无监督学习一般没有预设的类别标识,通过机器自动学习数据的分布并将相似的数据对象归为同类。
- 强化学习:你不会直接教孩子苹果和香蕉的区别,而是每次展示一个水果让他进行判断。如果他判断正确,就给他一个奖励;如果判断错误,则不给奖励。这种学习过程中的关键在于孩子需要在探索新的判断方法和利用已有经验之间找到平衡,以最大化获得奖励的次数。
2、深度学习
深度学习是机器学习的一个分支,主要使用神经网络模型(由多个隐藏层组成)对数据进行学习和表示。深度学习算法试图模拟人类大脑的工作方式,其灵感来源于神经生物学,它通过对大量数据的学习,自动提取出数据的高层次特征和模式,从而实现图像识别、语音识别、自然语言处理等任务。按照架构的不同,神经网络可以分为:卷积神经网络 (CNNs)、循环神经网络 (RNNs)、Transformer 网络等等。关键概念包括神经网络、CNNs、RNNs、Transformer。
同样是区分不同水果,这次你带着孩子去了超市,那里有各种不同的水果。你没有解释每种水果的特点,只是给孩子指出了哪些是苹果哪些是香蕉,他通过观察和比较,慢慢学会了辨认各种水果。在这个过程中,孩子的大脑(在这里比喻为深度学习模型)自动从复杂的视觉、嗅觉等信号中提取层次化的特征,比如圆形、条纹、颜色深浅、气味等,从而达到识别水果的目的。
3、生成式人工智能
生成式人工智能 (Generative AI) 是深度学习中快速增长的子集,2023 年热门模型和应用 ChatGPT、Stable Diffusion 等都属于生成式人工智能领域,它们使用了大模型提供支持,在大量原始、未标记的数据基础上对深度学习模型进行预训练,使得机器能够'理解'语言甚至图像,并能够根据需要自动生成内容。
1.2 大模型,它来了!
2021 年,斯坦福大学的研究员团队发表了一篇论文,提出了 Foundational Models(基础模型,即大模型)的概念。简单来说,它是一类具有大量参数(通常在十亿以上),能在极为广泛的数据上进行训练,并适用于多种任务和应用的预训练深度学习模型。
大模型通过广泛数据集的训练后,可以适用于多种多样的需求。2022 年 11 月,OpenAI 公司发布了 ChatGPT——一种先进的人工智能语言模型,专为对话交互而设计,具有强大的自然语言理解和生成能力,可以完成撰写论文、邮件、脚本、文案、翻译、代码等任务。ChatGPT 的发布标志着 AI 大模型在语言理解与生成能力上的重大突破,对全球 AI 产业产生了深远影响,开启了人工智能大模型应用的新篇章。
大模型是如何通过训练得到的,整体分为三个阶段:预训练、SFT(监督微调)以及 RLHF(基于人类反馈的强化学习)。
1、预训练
预训练(Pre-training)的过程类似于从婴儿成长为中学生的阶段,在这个阶段我们会学习各种各样的知识,我们的语言习惯、知识体系等重要部分都会形成;对于大模型来说,在这个阶段它会学习各种不同种类的语料,学习到语言的统计规律和一般知识。但是大模型在这个阶段只是学会了补全句子,却没有学会怎么样去领会人类的意图。假设我们向预训练的模型提问:'埃菲尔铁塔在哪个国家?'模型有可能不会回答'法国',而是根据它看到过的语料进行输出:'东方明珠在哪个城市?'这显然不是一个好的答案,因此我们需要让它能够去遵循人类的指示进行回答,这个步骤就是 SFT(监督微调)。
2、监督微调
监督微调(SFT, Supervised Fine Tuning)的过程类似于从中学生成长为大学生的阶段,在这个阶段我们会学习到专业知识,比如金融、法律等领域,我们的头脑会更专注于特定领域。对于大模型来说,在这个阶段它可以学习各种人类的对话语料,甚至是非常专业的垂直领域知识,在监督微调过程之后,它可以按照人类的意图去回答专业领域的问题。这时候我们向经过 SFT 的模型提问:'埃菲尔铁塔在哪个国家?'模型大概率会回答'法国',而不是去补全后边的句子。这时候的模型已经可以按照人类的意图去完成基本的对话功能了,但是模型的回答有时候可能并不符合人类的偏好,它可能会输出一些涉黄、涉政、涉暴或者种族歧视等言论,这时候我们就需要对模型进行 RLHF(基于人类反馈的强化学习)。
3、基于人类反馈的强化学习
基于人类反馈的强化学习(RLHF, Reinforcement Learning from Human Feedback)的过程类似于从大学生步入职场的阶段,在这个阶段我们会开始进行工作,但是我们的工作可能会受到领导和客户的表扬,也有可能会受到批评,我们会根据反馈调整自己的工作方法,争取在职场获得更多的正面反馈。对于大模型来说,在这个阶段它会针对同一问题进行多次回答,人类会对这些回答打分,大模型会在此阶段学习到如何输出分数最高的回答,使得回答更符合人类的偏好。


