大模型与 AIGC 概述及基础知识
大模型(LLMs)的定义、特性及发展历史,涵盖从神经网络到大模型的演进。详细阐述了 GPT 工作原理、ChatGPT 构建流程(预训练、微调、奖励建模、强化学习)及 Token 概念。同时解析了 AIGC 的概念、特点及其与大模型的协同关系,并列举了国内外典型代表模型及应用场景。

大模型(LLMs)的定义、特性及发展历史,涵盖从神经网络到大模型的演进。详细阐述了 GPT 工作原理、ChatGPT 构建流程(预训练、微调、奖励建模、强化学习)及 Token 概念。同时解析了 AIGC 的概念、特点及其与大模型的协同关系,并列举了国内外典型代表模型及应用场景。

起源:大语言模型(Large language Models,LLMs),围绕自然语言处理任务而创建的一系列模型。
发展:基础模型(Foundation Models),可以处理多模态数据,不局限于自然语言。
下图粗略地概括了人工智能、机器学习、深度学习、大模型之间的关系。

定义 1:是一种由包含数百亿以上参数的深度神经网络构建的语言模型,通常使用自监督学习方法,通过大量无标注文本进行训练。—出自书籍《大规模语言模型从理论到实践》
定义 2:任意的在大规模数据上训练并且可以适配(例如微调)广泛下游任务的模型。—出自论文《On the Opportunities and Risks of Foundation Models》
自监督学习是一种机器学习范式,它不依赖人工标注的数据,而是通过数据自身提供的内在结构或隐藏信息来生成监督信号,从而进行模型训练。它可以被看作是一种特殊的无监督学习,因为它不需要人工标签,但它的训练方式类似于监督学习。
无标注文本(Unlabeled Text)指的是没有附加人工标注信息的文本数据,通常只是原始的自然语言数据,不包含类别标签、情感评分、实体标注等额外信息。
无标注文本在**自然语言处理(NLP)任务中被广泛使用,尤其在自监督学习(Self-Supervised Learning)和无监督学习(Unsupervised Learning)**中,它们用于预训练语言模型,帮助模型学习语言结构和语义信息,而无需人工标注数据。

来自复旦大学张奇等人编写书籍《大规模语言模型从理论到实践》
让人们看到了通用人工智能乃至强人工智能的希望
➢ 功能极其强大,(ChatGPT)远超同期其他模型
➢ 可以完成跨领域、跨模态任务
在 ChatGPT 之前,还没有大模型能通过图灵测试。它不仅可以进行日常对话,还能够完成复杂任务,如撰写文章、回答问题等。令人惊讶的是,所有这些任务 都由一个模型完成。在许多任务上,ChatGPT 的性能甚至超过了针对单一任务进行训练的有监督算法。这对于 人工智能领 域具有重大意义。
注:什么是图灵测试?
在对话框中提出你的需求即可,ChatGPT 活跃用户数一个月内就破亿。

GPT 是英文'Generative Pre-trained Transformer'的缩写,它的中文全称是生成式预训练变换器,是一种生成式模型。
模型输入:我们
模型输出:发明了一个新的和简单的模型

文本生成的过程本质就是单字接龙。
那么单字接龙为什么可以产生这么大的威力?
ChatGPT 构建主要包含四个阶段:预训练、有监督微调、奖励建模、强化学习。这四个阶段都需要不同规模 数据集合 以及不同类型的 算法 ,会产出不同类型的 模型 ,同时所需要的 计算资源 也有非常大的差别。

通过上图,我们也较容易归纳出'人工智能发展的三大因素:数据(上图中的数据集合)、算法(上图中的算法)和算力(上图中的资源需求)'。上图中还有一个内容'模型',它其实是数据集合与算法的产物。
上图中相关专业术语解释:

自监督预训练,英文全称'Unsupervised pre-training"
核心思路:利用前 k 个词(token)预测第 k+1 个词。
设有语料 𝑈={𝑢1,…,𝑢𝑛},其中 𝑢𝑖表示语料中的第 i个词(token)。
预训练的目标是最大化以下 对数似然函数:

其中,P(ui∣ui−k,...,ui−1;θ)表示在给定前 k 个词 ui−k,...,ui−1 的条件下,模型预测下一个词是 ui的概率。𝜃表 示模型中的可变参数。
概括性地说,上述内容描述一种通过利用前 k 个词来预测下一个词的语言模型预训练方法,并通过最大化对数似然函数来优化模型参数。

海量训练数据包括互联网网页、维基百科、书籍、GitHub、论文、问答网站等,构建包含数千亿甚至数万亿单词 的具有多样性的内容。
基础大模型构建了 长文本建模能力,隐含的构建了包括 事实性知识 和 常识知识 在内的 世界知识,根据输入的提示 词(Prompt),模型可以 生成文本补全句子。

有监督微调/指令微调。英文全称 Supervised Fine-tuning / Instruction Tuning。
有监督微调(Supervised Fine-tuning,SFT)也称为指令微调(Instruction Tuning),在阶段一的模型上继续训练。训练数据为高质量数据集合,包含用户输入的提示词(Prompt)和对应的理想输出结果。用户输入包括问题、闲聊对话、任务指令等多种形式和任务。

提示词(Prompt):复旦大学有几个校区?
理想输出:复旦大学现有 4 个校区,分别是邯郸校区、新江湾校区、枫林校区和张江校区。其中邯郸校区是复旦大学的主校区,邯郸校区与新江湾校区都位于杨浦区,枫林校区位于徐汇区,张江校区位于浦东新区。

经过微调后的有监督微调(SFT)模型具备了初步的指令和上下文理解能力,能够完成开放领域问题、阅读理解、翻译、生成代码等能力,也具备了一定的对未知任务的泛化能力。
奖励建模,英文全称'Reward Modeling'。
奖励建模(Reward Modeling)阶段的目标是构建一个文本质量评估模型。
奖励建模(Reward Modeling)用来对 SFT 模型的输出文本进行质量评估。
为训练得到奖励模型,须人工标注百万量级的样本库,奖励模型的训练过程独立于 GPT 模型。
奖励建模(Reward Modeling)阶段的目标是构建一个文本质量评估模型。
把同一个提示词多次传入 SFT 模型,会得到多个不同输出结果,奖励模型可以对这些结果的质量进行排序。

强化学习。英文全称是'Reinforcement Learning'。
强化学习(Reinforcement Learning)阶段是对指令微调(SFT)模型的进一步训练。
根据数十万用户给出的提示词,SFT 模型生成相应输出,然后再利用奖励模型(RM)对这些输出进行质量评估。结合评估结果再对 SFT 模型 进一步调整,最终得到 ChatGPT。


在模型中被处理的数据单元并不是单词/词语,而是 token。
token 是文本处理过程中的基本单元,通常是指一个单词、标点符号或者是由空格分隔的文本片段。
token 是大模型世界中的'单词',所有文本都可以由 token 组合而来。

英文语料中 1 个 token 约有 4 个英文字母,100 个 token 约等于 75 个单词的长度(平均起来大概 5.3 个英文字母对应一个英文单词)。
中文里 1 个 token 绝大部分情况对应 1~2 个字,1 个字居多。
大模型的 token 字典一般跨语种,字典中 token 数量为十万量级。
token 从海量语料中统计而来,有不同的统计方法,其一般由高频词和低频词的子词组成。
token 要保留原始文本中单词间的语义关系。
尽可能避免出现未登录词(即不在训练数据中的词。英文全称 Out-Of-Vocabulary,简称 OOV),但字典又不能太大。
AIGC(Artificial Intelligence Generated Content)是指利用人工智能技术来生成全新的、逼真的、有用的数据,如 文本、图像、音频和视频等,可以在一定程度上模仿人类的创造力和写作风格。
在此之前的内容生成方式主要为:



'2023 年中国 AIGC 产业图谱'即下图,由艾瑞咨询整理,发布于 2023 年 8 月。


微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML 转 Markdown 互为补充。 在线工具,Markdown 转 HTML在线工具,online