大模型入门基础:核心概念详解
大模型入门的基础概念与技术背景。内容涵盖 AI 发展历程、ChatGPT 引发的 AIGC 热潮、AGI 愿景及短期与长期的技术预期。重点解析了模型、大语言模型、自然语言处理、Token、词嵌入、预训练、微调、提示工程、RAG、知识库、智能体及 GPTs 等核心术语。文章阐述了大模型的涌现能力及其在对话、编程、推理等方面的应用,并探讨了技术未来的发展趋势,适合初学者建立系统的知识框架。

大模型入门的基础概念与技术背景。内容涵盖 AI 发展历程、ChatGPT 引发的 AIGC 热潮、AGI 愿景及短期与长期的技术预期。重点解析了模型、大语言模型、自然语言处理、Token、词嵌入、预训练、微调、提示工程、RAG、知识库、智能体及 GPTs 等核心术语。文章阐述了大模型的涌现能力及其在对话、编程、推理等方面的应用,并探讨了技术未来的发展趋势,适合初学者建立系统的知识框架。

2022 年末,ChatGPT 一经推出即火爆全球。作为一款自然语言处理(Natural Language Processing, NLP)大模型,ChatGPT 在意图理解和内容生成上表现出了令人惊叹的性能。
2023 年初,ChatGPT 的升级版 GPT-4 引入了对图片、语音的支持等多模态能力,多项考试分数已经超越了大部分人类。
2024 年初,OpenAI 发布文生视频大模型 Sora,在全球视频大模型领域取得里程碑式进展。
如果说 2016 年 AlphaGo 在围棋上战胜人类棋王是 AI 在专业领域战胜人类的起点,那么以 ChatGPT 为代表的大模型的发布,则标志着泛化能力更强、通用任务处理更出色的生成式人工智能(AIGC: Artificial Intelligence Generated Content)的奇点来临。
随着技术的进步,全球人工智能市场正在经历爆发式增长。根据多家权威机构预测,到 2030 年,全球 AI 市场规模有望突破 1 万亿美元。这一趋势不仅体现在技术投资上,更体现在各行各业对 AI 技术的深度整合中。
通用人工智能(AGI: Artificial General Intelligence)一直是 AI 领域的终极目标。大模型的出现让 AGI 的实现看到了新的曙光。虽然目前我们仍处于狭义人工智能阶段,但大模型的泛化能力正在逐步缩小与人类智能的差距。
2023 年大众对 AI 的看法: 这是啥 -> 好像也没那么厉害 -> 和我没太大关系。
短期: AGI 并没有马上催生出大量'明星 APP'和'变现机器'。只有 ChatGPT、Character.ai 等少数 App 实现了用户突破。大量上层应用 APP 就像韭菜一样:不仅昙花一现,迅速被 OpenAI 官方所取代,而且还无法做到成本打平。于是,投资人极端谨慎,公众也渐渐对于 AI 麻木。
长期: 技术的稳定的、加速度的迭代。2023 年 3 月预测的众多技术到现在都有了长足进步:视频生成、音频生成、代理 Agent、记忆能力、模型小型化……它们距离商用可能还有各种各样的问题,但捅破这层窗户纸只是时间问题。
人间一日,AI 十年,技术加速迭代已是常态。大模型技术浪潮是我们切身经历的这个时代最显著的技术变革,目前还没有看到阻止 AGI 出现的硬性限制,且我们距离 AGI 只有几年距离,各位实施线同事要饱含热情投入进来。
认知智能是智能的终极体现,人机同频的交流是智能被实现的象征。无论一个人工智能算法有多强大的能力,只要它不能普适性地理解人类、不能让人类理解、不能与人类顺畅交流,它终归是无法融入人类和商业社会的(残酷的是,一个真人也是一样)。人工智能的终极评判标准,就是人机同频交流。
在'人机同频交流'的大目标下,自然语言处理这一领域的关键性不言而喻。人类 90% 的信息获取与交流都依赖于语言,人类所有的逻辑、情感、知识、智慧、甚至社会的构建、文明的传承依赖于对语言的理解和表达。因此,计算机想要具备'看人类所看,想人类所想,与人类同频'的能力,就必须理解人类所使用的自然语言。而自然语言处理(Natural Language Process)正是研究如何让计算机认知人类语言、理解人类语言、生成人类语言、甚至依赖这些语言与人进行交流、完成特定语言任务的关键学科。毫不夸张的说,人工智能能否真正'智能',很大程度上都依赖于自然语言处理领域的发展。也正因如此,ChatGPT 在人类语言领域的成功,很大程度上给出了通向通用人工智能的希望。
从表面上看,大语言模型的核心任务确实是预测文本序列中的下一个 token。然而,这种看似简单的机制通过海量数据的训练和巨大的参数量,涌现出了复杂的推理和理解能力。
通常来说,大语言模型的原始训练目标都是为了生成自然、连贯的文本,这也就是为什么 GPT-3 模型最早是被用来编写新闻稿件、写小说、编写产品介绍文案、诗歌等。由于模型本身接受了大量的文本进行预训练,因此根据提示补全和创造文本可以看成是模型的原生技能。
不过,仅仅能进行文本创造,并不足以让大语言模型掀起新的一轮技术革命。人们真正看好大语言模型技术的根本在于当模型足够大(参数足够大 & 训练数据足够多)时模型展示出了'涌现能力'。 所谓涌现能力(Emergent Capabilities),指的是模型在没有针对特定任务进行训练的情况下,仍然能够在合理提示下处理这些任务的能力;有时也可以将涌现能力理解为模型潜力。巨大的技术潜力,才是 LLM 爆火的根本原因。
在人工智能(AI)领域,一个'模型'通常是指一个用于对现实世界数据进行理解、预测和解决问题的算法框架。模型可以是一个数学公式,也可以是一个复杂的神经网络。AI 模型基于数据学习,其目的是从提供的训练数据中检测出模式和关系,然后在新数据上应用这些学习到的规则来做出决策或推断。AI 模型的类型包括决策树、支持向量机、神经网络等,具体取决于所要解决的问题和所使用的技术或方法。
语言模型是一种函数,或者是一种用于学习这种函数的算法,它可以捕捉自然语言中单词序列分布的显著统计特征,通常允许人们根据前面的单词对下一个单词做出概率预测。
大语言模型(LLM),也是一种神经网络模型,通常是具有大规模参数和计算能力。例如 GPT 由 128 层网络和 1750 亿参数组成,并使用 45TB 数据进行训练。其核心架构通常基于 Transformer 结构,利用自注意力机制(Self-Attention)来处理长距离依赖关系。
大语言模型不是一蹴而就的,是经过了漫长的发展历史,大语言模型是自然语言处理领域的重要成果。自然语言处理是人工智能 (AI) 的一个分支,专注于计算机与自然语言之间的交互。
自然语言处理(NLP)的发展历程可分为早期、中期以及现代(后期)三个阶段:
人类的语言是由文字构成,语言的含义也是由单词构成的,即单词是含义的最小单位。因此,为了让计算机理解自然语言,寻找数字表示的方法是第一步。Token 是文本处理的基本单元,它可以是一个单词、一部分单词、甚至是一个字符。在大模型中,输入文本会被分词器(Tokenizer)转换为 Token ID 序列,模型在此基础上进行计算。常见的分词策略包括 WordPiece、BPE(Byte Pair Encoding)等,旨在平衡词汇表大小和覆盖度。
自然语言是用来表达人脑思维的复杂系统。在这个系统中,词是意义的基本单元。顾名思义,词向量是用于表示单词意义的向量,并且还可以被认为是单词的特征向量或表示。将单词映射到实向量的技术称为词嵌入。
词嵌入的核心思想是将语义相似的词在向量空间中距离拉近。例如,'国王'和'王后'的向量距离应该比'国王'和'苹果'的距离更近。这使得计算机能够理解词语之间的语义关系,如类比推理(国王 - 男人 + 女人 = 王后)。
在大型语言模型(LLM)的场景中,预训练是使用大规模文本语料库来学习语法结构、单词上下文和语言模式的一种方法。预训练过程主要包括以下步骤:
预训练赋予了模型通用的语言理解能力,使其成为一个强大的基座。
感性理解: 大模型微调指的是'喂'给模型更多信息,对模型的特定功能进行'调教',即通过输入特定领域的数据集,让其学习这个领域的知识,从而让大模型能够更好地完成特定领域的 NLP 任务,例如情感分析、命名实体识别、文本分类、对话聊天等。
从模型本身角度而言: 微调阶段相当于是进一步进行训练,该过程会修改模型参数,并最终使模型'记住'了这些额外信息;让大模型永久记住信息的唯一方法就是修改参数。
有监督微调(SFT): Supervised Fine-Tuning,简称 SFT。数据标注:高质量的有标签数据集在微调过程中必不可少,数据标注工作则是用于创建这些有标签的数据集。伴随着大模型发展,人们也在尝试使用大模型来完成很多数据标注工作。
除了 SFT,还有无监督微调、强化学习人类反馈(RLHF)等方法,用于进一步优化模型的对齐性和安全性。
在人工智能和自然语言处理领域,特别是在使用大型语言模型(如 GPT 系列)时,Prompt 是指输入给模型的文本,用于引导模型生成特定的输出。Prompt 可以是一个简单的问题、一段描述或是一段指令,它告诉模型应该做什么以及如何生成所需的输出。也就是说,Prompt 是与大模型对话的语言,是大模型应用的核心。
优秀的提示工程(Prompt Engineering)可以通过设计合理的指令、上下文示例(Few-Shot)和思维链(Chain of Thought)来显著提升模型的回答质量,而无需重新训练模型。
检索增强生成(Retrieval-Augmented Generation,简称 RAG)是一种人工智能技术,该技术通过检索信息库中的相关事实,以提高大型语言模型(LLMs)的准确性和可靠性。RAG 结构是由 Facebook AI 于 2020 年提出的,旨在改善机器理解和生成自然语言的能力。
RAG 是一种结构或设计方法,结合了信息检索技术和文本生成模型。在 LLM 本就强大的功能基础上,RAG 将其扩展为能访问特定领域或组织的内部知识库,所有这些都无需重新训练模型。这是一种经济高效地改进 LLM 输出的方法,特别适用于解决大模型幻觉问题和知识时效性问题。
基于 RAG(Retrieval-Augmented Generation)的知识库是一种结合了信息检索(Retrieval)和生成模型(Generation)能力的人工智能系统。这种系统旨在通过检索相关信息丰富其回答,同时利用生成模型按照检索到的信息自动生成文本回答或解决方案。
构建高质量的知识库需要做好文档清洗、切片(Chunking)、向量化(Embedding)和索引存储等工作,确保检索到的片段准确且完整。
Agent:AI Agent 本质上是一个基于大语言模型的智能应用,也就是说 Agent 是大模型的上层应用。所谓 Agent(代理人),指的是这个应用不仅仅停留在聊天对话的层面,更能接入外部工具帮你直接完成一些事项。
Agent 通常包含规划(Planning)、记忆(Memory)、工具使用(Tool Use)等模块,能够自主分解任务并调用 API 完成闭环操作。
GPTs 是 OpenAI 开发的一个工具,无需任何编程知识,通过简单聊天的交互方式就能创建数学、论文、创意设计等不同任务的专属 GPT。是一种让使用者将指令、额外知识和任何技能组合搭配起来 AI 助理的工具。从某种程度来说,也是智能体(Agent)的代名词。可以上架至 GPT Store。
GPT Store 是由 OpenAI 推出的一个平台,在这个平台上,开发者和社区可以创建、分享以及发现各种基于 GPT 的应用。在 GPTs 商店中提供搜索及分类排行榜,能为制作者提供收益,鼓励用户制作与分享工具。截止到 2024 年 3 月 10 日,GPTs 的创建数量已经超过 400 万。
大模型技术正处于快速发展期,从基础的文本生成到多模态理解,再到智能体自主行动,技术边界不断拓展。对于开发者而言,掌握核心概念如 Token、Embedding、Pre-training、Fine-tuning、RAG 等是构建应用的基础。未来,随着算力成本的降低和模型效率的提升,大模型将更加普及,深入各行各业。建议从业者保持学习,关注技术动态,积极实践,将理论转化为实际生产力。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online