LLM、GPT、AIGC、AI Agent、Agentic AI 技术解析
前言
2024 年可谓是 AI 大模型全面开花的一年,各大厂纷纷发布了自己的大模型应用产品。随着技术的快速迭代,人工智能已不再局限于实验室,而是深入到了办公、编码、写作、搜索等日常生活的方方面面。一旦体验过 AI 带来的提效,它将成为工作和生活中的得力助手。
作为互联网从业者,除了学会使用 AI 工具来帮助我们工作提效,理解背后支撑它的技术要点同样重要。本文旨在科普这些 AI 应用背后的核心技术概念,帮助读者理解目前关于 AI 大模型的发展趋势。
LLM:大型语言模型
Large Language Model(大型语言模型) 是目前 AI 应用的基座,没有它就没有这次 AI 的技术革命。
LLM 是一种基于深度学习的人工智能模型,用于处理自然语言的各种任务。它们通常由数十亿到数万亿个参数组成的神经网络构成,通过对大量的文本数据进行训练,来学习语言的语法、语义和上下文信息,从而能够对自然语言文本进行理解和生成。
核心特点
- 巨大的规模:LLM 通常具有巨大的参数规模,可以达到数十亿甚至数千亿个参数,这使得它们能够捕捉更多的语言知识和复杂的语法结构。
- 预训练和微调:LLM 采用了预训练和微调的学习方法。它们首先在大规模文本数据上进行预训练,学会了通用的语言表示和知识,然后通过微调适应特定任务,从而在各种 NLP 任务中表现出色。
- 上下文感知:LLM 在处理文本时具有强大的上下文感知能力,能够理解和生成依赖于前文的文本内容,这得益于其注意力机制。
- 多语言支持:LLM 可以用于多种语言,不仅限于英语。它们的多语言能力使得跨文化和跨语言的应用变得更加容易。
- 多模态支持:一些 LLM 已经扩展到支持多模态数据,包括文本、图像和语音。这意味着它们可以理解和生成不同媒体类型的内容,实现更多样化的应用。
- 涌现能力:LLM 表现出令人惊讶的涌现能力,即在大规模模型中出现但在小型模型中不明显的性能提升,例如逻辑推理和代码生成能力的突然增强。
训练方式
训练语言模型需要向其提供大量的文本数据,模型利用这些数据来学习人类语言的结构、语法和语义。这个过程通常是通过无监督学习完成的,使用一种叫做自我监督学习的技术。在自我监督学习中,模型通过预测序列中的下一个词或标记,为输入的数据生成自己的标签,并给出之前的词。
技术架构
LLM 通常基于深度学习架构,如 Transformer,这有助于它们在各种 NLP 任务上取得令人印象深刻的表现。Transformer 架构由编码器和解码器组成,通过自注意力机制处理数据,发现词元之间的关系。这种架构允许模型并行处理序列数据,极大地提高了训练效率。
LLM 作为自然语言处理领域的核心技术,正在不断推动人工智能的发展,其潜力和应用前景非常广阔。从简单的问答系统到复杂的代码生成,LLM 正在重塑人机交互的方式。
GPT:生成式预训练变换器
GPT(Generative Pre-trained Transformer)系列是由 OpenAI 开发的一系列大型语言模型,它们在自然语言处理(NLP)领域取得了显著的进展。以下是 GPT 系列的发展脉络及关键特性:
发展历程
- GPT-1(2018 年):系列中的第一个模型,基于变换器(Transformer)架构,拥有 1.17 亿个参数。主要依赖于无监督学习,通过预训练和微调相结合的方式,在多种 NLP 任务中展现出了有效性。
- GPT-2(2019 年):参数量增加到了 15 亿,显示出强大的文本生成能力。由于担心潜在的滥用风险,OpenAI 最初并未完全公开该模型,随后在公众压力下逐步开放了访问权限。
- GPT-3(2020 年):参数量达到了 1750 亿,成为当时最大的语言模型。GPT-3 以其出色的文本生成能力和上下文理解能力,迅速引起了广泛的应用和研究热潮,开启了少样本学习(Few-shot Learning)的新篇章。
- ChatGPT(2022 年末):基于 GPT-3.5 模型,作为一个免费的研究成果预览向公众开放。ChatGPT 以其对话能力而闻名,引入了强化学习从人类反馈中学习(RLHF),使其回复更加符合人类价值观和指令。
- GPT-4(2023 年 3 月 14 日):GPT 系列中的最新模型之一。包含了约 1.76 万亿个参数(估算值),能够同时处理多达 25000 个单词,是 GPT-3 处理能力的 8 倍。GPT-4 在减少幻觉(hallucinations)方面相比之前的版本有所改进,并且能够接受文本和图像提示,允许用户在视觉和语言领域定义任务。


