编程语言AI算法

大模型入门基础：核心概念详解

大模型入门的基础概念与技术背景。内容涵盖 AI 发展历程、ChatGPT 引发的 AIGC 热潮、AGI 愿景及短期与长期的技术预期。重点解析了模型、大语言模型、自然语言处理、Token、词嵌入、预训练、微调、提示工程、RAG、知识库、智能体及 GPTs 等核心术语。文章阐述了大模型的涌现能力及其在对话、编程、推理等方面的应用，并探讨了技术未来的发展趋势，适合初学者建立系统的知识框架。

人间过客发布于 2025/2/7更新于 2026/4/201 浏览

1. 背景介绍

1.1 奇点到来：ChatGPT 引爆 AIGC

2022 年末，ChatGPT 一经推出即火爆全球。作为一款自然语言处理（Natural Language Processing, NLP）大模型，ChatGPT 在意图理解和内容生成上表现出了令人惊叹的性能。

2023 年初，ChatGPT 的升级版 GPT-4 引入了对图片、语音的支持等多模态能力，多项考试分数已经超越了大部分人类。

2024 年初，OpenAI 发布文生视频大模型 Sora，在全球视频大模型领域取得里程碑式进展。

如果说 2016 年 AlphaGo 在围棋上战胜人类棋王是 AI 在专业领域战胜人类的起点，那么以 ChatGPT 为代表的大模型的发布，则标志着泛化能力更强、通用任务处理更出色的生成式人工智能（AIGC: Artificial Intelligence Generated Content）的奇点来临。

1.2 全球热潮：全球 AI 市场预计将于 2030 年达到 1 万亿美元

随着技术的进步，全球人工智能市场正在经历爆发式增长。根据多家权威机构预测，到 2030 年，全球 AI 市场规模有望突破 1 万亿美元。这一趋势不仅体现在技术投资上，更体现在各行各业对 AI 技术的深度整合中。

1.3 AGI 看到希望

通用人工智能（AGI: Artificial General Intelligence）一直是 AI 领域的终极目标。大模型的出现让 AGI 的实现看到了新的曙光。虽然目前我们仍处于狭义人工智能阶段，但大模型的泛化能力正在逐步缩小与人类智能的差距。

1.4 高估的短期与低估的长期

2023 年大众对 AI 的看法： 这是啥 -> 好像也没那么厉害 -> 和我没太大关系。

短期： AGI 并没有马上催生出大量'明星 APP'和'变现机器'。只有 ChatGPT、Character.ai 等少数 App 实现了用户突破。大量上层应用 APP 就像韭菜一样：不仅昙花一现，迅速被 OpenAI 官方所取代，而且还无法做到成本打平。于是，投资人极端谨慎，公众也渐渐对于 AI 麻木。

长期： 技术的稳定的、加速度的迭代。2023 年 3 月预测的众多技术到现在都有了长足进步：视频生成、音频生成、代理 Agent、记忆能力、模型小型化……它们距离商用可能还有各种各样的问题，但捅破这层窗户纸只是时间问题。

人间一日，AI 十年，技术加速迭代已是常态。大模型技术浪潮是我们切身经历的这个时代最显著的技术变革，目前还没有看到阻止 AGI 出现的硬性限制，且我们距离 AGI 只有几年距离，各位实施线同事要饱含热情投入进来。

1.5 为什么大语言模型开启了迈向通用人工智能之路？

认知智能是智能的终极体现，人机同频的交流是智能被实现的象征。无论一个人工智能算法有多强大的能力，只要它不能普适性地理解人类、不能让人类理解、不能与人类顺畅交流，它终归是无法融入人类和商业社会的（残酷的是，一个真人也是一样）。人工智能的终极评判标准，就是人机同频交流。

在'人机同频交流'的大目标下，自然语言处理这一领域的关键性不言而喻。人类 90% 的信息获取与交流都依赖于语言，人类所有的逻辑、情感、知识、智慧、甚至社会的构建、文明的传承依赖于对语言的理解和表达。因此，计算机想要具备'看人类所看，想人类所想，与人类同频'的能力，就必须理解人类所使用的自然语言。而自然语言处理（Natural Language Process）正是研究如何让计算机认知人类语言、理解人类语言、生成人类语言、甚至依赖这些语言与人进行交流、完成特定语言任务的关键学科。毫不夸张的说，人工智能能否真正'智能'，很大程度上都依赖于自然语言处理领域的发展。也正因如此，ChatGPT 在人类语言领域的成功，很大程度上给出了通向通用人工智能的希望。

1.6 只是预测下一个'词'而已？

从表面上看，大语言模型的核心任务确实是预测文本序列中的下一个 token。然而，这种看似简单的机制通过海量数据的训练和巨大的参数量，涌现出了复杂的推理和理解能力。

1.7 引爆新一轮技术革命的真实原因：涌现能力

1）大语言模型的训练目标是什么？

通常来说，大语言模型的原始训练目标都是为了生成自然、连贯的文本，这也就是为什么 GPT-3 模型最早是被用来编写新闻稿件、写小说、编写产品介绍文案、诗歌等。由于模型本身接受了大量的文本进行预训练，因此根据提示补全和创造文本可以看成是模型的原生技能。

2）引爆新一轮技术革命的真实原因：大语言模型的涌现能力

不过，仅仅能进行文本创造，并不足以让大语言模型掀起新的一轮技术革命。人们真正看好大语言模型技术的根本在于当模型足够大（参数足够大 & 训练数据足够多）时模型展示出了'涌现能力'。所谓涌现能力（Emergent Capabilities），指的是模型在没有针对特定任务进行训练的情况下，仍然能够在合理提示下处理这些任务的能力；有时也可以将涌现能力理解为模型潜力。巨大的技术潜力，才是 LLM 爆火的根本原因。

3）大语言模型的涌现能力具体有哪些？

对话能力： 很难想象的是，对话能力其实也是大语言模型的涌现能力。对于大语言模型（例如 Completion 模型）来说，本身并未接受对话语料训练，因此对话能力并不属于模型的原生能力。
其他能力： 翻译能力、摘要提取能力、编程能力、推理能力、语意理解能力等，也都属于大语言模型的涌现能力。

4）大语言模型到底能做什么？

原生能力范畴——文本创造： 写稿件、邮件、小说、新闻、诗歌…
涌现能力范畴——对话、编程、翻译、推理（包括逻辑推理、自然科学类推理、NLP 自然语言推理等），以及其他各类 NLP 任务，如文本分类、情感识别、推荐排序等…

2. 重点概念解析

2.1 模型

在人工智能（AI）领域，一个'模型'通常是指一个用于对现实世界数据进行理解、预测和解决问题的算法框架。模型可以是一个数学公式，也可以是一个复杂的神经网络。AI 模型基于数据学习，其目的是从提供的训练数据中检测出模式和关系，然后在新数据上应用这些学习到的规则来做出决策或推断。AI 模型的类型包括决策树、支持向量机、神经网络等，具体取决于所要解决的问题和所使用的技术或方法。

2.2 大语言模型

1）什么是语言模型

语言模型是一种函数，或者是一种用于学习这种函数的算法，它可以捕捉自然语言中单词序列分布的显著统计特征，通常允许人们根据前面的单词对下一个单词做出概率预测。

2）什么是大语言模型？

大语言模型（LLM），也是一种神经网络模型，通常是具有大规模参数和计算能力。例如 GPT 由 128 层网络和 1750 亿参数组成，并使用 45TB 数据进行训练。其核心架构通常基于 Transformer 结构，利用自注意力机制（Self-Attention）来处理长距离依赖关系。

2.3 自然语言处理

大语言模型不是一蹴而就的，是经过了漫长的发展历史，大语言模型是自然语言处理领域的重要成果。自然语言处理是人工智能 (AI) 的一个分支，专注于计算机与自然语言之间的交互。

自然语言处理（NLP）的发展历程可分为早期、中期以及现代（后期）三个阶段：

早期（1950s-1980s）： 早期的 NLP 主要由基于规则的系统构成。这些系统依据语言学家编写的复杂规则来处理语言。
- 机器翻译： NLP 的早期研究主要关注机器翻译，如 1950s 的 Georgetown-IBM 实验，它使用了一组简单的俄语到英语翻译规则。
- 句法分析： 70 年代见证了句法分析器的开发，它们依靠编码的语法规则来解析文本。
- 专家系统： 1980 年代，出现了基于专家知识的系统，如 SHRDLU 等，处理特定领域的自然语言理解问题。
中期（1980s-2000s）： 在这个阶段，与基于规则的系统相比，统计方法开始变得流行。
- 统计模型： 1990 年代起，统计模型在 NLP 中变得主流，尤其是隐马尔可夫模型（HMMs）和概率上下文无关文法（PCFGs）被用于语音识别和句法分析。
- 数据驱动学习： 大规模语料库的建立使得基于数据的机器学习方法发展迅速。
- 机器翻译的进步： 90 年代后期，基于数据的机器翻译方法变得势不可挡，尤其是基于短语的统计翻译模型。
现代（2000s-至今）： 现代 NLP 几乎完全依赖于机器学习模型，尤其是深度学习方法，它们在性能上取得了质的飞跃。
- Word2Vec 和深度学习： 2010 年代初，Word2Vec 词嵌入方法的发明以及卷积神经网络（CNNs）和循环神经网络（RNNs）在 NLP 的应用推动了深度学习的爆发。
- 注意力机制和 Transformer 模型： 2017 年，注意力机制和 Transformer 模型的出现彻底改变了 NLP 领域，这导致了 BERT、GPT 等预训练语言模型的开发。
- 预训练语言模型： 预训练语言模型利用大量未标注文本数据学习语言表示，通过微调可适用于多种 NLP 任务，显著提升了下游应用的表现。

2.4 什么是 Token

人类的语言是由文字构成，语言的含义也是由单词构成的，即单词是含义的最小单位。因此，为了让计算机理解自然语言，寻找数字表示的方法是第一步。Token 是文本处理的基本单元，它可以是一个单词、一部分单词、甚至是一个字符。在大模型中，输入文本会被分词器（Tokenizer）转换为 Token ID 序列，模型在此基础上进行计算。常见的分词策略包括 WordPiece、BPE（Byte Pair Encoding）等，旨在平衡词汇表大小和覆盖度。

2.5 什么是词嵌入（Word Embedding）

自然语言是用来表达人脑思维的复杂系统。在这个系统中，词是意义的基本单元。顾名思义，词向量是用于表示单词意义的向量，并且还可以被认为是单词的特征向量或表示。将单词映射到实向量的技术称为词嵌入。

词嵌入的核心思想是将语义相似的词在向量空间中距离拉近。例如，'国王'和'王后'的向量距离应该比'国王'和'苹果'的距离更近。这使得计算机能够理解词语之间的语义关系，如类比推理（国王 - 男人 + 女人 = 王后）。

2.6 什么是预训练？

在大型语言模型（LLM）的场景中，预训练是使用大规模文本语料库来学习语法结构、单词上下文和语言模式的一种方法。预训练过程主要包括以下步骤：

选择一个大规模的文本数据集： 数据集的选择依赖于模型的预训练目标，通常使用网站、书籍或其他文本资源收集的未标记文本数据。
定义预训练任务： 任务可能包括语言模型预测（Next Token Prediction）、掩码语言模型（Masked LM）、句子关系预测等。具体的任务取决于预训练模型的设计。
训练模型： 使用选择的数据集和任务来训练模型，这个过程可能持续数日至数月不等，需要大量计算资源（如 GPU/TPU 集群）。
提取知识： 预训练完成后，模型内部的权重编码了对语言的广泛理解，这些知识可以迁移到下游任务中。

预训练赋予了模型通用的语言理解能力，使其成为一个强大的基座。

2.7 什么是微调？

感性理解： 大模型微调指的是'喂'给模型更多信息，对模型的特定功能进行'调教'，即通过输入特定领域的数据集，让其学习这个领域的知识，从而让大模型能够更好地完成特定领域的 NLP 任务，例如情感分析、命名实体识别、文本分类、对话聊天等。

从模型本身角度而言： 微调阶段相当于是进一步进行训练，该过程会修改模型参数，并最终使模型'记住'了这些额外信息；让大模型永久记住信息的唯一方法就是修改参数。

有监督微调（SFT）： Supervised Fine-Tuning，简称 SFT。数据标注：高质量的有标签数据集在微调过程中必不可少，数据标注工作则是用于创建这些有标签的数据集。伴随着大模型发展，人们也在尝试使用大模型来完成很多数据标注工作。

除了 SFT，还有无监督微调、强化学习人类反馈（RLHF）等方法，用于进一步优化模型的对齐性和安全性。

2.8 什么是提示工程？

在人工智能和自然语言处理领域，特别是在使用大型语言模型（如 GPT 系列）时，Prompt 是指输入给模型的文本，用于引导模型生成特定的输出。Prompt 可以是一个简单的问题、一段描述或是一段指令，它告诉模型应该做什么以及如何生成所需的输出。也就是说，Prompt 是与大模型对话的语言，是大模型应用的核心。

优秀的提示工程（Prompt Engineering）可以通过设计合理的指令、上下文示例（Few-Shot）和思维链（Chain of Thought）来显著提升模型的回答质量，而无需重新训练模型。

2.9 什么是增强检索（RAG）？

检索增强生成（Retrieval-Augmented Generation，简称 RAG）是一种人工智能技术，该技术通过检索信息库中的相关事实，以提高大型语言模型（LLMs）的准确性和可靠性。RAG 结构是由 Facebook AI 于 2020 年提出的，旨在改善机器理解和生成自然语言的能力。

RAG 是一种结构或设计方法，结合了信息检索技术和文本生成模型。在 LLM 本就强大的功能基础上，RAG 将其扩展为能访问特定领域或组织的内部知识库，所有这些都无需重新训练模型。这是一种经济高效地改进 LLM 输出的方法，特别适用于解决大模型幻觉问题和知识时效性问题。

2.10 什么是知识库？

基于 RAG（Retrieval-Augmented Generation）的知识库是一种结合了信息检索（Retrieval）和生成模型（Generation）能力的人工智能系统。这种系统旨在通过检索相关信息丰富其回答，同时利用生成模型按照检索到的信息自动生成文本回答或解决方案。

构建高质量的知识库需要做好文档清洗、切片（Chunking）、向量化（Embedding）和索引存储等工作，确保检索到的片段准确且完整。

2.11 什么是智能体（Agents）？

Agent：AI Agent 本质上是一个基于大语言模型的智能应用，也就是说 Agent 是大模型的上层应用。所谓 Agent（代理人），指的是这个应用不仅仅停留在聊天对话的层面，更能接入外部工具帮你直接完成一些事项。

ChatGPT： 能教你如何写 SQL 查询代码；
Agent： 能帮你直接从数据库中提取数据。

Agent 通常包含规划（Planning）、记忆（Memory）、工具使用（Tool Use）等模块，能够自主分解任务并调用 API 完成闭环操作。

2.12 什么是 GPTs？

GPTs 是 OpenAI 开发的一个工具，无需任何编程知识，通过简单聊天的交互方式就能创建数学、论文、创意设计等不同任务的专属 GPT。是一种让使用者将指令、额外知识和任何技能组合搭配起来 AI 助理的工具。从某种程度来说，也是智能体（Agent）的代名词。可以上架至 GPT Store。

GPT Store 是由 OpenAI 推出的一个平台，在这个平台上，开发者和社区可以创建、分享以及发现各种基于 GPT 的应用。在 GPTs 商店中提供搜索及分类排行榜，能为制作者提供收益，鼓励用户制作与分享工具。截止到 2024 年 3 月 10 日，GPTs 的创建数量已经超过 400 万。

3. 总结与展望

大模型技术正处于快速发展期，从基础的文本生成到多模态理解，再到智能体自主行动，技术边界不断拓展。对于开发者而言，掌握核心概念如 Token、Embedding、Pre-training、Fine-tuning、RAG 等是构建应用的基础。未来，随着算力成本的降低和模型效率的提升，大模型将更加普及，深入各行各业。建议从业者保持学习，关注技术动态，积极实践，将理论转化为实际生产力。

大模型入门基础：核心概念详解

1. 背景介绍

1.1 奇点到来：ChatGPT 引爆 AIGC

1.2 全球热潮：全球 AI 市场预计将于 2030 年达到 1 万亿美元

1.3 AGI 看到希望

1.4 高估的短期与低估的长期

1.5 为什么大语言模型开启了迈向通用人工智能之路？

1.6 只是预测下一个'词'而已？

1.7 引爆新一轮技术革命的真实原因：涌现能力

1）大语言模型的训练目标是什么？

2）引爆新一轮技术革命的真实原因：大语言模型的涌现能力

3）大语言模型的涌现能力具体有哪些？

4）大语言模型到底能做什么？

2. 重点概念解析

2.1 模型

2.2 大语言模型

1）什么是语言模型

2）什么是大语言模型？

2.3 自然语言处理

2.4 什么是 Token

2.5 什么是词嵌入（Word Embedding）

2.6 什么是预训练？

2.7 什么是微调？

2.8 什么是提示工程？

2.9 什么是增强检索（RAG）？

2.10 什么是知识库？

2.11 什么是智能体（Agents）？

2.12 什么是 GPTs？

3. 总结与展望

更多推荐文章

相关免费在线工具

大模型入门基础：核心概念详解

1. 背景介绍

1.1 奇点到来：ChatGPT 引爆 AIGC

1.2 全球热潮：全球 AI 市场预计将于 2030 年达到 1 万亿美元

1.3 AGI 看到希望

1.4 高估的短期与低估的长期

1.5 为什么大语言模型开启了迈向通用人工智能之路？

1.6 只是预测下一个'词'而已？

1.7 引爆新一轮技术革命的真实原因：涌现能力

1）大语言模型的训练目标是什么？

2）引爆新一轮技术革命的真实原因：大语言模型的涌现能力

3）大语言模型的涌现能力具体有哪些？

4）大语言模型到底能做什么？

2. 重点概念解析

2.1 模型

2.2 大语言模型

1）什么是语言模型

2）什么是大语言模型？

2.3 自然语言处理

2.4 什么是 Token

2.5 什么是词嵌入（Word Embedding）

2.6 什么是预训练？

2.7 什么是微调？

2.8 什么是提示工程？

2.9 什么是增强检索（RAG）？

2.10 什么是知识库？

2.11 什么是智能体（Agents）？

2.12 什么是 GPTs？

3. 总结与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具