初识 AI 语言大模型基础概念

1. 什么叫模型

模型是从数据中学习规律的'数学函数'或'程序'，旨在处理和生成信息，通常模仿人类的认知功能。通过从大型数据集中学习模式和洞察，这些模型可以进行预测、生成文本、图像或其他输出，从而增强各个行业的各种应用。

模型专注于单一任务处理，可视为单个工作流；多个模型组合则构成语言大模型。

与工作流的区别在于，模型需经过预先训练才能处理特定任务。将特定类别的图片（如狗狗）喂给模型并标注，经过大量样本训练后，AI 学会分辨目标。但该模型仅能识别训练过的类别，无法回答未训练的问题。

2. 什么是大语言模型

2.1 神经网络

神经网络可理解为多个工作流的组合，每一部分处理一小部分问题，通过配合达成有效处理用户信息的能力。

2.2 自监督学习

自监督学习是一种无监督学习的进阶范式，核心是让模型自己从原始数据中构造监督信号（标签），无需人工标注数据，就能完成特征学习和模型训练。

其机制类似于自学，模型自主构建监督信号并修正方向。

2.3 半监督学习

半监督学习结合少量标注数据与大量无标注数据进行训练。通过给部分照片备注，接着再放一些不相关的照片来给模型进行识别。

2.4 语言模型

语⾔模型的核⼼任务就是预测下⼀个词。一个强大的语⾔模型，能够根据一段话，预测出最合理、最通顺的下⼀个词是什么，这样一个个词接下去，就能生成一整段话、一篇文章。

例如打字时的自动补全功能即为语言模型的典型应用。

3. 大语言模型的能力

大语言模型与语言模型存在区别。简单来说，所有大语言模型都是语言模型，但并非所有语言模型都是大语言模型。

核心定义与关键特征

核心定位：以'预测下一个词'为基础任务，通过海量数据学习语言规律、知识与逻辑，涌现对话、推理、创作等通用能力，而非仅针对单一任务。
三大关键特征
- 架构：统一采用 Transformer（多为纯 Decoder），自注意力机制高效捕捉长距离语义依赖，并行计算能力远超 RNN/LSTM。
- 规模：参数量达数十亿至万亿级（如 GPT-3 1750 亿、GPT-4 万亿级），训练数据为 TB 级通用文本（书籍、网页、代码等）。
- 能力：支持零样本 / 少样本学习，可跨任务泛化，具备上下文理解、复杂推理与多模态（文本 + 图像 / 音频）处理能力。

主要挑战与局限

幻觉：生成看似合理但不符合事实的内容，需外部知识库或检索增强（RAG）修正。
算力与成本：训练与推理依赖大规模 GPU 集群，成本高、能耗大。
安全与伦理：存在偏见、隐私泄露、内容滥用风险，需强化对齐与合规管控。

初识 AI 语言大模型基础概念

1. 什么叫模型

2. 什么是大语言模型

2.1 神经网络

2.2 自监督学习

2.3 半监督学习

2.4 语言模型

3. 大语言模型的能力

核心定义与关键特征

主要挑战与局限

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

初识 AI 语言大模型基础概念

1. 什么叫模型

2. 什么是大语言模型

2.1 神经网络

2.2 自监督学习

2.3 半监督学习

2.4 语言模型

3. 大语言模型的能力

核心定义与关键特征

主要挑战与局限

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具