1. 什么叫模型
模型是从数据中学习规律的'数学函数'或'程序',旨在处理和生成信息,通常模仿人类的认知功能。通过从大型数据集中学习模式和洞察,这些模型可以进行预测、生成文本、图像或其他输出,从而增强各个行业的各种应用。
模型专注于单一任务处理,可视为单个工作流;多个模型组合则构成语言大模型。

与工作流的区别在于,模型需经过预先训练才能处理特定任务。将特定类别的图片(如狗狗)喂给模型并标注,经过大量样本训练后,AI 学会分辨目标。但该模型仅能识别训练过的类别,无法回答未训练的问题。

2. 什么是大语言模型
2.1 神经网络
神经网络可理解为多个工作流的组合,每一部分处理一小部分问题,通过配合达成有效处理用户信息的能力。
2.2 自监督学习
自监督学习是一种无监督学习的进阶范式,核心是让模型自己从原始数据中构造监督信号(标签),无需人工标注数据,就能完成特征学习和模型训练。
其机制类似于自学,模型自主构建监督信号并修正方向。
2.3 半监督学习
半监督学习结合少量标注数据与大量无标注数据进行训练。通过给部分照片备注,接着再放一些不相关的照片来给模型进行识别。
2.4 语言模型
语⾔模型的核⼼任务就是预测下⼀个词。一个强大的语⾔模型,能够根据一段话,预测出最合理、最通顺的下⼀个词是什么,这样一个个词接下去,就能生成一整段话、一篇文章。
例如打字时的自动补全功能即为语言模型的典型应用。
3. 大语言模型的能力
大语言模型与语言模型存在区别。简单来说,所有大语言模型都是语言模型,但并非所有语言模型都是大语言模型。

核心定义与关键特征
- 核心定位:以'预测下一个词'为基础任务,通过海量数据学习语言规律、知识与逻辑,涌现对话、推理、创作等通用能力,而非仅针对单一任务。
- 三大关键特征
- 架构:统一采用 Transformer(多为纯 Decoder),自注意力机制高效捕捉长距离语义依赖,并行计算能力远超 RNN/LSTM。
- 规模:参数量达数十亿至万亿级(如 GPT-3 1750 亿、GPT-4 万亿级),训练数据为 TB 级通用文本(书籍、网页、代码等)。
- 能力:支持零样本 / 少样本学习,可跨任务泛化,具备上下文理解、复杂推理与多模态(文本 + 图像 / 音频)处理能力。
主要挑战与局限
- 幻觉:生成看似合理但不符合事实的内容,需外部知识库或检索增强(RAG)修正。
- 算力与成本:训练与推理依赖大规模 GPU 集群,成本高、能耗大。
- 安全与伦理:存在偏见、隐私泄露、内容滥用风险,需强化对齐与合规管控。


