什么是模型
模型是一个从数据中学习规律的'数学函数'或'程序'。旨在处理和生成信息的算法,通常模仿人类的认知功能。通过从大型数据集中学习模式和洞察,这些模型可以进行预测、生成文本、图像或其他输出,从而增强各个行业的各种应用。
简单来说就是一个模型只会处理一件事,我们也可以把它理解为单个工作流,然后多个模型组合在一起就是语言大模型了。

它和工作流的区别在于需要预先训练。例如将大量标注好的图片喂给模型,AI 经过学习后学会分辨特定对象(如狗),但无法回答未训练过的问题(如猫)。

什么是大语言模型
神经网络
神经网络可理解为多个工作流的组合,每一部分处理一小部分问题,通过配合达成有效处理用户信息的能力。
自监督学习
自监督学习是一种无监督学习的进阶范式,核心是让模型自己从原始数据中构造监督信号(标签),无需人工标注数据,就能完成特征学习和模型训练。
即模型自主从数据中学习并修正方向。
半监督学习
半监督是'少量指导 + 大量自学'的结合模式。通过给部分照片备注,再放入不相关照片进行识别,这种学习过程称为半监督学习。
语言模型
语⾔模型的核⼼任务就是预测下⼀个词。一个强大的语⾔模型,能够根据一段话,预测出最合理、最通顺的下⼀个词是什么,这样一个个词接下去,就能生成一整段话、一篇文章。
比如我们平常打字时的自动补全,那就是一种语言模型。
大语言模型的能力
大语言模型和语言模型并不完全是一种东西。简单来说,所有大语言模型都是语言模型,但并非所有语言模型都是大语言模型。

核心定义与关键特征
- 核心定位:以'预测下一个词'为基础任务,通过海量数据学习语言规律、知识与逻辑,涌现对话、推理、创作等通用能力,而非仅针对单一任务。
- 三大关键特征
- 架构:统一采用 Transformer(多为纯 Decoder),自注意力机制高效捕捉长距离语义依赖,并行计算能力远超 RNN/LSTM。
- 规模:参数量达数十亿至万亿级(如 GPT-3 1750 亿、GPT-4 万亿级),训练数据为 TB 级通用文本(书籍、网页、代码等)。
- 能力:支持零样本 / 少样本学习,可跨任务泛化,具备上下文理解、复杂推理与多模态(文本 + 图像 / 音频)处理能力。
主要挑战与局限
- 幻觉:生成看似合理但不符合事实的内容,需外部知识库或检索增强(RAG)修正。


