什么叫模型
模型是一个从数据中学习规律的'数学函数'或'程序'。旨在处理和生成信息的算法,通常模仿人类的认知功能。通过从大型数据集中学习模式和洞察,这些模型可以进行预测、生成文本、图像或其他输出,从而增强各个行业的各种应用。
通俗来讲,单一模型通常专注于特定任务,可以理解为独立的工作流。而多个模型组合在一起,则构成了更复杂的系统。

与常规工作流不同,模型的处理逻辑依赖于预先训练。例如,将大量标注好的狗狗图片喂给模型,经过反复识别后,AI 便能学会分辨什么是狗。但这类模型通常只能回答特定领域的问题,若询问关于猫的信息,它可能无法给出准确回应。

什么是大语言模型
神经网络
神经网络可视为多个子工作流的复杂组合。每一部分负责处理细微问题,通过协同配合实现对用户信息的有效处理。
自监督学习
自监督学习是一种无监督学习的进阶范式,核心是让模型自己从原始数据中构造监督信号(标签),无需人工标注数据,就能完成特征学习和模型训练。
通俗理解,这类似于'自学'过程,模型在自我修正中不断调整方向。
半监督学习
半监督学习结合了'少量指导 + 大量自学'的模式。通过给部分照片备注,再放入未标注的相关照片进行识别,这种混合学习过程即为半监督学习。
语言模型
语言模型的核心任务是预测下一个词。一个强大的语言模型,能够根据一段话,预测出最合理、最通顺的下一个词是什么。这样一个个词接下去,就能生成一整段话、一篇文章。
比如我们平常打字时的自动补全,本质上就是一种语言模型的应用。
大语言模型的能力
大语言模型(LLM)与通用语言模型存在显著差异。简单来说,所有大语言模型都是语言模型,但并非所有语言模型都是大语言模型。

核心定义与关键特征
- 核心定位:以'预测下一个词'为基础任务,通过海量数据学习语言规律、知识与逻辑,涌现对话、推理、创作等通用能力,而非仅针对单一任务。
- 三大关键特征
- 架构:统一采用 Transformer(多为纯 Decoder),自注意力机制高效捕捉长距离语义依赖,并行计算能力远超 RNN/LSTM。
- 规模:参数量达数十亿至万亿级(如 GPT-3 1750 亿、GPT-4 万亿级),训练数据为 TB 级通用文本(书籍、网页、代码等)。
- 能力:支持零样本 / 少样本学习,可跨任务泛化,具备上下文理解、复杂推理与多模态(文本 + 图像 / 音频)处理能力。
主要挑战与局限
- 幻觉:生成看似合理但不符合事实的内容,需外部知识库或检索增强(RAG)修正。


