大模型学习笔记：基础概念与架构解析

一、知识体系架构

人工智能（Artificial Intelligence, AI）是计算机科学的一个分支，旨在创造能够模拟人类智能行为的系统。其发展经历了从符号主义到连接主义的演变，当前以大语言模型（LLM）为代表的深度学习技术正处于爆发期。

图 1：大模型知识体系架构图

AI 涵盖了广泛的领域，包括机器学习（ML）、深度学习（DL）和自然语言处理（NLP）。

图 2：AI 技术层级关系

大模型，全称「大语言模型」（Large Language Model, LLM），其核心能力在于泛化性。它不仅能回答问题，还能完成创作、推理、代码生成等任务。

通用人工智能（Artificial General Intelligence, AGI）是指具备与人类相当甚至超越人类的认知能力的系统。大模型被视为通往 AGI 的关键路径之一。其核心逻辑是将问题转化为语言描述作为输入，模型输出结果作为答案，理论上可覆盖所有可被语言描述的任务。

图 3：大模型作为函数映射的示意图

大模型本质是一个概率生成器。给定上文序列 $X = {x_1, x_2, ..., x_n}$，模型计算下一个词 $x_{n+1}$ 的条件概率分布 $P(x_{n+1} | X)$，并采样概率最高的 Token 作为输出。