大模型学习路径(一):人工智能与大模型基础概述
一、人工智能:机器模拟人类智能的演进
人工智能(Artificial Intelligence,简称 AI)是计算机科学的一个分支,旨在研究、开发用于模拟、延伸和扩展人类智能的理论、方法、技术及应用系统。自 1956 年达特茅斯会议正式提出以来,AI 经历了多次起伏,从早期的符号主义到现在的连接主义,已成为推动社会变革的关键技术。
1.1 核心目标
AI 的核心目标是让机器具备感知、认知、决策和执行的能力。具体表现包括:
- 感知能力:如计算机视觉识别图像中的物体,语音识别将声音转换为文本。
- 认知能力:如自然语言理解(NLU),使机器能读懂人类的语言并理解其背后的语义和情感。
- 决策能力:如自动驾驶汽车在复杂路况下做出合理的驾驶决策,或推荐系统为用户推送感兴趣的内容。
1.2 发展简史
- 早期探索:基于规则的系统(Expert Systems),依赖人工编写的逻辑规则,难以处理不确定性。
- 机器学习兴起:统计学习方法出现,通过数据训练模型而非硬编码规则。
- 深度学习爆发:随着算力提升和数据积累,神经网络性能大幅提升,推动了图像、语音等领域的突破。
- 大模型时代:基于海量数据和参数规模,涌现出具有通用能力的基座模型。
二、模型:人工智能的'大脑'
在人工智能体系中,模型(Model)是经过特定算法和大量数据训练后形成的计算框架,用于模拟人类智能行为或解决特定问题。
2.1 核心要素
- 算法(Algorithms):定义模型如何从数据中学习规律,如梯度下降、反向传播等优化策略。
- 数据(Data):模型的燃料,数据的质量、规模和多样性直接决定模型的上限。
- 算力(Compute):支撑大规模训练的基础设施,通常涉及 GPU 或 TPU 集群。
2.2 主要分类
根据学习方式的不同,模型主要分为以下几类:
- 监督学习(Supervised Learning):使用带有标签的数据进行训练。例如,输入图片及对应的'猫'或'狗'标签,模型学习区分特征。常见算法包括决策树、支持向量机(SVM)。
- 无监督学习(Unsupervised Learning):数据没有标签,模型需自行发现数据结构。例如聚类分析,将相似用户分组。
- 强化学习(Reinforcement Learning):智能体通过与环境交互,根据奖励或惩罚机制调整策略。常用于游戏 AI 和机器人控制。
三、大模型:人工智能领域的超级巨星
大模型(Large-scale Model / Big Model),常被称为基础模型(Foundation Model),是指参数量巨大、在广泛数据集上预训练的模型。
3.1 定义与特性
传统机器学习模型通常需要针对特定任务设计特征工程,而大模型具有强大的泛化能力。
- 参数规模:通常以亿(10^8)、十亿(10^9)甚至万亿(10^12)为单位。
- 自监督学习:利用海量未标注数据进行预训练,学习通用的语言表示。
- 零样本/少样本学习:无需额外微调即可处理未见过的任务,或通过少量示例快速适应。
3.2 架构演进
大模型的核心架构多为 Transformer,其关键创新在于自注意力机制(Self-Attention),能够捕捉长距离依赖关系,解决了循环神经网络(RNN)在处理长序列时的梯度消失问题。这使得模型能够并行计算,大幅提升了训练效率。


