AI 小白的大模型学习路径与核心概念解析
引言
作为一个对人工智能感兴趣的初学者,建立体系化的认知至关重要。大模型时代扑面而来,理解其背后的逻辑、算法、算力及数据支撑,才能看清技术门道。本文旨在梳理围绕大模型的核心知识点,帮助读者建立起相对完整的知识框架。
一、从 ChatGPT 理解大模型本质
2022 年底 ChatGPT 的发布让人工智能再次受到广泛关注。ChatGPT 的名称本身蕴含了大模型的三个关键技术特征:
- Chat(对话):说明它是一个对话机器人,具备自然语言交互能力。
- Generative(生成式):内容生成形式是逐字输出的,基于上下文预测下一个字的输出概率。例如输入'生日蛋糕很',模型会计算'甜'、'香'等词的概率并选择最高者输出。
- Pre-trained(预训练):让机器自主学习大量通用资料(如维基百科、图书、代码库等),目标是掌握人类世界的通用知识。参数规模(如 GPT-3 的 175B)代表了模型的参数量,即函数集背后的权重和偏置数量,决定了模型的'脑容量'。
- Transformer:一种新型神经网络架构,由谷歌在 2017 年提出。它是当下主流的深度学习算法框架,负责指导模型进行输入输出的转换操作。
随着参数量增加,模型会具备涌现能力,即突然获得某些新的技能。这是大模型区别于传统机器学习的重要特征。
二、模型训练全流程解析
模型从预训练结束到商业化使用,需经历多个关键环节,且需要底层硬件 GPU 支持。
1. 训练阶段
- 预训练(Pre-training):基础阶段,让模型学习海量数据,形成通用知识库。
- 有监督微调(SFT, Supervised Finetuning):相当于模拟考试。人类提供高质量的问答对,机器根据问题给出答案并与标准答案比对,优化参数以接近人类回答。
- 人类反馈强化学习(RLHF, Reinforcement Learning by Human Feedback):机器一次给出多个答案,人类打分,分数越高代表越符合人类意图。奖励建模则是训练一个新模型来辅助打分,实现机器训练机器。
总体过程可概括为:通过输入大量人类知识,经过深度学习,输出一个函数集及参数集,目标是让参数驱动的机器回答更接近人类对话。
2. 硬件资源需求
大模型训练依赖高性能 GPU。GPU 相比 CPU 具有计算单元多、逻辑简单的特点,适合处理大量重复的解方程过程(深度学习本质)。
- 算力单位:FLOPS(浮点运算次数)。常见单位包括 GFLOPS、TFLOPS、PFLOPS、EFLOPS。
- 主流芯片性能:英伟达 A100 约为 312 TFLOPS,H100 约为 1000 TFLOPS;国产芯片如华为昇腾 910B 约为 280 TFLOPS。高算力是快速迭代模型的关键。
三、云计算厂商与大模型的关系
企业使用大模型主要有两种模式:
- 公共云 MaaS(Model as a Service):直接调用已训练好的大模型服务,开箱即用。
- 私有化部署/智算集群建设:客户希望自建类似通义的基础模型或垂直应用。这需要建设'炼丹炉'(模型训练平台)。
建设挑战
- 大规模组网:成千上万个 GPU 串联并行计算,涉及数据并行、流水线并行、张量并行等技术。
- 数据通信效率:芯片间、服务器间的数据传输需高速网络支持。
- 稳定性:云平台高可用机制可在单卡故障时瞬间补位。
- 人才断层:专业工具软件化以弥补专家人才短缺。
云计算厂商在 IaaS 层提供计算、网络、存储保障,在 PaaS 层提供 PAI、百炼等组件,承担不可或缺的角色。


