随着大模型的飞速发展,短短一年间便实现了大幅度的技术迭代更新。从 LoRA、QLoRA、AdaLoRA 到 ZeroQuant、Flash Attention,再到 KTO、PPO、DPO 及蒸馏技术,几乎每天都有新的发展。作为算法工程师,面对庞大且飞速迭代的技术体系,深入理解背后的原理对于构建竞争壁垒至关重要。
第一阶段:大模型基础
第一章:开营典礼
介绍课程目标、安排和预期成果,明确对学员的要求和期望,概述课程中将探讨的项目和技术,讨论大模型技术的行业现状,并推荐关注的工具和开源项目。
第二章:大模型是怎么炼成的
涵盖大模型的定义和重要性,发展历程和关键里程碑,预训练与微调的基本概念,以及大模型预训练、数据处理、微调、对齐的全流程。同时分析大模型训练的基础设施和资源需求,面临的挑战和未来发展方向。
第三章:Transformer 模型原理剖析(1)
深入解析 Transformer 模型的基本架构,Self-Attention 机制的原理和计算过程,Multi-Head Attention 的设计和作用,注意力权重的计算和可视化,以及 Self-Attention 在模型中的作用和优势。
第四章:Transformer 模型原理剖析(2)
讲解 Positional Encoding 的概念和实现方法,Rotary Positional Embedding,BPE tokenizer 和 SentencePiece Encoding,Transformer 中的 Feed-Forward Networks,Layer Normalization 的原理和重要性,残差连接,以及编码器和解码器的结构差异。
第五章:Transformer 模型原理剖析(3)
探讨 Transformer 的训练策略和优化方法,参数初始化和学习率调度,正则化技术,Attention 机制的变种和改进,Greedy Decoding, Beam-search,Top-K Sampling, Top-p Sampling,并进行 Transformer 源码解读。
第六章:Transformer 模型全量微调和高效微调
对比全量微调与高效微调的区别,讲解 Transformer 模型微调的常见策略,如何选择合适的微调任务和数据集,微调中的挑战和最佳实践,以及评估微调效果的标准和工具。
第七章:【项目实战 1】大模型 PEFT 微调项目
包括 PEFT 的安装和使用说明,核心模块讲解,指令数据准备和预处理技巧,实施微调的详细步骤,以及微调项目的性能评估和分析。
第八章:GPT 模型家族剖析
梳理 GPT 系列模型的发展历程,从 GP1 到 GPT4,GPT3 模型剖析,GPT 代码解读,InstructGPT 模型剖析,Zero-shot Prompting,Few-shot Prompting,以及 GPT 模型的局限性和挑战。
第九章:LLaMA 家族模型剖析
分析 LLaMA 模型的特点和技术创新,原理剖析,源码解读,与其他大模型的对比,训练和微调策略,以及面对未来的发展方向。
第十章:ChatGLM 家族模型剖析
介绍 ChatGLM 的架构和设计理念,模型解读,ChatGLM1 到 ChatGLM3 的技术迭代,优势和应用领域,微调和部署的实践指南,以及评估和性能优化。
第十一章:Baichuan 家族模型剖析
概述 Baichuan 模型的概述和核心技术,原理剖析和源码解读,与其他模型的比较,特定任务上的应用,微调策略和技巧,以及局限性。
第二阶段:大模型指令微调之 - LoRA
第十二章:指令微调基础
定义与应用背景,与传统微调的对比,在大模型中的重要性,流程概览,以及挑战与策略。
第十三章:必要矩阵知识
涵盖矩阵和向量的基本概念,矩阵运算与性质,特征值和特征向量,矩阵分解(SVD)技术简介,以及矩阵在 LoRA 算法中的应用。
第十四章:LoRA 算法剖析
解析 LoRA 算法的原理与动机,Low-rank 假设,关键技术组件,实现步骤,优化与调试,以及源码解读。
第十五章:指令数据搜集和生成
强调指令数据的重要性与来源,自动化和手动搜集方法,预处理和标准化,生成高质量指令数据的技巧,数据集的维护与更新,以及人工质量评估与自动质量评估。


