
CS336 从零构建语言模型:Transformer LM 架构实现
综述由AI生成详细记录了斯坦福 CS336 课程 Assignment 1 中 Transformer 语言模型的从零实现过程。内容包括线性层、嵌入层、RMSNorm、SwiGLU 前馈网络、RoPE 位置编码、Softmax、缩放点积注意力及多头自注意力模块的代码实现。最后整合为完整的 Transformer Block 和 Transformer LM,并对 GPT-2 XL 规模的参数量与前向传播 FLOPs 进行了核算分析,明确了各组件的计算…














