初学者如何入门大语言模型（LLM）：从原理到应用

关于如何入门 LLM，大多数回答都提到了调用 API、训练微调和应用。但是大模型更新迭代太快，这个月发布的大模型打榜成功，仅仅过了一个月就被其他模型超越。训练微调也已经不是难事，有大量开源的微调框架（llamafactory、firefly 等），你只要懂部署，配置几个参数就能启动训练。甚至现在有大量云上项目，你根本不需要部署，直接上传数据，就能启动。

对于初学者如何入门，我的建议是从一个开源大模型入手，全面了解它的运行原理以及如何应用。可以将大模型比作一辆车，我开车无需理解车是如何做的，但是车出问题了，了解原理能够帮我们快速找到其中的问题。

为了更好入门大模型，我建议按照以下顺序学习，分为编程基础准备、大模型原理理解和大模型应用三个部分。

一、编程基础准备

1. 熟练 Python 编程语言

我一般使用 numpy 用于数据处理，matplotlib 用于画图分析（比如分析位置编码、注意力矩阵）。numpy 很多函数与 pytorch 类似放后面讲，这里主要讲常用的 matplotlib 画图函数，学好 matplotlib 库有利于我们以可视化的角度去理解一些大模型原理。

plt.bar(x,y,width)

举个例子，画直方图分析 llama3 8B 中参数分布情况，可以发现有 2 个峰值，分别是 embedding 层和最后输出 logits 层，两者参数量一致。

plt.plot(x,y,width)

举个例子，画点图分析 llama3 8B 中的位置编码 RoPE。在同一位置 m 下，可以发现向量中的元素，在 i 比较小的时候变化较快，i 较大的时候变化较慢。

plt.colorbar(x,y)

举个例子，画热力图分析 llama3 8B 中的 Attention 矩阵。我的 input 为"The boy didn't cross the street because he was too "，要预测下一个词。观察第 10 行（分析注意力矩阵都是以行为单位）可以发现"he"这个 token 与"boy"这个 token 关联度很高，而不是"street"这个 token。

所以说画图很重要，深度学习本质上都是矩阵运算，单看数字看不出什么结论，需要结合画图等可视化工具分析。

2. 熟悉 PyTorch 等深度学习框架

目前主流大模型基本上都是用 PyTorch 写的，PyTorch 语法太多了，下面介绍在LLM 中常用的 PyTorch 语法（排序不分先后）

(1). torch.nn.Embedding(num_embeddings, embedding_dim...)

其中 num_embeddings 代表词表的大小，embedding_dim 代表词向量的维度。embedding.weight的 size 为 [num_embeddings, embedding_dim]。举个例子，输入索引 i，输出 embedding.weight 的第 i 行。

(2). torch.matmul(x,y)、x*y、torch.dot(x,y) 与 torch.mul(x,y)之间的区别

其中 torch.matmul(x,y) 代表矩阵相乘，torch.mul(x,y) 与 x*y 均代表矩阵对应元素相乘，torch.dot(x,y) 代表向量之间的点积。

(3). torch.full(size, fill_value)

torch.full([2,3],2.0)   #tensor([[2,2,2],            [2,2,2]])

(4). torch.triu(x)

import torch   a = torch.tensor([[, , ], [, , ], [, , ]])   b = torch.triu(a)   (b)

初学者如何入门大语言模型（LLM）：从原理到应用

一、编程基础准备

1. 熟练 Python 编程语言

2. 熟悉 PyTorch 等深度学习框架

更多推荐文章

相关免费在线工具

二、大模型原理理解

整体要干什么？

1. 自注意力机制的理解

2. 位置编码的理解

3. 前馈网络（Feed Forward）的理解

4. 归一化（Normalization）

5. 推理

三、大模型应用

1. 微调训练

2. RAG

3. Agent

总结

更多推荐文章

相关免费在线工具

初学者如何入门大语言模型（LLM）：从原理到应用

一、编程基础准备

1. 熟练 Python 编程语言

2. 熟悉 PyTorch 等深度学习框架

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

二、大模型原理理解

整体要干什么？

1. 自注意力机制的理解

2. 位置编码的理解

3. 前馈网络（Feed Forward）的理解

4. 归一化（Normalization）

5. 推理

三、大模型应用

1. 微调训练

2. RAG

3. Agent

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具