大型语言模型(LLM)学习路径概览
本篇大型语言模型(LLM)课程分为三个主要部分,旨在帮助开发者从基础到实战全面掌握 LLM 技术:
- LLM 基础:涵盖数学、Python 和神经网络的基本知识,为深入理解模型原理打下基础。
- LLM 科学家:专注于使用最新技术构建尽可能优秀的 LLM,涉及预训练、微调及评估。
- LLM 工程师:专注于创建基于 LLM 的应用并部署它们,包括 RAG、推理优化及安全。
0. 有用的 Notebook 与工具
以下是与大型语言模型相关的笔记本和资源列表,按功能分类:
工具类
- RunPod:用于自动评估大语言模型(LLMs)的云平台。
- LazyMergekit:轻松使用 MergeKit 一键合并模型的工具。
- AutoGGUF:一键将大语言模型(LLMs)量化为 GGUF 格式。
- Model Family Tree:可视化被合并模型的家族树结构。
Fine-tuning(微调)
- Colab Llama2:使用 Colab 对 Llama2 进行微调的教程。
- Axolotl:使用 Axolotl 对 LLMs 进行高效微调。
- DPO Mistral-7b:使用直接偏好优化(DPO)对 Mistral-7b 进行微调。
Quantization(量化)
- 8-bit 量化:使用 8-bit 量化优化大语言模型。
- GPTQ:使用 GPTQ 进行 4-bit 量化。
- GGUF & llama.cpp:使用 GGUF 和 llama.cpp 进行量化及推理。
- ExLlamaV2:LLMs 运行最快的库之一。
其他资源
- 解码策略:大语言模型 LLMs 中的解码策略解析。
- 损失函数可视化:GPT-2 的损失函数值可视化分析。
- 知识图谱:使用知识图谱提升 ChatGPT 能力。
- 模型合并:使用 mergekit 合并 LLMs 的方法。
1. LLM 基础
1.1 机器学习 ML 的数学基础
在学习机器学习之前,了解这些算法背后的基本数学概念非常重要。
- 线性代数:对于理解许多算法至关重要,尤其是那些用于深度学习的算法。关键概念包括向量、矩阵、行列式、特征值和特征向量、向量空间以及线性变换。
- 微积分:许多机器学习算法涉及连续函数的优化,这需要理解导数、积分、极限和级数。多变量微积分和梯度概念也很重要。
- 概率与统计:这些对于理解模型如何从数据中学习并进行预测至关重要。关键概念包括概率论、随机变量、概率分布、期望、方差、协方差、相关性、假设检验、置信区间、最大似然估计和贝叶斯推断。
1.2 ML 中的 Python
Python 是一种功能强大且灵活的编程语言,由于其可读性、一致性以及数据科学库的强大生态系统,特别适合用于机器学习。
- Python 基础:需要对基本语法、数据类型、错误处理和面向对象编程有良好的理解。
- 数据科学库:包括熟悉用于数值运算的 NumPy,用于数据操作和分析的 Pandas,以及用于数据可视化的 Matplotlib 和 Seaborn。


