大模型入门教程:llm-action 资源汇总与实战指南
本教程旨在为大模型开发者提供系统化的学习路径,涵盖从基础训练、高效微调、分布式并行到推理加速及模型压缩的全流程技术。内容基于 llm-action 项目整理,适合希望深入理解大语言模型(LLM)原理与实践的工程师。
LLM 训练
LLM 训练实战
在大模型实践中,训练是核心环节。从预训练到监督微调(SFT),再到基于人类反馈的强化学习(RLHF),不同阶段对应不同的模型规模与目标。以下汇总了主流模型的训练方案:
| LLM | 预训练/SFT/RLHF… | 参数 | 教程 | 代码 |
|---|---|---|---|---|
| Alpaca | full fine-turning | 7B | 从 0 到 1 复现斯坦福羊驼(Stanford Alpaca 7B) | 配套代码 |
| Alpaca(LLaMA) | LoRA | 7B~65B | 使用 LoRA 技术对 LLaMA 进行微调及推理 | 配套代码 |
| BELLE(LLaMA/Bloom) | full fine-turning | 7B | 基于 LLaMA-7B/Bloomz-7B1-mt 复现开源中文对话大模型 BELLE | N/A |
| ChatGLM | LoRA | 6B | 从 0 到 1 基于 ChatGLM-6B 使用 LoRA 进行参数高效微调 | 配套代码 |
| ChatGLM | full fine-turning/P-Tuning v2 | 6B | 使用 DeepSpeed/P-Tuning v2 对 ChatGLM-6B 进行微调 | 配套代码 |
| Vicuna(LLaMA) | full fine-turning | 7B | 大模型也内卷,Vicuna 训练及推理指南 | N/A |
| OPT | RLHF | 0.1B~66B | 一键式 RLHF 训练 DeepSpeed Chat(理论篇与实践篇) | 配套代码 |
| MiniGPT-4(LLaMA) | full fine-turning | 7B | 多模态大模型 MiniGPT-4 入坑指南 | N/A |
| Chinese-LLaMA-Alpaca(LLaMA) | LoRA(预训练 + 微调) | 7B | 中文 LLaMA&Alpaca 大语言模型词表扩充 + 预训练 + 指令精调 | 配套代码 |
| LLaMA | QLoRA | 7B/65B | 高效微调技术 QLoRA 实战,基于 LLaMA-65B 微调仅需 48G 显存 | 配套代码 |
LLM 微调技术原理
对于普通开发者而言,全量微调大模型成本高昂且硬件要求极高。参数高效微调(PEFT)技术应运而生,它允许在冻结大部分参数的情况下更新少量参数,从而大幅降低计算与存储需求。本系列将深入解析以下核心技术:
- 背景与简介:介绍 PEFT 的基本概念及其在工业界的应用价值。
- BitFit、Prefix Tuning、Prompt Tuning:早期轻量级微调方法,通过调整偏置或前缀向量实现适配。
- P-Tuning、P-Tuning v2:引入可学习的连续提示向量,显著提升下游任务表现。
- :在 Transformer 层间插入小型网络模块,保持原模型权重不变。


