大模型入门教程:llm-action 资源汇总与实战指南
llm-action 大模型入门项目的核心资源,涵盖训练、微调、分布式并行、推理加速、模型压缩及国产化适配等关键技术领域。内容包括 Alpaca、ChatGLM、LLaMA 等模型的微调实战,LoRA、QLoRA 等高效参数技术原理,以及 DeepSpeed、Megatron-LM 等分布式框架应用。此外还涉及向量数据库、LangChain 应用开发及昇腾等国产算力适配方案,旨在为开发者提供从理论到实践的系统化学习路径。

llm-action 大模型入门项目的核心资源,涵盖训练、微调、分布式并行、推理加速、模型压缩及国产化适配等关键技术领域。内容包括 Alpaca、ChatGLM、LLaMA 等模型的微调实战,LoRA、QLoRA 等高效参数技术原理,以及 DeepSpeed、Megatron-LM 等分布式框架应用。此外还涉及向量数据库、LangChain 应用开发及昇腾等国产算力适配方案,旨在为开发者提供从理论到实践的系统化学习路径。

本教程旨在为大模型开发者提供系统化的学习路径,涵盖从基础训练、高效微调、分布式并行到推理加速及模型压缩的全流程技术。内容基于 llm-action 项目整理,适合希望深入理解大语言模型(LLM)原理与实践的工程师。
在大模型实践中,训练是核心环节。从预训练到监督微调(SFT),再到基于人类反馈的强化学习(RLHF),不同阶段对应不同的模型规模与目标。以下汇总了主流模型的训练方案:
| LLM | 预训练/SFT/RLHF… | 参数 | 教程 | 代码 |
|---|---|---|---|---|
| Alpaca | full fine-turning | 7B | 从 0 到 1 复现斯坦福羊驼(Stanford Alpaca 7B) | 配套代码 |
| Alpaca(LLaMA) | LoRA | 7B~65B | 使用 LoRA 技术对 LLaMA 进行微调及推理 | 配套代码 |
| BELLE(LLaMA/Bloom) | full fine-turning | 7B | 基于 LLaMA-7B/Bloomz-7B1-mt 复现开源中文对话大模型 BELLE | N/A |
| ChatGLM | LoRA | 6B | 从 0 到 1 基于 ChatGLM-6B 使用 LoRA 进行参数高效微调 | 配套代码 |
| ChatGLM | full fine-turning/P-Tuning v2 | 6B | 使用 DeepSpeed/P-Tuning v2 对 ChatGLM-6B 进行微调 | 配套代码 |
| Vicuna(LLaMA) | full fine-turning | 7B | 大模型也内卷,Vicuna 训练及推理指南 | N/A |
| OPT | RLHF | 0.1B~66B | 一键式 RLHF 训练 DeepSpeed Chat(理论篇与实践篇) | 配套代码 |
| MiniGPT-4(LLaMA) | full fine-turning | 7B | 多模态大模型 MiniGPT-4 入坑指南 | N/A |
| Chinese-LLaMA-Alpaca(LLaMA) | LoRA(预训练 + 微调) | 7B | 中文 LLaMA&Alpaca 大语言模型词表扩充 + 预训练 + 指令精调 | 配套代码 |
| LLaMA | QLoRA | 7B/65B | 高效微调技术 QLoRA 实战,基于 LLaMA-65B 微调仅需 48G 显存 | 配套代码 |
对于普通开发者而言,全量微调大模型成本高昂且硬件要求极高。参数高效微调(PEFT)技术应运而生,它允许在冻结大部分参数的情况下更新少量参数,从而大幅降低计算与存储需求。本系列将深入解析以下核心技术:
本部分针对 HuggingFace PEFT 框架支持的高效微调技术进行实战讲解,共包含六篇文章,涵盖环境搭建至具体算法实现:
| 教程 | 代码 | 框架 |
|---|---|---|
| 大模型参数高效微调技术实战(一)-PEFT 概述及环境搭建 | N/A | HuggingFace PEFT |
| 大模型参数高效微调技术实战(二)-Prompt Tuning | 配套代码 | HuggingFace PEFT |
| 大模型参数高效微调技术实战(三)-P-Tuning | 配套代码 | HuggingFace PEFT |
| 大模型参数高效微调技术实战(四)-Prefix Tuning / P-Tuning v2 | 配套代码 | HuggingFace PEFT |
| 大模型参数高效微调技术实战(五)-LoRA | 配套代码 | HuggingFace PEFT |
| 大模型参数高效微调技术实战(六)-IA3 | 配套代码 | HuggingFace PEFT |
随着 Transformer 及 MOE 架构的发展,模型参数量突破万亿级,单机单卡已无法满足训练需求。分布式训练通过数据并行、流水线并行、张量并行等技术,利用多机多卡集群加速训练过程。本系列详细解析九种并行策略:
主流框架均提供了完善的分布式训练支持:
高效的通信原语是分布式训练的基础,包括 AllReduce、AllGather 等集合操作。AI 集群需配备高速互联硬件(如 NVLink、InfiniBand)以保障低延迟高带宽传输。
推理阶段关注延迟与吞吐量,常用引擎包括:
将模型封装为 API 服务是落地的关键步骤:
量化通过降低权重精度减少模型体积并加速推理:
剪枝移除冗余参数,分为结构化与非结构化:
将大模型能力迁移至小模型:
低秩分解将权重矩阵 W 近似为 U*V,其中 k 远小于 m 和 n,从而减少参数量。常与修剪、量化结合使用,如 ZeroQuant-FP、LoRAPrune。
面对算力紧缺与制裁风险,国产 AI 加速卡适配成为必然趋势:
构建大模型产品需结合向量数据库与编排框架:
通过本教程,读者可系统掌握大模型从训练到部署的全链路技术,结合实际项目深化理解,推动 AI 技术在业务中的落地应用。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online