大语言模型微调技术详解与 LoRA 实践

从 GPT-3 到 ChatGPT，再到 GitHub Copilot，微调（Fine-tuning）在其中扮演了重要角色。什么是微调？它能解决什么问题？什么是 LoRA？如何进行微调？本文将解答以上问题，并通过代码实例展示如何使用 LoRA 进行微调。

微调是利用已经训练好的模型（通常是大型的预训练模型）作为起点，在新的数据集进一步训练模型，从而使其更适合特定的应用场景。本文介绍 fine-tuning 的概念与过程，并对一个微调的过程代码进行分析。微调的技术门槛并不高，如果微调的模型规模不大（10B 及以下），所需硬件成本也不高。即使非专业算法同学，也可动手尝试微调自己的模型。

1. 什么是 Fine-tuning

GPT-3 使用大量互联网上的语料训练完成后，并不适合对话这个场景。例如给到 GPT-3 输入'中国的首都是哪里？'，基于训练后的模型参数推理，结果可能是'美国的首都是哪里？'。这是因为在训练数据中，这两句话一起出现的概率非常高。

这种输出明显不满足 ChatGPT 的场景需求。还需要多阶段的优化过程使 ChatGPT 更擅长处理对话，并且能够更好地理解和回应用户的需求。

GPT-3 模型的微调过程包括几个关键步骤：

在大规模文本数据集上进行预训练，形成基础的语言能力。
通过监督微调（SFT），让模型适应对话任务，使其生成的文本更符合人类对话习惯。
使用基于人类反馈的强化学习（RLHF），利用用户反馈数据（如赞踩、评分），进一步优化模型的输出质量，使其在多轮对话中表现得更连贯和有效。
通过持续的微调和更新，适应新需求并确保输出的安全性和伦理性。

1.1. 为什么要 Fine-tuning

1.1.1. 微调可以强化预训练模型在特定任务上的能力

特定领域能力增强：微调把处理通用任务的能力，在特定领域上加强。比如情感分类任务，本质上预训练模型是有此能力的，但可以通过微调方式对这一能力进行增强。
增加新的信息：通过微调可以让预训练模型学习到新的信息，比如常见的自我认知类的问题：'你是谁？''你是谁创造的？'，这类问题可通过微调让模型有预期内回答。

1.1.2. 微调可以提高模型性能

减少幻觉：通过微调，可以减少或消除模型生成虚假或不相关信息的情况。
提高一致性：模型的输出一致性、稳定性更好。给模型一个适度的 temperature，往往会得出质量高更有创造性的结果，但结果是每次输出内容都不一样。这里的一致性和稳定性，是指虽每次生成内容不同，但质量维持在一个较高的水平，而不是一次很好，一次很差。
避免输出不必要的信息：比如让模型对宗教作出评价，模型可以委婉拒绝回复此类问题。在一些安全测试、监管审查测试时，非常有用。
降低延迟：可通过优化和微调，使用较小参数的模型达到预期效果，减少模型响应的延迟时间。

1.1.3. 微调自有模型可避免数据泄漏

本地或虚拟私有云部署：可以选择在本地服务器或虚拟私有云中运行模型，自主控制性强。
防止数据泄漏：这点对于一些公司来说非常重要，不少公司的核心竞争优势是长年积累的领域数据。
安全风险自主可控：如果微调使用特别机密的数据，可自定义高级别的安全微调、运行环境。而不是把安全问题都委托给提供模型推理服务的公司。

1.1.4. 使用微调模型，可降低成本

从零创造大模型成本高：对大部分公司而言，也很难负担从零开始训练一个大模型的成本。Meta 最近开源的 Llama3.1 405B 模型，需要 24000 张 H100 集群，训练 54 天。但在开源模型之上进行微调，使用一些量化（减少精度）微调方式，可以大大降低门槛，还可以得到不错的效果。
降低每次请求的成本：一般而言，相同的性能表现，使用微调的模型与通用模型比，模型的参数量会更少，成本也就更低。
更大的控制权：可以通过模型参数量、使用的资源，自主平衡模型性能、耗时、吞吐量等，为成本优化提供了空间。

1.2. 一些相关概念区分

1.2.1. 基于人类反馈的强化学习（RLHF）与监督微调（SFT）

目前 OpenAI 的公开信息，ChatGPT 的主要改进是通过微调和 RLHF 来实现的。从 GPT-3 到 ChatGPT，大概过程如下：预训练 → 微调（SFT） → 强化学习（RLHF） → 模型修剪与优化。

Epoch	Training Loss	Validation Loss	Accuracy
1	No log	0.623649	{'accuracy': 0.869}
2	0.222000	0.562297	{'accuracy': 0.875}
3	0.222000	0.525078	{'accuracy': 0.873}
4	0.206700	0.574757	{'accuracy': 0.868}
5	0.206700	0.571784	{'accuracy': 0.869}
6	0.165100	0.548366	{'accuracy': 0.874}
7	0.165100	0.608218	{'accuracy': 0.869}
8	0.137200	0.598137	{'accuracy': 0.866}
9	0.137200	0.577840	{'accuracy': 0.868}
10	0.107200	0.579172	{'accuracy': 0.87}

Epoch	Training Loss	Validation Loss	Accuracy
1	No log	0.534855	{'accuracy': 0.84}
2	0.398600	0.675476	{'accuracy': 0.86}
3	0.398600	0.591444	{'accuracy': 0.866}
4	0.241200	0.839957	{'accuracy': 0.872}
5	0.241200	1.018856	{'accuracy': 0.857}
6	0.143500	1.073572	{'accuracy': 0.865}
7	0.143500	1.126487	{'accuracy': 0.868}
8	0.074100	1.213581	{'accuracy': 0.867}
9	0.074100	1.184063	{'accuracy': 0.87}
10	0.023500	1.180858	{'accuracy': 0.867}

大语言模型微调技术详解与 LoRA 实践

1. 什么是 Fine-tuning

1.1. 为什么要 Fine-tuning

1.1.1. 微调可以强化预训练模型在特定任务上的能力

1.1.2. 微调可以提高模型性能

1.1.3. 微调自有模型可避免数据泄漏

1.1.4. 使用微调模型，可降低成本

1.2. 一些相关概念区分

1.2.1. 基于人类反馈的强化学习（RLHF）与监督微调（SFT）

更多推荐文章

相关免费在线工具

1.2.2. 继续预训练与微调

1.3. 小结

2. 如何 Fine-tuning

2.1. 微调的基本原理

2.2. 什么是 LoRA

2.2.1. LoRA 基本概念

2.2.2. LoRA 原理分析

2.3. 微调过程

2.4. 使用 LoRA 微调代码分析

2.4.1 基本库安装与包引入

2.4.2 微调数据构造

2.4.3 加载初始模型

2.4.4 Tokenize 与 Pad 预处理

2.4.5 微调配置

3. 结语

更多推荐文章

相关免费在线工具

大语言模型微调技术详解与 LoRA 实践

1. 什么是 Fine-tuning

1.1. 为什么要 Fine-tuning

1.1.1. 微调可以强化预训练模型在特定任务上的能力

1.1.2. 微调可以提高模型性能

1.1.3. 微调自有模型可避免数据泄漏

1.1.4. 使用微调模型，可降低成本

1.2. 一些相关概念区分

1.2.1. 基于人类反馈的强化学习（RLHF）与监督微调（SFT）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.2.2. 继续预训练与微调

1.3. 小结

2. 如何 Fine-tuning

2.1. 微调的基本原理

2.2. 什么是 LoRA

2.2.1. LoRA 基本概念

2.2.2. LoRA 原理分析

2.3. 微调过程

2.4. 使用 LoRA 微调代码分析

2.4.1 基本库安装与包引入

2.4.2 微调数据构造

2.4.3 加载初始模型

2.4.4 Tokenize 与 Pad 预处理

2.4.5 微调配置

3. 结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具