微调大型语言模型：定制 Llama 3 8B 应用

综述由AI生成针对参数少于 100 亿的小型开源大语言模型进行微调的方法，重点阐述了量化（Quantization）和低秩适应（LoRA）技术以降低显存消耗并提升效率。内容涵盖 Unsloth 库的使用、监督微调训练器（SFT）的配置以及优势比偏好优化（ORPO）的引入。通过结合 4 位量化与 LoRA 形成的 QLoRA 方案，开发者可在消费级硬件上经济高效地定制 Llama 3 等模型，满足特定任务需求，同时避免了训练超大规模模型的高昂成本。文章还补充了模型推理与部署的步骤，确保技术方案的完整性。

GopherDev发布于 2025/2/6更新于 2026/6/433 浏览

微调大型语言模型：定制 Llama 3 8B 应用

自 2022 年 11 月发布以来，ChatGPT 引发了关于大型语言模型（LLMs）和一般人工智能能力的广泛讨论。尽管像 GPT、Gemini 或 Claude 这样的工具非常强大，拥有数百甚至数千亿的参数，并在大量文本语料库上进行预训练，但它们并非万能。有些特定任务这些模型无法胜任。然而，我们并非没有解决这些任务的办法。我们可以利用小型开源模型的力量，将它们适应到我们的特定问题上。

本博客旨在简要概述一些较小的开源 LLMs，并解释两个关键的 LLM 微调概念：量化和 LoRA。此外，我们将介绍一些最受欢迎的微调库以及代码示例，以便您能快速将这些概念应用到您的用例中。

'小'型大型语言模型

微调 LLMs 可能代价昂贵，尤其是对于参数数量庞大的模型。根据经验法则，通常参数在 100 亿以下的模型可以进行微调而不会碰到显著的基础设施挑战。然而，对于像 Llama 3 70B 这样的大型模型，则需要大量资源。对一个 700 亿参数的模型如 Llama 3 进行微调大约需要 1.5TB 的 GPU 显存。为了直观比较，这个数量级的显存相当于一个大约有 20 块 Nvidia A100 组成的集群，每块有 80GB 的显存。假设硬件是可用的，这样的设置成本约为 40 万美元。

或者，人们可以使用云服务提供商，如 AWS、Azure 或 GCP，但这种方法同样成本高昂。例如，使用 AWS 上的一块 Nvidia A100 GPU 一小时的成本是 40 美元。如果你要在 20 个 GPU 上对 700 亿参数模型进行 5 天的微调，费用大约会是 10 万美元。

由于这些成本，大多数实践者主要使用参数少于 100 亿的较小 LLMs。这些模型可以更经济地训练，只需要 16GB 到 24GB 的显存（用于更大的批量大小和更快的训练）。例如，在 AWS 上使用一块 Nvidia A100 将 Mistral 7B 微调为塞尔维亚语，不到 10 小时就完成了，成本不到 20 美元。

当然，如果没有量化，特别是 4 位量化，一个 70 亿参数的模型仍然无法在这么大的显存中完成训练。

量化

如果使用完整的 32 位参数，我们仍然需要大量的显存来训练 LLM——大约需要 150GB，这对于个人开发者来说是一个巨大的数字。

量化通过将模型参数转换为低精度数据类型（如 8 位或 4 位）来提供解决方案，显著降低了内存消耗并提高了执行速度。概念很直接：所有可能的 32 位值都被映射到一个较小的有限值范围（例如，对于 8 位转换是 256）。这个过程可以被视为围绕几个固定点的高精度值分组，这些固定点代表了它们附近的值。

低秩适应（LoRA）

LoRA 是一种通过使用矩阵维数约简来更新模型权重的技术。这项技术尤其相关，因为广泛应用于 LLMs 的 Transformer 严重依赖矩阵。关于 LoRA 在低层次工作的详细解释可以在 Jay Alammar 的博客文章中找到。

在更新模型权重时，需要调整这些矩阵内的参数。从概念上讲，这种调整可以被视为将一个权重更新矩阵加到原始矩阵上：W' = W + ΔW。LoRA 引入了一种新颖的方法，通过将这个更新矩阵分解成两个较小的矩阵，当这两个矩阵相乘时，接近更新矩阵。在微调过程中，LoRA 不是创建然后分解更新矩阵，而是直接创建这两个较小的矩阵用于乘法运算。

下面几张图片中可以看到常规微调和使用 LoRA 进行微调之间的直观比较。

LoRA 的关键好处是，尽管近似稍微不那么精确，但它显著提高了内存和计算效率。例如，考虑一个有 1000x1000 参数的矩阵，总共有 100 万参数。通过使用分解后（略微不精确）的 1000x100 乘以 100x1000 矩阵的版本，参数数量减少到只有 2*100k，实现了 80% 的参数减少。

量化和 LoRA 通常结合使用，形成了所谓的 QLoRA。

Unsloth

如果我重新开始进行 LLM 微调，我会选择 Unsloth Python 库。Unsloth 提供了一系列针对 LLM 微调的优化，并支持包括 Mistral、Llama 3、Gemma 等在内的多种流行的 LLMs。例如，他们的免费层级包括了 12 种不同的针对 Mistral 的微调优化，提供了显著的 2.2 倍加速。

以下是使用 Unsloth 库微调 Llama 3 8B 的代码片段。所有这些代码块都取自 Unsloth 的 GitHub，完整的用于微调 Llama 3 8B 的笔记本可以在其官方仓库找到。

以 4 位精度导入模型

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/llama-3-8b-bnb-4bit",
    max_seq_length=max_seq_length,
    dtype=dtype,
    load_in_4bit=load_in_4bit,
    # token="hf_...", # use one if using gated models like meta-llama/Llama-2-7b-hf
)

微调大型语言模型：定制 Llama 3 8B 应用

微调大型语言模型：定制 Llama 3 8B 应用

'小'型大型语言模型

量化

低秩适应（LoRA）

Unsloth

以 4 位精度导入模型

安装 LoRA

更多推荐文章

相关免费在线工具

初始化 Hugging Face 的监督微调训练器

训练模型

监督微调训练器（SFT）

以 4 位精度导入模型

安装 LoRA

初始化 Hugging Face 的监督微调训练器

训练模型

优势比偏好优化（ORPO）

以 4 位精度导入模型

配置 LoRA

初始化 Hugging Face 的 ORPO 训练器

训练模型

推理与部署

结论

更多推荐文章

相关免费在线工具

微调大型语言模型：定制 Llama 3 8B 应用

微调大型语言模型：定制 Llama 3 8B 应用

'小'型大型语言模型

量化

低秩适应（LoRA）

Unsloth

以 4 位精度导入模型

安装 LoRA

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

初始化 Hugging Face 的监督微调训练器

训练模型

监督微调训练器（SFT）

以 4 位精度导入模型

安装 LoRA

初始化 Hugging Face 的监督微调训练器

训练模型

优势比偏好优化（ORPO）

以 4 位精度导入模型

配置 LoRA

初始化 Hugging Face 的 ORPO 训练器

训练模型

推理与部署

结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具