大语言模型（LLM）原理与应用实战

人工智能：大语言模型（LLM）原理与应用实战

在这里插入图片描述

1.1 本章学习目标与重点

💡 学习目标：掌握大语言模型的核心原理、训练流程与微调方法，学会基于开源大语言模型完成定制化对话与文本生成任务。 💡 学习重点：理解大语言模型的 Transformer decoder-only 架构，掌握指令微调与 RLHF 技术，能够使用 LoRA 高效微调开源 LLM。

1.2 大语言模型的核心概念与发展历程

1.2.1 什么是大语言模型

💡 大语言模型（Large Language Model, LLM）是参数量达到十亿级甚至万亿级的 Transformer-based 模型。它通过在海量文本数据上进行预训练，学习语言的语法、语义、常识和推理能力。 LLM 的核心能力包括文本生成、理解、翻译、摘要、问答等。它可以处理复杂的自然语言任务，无需针对每个任务单独设计模型结构。

LLM 与传统 NLP 模型的核心区别：

参数量级：传统模型参数量通常在千万级，LLM 参数量可达十亿到万亿级。
训练数据：传统模型依赖标注数据，LLM 使用海量无标注文本进行预训练。
能力边界：传统模型只能处理单一任务，LLM 具备零样本/少样本泛化能力。

1.2.2 LLM 的发展里程碑

GPT 系列（2018-2023）：OpenAI 提出的自回归语言模型，从 GPT-1 的 1.17 亿参数，到 GPT-3 的 1750 亿参数，再到 GPT-4 的多模态能力，引领了 LLM 的发展方向。
LLaMA 系列（2023）：Meta 推出的开源大语言模型，参数量从 7B 到 65B，在小参数量级上实现了媲美闭源模型的性能，降低了 LLM 的使用门槛。
ChatGLM 系列（2023）：智谱 AI 推出的开源中文大语言模型，针对中文语境优化，支持高效微调与部署，广泛应用于国内的 LLM 落地场景。
Qwen 系列（2023）：阿里云推出的通义千问开源模型，支持多语言、多模态，具备优秀的推理与生成能力。

⚠️ 注意：大语言模型的性能并非完全由参数量决定，训练数据的质量、模型架构的优化、训练策略的选择都会显著影响最终效果。

1.3 大语言模型的核心架构——Decoder-only

💡 目前主流的大语言模型均采用Transformer decoder-only架构。该架构去除了 Transformer 的编码器部分，仅保留解码器，通过自回归的方式生成文本。

1.3.1 Decoder-only 架构详解

Decoder-only 架构的核心是堆叠的 Transformer 解码器层，每个解码器层包含两个子层：

掩码多头自注意力层：使用前瞻掩码（Look-ahead Mask），确保模型在生成文本时只能看到当前位置及之前的内容，无法看到未来的 token，符合自回归生成的逻辑。
前馈神经网络层：对注意力层的输出进行非线性变换，捕捉更复杂的语言特征。

每个子层都配备残差连接和层归一化，保证模型在深层堆叠时的训练稳定性。

1.3.2 Decoder-only 架构的代码实现（简化版）

import torch import torch.nn as nn import torch.nn.functional as F class MultiHeadAttention(nn.Module): def __init__(self, d_model, num_heads): super().__init__() self.d_model = d_model self.num_heads = num_heads self.d_k = d_model // num_heads self.wq = nn.Linear(d_model, d_model) self.wk = nn.Linear(d_model, d_model) self.wv = nn.Linear(d_model, d_model) self.w_o = nn.Linear(d_model, d_model) def split_heads(self, x, batch_size): x = x.view(batch_size, -1, self.num_heads, self.d_k) return x.transpose(1, 2) def forward(self, x, mask=None): batch_size = x.size(0) # 生成 Q、K、V q = self.split_heads(self.wq(x), batch_size) k = self.split_heads(self.wk(x), batch_size) v = self.split_heads(self.wv(x), batch_size) # 计算注意力分数 scores = torch.matmul(q, k.transpose(-2, -1)) / torch.sqrt(torch.tensor(self.d_k, dtype=torch.float32)) if mask is not None: scores = scores.masked_fill(mask == 0, -1e9) # 计算注意力权重 attn_weights = F.softmax(scores, dim=-1) # 计算注意力输出 attn_output = torch.matmul(attn_weights, v) attn_output = attn_output.transpose(1, 2).contiguous().view(batch_size, -1, self.d_model) return self.w_o(attn_output) class FeedForward(nn.Module): def __init__(self, d_model, d_ff): super().__init__() self.linear1 = nn.Linear(d_model, d_ff) self.linear2 = nn.Linear(d_ff, d_model) self.relu = nn.ReLU() def forward(self, x): return self.linear2(self.relu(self.linear1(x))) class DecoderLayer(nn.Module): def __init__(self, d_model, num_heads, d_ff): super().__init__() self.self_attn = MultiHeadAttention(d_model, num_heads) self.feed_forward = FeedForward(d_model, d_ff) self.layernorm1 = nn.LayerNorm(d_model) self.layernorm2 = nn.LayerNorm(d_model) self.dropout = nn.Dropout(0.1) def forward(self, x, mask): # 掩码自注意力 + 残差连接 + 层归一化 attn_output = self.self_attn(x, mask) x = self.layernorm1(x + self.dropout(attn_output)) # 前馈网络 + 残差连接 + 层归一化 ff_output = self.feed_forward(x) x = self.layernorm2(x + self.dropout(ff_output)) return x class DecoderOnlyLLM(nn.Module): def __init__(self, vocab_size, d_model, num_heads, num_layers, d_ff): super().__init__() self.embedding = nn.Embedding(vocab_size, d_model) self.pos_encoding = nn.Embedding(1024, d_model) # 最大序列长度 1024 self.decoder_layers = nn.ModuleList([ DecoderLayer(d_model, num_heads, d_ff) for _ in range(num_layers) ]) self.fc = nn.Linear(d_model, vocab_size) def generate_look_ahead_mask(self, seq_len): # 生成前瞻掩码，防止看到未来 token mask = torch.tril(torch.ones((seq_len, seq_len))) return mask def forward(self, x): batch_size, seq_len = x.size() # 词嵌入 + 位置编码 positions = torch.arange(0, seq_len).expand(batch_size, seq_len).to(x.device) x = self.embedding(x) + self.pos_encoding(positions) # 生成掩码 mask = self.generate_look_ahead_mask(seq_len).to(x.device) # 逐层解码 for layer in self.decoder_layers: x = layer(x, mask) # 输出 vocab_size 维度的 logits logits = self.fc(x) return logits # 初始化一个小型 Decoder-only LLM vocab_size = 10000 d_model = 512 num_heads = 8 num_layers = 6 d_ff = 2048 model = DecoderOnlyLLM(vocab_size, d_model, num_heads, num_layers, d_ff) print(model)

大语言模型（LLM）原理与应用实战

人工智能：大语言模型（LLM）原理与应用实战

1.1 本章学习目标与重点

1.2 大语言模型的核心概念与发展历程

1.2.1 什么是大语言模型

1.2.2 LLM 的发展里程碑

1.3 大语言模型的核心架构——Decoder-only

1.3.1 Decoder-only 架构详解

1.3.2 Decoder-only 架构的代码实现（简化版）

更多推荐文章

相关免费在线工具

1.4 大语言模型的训练流程

1.4.1 预训练阶段

1.4.2 微调阶段

1.5 实战：基于 LLaMA-2 的 LoRA 高效微调

1.5.1 环境准备与依赖安装

1.5.2 加载数据集与预处理

1.5.3 配置 LoRA 与加载模型

1.5.4 配置训练参数与启动训练

1.5.5 模型推理与效果验证

1.6 大语言模型的部署与优化

1.6.1 部署方式

1.6.2 性能优化技巧

1.7 本章总结

更多推荐文章

相关免费在线工具

大语言模型（LLM）原理与应用实战

人工智能：大语言模型（LLM）原理与应用实战

1.1 本章学习目标与重点

1.2 大语言模型的核心概念与发展历程

1.2.1 什么是大语言模型

1.2.2 LLM 的发展里程碑

1.3 大语言模型的核心架构——Decoder-only

1.3.1 Decoder-only 架构详解

1.3.2 Decoder-only 架构的代码实现（简化版）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.4 大语言模型的训练流程

1.4.1 预训练阶段

1.4.2 微调阶段

1.5 实战：基于 LLaMA-2 的 LoRA 高效微调

1.5.1 环境准备与依赖安装

1.5.2 加载数据集与预处理

1.5.3 配置 LoRA 与加载模型

1.5.4 配置训练参数与启动训练

1.5.5 模型推理与效果验证

1.6 大语言模型的部署与优化

1.6.1 部署方式

1.6.2 性能优化技巧

1.7 本章总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具