人工智能:注意力机制与Transformer模型实战

人工智能:注意力机制与Transformer模型实战

人工智能:注意力机制与Transformer模型实战

在这里插入图片描述

1.1 本章学习目标与重点

💡 学习目标:掌握注意力机制的核心原理、经典注意力算法,以及Transformer模型的架构设计与实战应用。
💡 学习重点:理解自注意力与多头注意力的计算逻辑,学会使用TensorFlow搭建Transformer模型,完成机器翻译任务。

1.2 注意力机制的核心思想

1.2.1 为什么需要注意力机制

💡 传统的RNN和LSTM在处理长序列时,存在长距离依赖捕捉能力不足并行计算效率低的问题。注意力机制的出现,解决了这两个核心痛点。
注意力机制的本质是让模型学会“聚焦”——在处理序列数据时,自动分配不同的权重给输入序列中的各个元素,重点关注与当前任务相关的信息,弱化无关信息的干扰。
比如在机器翻译任务中,翻译“我爱中国”时,模型会给“我”“爱”“中国”分配不同的注意力权重,从而更精准地生成对应的英文翻译。

1.2.2 注意力机制的基本框架

💡 注意力机制的计算通常包含**查询(Query)、键(Key)、值(Value)**三个核心要素,简称QKV框架。
其计算流程可以总结为三步:
① 计算Query和所有Key的相似度,得到注意力分数
② 对注意力分数进行归一化处理(常用Softmax函数),得到注意力权重
③ 用归一化后的权重对Value进行加权求和,得到最终的注意力输出

基础注意力计算公式:
Attention(Q,K,V)=softmax(QKTdk)VAttention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})VAttention(Q,K,V)=softmax(dk​​QKT​)V
其中 dkd_kdk​ 是Key的维度,除以 dk\sqrt{d_k}dk​​ 是为了防止内积结果过大,导致Softmax函数饱和。

import tensorflow as tf import numpy as np # 实现基础注意力计算defscaled_dot_product_attention(q, k, v, mask=None):# 计算Q和K的点积 matmul_qk = tf.matmul(q, k, transpose_b=True)# 获取k的维度 dk = tf.cast(tf.shape(k)[-1], tf.float32)# 缩放点积 scaled_attention_logits = matmul_qk / tf.math.sqrt(dk)# 应用掩码(可选)if mask isnotNone: scaled_attention_logits +=(mask *-1e9)# 计算注意力权重 attention_weights = tf.nn.softmax(scaled_attention_logits, axis=-1)# 计算最终输出 output = tf.matmul(attention_weights, v)return output, attention_weights # 模拟输入:批次大小=2,序列长度=3,特征维度=4 q = tf.random.normal((2,3,4)) k = tf.random.normal((2,3,4)) v = tf.random.normal((2,3,4)) output, attn_weights = scaled_dot_product_attention(q, k, v)print("注意力输出形状:", output.shape)print("注意力权重形状:", attn_weights.shape)

⚠️ 注意:掩码(Mask)分为两种,一种是填充掩码,用于屏蔽输入中的无效填充部分;另一种是前瞻掩码,用于在自回归任务中防止模型看到未来的信息。

1.3 自注意力与多头注意力

1.3.1 自注意力机制

💡 自注意力(Self-Attention)是注意力机制的一种特殊形式。在自注意力中,Query、Key、Value三个矩阵都来自同一个输入序列
自注意力可以捕捉序列内部元素之间的依赖关系,比如在句子“他喜欢打篮球,因为它很有趣”中,模型可以通过自注意力机制,将“它”和“打篮球”关联起来。

自注意力的计算步骤:
① 对输入序列的每个元素,分别通过三个不同的线性变换,生成Q、K、V矩阵
② 按照基础注意力公式计算注意力输出
③ 将注意力输出作为当前层的特征,传递给下一层

1.3.2 多头注意力机制

💡 多头注意力(Multi-Head Attention)是Transformer模型的核心创新点之一。它通过多个并行的注意力头,从不同的角度捕捉序列的特征。
多头注意力的计算流程:
① 将输入序列的特征维度拆分为h个独立的子空间(h为注意力头的数量)
② 对每个子空间分别计算自注意力,得到h个不同的注意力输出
③ 将h个注意力输出拼接起来,再通过一个线性变换,得到最终的多头注意力输出

classMultiHeadAttention(tf.keras.layers.Layer):def__init__(self, d_model, num_heads):super(MultiHeadAttention, self).__init__() self.num_heads = num_heads self.d_model = d_model # 确保d_model可以被num_heads整除assert d_model % self.num_heads ==0# 每个头的维度 self.depth = d_model // self.num_heads # 定义Q、K、V和输出的线性变换层 self.wq = tf.keras.layers.Dense(d_model) self.wk = tf.keras.layers.Dense(d_model) self.wv = tf.keras.layers.Dense(d_model) self.dense = tf.keras.layers.Dense(d_model)defsplit_heads(self, x, batch_size):# 将特征维度拆分为多个头 x = tf.reshape(x,(batch_size,-1, self.num_heads, self.depth))return tf.transpose(x, perm=[0,2,1,3])defcall(self, v, k, q, mask): batch_size = tf.shape(q)[0]# 生成Q、K、V矩阵 q = self.wq(q) k = self.wk(k) v = self.wv(v)# 拆分多头 q = self.split_heads(q, batch_size) k = self.split_heads(k, batch_size) v = self.split_heads(v, batch_size)# 计算缩放点积注意力 scaled_attention, attention_weights = scaled_dot_product_attention(q, k, v, mask)# 拼接多头输出 scaled_attention = tf.transpose(scaled_attention, perm=[0,2,1,3]) concat_attention = tf.reshape(scaled_attention,(batch_size,-1, self.d_model))# 线性变换输出 output = self.dense(concat_attention)return output, attention_weights # 测试多头注意力层 mha = MultiHeadAttention(d_model=128, num_heads=8)# 模拟输入:批次大小=2,序列长度=5,特征维度=128 x = tf.random.normal((2,5,128)) output, attn_weights = mha(x, x, x, mask=None)print("多头注意力输出形状:", output.shape)print("多头注意力权重形状:", attn_weights.shape)

1.4 Transformer模型架构详解

💡 Transformer模型由Google团队在2017年的论文《Attention Is All You Need》中提出。它完全基于注意力机制,摒弃了RNN和CNN的序列式结构,实现了高度并行化计算,极大提升了模型的训练效率。
Transformer的整体架构分为**编码器(Encoder)解码器(Decoder)**两大部分。

1.4.1 编码器结构

编码器由N个相同的编码层堆叠而成,每个编码层包含两个子层:

  1. 多头自注意力层:捕捉输入序列内部的依赖关系
  2. 前馈神经网络层:对注意力输出进行非线性变换
    每个子层都配备了残差连接层归一化,公式为:LayerNorm(x+Sublayer(x))LayerNorm(x + Sublayer(x))LayerNorm(x+Sublayer(x))

1.4.2 解码器结构

解码器同样由N个相同的解码层堆叠而成,每个解码层包含三个子层:

  1. 掩码多头自注意力层:防止模型看到未来的信息
  2. 编码器-解码器注意力层:捕捉输入序列和输出序列之间的依赖关系
  3. 前馈神经网络层:对注意力输出进行非线性变换
    每个子层同样配备残差连接和层归一化。

1.4.3 位置编码

💡 Transformer模型没有循环结构,无法感知输入序列的顺序信息。因此需要通过位置编码(Positional Encoding),将序列的位置信息注入到输入特征中。
位置编码的计算方式有多种,常用的是正弦余弦位置编码:
PE(pos,2i)=sin(pos/100002i/dmodel)PE_{(pos,2i)} = sin(pos / 10000^{2i/d_{model}})PE(pos,2i)​=sin(pos/100002i/dmodel​)
PE(pos,2i+1)=cos(pos/100002i/dmodel)PE_{(pos,2i+1)} = cos(pos / 10000^{2i/d_{model}})PE(pos,2i+1)​=cos(pos/100002i/dmodel​)
其中 pospospos 是元素在序列中的位置,iii 是特征维度的索引。

defpositional_encoding(position, d_model): angle_rads = get_angles(np.arange(position)[:, np.newaxis], np.arange(d_model)[np.newaxis,:], d_model)# 对偶数索引使用sin angle_rads[:,0::2]= np.sin(angle_rads[:,0::2])# 对奇数索引使用cos angle_rads[:,1::2]= np.cos(angle_rads[:,1::2]) pos_encoding = angle_rads[np.newaxis,...]return tf.cast(pos_encoding, dtype=tf.float32)defget_angles(pos, i, d_model): angles =1/ np.power(10000,(2*(i //2))/ np.float32(d_model))return pos * angles # 生成位置编码:序列长度=100,特征维度=128 pos_enc = positional_encoding(100,128)print("位置编码形状:", pos_enc.shape)

1.5 实战:基于Transformer的机器翻译任务

1.5.1 任务介绍与数据集准备

💡 本次实战任务是英-法机器翻译。我们将使用一个小型的英法双语数据集,目标是搭建Transformer模型,实现英文句子到法文句子的自动翻译。

① 加载英法双语数据集,对文本进行预处理:分词、建立词汇表、转换为整数索引序列
② 统一序列长度,对过长的序列进行截断,过短的序列进行填充
③ 划分训练集和测试集,设置批次大小进行数据加载

import tensorflow_datasets as tfds # 加载英法翻译数据集(示例) dataset, info = tfds.load('ted_hrlr_translate/fr_to_en', with_info=True, as_supervised=True) train_examples, val_examples = dataset['train'], dataset['validation']# 构建分词器 tokenizer_en = tfds.deprecated.text.SubwordTextEncoder.build_from_corpus((en.numpy()for en, fr in train_examples), target_vocab_size=2**13) tokenizer_fr = tfds.deprecated.text.SubwordTextEncoder.build_from_corpus((fr.numpy()for en, fr in train_examples), target_vocab_size=2**13)# 文本处理函数defencode(lang1, lang2):# 添加开始和结束标记 lang1 =[tokenizer_en.vocab_size]+ tokenizer_en.encode(lang1.numpy())+[tokenizer_en.vocab_size +1] lang2 =[tokenizer_fr.vocab_size]+ tokenizer_fr.encode(lang2.numpy())+[tokenizer_fr.vocab_size +1]return lang1, lang2 deftf_encode(en, fr):return tf.py_function(encode,[en, fr],[tf.int64, tf.int64])# 设置序列最大长度 MAX_LENGTH =40deffilter_max_length(x, y, max_length=MAX_LENGTH):return tf.logical_and(tf.size(x)<= max_length, tf.size(y)<= max_length)# 处理训练集和验证集 train_dataset = train_examples.map(tf_encode) train_dataset = train_dataset.filter(filter_max_length) train_dataset = train_dataset.cache() train_dataset = train_dataset.shuffle(10000) train_dataset = train_dataset.padded_batch(64, padded_shapes=([-1],[-1])) train_dataset = train_dataset.prefetch(tf.data.AUTOTUNE) val_dataset = val_examples.map(tf_encode) val_dataset = val_dataset.filter(filter_max_length).padded_batch(64, padded_shapes=([-1],[-1]))

1.5.2 搭建完整的Transformer模型

# 定义前馈神经网络defpoint_wise_feed_forward_network(d_model, dff):return tf.keras.Sequential([ tf.keras.layers.Dense(dff, activation='relu'), tf.keras.layers.Dense(d_model)])# 定义编码层classEncoderLayer(tf.keras.layers.Layer):def__init__(self, d_model, num_heads, dff, rate=0.1):super(EncoderLayer, self).__init__() self.mha = MultiHeadAttention(d_model, num_heads) self.ffn = point_wise_feed_forward_network(d_model, dff) self.layernorm1 = tf.keras.layers.LayerNormalization(epsilon=1e-6) self.layernorm2 = tf.keras.layers.LayerNormalization(epsilon=1e-6) self.dropout1 = tf.keras.layers.Dropout(rate) self.dropout2 = tf.keras.layers.Dropout(rate)defcall(self, x, training, mask): attn_output, _ = self.mha(x, x, x, mask) attn_output = self.dropout1(attn_output, training=training) out1 = self.layernorm1(x + attn_output) ffn_output = self.ffn(out1) ffn_output = self.dropout2(ffn_output, training=training) out2 = self.layernorm2(out1 + ffn_output)return out2 # 定义解码器层classDecoderLayer(tf.keras.layers.Layer):def__init__(self, d_model, num_heads, dff, rate=0.1):super(DecoderLayer, self).__init__() self.mha1 = MultiHeadAttention(d_model, num_heads) self.mha2 = MultiHeadAttention(d_model, num_heads) self.ffn = point_wise_feed_forward_network(d_model, dff) self.layernorm1 = tf.keras.layers.LayerNormalization(epsilon=1e-6) self.layernorm2 = tf.keras.layers.LayerNormalization(epsilon=1e-6) self.layernorm3 = tf.keras.layers.LayerNormalization(epsilon=1e-6) self.dropout1 = tf.keras.layers.Dropout(rate) self.dropout2 = tf.keras.layers.Dropout(rate) self.dropout3 = tf.keras.layers.Dropout(rate)defcall(self, x, enc_output, training, look_ahead_mask, padding_mask): attn1, attn_weights_block1 = self.mha1(x, x, x, look_ahead_mask) attn1 = self.dropout1(attn1, training=training) out1 = self.layernorm1(attn1 + x) attn2, attn_weights_block2 = self.mha2(enc_output, enc_output, out1, padding_mask) attn2 = self.dropout2(attn2, training=training) out2 = self.layernorm2(attn2 + out1) ffn_output = self.ffn(out2) ffn_output = self.dropout3(ffn_output, training=training) out3 = self.layernorm3(ffn_output + out2)return out3, attn_weights_block1, attn_weights_block2 # 定义完整编码器classEncoder(tf.keras.layers.Layer):def__init__(self, num_layers, d_model, num_heads, dff, input_vocab_size, maximum_position_encoding, rate=0.1):super(Encoder, self).__init__() self.d_model = d_model self.num_layers = num_layers self.embedding = tf.keras.layers.Embedding(input_vocab_size, d_model) self.pos_encoding = positional_encoding(maximum_position_encoding, self.d_model) self.enc_layers =[EncoderLayer(d_model, num_heads, dff, rate)for _ inrange(num_layers)] self.dropout = tf.keras.layers.Dropout(rate)defcall(self, x, training, mask): seq_len = tf.shape(x)[1] x = self.embedding(x) x *= tf.math.sqrt(tf.cast(self.d_model, tf.float32)) x += self.pos_encoding[:,:seq_len,:] x = self.dropout(x, training=training)for i inrange(self.num_layers): x = self.enc_layers[i](x, training, mask)return x # 定义完整解码器classDecoder(tf.keras.layers.Layer):def__init__(self, num_layers, d_model, num_heads, dff, target_vocab_size, maximum_position_encoding, rate=0.1):super(Decoder, self).__init__() self.d_model = d_model self.num_layers = num_layers self.embedding = tf.keras.layers.Embedding(target_vocab_size, d_model) self.pos_encoding = positional_encoding(maximum_position_encoding, d_model) self.dec_layers =[DecoderLayer(d_model, num_heads, dff, rate)for _ inrange(num_layers)] self.dropout = tf.keras.layers.Dropout(rate)defcall(self, x, enc_output, training, look_ahead_mask, padding_mask): seq_len = tf.shape(x)[1] attention_weights ={} x = self.embedding(x) x *= tf.math.sqrt(tf.cast(self.d_model, tf.float32)) x += self.pos_encoding[:,:seq_len,:] x = self.dropout(x, training=training)for i inrange(self.num_layers): x, block1, block2 = self.dec_layers[i](x, enc_output, training, look_ahead_mask, padding_mask) attention_weights['decoder_layer{}_block1'.format(i+1)]= block1 attention_weights['decoder_layer{}_block2'.format(i+1)]= block2 return x, attention_weights # 定义完整Transformer模型classTransformer(tf.keras.Model):def__init__(self, num_layers, d_model, num_heads, dff, input_vocab_size, target_vocab_size, pe_input, pe_target, rate=0.1):super(Transformer, self).__init__() self.encoder = Encoder(num_layers, d_model, num_heads, dff, input_vocab_size, pe_input, rate) self.decoder = Decoder(num_layers, d_model, num_heads, dff, target_vocab_size, pe_target, rate) self.final_layer = tf.keras.layers.Dense(target_vocab_size)defcall(self, inp, tar, training, enc_padding_mask, look_ahead_mask, dec_padding_mask): enc_output = self.encoder(inp, training, enc_padding_mask) dec_output, attention_weights = self.decoder(tar, enc_output, training, look_ahead_mask, dec_padding_mask) final_output = self.final_layer(dec_output)return final_output, attention_weights # 设置模型参数 num_layers =4 d_model =128 dff =512 num_heads =8 input_vocab_size = tokenizer_en.vocab_size +2 target_vocab_size = tokenizer_fr.vocab_size +2 dropout_rate =0.1# 初始化模型 transformer = Transformer(num_layers, d_model, num_heads, dff, input_vocab_size, target_vocab_size, pe_input=1000, pe_target=1000, rate=dropout_rate)

1.5.3 模型编译与训练

💡 机器翻译任务属于序列生成任务,我们使用稀疏交叉熵损失函数,优化器选择Adam,并设置学习率衰减策略。

# 定义学习率调度器classCustomSchedule(tf.keras.optimizers.schedules.LearningRateSchedule):def__init__(self, d_model, warmup_steps=4000):super(CustomSchedule, self).__init__() self.d_model = d_model self.d_model = tf.cast(self.d_model, tf.float32) self.warmup_steps = warmup_steps def__call__(self, step): arg1 = tf.math.rsqrt(step) arg2 = step *(self.warmup_steps **-1.5)return tf.math.rsqrt(self.d_model)* tf.math.minimum(arg1, arg2)# 初始化学习率和优化器 learning_rate = CustomSchedule(d_model) optimizer = tf.keras.optimizers.Adam(learning_rate, beta_1=0.9, beta_2=0.98, epsilon=1e-9)# 定义损失函数和评估指标 loss_object = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True, reduction='none')defloss_function(real, pred): mask = tf.math.logical_not(tf.math.equal(real,0)) loss_ = loss_object(real, pred) mask = tf.cast(mask, dtype=loss_.dtype) loss_ *= mask return tf.reduce_sum(loss_)/ tf.reduce_sum(mask) train_loss = tf.keras.metrics.Mean(name='train_loss') train_accuracy = tf.keras.metrics.SparseCategoricalAccuracy(name='train_accuracy')# 定义训练步骤@tf.functiondeftrain_step(inp, tar): tar_inp = tar[:,:-1] tar_real = tar[:,1:] enc_padding_mask, combined_mask, dec_padding_mask = create_masks(inp, tar_inp)with tf.GradientTape()as tape: predictions, _ = transformer(inp, tar_inp,True, enc_padding_mask, combined_mask, dec_padding_mask) loss = loss_function(tar_real, predictions) gradients = tape.gradient(loss, transformer.trainable_variables) optimizer.apply_gradients(zip(gradients, transformer.trainable_variables)) train_loss(loss) train_accuracy(tar_real, predictions)# 定义掩码生成函数defcreate_masks(inp, tar): enc_padding_mask = create_padding_mask(inp) dec_padding_mask = create_padding_mask(inp) look_ahead_mask = create_look_ahead_mask(tf.shape(tar)[1]) dec_target_padding_mask = create_padding_mask(tar) combined_mask = tf.maximum(dec_target_padding_mask, look_ahead_mask)return enc_padding_mask, combined_mask, dec_padding_mask defcreate_padding_mask(seq): seq = tf.cast(tf.math.equal(seq,0), tf.float32)return seq[:, tf.newaxis, tf.newaxis,:]defcreate_look_ahead_mask(size): mask =1- tf.linalg.band_part(tf.ones((size, size)),-1,0)return mask # 开始训练 EPOCHS =20for epoch inrange(EPOCHS): train_loss.reset_states() train_accuracy.reset_states()for(batch,(inp, tar))inenumerate(train_dataset): train_step(inp, tar)if batch %50==0:print(f'Epoch {epoch+1} Batch {batch} Loss {train_loss.result():.4f} Accuracy {train_accuracy.result():.4f}')print(f'Epoch {epoch+1} Loss {train_loss.result():.4f} Accuracy {train_accuracy.result():.4f}')

1.5.4 模型优化技巧

💡 技巧 1:使用标签平滑(Label Smoothing)技术,缓解模型过拟合,提升泛化能力。
💡 技巧 2:采用波束搜索(Beam Search)替代贪心搜索,生成更流畅、更准确的翻译结果。
💡 技巧 3:使用预训练的词向量
初始化嵌入层,提升模型的特征表示能力。

1.6 本章总结

✅ 注意力机制通过QKV框架,让模型学会聚焦序列中的关键信息,解决了长序列依赖问题。
✅ 多头注意力从多个角度捕捉序列特征,是Transformer模型的核心组件。
✅ Transformer模型完全基于注意力机制,实现了高度并行化计算,在机器翻译、文本生成等任务中表现优异。

Read more

飞算JavaAI赋能企业级电商管理系统开发实践——一位资深开发者的技术选型与落地总结

飞算JavaAI赋能企业级电商管理系统开发实践——一位资深开发者的技术选型与落地总结

目录 * 一、背景与选型考量 * 二、开发环境与工具适配 * 1. 基础环境搭建 * 2. 飞算JavaAI插件配置 * 3. 版本控制与协作配置 * 三、核心模块设计与实现 * 1. 需求分析与模块拆分 * 2. 核心代码实现与技术亮点 * (1)实体类设计(带审计字段与枚举约束) * (2)服务层实现(带事务控制与业务校验) * (3)控制器实现(带权限控制与参数校验) * (4)网页端 * 四、系统架构与扩展性设计 * 1. 分层架构设计 * 2. 接口设计规范 * 3. 扩展性保障 * 五、资深开发者视角的工具评价 * 1. 代码规范性与可维护性 * 2. 对企业级业务的理解深度 * 3. 与资深开发者工作流的适配性 * 六、项目成果与经验总结 一、背景与选型考量 作为一名从业20余年的开发者,我亲历了从JSP+

By Ne0inhk
【Java Web学习 | 第1篇】前端 - HTML

【Java Web学习 | 第1篇】前端 - HTML

文章目录 * Java Web概览 * HTML核心知识点总结 * 一、HTML基础概念🥝 * 1.1 HTML文档基本结构 * 1.2 HTML标签特点 * 二、常用HTML标签🧾 * 2.1 文本标签 * 2.2 链接与图像 * 综合示例 * 2.3 列表标签 * 2.4 表格标签 * 2.5 表单标签 * 三、HTML5新增特性🤔 * 3.1 语义化标签 * 3.2 媒体标签 * 3.3 其他新增特性 * 四、学习资源推荐🐦‍🔥 Java Web概览 HTML核心知识点总结 一、HTML基础概念🥝 1.1

By Ne0inhk
Java 基础知识总结(超详细整理)

Java 基础知识总结(超详细整理)

Java基础知识总结(超详细整理) Java是一种跨平台、面向对象的编程语言,其设计理念为“一次编写,到处运行”(Write Once, Run Anywhere),广泛应用于后端开发、Android开发、大数据处理等领域。以下从核心概念、语法、进阶特性等维度,系统梳理Java基础知识。 一、Java语言核心概念 1.1 跨平台原理 Java的跨平台依赖JVM(Java Virtual Machine,Java虚拟机) : * 开发者编写的.java源文件,通过javac编译器编译为字节码文件(.class) ; * 不同操作系统(Windows、Linux、macOS)安装对应的JVM,JVM负责将字节码解析为本地机器指令并执行; * 注意:JVM是跨平台的核心,但JVM本身不跨平台(需为不同系统安装对应版本的JVM)。 1.2 JDK、JRE、JVM的关系 三者是Java开发和运行的基础,关系如下(包含关系:

By Ne0inhk
JAVA 异常处理:从原理到实战最佳实践

JAVA 异常处理:从原理到实战最佳实践

JAVA 异常处理:从原理到实战最佳实践 1.1 本章学习目标与重点 💡 掌握异常的分类与核心概念,理解异常处理的设计思想。 💡 熟练运用 try-catch-finally、throws、throw 处理异常。 💡 掌握自定义异常的编写与使用场景,规范异常处理流程。 ⚠️ 本章重点是 异常处理的最佳实践 和 避免常见误区,这是提升代码健壮性的核心技能。 1.2 异常的核心概念与分类 1.2.1 什么是异常 💡 异常是指程序运行过程中出现的非正常情况,它会中断程序的正常执行流程。 比如文件找不到、数组下标越界、空指针访问等,这些情况都会触发异常。 Java 中所有异常都是 Throwable 类的子类,异常处理的本质是捕获并处理这些非正常情况,保证程序可以继续运行或优雅退出。 1.2.2 异常的分类 Java 中的异常体系分为三大类,它们的父类都是 Throwable: * 是 JVM 内部的严重错误,

By Ne0inhk