视觉 Transformer (Vision Transformer, ViT)
视觉 Transformer (Vision Transformer, ViT) 是一种革命性的技术,它将 Transformer 架构应用于视觉识别任务。通过自注意力机制 (Self-Attention Mechanism),ViT 能够捕捉图像中的全局特征关系,显著增强了模型对视觉信息的解析力。这一领域的研究不仅打破了传统卷积神经网络 (CNN) 在特征提取方面的限制,还为计算机视觉带来了全新的模型设计和更强的表征能力,从而在图像分类、目标检测、语义分割等多个领域实现了性能的飞跃。
此外,视觉 Transformer 的研究深化了我们对深度学习中注意力机制的理解,并激发了模型设计的创新,如通过局部注意力机制降低计算成本,或通过结构性重参数化提高效率。视觉 Transformer 的进展为处理跨模态任务和大规模视觉识别挑战提供了新的工具,推动了人工智能在视觉识别领域的快速发展。
三篇论文解析
1. Super Vision Transformer: Revisiting Activation Sparsity for Efficient High-Resolution Vision Transformer
方法
SuperViT 提出了一种新的训练范式,旨在训练一个能够处理不同尺寸输入图像并且能够在多种计算成本下提供改进图像识别性能的 ViT 模型。其核心方法包括:
- 多尺寸补丁分割:将输入图像复制到多个并行分支中,每个分支负责特定尺寸的局部补丁分割,以注入不同尺寸补丁的信息,增强模型对多尺度特征的感知。
- 多令牌保持率:在训练过程中考虑多种令牌保持率,以挖掘图像中的冗余区域并减少计算成本,实现动态的资源分配。
- 硬件效率优化:SuperViT 能够在不同硬件资源条件下动态适应,通过调整输入图像的补丁大小和令牌保持率来实现快速的准确性 - 效率权衡。
- 训练目标:使用交叉熵损失和 Kullback-Leibler (KL) 散度来训练 SuperViT,以处理不同尺寸的补丁和不同的令牌保持率,确保模型在不同配置下的泛化能力。
创新点
- 激活稀疏性的重新审视:提出了一种新的训练范式,使得一个 ViT 模型能够在保持高分辨率信息的同时,根据当前可用的硬件资源动态调整其复杂性。
- 多尺寸和多保持率的训练:通过在训练过程中考虑多种补丁尺寸和令牌保持率,SuperViT 能够在测试阶段适应不同的计算成本,从而提高性能。
- 硬件效率的优化:SuperViT 能够在各种硬件平台上实现高效的部署,甚至在相同工作站上的硬件资源发生变化时,也能够通过简单地调整输入图像的补丁大小和令牌保持率来实现即时和自适应的准确性 - 效率权衡。
- 提高 ViT 模型的计算效率:通过减少令牌数量和在训练过程中注入多尺寸补丁的信息,SuperViT 在减少计算成本的同时,甚至能够提高模型的性能。
- 一种新的训练目标:通过结合交叉熵损失和 KL 散度,SuperViT 能够在训练过程中同时考虑不同尺寸的补丁和不同的令牌保持率,从而实现更好的性能。
2. Vicinity Vision Transformer
方法
Vicinity Vision Transformer (VVT) 是一种新型的视觉 Transformer 骨干网络,它通过以下方法来提高视觉任务的性能和计算效率:
- Vicinity Attention:提出了一种新型的线性注意力机制,称为 Vicinity Attention,它通过 2D 曼哈顿距离来调整图像块之间的注意力权重,从而使相邻的图像块获得更强的注意力,模拟人类视觉的局部性偏好。
- Feature Reduction Attention (FRA):为了解决线性注意力在特征维度上的二次方计算复杂度问题,提出了 FRA,它通过减少输入特征维度来降低计算复杂度。
- Feature Preserving Connection (FPC):为了弥补 FRA 可能带来的特征信息损失,引入了 FPC,它通过额外的跳跃连接来保留原始特征分布,增强特征提取能力。
- 金字塔结构:VVT 采用金字塔结构,从高分辨率的图像块开始,逐步缩小尺寸以适应不同视觉任务的多尺度输出需求。
创新点
- 2D 局部性引入:VVT 首次在视觉 Transformer 的线性自注意力中引入了 2D 局部性偏置,这有助于模型更好地理解和处理图像中的局部特征。
- 线性复杂度的自注意力:通过 Vicinity Attention,VVT 实现了线性复杂度的自注意力计算,这使得模型能够处理更高分辨率的图像,同时保持计算效率。
- Vicinity Attention Block:提出了一种新的注意力结构,即 Vicinity Attention Block,它结合了 FRA 和 FPC,不仅减少了计算量,还保持了模型的准确性。
- 多尺度特征输出:VVT 的金字塔结构能够生成不同尺度的特征图,这使得它能够适应各种视觉任务,如图像分类和语义分割。
- 参数和计算效率:在保持或提高性能的同时,VVT 在参数数量和计算量上都比现有的 Transformer 和卷积网络更高效,尤其是在处理高分辨率输入时。
3. WetMapFormer: A unified deep CNN and vision transformer for complex wetland mapping
方法
WetMapFormer 是一种结合了深度卷积神经网络 (CNN) 和视觉变换器 (ViT) 的深度学习算法,用于精确映射复杂湿地。具体方法包括:
- 特征提取器:使用 3D 和 2D 卷积操作来提取光学和 SAR 数据的特征,充分利用两种数据源的优势。
- 深度可分离卷积块:采用轻量级的 CNN 架构,通过并行的深度可分离卷积来提取多尺度特征,减少参数量。
- 局部窗口注意力 (Local Window Attention, LWA):代替传统的自注意力机制,通过限制每个查询令牌的感受野到其邻域区域,以提高局部特征泛化能力,同时显著降低计算成本。
- 编码器 - 解码器架构:采用编码器 - 解码器网络来进一步提取和细化特征,适用于像素级预测任务。
- 前馈网络 (Feed-Forward Network, FFN):使用密集层对特征进行进一步的处理,以生成类别概率。
创新点
- CNN 与 ViT 的融合:提出了一种新的深度学习框架,有效结合了 CNN 和视觉变换器架构,以提高湿地分类的准确性,兼顾局部细节与全局上下文。
- 局部窗口注意力 (LWA):开发了一种新的注意力机制,与常规的自注意力相比,能够减少计算成本,同时保持特征提取的有效性。
- 计算效率:与原始 ViT 相比,WetMapFormer 通过 LWA 显著降低了计算成本,使得模型更适合于大规模湿地制图。
- 特征提取的改进:通过 3D 和 2D 卷积的结合,以及深度可分离卷积的使用,提高了特征提取的能力,尤其是在处理光学和 SAR 数据时。
- 数据集和实验验证:在加拿大新不伦瑞克省的三个试点地区使用 Sentinel-1 和 Sentinel-2 卫星数据进行了广泛的实验验证,并与多种 CNN 和视觉变换器模型进行了比较,证明了 WetMapFormer 的有效性。
ViT 发展趋势总结
随着研究的深入,视觉 Transformer 正朝着更高效、更通用的方向发展。未来的趋势包括:
- 混合架构的普及:如 WetMapFormer 所示,结合 CNN 的归纳偏置和 ViT 的全局建模能力将成为解决复杂任务的主流方案。
- 计算效率的持续优化:通过稀疏注意力、线性注意力等机制(如 SuperViT 和 VVT),降低 ViT 的训练和推理成本,使其能在边缘设备上部署。
- 多模态与大模型融合:ViT 作为强大的视觉编码器,将在多模态大模型中扮演核心角色,支持文本、图像、视频的统一理解。
- 自动化设计:利用神经架构搜索 (NAS) 自动寻找最佳的 ViT 变体,以适应特定的硬件约束和应用场景。