视觉 Transformer (Vision Transformer, ViT)
视觉 Transformer (Vision Transformer, ViT) 是一种革命性的技术,它将 Transformer 架构应用于视觉识别任务。通过自注意力机制 (Self-Attention Mechanism),ViT 能够捕捉图像中的全局特征关系,显著增强了模型对视觉信息的解析力。这一领域的研究不仅打破了传统卷积神经网络 (CNN) 在特征提取方面的限制,还为计算机视觉带来了全新的模型设计和更强的表征能力,从而在图像分类、目标检测、语义分割等多个领域实现了性能的飞跃。
此外,视觉 Transformer 的研究深化了我们对深度学习中注意力机制的理解,并激发了模型设计的创新,如通过局部注意力机制降低计算成本,或通过结构性重参数化提高效率。视觉 Transformer 的进展为处理跨模态任务和大规模视觉识别挑战提供了新的工具,推动了人工智能在视觉识别领域的快速发展。
三篇论文解析
1. Super Vision Transformer: Revisiting Activation Sparsity for Efficient High-Resolution Vision Transformer
方法
SuperViT 提出了一种新的训练范式,旨在训练一个能够处理不同尺寸输入图像并且能够在多种计算成本下提供改进图像识别性能的 ViT 模型。其核心方法包括:
- 多尺寸补丁分割:将输入图像复制到多个并行分支中,每个分支负责特定尺寸的局部补丁分割,以注入不同尺寸补丁的信息,增强模型对多尺度特征的感知。
- 多令牌保持率:在训练过程中考虑多种令牌保持率,以挖掘图像中的冗余区域并减少计算成本,实现动态的资源分配。
- 硬件效率优化:SuperViT 能够在不同硬件资源条件下动态适应,通过调整输入图像的补丁大小和令牌保持率来实现快速的准确性 - 效率权衡。
- 训练目标:使用交叉熵损失和 Kullback-Leibler (KL) 散度来训练 SuperViT,以处理不同尺寸的补丁和不同的令牌保持率,确保模型在不同配置下的泛化能力。
创新点
- 激活稀疏性的重新审视:提出了一种新的训练范式,使得一个 ViT 模型能够在保持高分辨率信息的同时,根据当前可用的硬件资源动态调整其复杂性。
- 多尺寸和多保持率的训练:通过在训练过程中考虑多种补丁尺寸和令牌保持率,SuperViT 能够在测试阶段适应不同的计算成本,从而提高性能。
- 硬件效率的优化:SuperViT 能够在各种硬件平台上实现高效的部署,甚至在相同工作站上的硬件资源发生变化时,也能够通过简单地调整输入图像的补丁大小和令牌保持率来实现即时和自适应的准确性 - 效率权衡。
- 提高 ViT 模型的计算效率:通过减少令牌数量和在训练过程中注入多尺寸补丁的信息,SuperViT 在减少计算成本的同时,甚至能够提高模型的性能。
- 一种新的训练目标:通过结合交叉熵损失和 KL 散度,SuperViT 能够在训练过程中同时考虑不同尺寸的补丁和不同的令牌保持率,从而实现更好的性能。
2. Vicinity Vision Transformer
方法
Vicinity Vision Transformer (VVT) 是一种新型的视觉 Transformer 骨干网络,它通过以下方法来提高视觉任务的性能和计算效率:
- Vicinity Attention:提出了一种新型的线性注意力机制,称为 Vicinity Attention,它通过 2D 曼哈顿距离来调整图像块之间的注意力权重,从而使相邻的图像块获得更强的注意力,模拟人类视觉的局部性偏好。
- Feature Reduction Attention (FRA):为了解决线性注意力在特征维度上的二次方计算复杂度问题,提出了 FRA,它通过减少输入特征维度来降低计算复杂度。
- Feature Preserving Connection (FPC):为了弥补 FRA 可能带来的特征信息损失,引入了 FPC,它通过额外的跳跃连接来保留原始特征分布,增强特征提取能力。
- 金字塔结构:VVT 采用金字塔结构,从高分辨率的图像块开始,逐步缩小尺寸以适应不同视觉任务的多尺度输出需求。


