VisionTransformer(ViT) 是一种基于 Transformer 架构的创新模型,近年来在计算机视觉领域掀起了不小的波澜。它通过引入多头自注意力机制(Multi Self-Attention),抛弃了传统卷积神经网络(CNN)的局部特征提取方式,转而以全局视角处理图像数据。
一、VisionTransformer 的基础原理
1. 传统卷积的瓶颈与挑战
传统卷积神经网络(CNN)在图像处理中长期占据主导地位,但随着任务复杂度和数据规模的增加,它的局限性逐渐显现:
- 计算效率低下:卷积操作需要对每个通道进行全局交互,参数量和计算量随着通道数的增加呈爆炸式增长,特别是在深层网络中,这会导致训练和推理耗时严重,GPU 显存占用高。
- 局部感知限制:CNN 通过局部感受野提取特征,虽然高效,但难以直接捕捉图像中的长距离依赖关系或全局信息。
- 灵活性不足:CNN 的结构设计通常针对特定任务优化,迁移到其他任务或数据类型时,往往需要大幅调整。
这些问题促使研究者寻找新的解决方案,而 VisionTransformer 正是这一背景下诞生的产物。
2. VisionTransformer 的核心机制
VisionTransformer 的核心在于将 Transformer 架构从自然语言处理领域迁移到计算机视觉。它通过多头自注意力机制(Multi Self-Attention)处理图像数据,从而实现全局特征的捕捉与建模。


