Swin Transformer 的基础原理
Transformer 在视觉任务中的挑战
Transformer 最初是为自然语言处理设计的,通过自注意力机制捕捉序列中的长程依赖关系。然而,将其直接应用于视觉任务时,会遇到以下问题:
- 计算复杂度过高:自注意力机制的计算复杂度为 O(N^2),其中 N 是序列长度。对于高分辨率图像,像素数量巨大,导致计算量不可接受。
- 局部特征提取不足:图像具有天然的局部相关性,而 Transformer 的全局自注意力机制无法像 CNN 那样高效捕捉局部模式。
为了解决这些问题,Swin Transformer 引入了窗口化自注意力和移位窗口机制,在保持 Transformer 优势的同时,显著降低了计算复杂度并增强了局部建模能力。


