> 文档中心 > MaxViT:多轴视觉转换器

MaxViT:多轴视觉转换器

文章目录

  • 摘要
  • 1 简介
  • 2 相关工作
  • 3 方法
    • 3.1 注意
    • 3.2 多轴注意力
    • 3.3 架构变体
  • 4 实验
    • 4.1 ImageNet-1K上的图像分类
    • 4.2 目标检测和实例分割
    • 4.3 形象审美评价。
    • 4.4 图像生成
    • 4.5 消融研究。
  • 5 讨论与结论

摘要

Transformers 最近在计算机视觉界引起了广泛关注。然而,自注意力机制在图像大小方面缺乏可扩展性,这限制了它们在最先进的视觉骨干中的广泛采用。在本文中,我们介绍了一种高效且可扩展的注意力模型,我们称之为多轴注意力,它由两个方面组成:阻塞的局部注意力和扩张的全局注意力。这些设计选择允许在任意输入分辨率上进行全局-局部空间交互,仅具有线性复杂度。我们还通过将我们提出的注意力模型与卷积有效地融合在一起,提出了一个新的架构元素,并相应地提出了一个简单的分层视觉骨干,称为 MaxViT,只需在多个阶段重复基本构建块。值得注意的是,MaxViT 能够在整个网络中“看到”全局,即使在早期的高分辨率阶段也是如此。我们展示了我们的模型在广泛的视觉任务中的有效性。在图像分类方面,MaxViT 在各种设置下都达到了最先进的性能:在没有额外数据的情况下,MaxViT 达到了 86.5% ImageNet-1K top-1 准确率;通过 ImageNet-21K 预训练,我们的模型达到了 88.7% 的 top-1 准确率。对于下游任务,MaxViT 作为主干在对象检测和视觉美学评估方面提供了良好的性能。我们还表明,我们提出的模型在 ImageNet 上表达了强大的生成建模能力,展示了 MaxViT 块作为通用视觉模块的卓越潜力。源代码和经过训练的模型放在https://github.com/google-research/maxvit。
关键词:Transformer,图像分类,多轴注意力。

1 简介

自 AlexNet [48] 以来,卷积神经网络 (ConvNets) 一直是计算机视觉 [29,48,75,76] 的主要架构设计选择。 ConvNets 通过更深 [75]、更宽 [74,76]、添加密集连接 [37]、高效可分离卷积 [35、70]、多孔卷积 [9]、使用编码器-解码器框架 [ 67],甚至引入了现代微设计组件[57]。同时,受自然语言处理 [20,49,63,100] 等自注意力模型(如 Transformers [85])发展的启发,许多研究人员已开始将注意力机制引入视觉 [6,88]。 Vision Transformer (ViT) [22] 可能是第一个完全基于 Transformer 的视觉架构,其中图像块被简单地视为单词序列,并且在这些视觉标记上应用了一个 Transformer 编码器。当在大规模数据集[73]上进行预训练时,ViT 可以在图像识别方面取得令人信服的结果。

然而,据观察,如果没有广泛的预训练 [22,81],ViT 在图像识别方面的表现不佳。这是由于 Transformers 强大的模型能力,即具有较少的归纳偏差,这会导致过度拟合。为了适当地规范模型容量并提高其可扩展性,许多后续工作已经研究了为视觉任务(例如局部注意力)量身定制的稀疏 Transformer 模型 [16,50,56,99]。这些方法通常会重新引入分层架构以补偿非局部性的损失。 Swin Transformer [56] 是通过在移位的非重叠窗口上应用自注意力来修改 Transformer 的成功尝试之一。第一次,这种方法在 ImageNet 基准上使用纯视觉 Transformer 优于 ConvNets。尽管比 ViT 中使用的完全注意力具有更大的灵活性和可推广性,但由于失去了非局部性,基于窗口的注意力已被观察到具有有限的模型容量,并且此后一直在扩展,在早期或早期通过全注意力获得全局交互或分层网络中的高分辨率阶段计算量很大,因为注意力算子需要二次复杂度。如何有效地合并 global 和 erator 需要二次复杂度。如何有效地整合全局和计算预算仍然具有挑战性。

在本文中,我们提出了一种新型的 Transformer 模块,称为多轴自注意力 (Max-SA)​​,它可以作为基本架构组件,可以在单个块中执行局部和全局空间交互。与full self-attention相比,Max-SA具有更大的灵活性和效率,即自然地适应具有线性复杂度的不同输入长度;与(移位的)窗口/局部注意力相比,Max-SA 通过提出全局感受野允许更强的模型容量。此外,由于仅具有线性复杂度,Max-SA 可以用作网络任何层中的通用独立注意模块,即使在早期的高分辨率阶段也是如此。
MaxViT:多轴视觉转换器

为了证明其有效性和普遍性,我们通过分层堆叠由 Max-SA 和卷积组成的重复块,进一步设计了一个简单但有效的视觉骨干,称为多轴视觉转换器 (MaxViT)。虽然我们提出的模型属于混合视觉 Transformers 的类别,但 MaxViT 与以前的方法 [19,94] 的区别在于我们力求简单,通过设计一个基本块来统一卷积、局部和全局注意力,然后简单地重复它。我们的实验表明,MaxViT 在所有数据机制下显着提高了最先进 (SOTA) 性能,适用于广泛的视觉任务,包括分类、对象检测和分割、图像美学评估和图像生成。具体来说,如图 1 所示,MaxViT 在准确度与 FLOP 以及准确度与参数曲线方面优于所有最近基于 Transformer 的模型。我们的贡献是:

  • 一个通用的强 Transformer 主干,MaxViT,可以在网络的每个阶段捕获本地和全局空间交互。
  • 一种新颖的独立多轴注意力模块,由阻塞的局部注意力和扩张的全局注意力组成,享受线性复杂性的全局感知。
  • 我们通过广泛的消融研究展示了大量的设计选择,包括层数、布局、MBConv 的使用等,最终汇聚到我们最终的模块化设计 MaxViT-Block。
  • 我们广泛的实验表明,MaxViT 在各种数据机制下实现了 SOTA 结果,适用于广泛的任务,包括图像分类、对象检测、图像美学评估和图像生成。

2 相关工作

卷积网络。自 AlexNet [48] 以来,卷积神经网络 (ConvNets) 在“咆哮的 20 年代”[57] 之前已被用作几乎所有视觉任务 [8,13, 29,37,51,78,89,90,104] 的事实上的解决方案.在过去的十年中,已经取得了惊人的架构改进:残差 [29] 和密集连接 [37]、完全卷积网络 [58]、编码器-解码器方案 [67]、特征金字塔 [52]、增加的深度和宽度 [75] ]、空间和通道注意模型 [36,91]、非局部交互 [88] 等等。最近一项非凡的工作 ConvNeXt [57] 重新引入了视觉 Transformer 的核心设计,并表明“现代化”的纯 ConvNet 可以在广泛的视觉任务上实现与 Transformer 相当的性能。
视觉中的变形金刚。 Transformers 最初是为自然语言处理提出的[85]。 2020 年 Vision Transformer (ViT) [22] 的首次亮相表明,纯基于 Transformer 的架构也是解决视觉问题的有效解决方案。将图像块视为视觉词的 ViT 的优雅新颖的观点激发了对视觉变形金刚的爆炸性研究兴趣。为了考虑图像的局部性和 2\mathrm{D} 特性,Swin Transformer 将注意力集中在分层架构中的移位窗口中 [56]。最近的工作集中在提高模型和数据效率,包括稀疏注意力 [1,21,64,86,96,99],改进的局部性 [27,101],金字塔设计 [24,87,97],改进的训练策略 [ 3,81,82,105] 等。我们将读者推荐给视觉变形金刚的专门调查 [44,44] 以进行全面审查。
混合模型。由于相对较少的归纳偏差 [19,22,81],已观察到纯基于 Transformer 的视觉模型泛化能力较差。 Vision Transformers 还表现出不合标准的可优化性 [94]。一个有趣的简单改进是采用 Transformer 和卷积层的混合设计,例如使用一些卷积来替换粗补丁化茎 [19, 94]。广泛的作品都属于这一类,要么明确混合 [4,19, 23,24,93,94,98],要么以隐含方式 [16,56]。
GAN 的变压器。变形金刚也被证明在生成对抗网络(GAN)中有效[26]。 TransGAN [40] 构建了一个纯 Transformer GAN,精心设计了局部注意力和上采样层,证明了在小规模数据集上的有效性 [18,47]。 GANformer [38] 探索了有效的全局注意力机制来改进 StyleGAN [42] 生成器。 HiT [103] 提出了一种基于局部-全局注意力的高效 Transformer 生成器,可以扩展到 1 \mathrm{~K} 高分辨率图像生成。

3 方法

受 [83,103] 中提出的稀疏方法的启发,我们通过将完全密集的注意力机制分解为两种稀疏形式——窗口注意力和网格,引入了一种新型注意力模块,称为阻塞多轴自注意力(Max-SA)注意 - 这将香草注意的二次复杂性降低到线性,而不会损失任何非局部性。我们的顺序设计提供了更大的简单性和灵活性,同时性能甚至比以前的方法更好——每个单独的模块既可以单独使用,也可以以任何顺序组合使用(表 7-9),而并行设计 [83,103] 没有这样的好处。由于 Max-SA 的灵活性和可扩展性,我们能够通过简单地将 Max-SA 的替代层与 MBConv [35] 堆叠在分层架构中来构建一个新颖的视觉骨干网,我们称之为 MaxViT,如图 2 所示. MaxViT 受益于整个网络的全局和局部感受野,从浅到深的阶段,在模型容量和泛化能力方面都表现出卓越的性能。
MaxViT:多轴视觉转换器

3.1 注意

自注意力允许整个空间(或序列)位置的空间混合,同时还受益于基于标准化成对相似性的内容相关权重。 [22,85] 中定义的标准自注意力是位置不感知的,即非平移等变,这是 ConvNets 中的一个重要归纳偏差。相对自注意力 [19,40,56,71] 已被提议通过在注意力权重中引入相对学习偏差来改善普通注意力,这已被证明在许多视觉任务中始终优于原始注意力 [19,40 ,56] 。在这项工作中,我们主要采用 [19] 中定义的预归一化相对自注意力作为 MaxViT 中的关键算子。

3.2 多轴注意力

与局部卷积相比,全局交互是自注意力的主要优势之一。然而,直接沿整个空间应用注意力在计算上是不可行的,因为注意力算子需要二次复杂度。为了解决这个问题,我们提出了一种多轴方法,通过简单地分解空间轴,将全尺寸注意力分解为两种稀疏形式——局部和全局。令 X ∈ RH×W×C X \in \mathbb{R}^{H \times W \times C} XRH×W×C 为输入特征图。我们没有将注意力集中在展平的空间维度 H W 上,而是将特征块化为形状为 ( H P × W P , P × P , C ) \left(\frac{H}{P} \times \frac{W}{P}, P \times P, C\right ) (PH×PW,P×P,C),表示划分为不重叠的窗口,每个窗口的大小为 P × P P \times P P×P 。在局部空间维度上应用自我关注,即 P × P P × P P×P ,相当于在一个小窗口内关注 [56]。我们将使用这个块注意力来进行本地交互。

尽管绕过了众所周知的大量计算完全自我注意的方法,但在大规模数据集上观察到了局部注意模型的不足[19,22]。受区块注意力的启发,我们提出了一种惊人简单但有效的方法来获得稀疏的全球注意力,我们称之为网格注意力。我们没有使用固定窗口大小划分特征映射,而是使用固定的G\times G均匀网格将张量网格化为尽管绕过了众所周知的大量计算完全自我注意的方法,但在大规模数据集上观察到了局部注意模型的不足[19,22]。受区块注意力的启发,我们提出了一种惊人简单但有效的方法来获得稀疏的全球注意力,我们称之为网格注意力。我们没有使用固定窗口大小划分特征映射,而是使用固定的 G × G G \times G G×G均匀网格将张量网格化为 ( G × G , H G × W G , C ) \left(G \times G, \frac{H}{G} \times \frac{W}{G}, C\right) (G×G,GH×GW,C)形状,从而使窗口具有自适应大小。在分解的网格轴上使用自我注意,即 G × G G\times G G×G,对应于扩展的,令牌的全局空间混合。通过使用相同的固定窗口和网格大小(我们在Swin[56]之后使用P=G=7),我们可以充分平衡本地和全局操作之间的计算,两者在空间大小或序列长度方面都只有线性复杂度。请注意,我们提议的Max SA模块可以用完全相同的参数和FLOP数量来替代Swin注意模块[56]。然而,它具有全局交互能力,不需要掩蔽、填充或循环移位,使其更易于实现,优于移位窗口方案[56]。例如,使用einops[66]可以轻松实现多轴注意力,而无需修改原始注意力操作(见附录)。值得一提的是,我们提出的多轴注意力(Max SA)与轴向注意力模型有着根本的不同[33,86]。有关详细比较,请参见附录。

MaxViT:多轴视觉转换器

MaxViT 块。我们顺序堆叠这两种类型的注意力以在单个块中获得局部和全局交互,如图 3 所示。请注意,我们还采用了 Transformers [22,56] 中的典型设计,包括 LayerNorm [2]、前馈网络( FFNs) [22,56] 和跳过连接。我们还在多轴注意力之前添加了一个带有挤压和激发 (SE) 模块 [36] 的 MBConv 块 [35],因为我们观察到将 MBConv 与注意力一起使用进一步提高了网络的泛化性和可训练性[94]。在注意力之前使用 MBConv 层提供了另一个优势,因为深度卷积可以被视为条件位置编码(CPE)[17],使我们的模型没有显式的位置编码层。请注意,我们提出的独立多轴注意力可以一起使用或单独用于不同的目的——块注意力用于局部交互,网格注意力用于全局混合。这些元素可以很容易地插入到许多视觉架构中,尤其是在高分辨率任务上,这些任务可以通过与经济实惠的计算进行全局交互而受益。

3.3 架构变体

我们设计了一系列极其简单的架构变体来探索我们提出的 MaxViT 块的有效性,如图 2 所示。我们使用类似于常见的 ConvNet 实践 [19,29,57,80] 的分层主干,其中首先对输入进行下采样在茎阶段(S0)使用 Conv3x3 层。网络主体包含四个阶段(S1-S4),每个阶段的分辨率是前一个阶段的一半,通道数增加一倍(隐藏维度)。在我们的网络中,我们在整个骨干网中使用相同的 MaxViT 块。我们在每个阶段的第一个 MBConv 块的 Depthwise Conv3x3 层中应用下采样。默认情况下,反向瓶颈 [35] 和挤压激励 (SE) [36] 的膨胀和收缩率分别为 4 和 0.25。我们将所有注意力块的注意力头大小设置为 32。我们通过增加每个阶段 B 的块数和通道维度 C 来扩展模型。我们在表 1 中总结了 MaxViT 变体的架构配置。
MaxViT:多轴视觉转换器

4 实验

我们验证了我们提出的模型在各种视觉任务上的有效性:ImageNet 分类 [48]、图像对象检测和实例分割 [53]、图像美学/质量评估 [61] 和无条件图像生成 [26]。更多实验细节可以在附录中找到。

4.1 ImageNet-1K上的图像分类

ImageNet-1K。我们在表 2 中展示了 ImageNet 1K分类的性能比较。在基本的 224 × 224 设置下,MaxViT 在整个 FLOPs 范围内的性能大大优于最新的强混合模型 CoAtNet,如图 1a 所示。 MaxViT-L 模型在没有额外训练策略的情况下,在 224 × 224 次训练中创造了 85.17% 的新性能记录,比 CoAtNet-3 高 0.67%。关于 22 4 2 224^{2} 2242 的吞吐量-准确度权衡,MaxViT-S 获得了 84.45% 的 top-1 准确度,比 CSWin-B 高 0.25%,比 CoAtNet-2 高 0.35%,具有可比的吞吐量。
MaxViT:多轴视觉转换器

在更高分辨率 (384/512) 下进行微调时,与强大的 ConvNet 和 Transformer 竞争对手相比,MaxViT 继续提供高性能:(1) 在 38 4 2 384^2 3842 时,MaxViT-B 达到 86.34% 的 top-1 准确度,比 EfficientNetV2-L 高 0.64 %; (2) 当微调到 5122 时,我们的 MaxViT-L (212M) 达到了 86.7% 的 top-1 准确率,在正常训练设置下的 ImageNet-1K 上设置了新的 SOTA 性能。 如图 1 所示,MaxViT 在 ImageNet-1K 训练模型尺度上的扩展比 SOTA 视觉 Transformer 好得多。
MaxViT:多轴视觉转换器

ImageNet-21K。表 3 显示了在 ImageNet 21K上预训练的模型的结果。值得注意的是,MaxViT-B 模型达到了 88.38% 的准确率,仅使用 43% 的参数计数和 38% 的 FLOP,比之前的最佳模型 CoAtNet-4 高 0.28%,证明了更高的参数和计算效率。图 4 a 可视化了模型大小比较 - MaxViT 的扩展性明显优于以前类似复杂性的基于注意力的模型,全面。此外,MaxViT-XL 模型实现了新的 SOTA 性能,在 512 × 512 分辨率下微调时的准确度为 88.70%。
MaxViT:多轴视觉转换器

JFT-300M。我们还在更大规模的专有数据集 JFT-300M 上训练了我们的模型,该数据集包含 3 亿张弱标记图像。如表 3 和图 4b 所示,我们的模型还可以扩展到大规模训练数据 - MaxViT-XL 在 4.75 亿个参数下实现了 89.53% 的高精度,在可比模型大小下优于以前的模型。由于资源限制,我们将在行星尺度数据集(例如,JFT-3B [102])上进行十亿参数尺度模型的实验作为未来的工作。

4.2 目标检测和实例分割

环境。 我们使用两阶段框架 [65] 在 COCO2017 [53] 对象边界框检测和实例分割任务上评估了 MaxViT 架构。 在目标检测任务中,采用特征金字塔架构 [52] 来提高不同程度的客观性。 在实例分割任务中,采用了著名的 Cascade Mask-RCNN 框架 [28]。 该数据集包含 118K 训练样本和 5K 验证样本。 对于所有比较模型,首先使用 ImageNet-1K 对主干进行预训练。 然后使用预训练模型对检测和分割任务进行微调。
MaxViT:多轴视觉转换器

关于 COCO 的结果。 如表 4 所示,报告了 AP、AP50 和 AP75 以进行比较。 参数和 FLOPs 也被报告为模型复杂性的参考。 用于对象检测和分割任务的 MaxViT 主干模型在精度和效率方面都大大优于所有其他主干模型,包括 Swin、ConvNeXt 和 UViT 在各种模型尺寸下。 请注意,MaxViT-S 优于其他基础级模型(例如 Swin-B、UViT-B),计算成本降低了约 40%。

4.3 形象审美评价。

环境。 我们在 AVA 基准 [61] 上训练和评估 MaxViT 模型,该基准包含 255K 图像,其美学分数由业余摄影师评分。 与 [77] 类似,我们将数据集分成 80%/20% 的训练集和测试集。 我们遵循 [77] 并使用归一化的 Earth Mover 距离作为我们的训练损失。 我们以三种不同的输入分辨率训练 MaxViT: 22 4 2 、 38 4 2 和 51 2 2 224^2、384^2 和 512^2 224238425122,并使用 ImageNet-1K 预训练的权重进行初始化。
MaxViT:多轴视觉转换器

AVA 的结果。为了评估和比较我们的模型与现有方法,我们在表 5 中总结了我们的结果。对于类似的输入分辨率,提出的 MaxViT-T 模型优于现有的图像美学评估方法。随着输入分辨率的提高,性能得到提高,这得益于其强大的非本地容量。此外,与使用多分辨率输入的 SOTA 方法 [43] 相比,MaxViT 显示出更好的线性相关性。

4.4 图像生成

环境。我们评估 MaxViT 块在 ImageNet-1K 上生成 128 × 128 分辨率图像的生成能力。我们选择无条件图像生成来关注 GAN 中不同生成器的性能。我们使用初始分数 (IS) [69] 和 Fréchet 初始距离 (FID) [32] 作为定量评估指标。随机生成 50,000 个样本来计算 FID 和 IS 分数。我们将 MaxViT 与 HiT [103] 进行了比较,HiT [103] 是一种 SOTA 生成 Transformer 模型,它在低分辨率(例如,32、64)下使用注意力,并在高分辨率(例如,128)下使用隐式神经函数。相比之下,MaxViT 在每个分辨率下都使用建议的 MaxViT 块。请注意,我们使用逆块顺序 (GA-BA-Conv),因为我们发现它的性能更好(参见表 8)。由于 Batch Normalization [39,103] 在图像生成方面取得了更好的效果,因此我们在此设置下将所有 Layer Norm 替换为 Batch Norm。

ImageNet-1K 上的结果。结果如表 6 所示。我们的 MaxViT 实现了更好的 FID 和 IS,参数数量显着减少。这些结果证明了 MaxViT 块对生成任务的有效性。生成实验的更多细节可以在附录中找到。

4.5 消融研究。

在本节中,我们消融了 MaxViT 在 ImageNet-1K 图像分类上的重要设计选择。 我们默认使用训练了 300 个 epoch 的 MaxViT-T 模型,并在 ImageNet-1K 上报告 top-1 准确度。 除了消融设计选择,我们使用相同的训练配置,除非另有说明。
MaxViT:多轴视觉转换器

全局网格注意。 我们的主要贡献之一是网格注意模块,它允许在线性时间进行稀疏的全局交互,使我们的模型能够在所有阶段捕获全局信息。 我们进行了两次消融以了解其增益:1) 完全去除每个阶段的全局注意力;
2) 用块注意力替换网格注意力以保留相同的参数计数和 FLOP。如表 7 所示,与仅使用局部注意力或卷积相比,在早期阶段启用全局注意力可以进一步提高性能。

MBConv 层。我们还通过删除每个阶段中的所有 MBConv 来消除 MaxViT 中 MBConv 层的使用。请注意,我们还应该考虑在移除 MBConv 层时减少参数计数和 FLOP。此外,第 3 阶段有 5 个块,而其他阶段只有 2 个。如表 9 所示,在 MaxViT 中使用 MBConv 层显着提高了性能。
MaxViT:多轴视觉转换器

块顺序研究。我们提出了三个不同的模块来构建 MaxViT 块 - MBConv、块和网格注意 - 它捕获从局部到全局的空间交互。为了研究组合它们的最有效方法,我们使用所有 6 种排列评估了 MaxViT-T 模型。我们总是在第一层应用下采样,这可能会导致模型大小差异很小。我们可以从表 8 中观察到,将 MBConv 放在注意力层之前几乎总是比其他组合更好。原因可能是更适合在早期层中获取局部特征/模式,然后全局聚合它们,这与现有的混合模型 [19,94] 保持一致,这将 Conv 层置于关注的前面。然而,在生成实验(第 4.4 节)中,我们发现从全局到局部的最佳顺序是:GA-BA-C。我们假设生成任务首先使用全局处理块(即网格注意层)获得正确的整体结构,然后使用局部处理块(即 MBConv)填充更精细的细节可能是有利的。
MaxViT:多轴视觉转换器

顺序与并行。在我们的方法中,我们按照 [56,86] 顺序堆叠多轴注意力模块,同时也存在其他采用并行设计的模型 [83,103]。在这个消融中,我们将我们的顺序 Max-SA 与分别包含块注意和网格注意的并行分支进行比较。请注意,我们使用输入投影将通道加倍,然后拆分头以馈送两个分支以保持与 MaxViT 相似的复杂性,并使用输出投影减少连接的分支。我们进行了粗略的参数调整,发现 1 0−3 10^{-3} 103 的初始学习率明显优于并行模型的 3 × 1 0−3 3\times 10^{-3} 3×103。除了学习率,我们使用所有相同的参数。如表 10 所示,我们的顺序方法在参数和计算量较少的情况下明显优于并行方法。原因可能是并行设计学习互补线索,它们之间的交互较少,而我们的顺序堆栈能够学习局部和全局层之间更强大的融合。
MaxViT:多轴视觉转换器

垂直布局。我们进一步检查了我们的垂直布局设计,即每个阶段的块数。我们将我们的设计与 Swin/ConvNeXt [56,57] 的选择进行了比较。我们将 MaxViT-T 和 S 更改为块 B= (2,2,6,2) ,并将 MaxViT-B, -L 更改为块 B=(2,2,18,2) 严格遵循Swin的阶段比[56]。从图 5 可以看出,我们的布局在小型模型上的表现与 Swin 相当,但在大型模型上的扩展性明显更好。

5 讨论与结论

虽然 2020 年代最近的工作可以说表明 ConvNets 和视觉 Transformer 在图像识别方面可以实现相似的性能,但我们的工作提出了一个统一的设计,它利用了两全其美的高效卷积和稀疏注意力——并建立了一个top模型,即 MaxViT,可以在各种视觉任务上实现最先进的性能,更重要的是,它可以非常好地扩展到海量数据大小。即使我们在视觉任务的上下文中展示我们的模型,所提出的多轴方法也可以很容易地扩展到语言建模,以在线性时间内捕获本地和全局依赖关系。我们也期待在视频、点云和视觉语言等高维或多模态信号中研究其他形式的稀疏注意力。

社会影响。调查大型模型设计的性能和可扩展性将消耗大量计算资源。这些努力可能会导致碳排放增加,从而引发环境问题。然而,所提出的模型提供了强大的模块化候选者,可以扩展网络的设计空间,以便未来在自动化架构设计方面做出努力。如果训练不当,所提出的模型可能会出现偏见和公平问题。所提出的生成模型可以被滥用来产生误导性媒体和假新闻。这些问题在未来的相关研究中需要谨慎。
感谢。我们感谢杜先志和陈武阳在实验上提供的广泛帮助。我们还要感谢 Hanxiao Liu、Zihang Dai、Anurag Arnab、Huiwen Chang、Junjie Ke、Mauricio Delbracio、Sungjoon Choi 和 Irene Zhu 的宝贵讨论和帮助。