美文网首页
MaxViT: Multi-Axis Vision Transf

MaxViT: Multi-Axis Vision Transf

作者: Valar_Morghulis | 来源:发表于2023-02-15 08:40 被阅读0次

MaxViT: Multi-Axis Vision Transformer

Apr 2022

ECCV 2022

Zhengzhong Tu, Hossein Talebi, Han Zhang, Feng Yang, Peyman Milanfar, Alan Bovik, Yinxiao Li

[Google Research, University of Texas at Austin]

https://arxiv.org/abs/2204.01697

https://github.com/google-research/maxvit

Transformers最近在计算机视觉界引起了极大的关注。然而,自注意机制在图像大小方面缺乏可扩展性,限制了它们在最先进的视觉主干中的广泛应用。在本文中,我们介绍了一种高效且可扩展的注意力模型,我们称之为多轴注意力,它包括两个方面:分块局部注意力和全局扩张注意力。这些设计选择允许在仅具有线性复杂性的任意输入分辨率上进行全局局部空间交互。我们还通过有效地将我们提出的注意力模型与卷积相结合,提出了一种新的架构元素,并通过简单地在多个阶段重复基本构建块,相应地提出了一个简单的分层视觉主干,称为MaxViT。值得注意的是,MaxViT能够在整个网络中“看到”全局,甚至在早期的高分辨率阶段。我们在广泛的愿景任务中展示了我们模型的有效性。在图像分类方面,MaxViT在各种设置下都达到了最先进的性能:在没有额外数据的情况下,MaxViT的ImageNet-1K精度达到了86.5%;通过ImageNet-21K预训练,我们的模型达到88.7%的前1精度。对于下游任务,MaxViT作为主干,在对象检测和视觉美感评估方面提供了良好的性能。我们还表明,我们提出的模型在ImageNet上表现出强大的生成建模能力,证明了MaxViT块作为通用视觉模块的优越潜力。

相关文章

网友评论

      本文标题:MaxViT: Multi-Axis Vision Transf

      本文链接:https://www.haomeiwen.com/subject/xkmekdtx.html