MultiMAE

作者: Valar_Morghulis | 来源:发表于2023-01-21 14:14 被阅读0次

    MultiMAE: Multi-modal Multi-task Masked Autoencoders

    https://paperswithcode.com/paper/multimae-multi-modal-multi-task-masked

    我们提出了一种称为多模态多任务掩蔽自动编码器(Multi-modal Multi-task Masked Autoencoders,Multi-mae)的预训练策略。它在两个关键方面不同于标准掩蔽自动编码:I)它可以选择性地接受除RGB图像外的输入中的其他信息模式(因此为“多模式”),以及II)其训练目标相应地包括预测除RGB图像外的多个输出(因此为“多任务”)。我们利用掩蔽(跨图像块和输入模态)使训练多模态可处理,并确保跨模态预测编码确实由网络学习。我们表明,这种预培训策略可以提供一个灵活、简单、高效的框架,并改善向下游任务的转移结果。特别是,当RGB图像之外的其他信息可用时,或者当RGB之外的信息不可用时,可以灵活地使用相同的精确预训练网络——在所有配置中,产生与基线相比具有竞争力或显著更好的结果。为了避免需要训练具有多种模式和任务的数据集,我们完全使用伪标记来训练MultiMAE,这使得该框架广泛适用于任何RGB数据集。实验在多个传输任务(图像分类、语义分割、深度估计)和数据集(ImageNet、ADE20K、Taskonomy、Hypersim、NYUv2)上进行。结果表明,该模型在跨模式/任务预测编码和传输方面具有令人惊叹的能力。

    相关文章

      网友评论

          本文标题:MultiMAE

          本文链接:https://www.haomeiwen.com/subject/teiisrtx.html