论文翻译PDF地址:链接:https://pan.baidu.com/s/1vddg6cNOTVfA4YoiJlUV5w 提取码:vlu6。本文内容也摘自论文翻译最后总结的值得关注的点,翻译作者未知,若有任何侵权,请及时通知删除。
本论文是对用于一般目标检测的深度学习的全面概述,凸显了近些年取得的成就,并根据这些方法在检测中的作用而提供了一个结构化的分类,汇总了已有的常用数据集和评估指标,并还讨论了大多数代表性方法的表现。尽管过去几年取得了巨大的成功(比如检测准确度从 ILSVRC2013 的 23%显著提升至了 ILSVRC2017 的 73%),但当前最佳方法的表现与人类水平仍有巨大差距,尤其是在开放世界学习任务上。还有很多研究工作有待完成,我们可以看到研究者的关注重点主要集中在以下八个领域:
1、开放世界学习(Open World Learning)
一般性目标检测的最终目标是开发出能够准确,高效地识别和定位所有开放世界场景中所有对象类别(数千或更多对象类)实例的检测系统,与人类视觉系统达到相当的水平。最近的目标检测算法是利用有限的数据集学习的,目的是识别和定位数据集中包含的对象类别,但是无法识别数据集之外的其他对象类别,尽管理想情况下强大的检测系统应该能够认识新颖的对象类别。当前的检测数据集仅包含数十个到数百个类别,这明显小于人类可以识别的类别。为了实现这一目标,需要开发具有更多一般目标检测类别的新的大规模标记数据集,因为CNN 的良好性能需要大量数据来进行良好的训练。然而,收集如此大量的数据,特别是用于对象检测的边界框标签,是非常昂贵的,尤其是对于数十万个类别。
2、更好更高效的检测框架(Better and More Efficient Detection Frameworks)
一般性目标检测取得巨大成功的因素之一是开发了更好的检测框架,基于区域(RCNN, Fast RCNN, Faster RCNN, Mask RCNN) 和一步检测器(YOLO、SSD)。基于区域的探测器具有最高的精度,但对于嵌入式或实时系统来说计算量太大。一级探测器有可能更快更简单,但尚未达到基于区域的探测器的准确性。一个可能的限制是,现有技术的对象检测器严重依赖于底层骨干网络,该骨干网络最初已经针对图像分类进行了优化,由于分类和检测之间的差异而导致了学习偏差,因此一种潜在的策略是 从头开始学习物体探测器,如 DSOD 探测器。
3、紧凑高效的深度 CNN 特征(Compact and Efficient Deep CNN Features)
在一般性目标检测方面取得长足进步的另一个重要因素是强大的深层 CNN 的发展,从几层(例如, AlexNet)到数百层(例如 Res),其深度显着增加。这些网络拥有数百万到数亿个参数,需要大量数据和耗电的 GPU 进行培训,这些都对其在实时/嵌入式应用中产生了限制。因此,人们越来越关注紧凑和轻量级网络,网络压缩和加速以及网络解释和理解。
4、稳健的目标表征(Robust Object Representations)
使物体识别问题如此具有挑战性的一个重要因素是真实世界图像的巨大变化,包括视点和光照变化,物体尺度,物体姿态,物体部分变形,背景杂波,遮挡,外观变化,图像模糊, 年龄分辨率,噪音,相机限制和扭曲。尽管深度网络取得了巨大的进步,它们仍然受到这些许多变化缺乏鲁棒性的限制,这显然限制了实际应用的可用性。
5、形境推理(Context Reasoning)
真实世界的对象通常与其他对象和环境共存。 已经认识到,语境信息(对象关系,全局场景统计)有助于物体检测和识别,特别是在小物体或遮挡物体的情况下或图像质量差的情况下。在深度学习之前有大量的工作,但是自从深度学习时代以来,在利用语境信息方面只取得了非常有限的进展。如何有效和有效地结合上下文信息仍有待探索,理想情况是由人类如何快速引导他们的注意力引导自然景观中的感兴趣对象引导。
6、目标实例分割(Object Instance Segmentation)
一般性目标检测继续朝着更丰富和更详细的理解图像内容的趋势发展(例如,从图像分类到单个对象定位到对象检测),下一个挑战是解决像素级对象实例分割,因为对象实例分割可以在许多需要单个实例的精确边界的潜在应用程序中发挥重要作用。
7、弱监督或无监督学习(Weakly Supervised or Unsupervised Learning)
当前状态的检测器采用从带有对象边界框或分割掩模的标记数据中学习的全监督模型,然而这种完全监督的学习具有严重的局限性,其中边界框注释的假设可能成为问题,尤其是当对象的类别数量很大时。在没有完全标记的训练数据的情况下,完全监督学习是不可扩展的,因此研究如何在弱监督或无监督检测中利用 CNN 的功效是有价值的。
8、三维目标检测(3D Object Detection)
深度相机的进展可以以 RGB-Dimages 或 3D 点云的形式获取深度信息。 深度模态可用于帮助对象检测和识别,但是在方向上会是一个比较受限的问题,但是可能促使利用大量高质量 CAD 模型的优势。
网友评论