mish

作者: 一颗大葡萄树 | 来源:发表于2021-04-27 15:53 被阅读0次
image.png

以上无边界(即正值可以达到任何高度)避免了由于封顶而导致的饱和。理论上对负值的轻微允许允许更好的梯度流,而不是像ReLU中那样的硬零边界。

最后,可能也是最重要的,目前的想法是,平滑的激活函数允许更好的信息深入神经网络,从而得到更好的准确性和泛化。

尽管如此,我测试了许多激活函数,它们也满足了其中的许多想法,但大多数都无法执行。这里的主要区别可能是Mish函数在曲线上几乎所有点上的平滑度。

这种通过Mish激活曲线平滑性来推送信息的能力如下图所示,在本文的一个简单测试中,越来越多的层被添加到一个测试神经网络中,而没有一个统一的函数。随着层深的增加,ReLU精度迅速下降,其次是Swish。相比之下,Mish能更好地保持准确性,这可能是因为它能更好地传播信息:

image.png
ReLU有一些已知的弱点,但是通常它执行起来很轻,并且在计算上很轻。Mish具有较强的理论渊源,在测试中,就训练稳定性和准确性而言,Mish的平均性能优于ReLU。 复杂度只稍微增加了一点.
知乎原文:https://zhuanlan.zhihu.com/p/84418420

相关文章

  • mish

    以上无边界(即正值可以达到任何高度)避免了由于封顶而导致的饱和。理论上对负值的轻微允许允许更好的梯度流,而不是像R...

  • yolov4

    CBM:Yolov4网络结构中的最小组件,由Conv+Bn+Mish激活函数三者组成。CBL:由Conv+Bn+L...

网友评论

      本文标题:mish

      本文链接:https://www.haomeiwen.com/subject/hvxprltx.html