权重衰减weight decay是应对过拟合问题的常用方法.
什么是权重衰减?
权重衰减等价于L2范数正则化(regularization).
正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小,是应对过拟合的常用手段.
L2范数惩罚项指的是模型权重参数每个元素的平方 和 与一个正的常数的乘积.
以线性回归损失函数为例:
image.png
将权重参数用向量w=[w1,w2]表示,
带有L2范数惩罚项的新损失函数为:
image.png
有了L2范数惩罚项后,在小批量随机梯度下降中,
权重的w1,w2的迭代方式为:
原梯度下降
带L2范数惩罚项的梯度下降
可见,L2范数正则化令权重w1和w2先自乘小于1的数,再减去不含惩罚项的梯度.
因此,L2范数正则化又叫权重衰减.
网友评论