0. 从模型的训练说起
这张图大家肯定都见过。随着训练程度的增加,模型的整体误差会先下降后增加,从拟合的角度,是欠拟合→正好→过拟合的转变,还有一种说法是前面的误差主要有偏差导致,后面的误差主要由方差导致。揍是说:欠拟合带来偏差,过拟合带来方差。到底该怎么理解呢?

整体误差也好,偏差方差也好,描述的是模型的表现,再具体点,描述的是模型的泛化能力。泛化能力可以用模型在测试集上的表现来看,但要把其中的误差拆分为方差和偏差,则是另一回事了。如果纯从理论的角度看,除非我们有一个以概率态的模型,然后去看他的期望值和均方差,不然还是乖乖的k折训几个出来吧。
为了理解欠拟合带来偏差,过拟合带来方差这个问题,我们就以k折训练为例。要强调几个假设:第一,所有的样本都是遵从同一个分布的,因此任意的k-1折构成的样本集都是在同一个分布空间中采的样。因此,各个样本集均反映了真实的样本分布,同时带有了采到的具体的样本的特点。第二我们假设k折训练模型的初始化条件是一样的,即模型参数的出发点在同一处。模型开始训练的过程可以概述如下:

可惜快乐总是短暂的,你以为模型参数就这么一往无前的去拥抱真实参数了吗?并不会,为什么?因为真实参数并没有真的在那里等它啊~真正在那里等待的是样本集所展示的规律,毫无疑问样本集携带了真实的样本分布规律,但毕竟样本集也是有限个的啊,因此也各有各的特点。因此,在不断地减少着欠拟合的过程中,突然之间,开始奔向各自的过拟合中了

1. 偏差与方差
偏差:当模型的连样本集中真实的规律还没有学完全时,可以设想在这种条件下训练一系列模型,这些模型整体上都偏在了真实参数的某一端,此时叫偏差
方差:当模型学得过于完全,就会把有限的样本集的特有规律也学到,而多个样本集的分布,整体上肯定是反映了真实规律的,因此,模型的参数大概属于分布在真实参数各个方向,这时候叫方差。
进一步理解:使用同样分布但不同的样本集,同样的训练参数,训练一批模型。然后使用这个模型对某个全新样本进行预测。

网友评论