美文网首页机器学习与数据挖掘
14 ML/DL重要基础概念:偏差和方差

14 ML/DL重要基础概念:偏差和方差

作者: Japson | 来源:发表于2020-01-19 16:39 被阅读0次

0 前言

在机器学习中,过拟合和欠拟合都会使训练好的机器学习模型在真实的数据中出现错误。我们可以将错误分为偏差(Bias)方差(Variance)两类。下面就来看看偏差和方差的定义、产生原因以及二者之间如何权衡。

1 偏差和方差的定义

偏差和方差的定义如下:

  • 偏差(bias):偏差衡量了模型的预测值与实际值之间的偏离关系。例如某模型的准确度为96%,则说明是低偏差;反之,如果准确度只有70%,则说明是高偏差。

  • 方差(variance):方差描述的是训练数据在不同迭代阶段的训练模型中,预测值的变化波动情况(或称之为离散情况)。从数学角度看,可以理解为每个预测值与预测均值差的平方和的再求平均数。通常在模型训练中,初始阶段模型复杂度不高,为低方差;随着训练量加大,模型逐步拟合训练数据,复杂度开始变高,此时方差会逐渐变高。

也可以通过下面的图片直观理解偏差和方差:

  • 如左下角的“打靶图”,假设我们的目标是中心的红点,所有的预测值都偏离了目标位置,这就是偏差;
  • 在右上角的“打靶图”中,预测值围绕着红色中心周围,没有大的偏差,但是整体太分散了,不集中,这就是方差。
15783835333522.jpg

以上四种情况:

  • 低偏差,低方差:这是训练的理想模型,此时蓝色点集基本落在靶心范围内,且数据离散程度小,基本在靶心范围内;
  • 低偏差,高方差:这是深度学习面临的最大问题,过拟合了。也就是模型太贴合训练数据了,导致其泛化(或通用)能力差,若遇到测试集,则准确度下降的厉害;
  • 高偏差,低方差:这往往是训练的初始阶段;
  • 高偏差,高方差:这是训练最糟糕的情况,准确度差,数据的离散程度也差。

2 模型误差

模型误差 = 偏差 + 方差 + 不可避免的误差(噪音)。一般来说,随着模型复杂度的增加,方差会逐渐增大,偏差会逐渐减小,见下图:


15783843754036.jpg

3 偏差方差产生的原因

一个模型有偏差,主要的原因可能是对问题本身的假设是不正确的,或者欠拟合。如:针对非线性的问题使用线性回归;或者采用的特征和问题完全没有关系,如用学生姓名预测考试成绩,就会导致高偏差。

方差表现为数据的一点点扰动就会较大地影响模型。即模型没有完全学习到问题的本质,而学习到很多噪音。通常原因可能是使用的模型太复杂,如:使用高阶多项式回归,也就是过拟合。

有一些算法天生就是高方差的算法,如kNN算法。非参数学习算法通常都是高方差,因为不对数据进行任何假设。

有一些算法天生就是高偏差算法,如线性回归。参数学习算法通常都是高偏差算法,因为对数据有迹象。

4 偏差与方差的权衡

偏差和方差通常是矛盾的。降低偏差,会提高方差;降低方差,会提高偏差。

这就需要在偏差和方差之间保持一个平衡。

以多项式回归模型为例,我们可以选择不同的多项式的次数,来观察多项式次数对模型偏差&方差的影响:


15783868211790.jpg
多项式次数 模型复杂度 方差 偏差 过/欠拟合
欠拟合
适度
过拟合

下面是多项式次数对训练误差/测试误差的影响


15783872275378.jpg
多项式次数 模型复杂度 训练误差 测试误差

关于解决方差和偏差的问题中:

我们要知道偏差和方差是无法完全避免的,只能尽量减少其影响。

  1. 在避免偏差时,需尽量选择正确的模型,一个非线性问题而我们一直用线性模型去解决,那无论如何,高偏差是无法避免的。
  2. 有了正确的模型,我们还要慎重选择数据集的大小,通常数据集越大越好,但大到数据集已经对整体所有数据有了一定的代表性后,再多的数据已经不能提升模型了,反而会带来计算量的增加。而训练数据太小一定是不好的,这会带来过拟合,模型复杂度太高,方差很大,不同数据集训练出来的模型变化非常大。
  3. 最后,要选择合适的模型复杂度,复杂度高的模型通常对训练数据有很好的拟合能力。

其实在机器学习领域,主要的挑战来自方差。处理高方差的手段有:

  • 降低模型复杂度
  • 减少数据维度;降噪
  • 增加样本数
  • 使用验证集

5 总结

偏差衡量了模型的预测值与实际值之间的偏离关系,主要的原因可能是对问题本身的假设是不正确的,或者欠拟合。方差描述的是模型预测值的变化波动情况(或称之为离散情况),模型没有完全学习到问题的本质,通常原因可能是使用的模型太复杂,过拟合。

参数或者线性的算法一般是高偏差低方差;非参数或者非线性的算法一般是低偏差高方差。所以我们需要调整参数来去衡量方差和偏差的关系。

公众号二维码.jpeg

相关文章

  • 14 ML/DL重要基础概念:偏差和方差

    0 前言 在机器学习中,过拟合和欠拟合都会使训练好的机器学习模型在真实的数据中出现错误。我们可以将错误分为偏差(B...

  • Machine Learning基础:Bias(偏差)、Erro

    Machine Learning基础:Bias(偏差)、Error(误差)和Variance(方差)   首先明确...

  • 机器学习应用建议(二)

    偏差和方差的判别 高偏差和高方差本质上为学习模型的欠拟合和过拟合问题。 对于高偏差和高方差问题,即学习模型的欠拟合...

  • AI准备

    Part One 常识 机器学习(ML)和深度学习(DL)DL是ML的一个子集 DL代码 主要语言 Python ...

  • 常见概念

    目录 [TOC] 常见基本概念 最小二乘:  适用于具有低方差,高偏差的数据 最近邻:  适用于具有高方差,低偏差...

  • 偏差和方差

    简历

  • 方差和偏差

    博客:http://liuchengxu.org/blog-cn/posts/bias-variance/ 误差一...

  • 偏差和方差

    偏差度量的是函数或者参数的误差期望。对于机器学习,偏差意味着样本的输出与真实值之间的误差,即模型本身的精确程度。 ...

  • 偏差和方差

    1、在进行模型选择和评估时,我们经常会关注偏差和方差,那么什么是偏差?什么是方差? 偏差:描述的是预测值的期望与真...

  • 统计学 惩罚-LR RR和ENR

    岭回归和lasso回归 1.学习基础 偏差和方差(bias and variance) 我们在机器学习中理解bia...

网友评论

    本文标题:14 ML/DL重要基础概念:偏差和方差

    本文链接:https://www.haomeiwen.com/subject/pswrzctx.html