美文网首页人工智能学习之路
机器学习?服下这碗药——是时候回顾一下概率与统计了(一)

机器学习?服下这碗药——是时候回顾一下概率与统计了(一)

作者: 忆霜晨 | 来源:发表于2018-04-21 17:46 被阅读0次

前言

中学的时候看一本杂志提到了一个很有趣的概率的问题:三门问题。问题描述如下:

美国的电视游戏节目Let's Make a Deal。问题名字来自该节目的主持人蒙提·霍尔(Monty Hall)。参赛者会看见三扇关闭了的门,其中一扇的后面有一辆汽车,选中后面有车的那扇门可赢得该汽车,另外两扇门后面则各藏有一只山羊。当参赛者选定了一扇门,但未去开启它的时候,节目主持人开启剩下两扇门的其中一扇,露出其中一只山羊。主持人其后会问参赛者要不要换另一扇仍然关上的门。

问题是:换另一扇门会否增加参赛者赢得汽车的机率?

《贫民窟的百万富翁》是一部把电视答题蕴含于其中的精彩电影,其中男主角同样拥有去除一项错误答案的权利。如果男主角事前心中选好某一个选项,主持人去除错误答案的时候不包含该选项,那么男主是否应该改选呢?这个问题和前面的三门问题是类似的。

在许多机器学习算法中,都离不开概率与统计的知识,例如:朴素贝叶斯算法、EM算法的参数估计等。复习一波概率与统计之后,对算法中的公式推导就不发怵了。

一、概率基础

1.1 常用性质

概率P是集合函数,具有以下基本特征:

  1. 非负性;
  2. 规范性;
  3. 可列可加性。

根据这些基本性质可以推出概率的其余性质有:

  1. 不可能事件概率为0;
  2. 有限可加性:不相交时间的并的概率等于各自概率之和;
  3. 可减性:若事件A包含B,则P(A-B)=P(A)-P(B);
  4. 单调性:若事件A包含B,则P(A)>=P(B)。

等等。

1.2 常用公式

条件概率
已知事件A发生的情况下,B发生的概率:

上述公式是条件概率的定义。

全概率公式

根据概率的基本性质——有限可加性,即可证明。

Bayes公式

利用条件概率的定义和全概率公式即可证明。

乘法定理

利用归纳法证明。

中心极限定理

1.3 例子

运用案例1:

三门问题的求解,此处给出了一个解答

答案是应该更换答案,这样答对的概率是2/3,如果不更换答案,答对的概率只有1/3。

运用案例2:

张三去某机构采用某种手段检查自己是否患有艾滋病(HIV),不幸的是,检测结果为阳性,收到结果的二狗觉得人生灰暗。那么问题来了,张三是否一定就感染了呢?

我国2016年大陆各省HIV感染人数占总人数比例如下(数据来源:网络公开数据),换算到全国的话,比率约为:0.06%

各省HIV感染率

我们知道,任何检测手段都存在一定的误差,假设张三在该机构使用的检测手段准确率为y。现在来计算张三感染的概率。

设A表示张三感染的事件,B表示检测结果为阳性的事件,我们要求在已知B的情况下A发生的概率,即P(A|B)。根据已有的条件,我们有:

根据Bayes公式,

将数据代入公式计算可以得到下面的表格:

准确率 错误率 感染率
99% 1% 5.61%
99.9% 0.1% 37.4%
99.99% 0.01% 85.7%
99.999% 0.001% 98.4%

从上面的结果可以看到,如果检测手段的错误率保持在千分之一,即使检测结果为阳性,张三还是有很大概率没有感染。

这似乎与我们平常想的不太一致,是什么缘故导致的呢?

这是因为,HIV如果以总人口来看的话,感染率十分低,即x的值十分的小,如果不是检测手段极为精确的话,换算成概率并没有想象的那么大。

当然,这里忽略了另外一个可能的已知条件,那就是既然张三去做HIV检测,很有可能他(或她)是属于某种很可能接触到HIV的高危人群。

例如,医护群体做外科手术时,病人隐瞒了自身的HIV病情,那么相关的医护人员就属于高危群体。因此,上面公式中x的值不再是0.06%(PS:据全世界范围统计,这个x的值仍然很小,所以医护人员不用怕怕,注意手术中的防护即可)。

在机器学习中,这个案例似乎可以给我们某些启示:我们面临的识别和分类任务中,如果某些样本的出现在总体中比较少,那么即使我们改进分类器的对整体样本的性能,可能对这类小群体的识别与分类性能并不会有很大的提升

比如:如果某手机厂商的广告词是AI拍照,如果其训练的时候数据库中主要是中国人的话,由于中国人特别黑的比较少,那么如果黑人兄弟是用该手机的AI拍照功能,那么很可能就达不到预期的效果。所以说,要么加大数据量,要么就对小样本进行特殊处理,例如传音手机,其拍照功能针对黑人兄弟做了特别优化,在非洲市场大放异彩。

二、统计基础

2.1 重要的统计量

样本均值

样本方差

前者是无偏估计。

样本k阶原点矩

样本k阶中心矩

样本协方差

2.2 重要的分布

2.2.1 离散分布

二项分布:n次Bernoulli试验中成功的次数。

Pascal分布:Bernoulli试验中,取得第r次成功所需要的试验次数。

几何分布:Bernoulli试验中,等待一次成功所需要的试验次数。

Poisson分布

2.2.2 连续分布

均匀分布:概率密度函数是一条直线。

指数分布:电子元器件的寿命等。

正态分布:概率密度函数是一个Gauss函数,也称Gauss分布。

卡方分布:

密度函数:

不同n值的密度曲线如下图所示。

卡方分布的性质:

t分布

密度函数:

不同n值的密度曲线如下图所示,从图中可以看出,随着n的增大,t分布逐渐趋近于N(0,1)

F分布

密度函数:

不同情况的密度曲线如下图所示。

F分布的性质:

  • 若Z~F(m,n),则1/Z~F(n,m);
  • 若T~t(n),则T^2~F(1,n);
  • F(m,n)[1-x]=1 / F(n,m)[x]。

最后这条性质对于计算F分布的值很有用。

总结

最常用的部分可能是条件概率和Bayes公式。

相关文章

网友评论

    本文标题:机器学习?服下这碗药——是时候回顾一下概率与统计了(一)

    本文链接:https://www.haomeiwen.com/subject/xtsdkftx.html