前言
中学的时候看一本杂志提到了一个很有趣的概率的问题:三门问题。问题描述如下:
美国的电视游戏节目Let's Make a Deal。问题名字来自该节目的主持人蒙提·霍尔(Monty Hall)。参赛者会看见三扇关闭了的门,其中一扇的后面有一辆汽车,选中后面有车的那扇门可赢得该汽车,另外两扇门后面则各藏有一只山羊。当参赛者选定了一扇门,但未去开启它的时候,节目主持人开启剩下两扇门的其中一扇,露出其中一只山羊。主持人其后会问参赛者要不要换另一扇仍然关上的门。
问题是:换另一扇门会否增加参赛者赢得汽车的机率?
《贫民窟的百万富翁》是一部把电视答题蕴含于其中的精彩电影,其中男主角同样拥有去除一项错误答案的权利。如果男主角事前心中选好某一个选项,主持人去除错误答案的时候不包含该选项,那么男主是否应该改选呢?这个问题和前面的三门问题是类似的。
在许多机器学习算法中,都离不开概率与统计的知识,例如:朴素贝叶斯算法、EM算法的参数估计等。复习一波概率与统计之后,对算法中的公式推导就不发怵了。
一、概率基础
1.1 常用性质
概率P是集合函数,具有以下基本特征:
- 非负性;
- 规范性;
- 可列可加性。
根据这些基本性质可以推出概率的其余性质有:
- 不可能事件概率为0;
- 有限可加性:不相交时间的并的概率等于各自概率之和;
- 可减性:若事件A包含B,则P(A-B)=P(A)-P(B);
- 单调性:若事件A包含B,则P(A)>=P(B)。
等等。
1.2 常用公式
条件概率
已知事件A发生的情况下,B发生的概率:

上述公式是条件概率的定义。
全概率公式

根据概率的基本性质——有限可加性,即可证明。
Bayes公式

利用条件概率的定义和全概率公式即可证明。
乘法定理

利用归纳法证明。
中心极限定理

1.3 例子
运用案例1:
三门问题的求解,此处给出了一个解答。
答案是应该更换答案,这样答对的概率是2/3,如果不更换答案,答对的概率只有1/3。
运用案例2:
张三去某机构采用某种手段检查自己是否患有艾滋病(HIV),不幸的是,检测结果为阳性,收到结果的二狗觉得人生灰暗。那么问题来了,张三是否一定就感染了呢?
我国2016年大陆各省HIV感染人数占总人数比例如下(数据来源:网络公开数据),换算到全国的话,比率约为:0.06%。

我们知道,任何检测手段都存在一定的误差,假设张三在该机构使用的检测手段准确率为y。现在来计算张三感染的概率。
设A表示张三感染的事件,B表示检测结果为阳性的事件,我们要求在已知B的情况下A发生的概率,即P(A|B)。根据已有的条件,我们有:

根据Bayes公式,

将数据代入公式计算可以得到下面的表格:
准确率 | 错误率 | 感染率 |
---|---|---|
99% | 1% | 5.61% |
99.9% | 0.1% | 37.4% |
99.99% | 0.01% | 85.7% |
99.999% | 0.001% | 98.4% |
从上面的结果可以看到,如果检测手段的错误率保持在千分之一,即使检测结果为阳性,张三还是有很大概率没有感染。
这似乎与我们平常想的不太一致,是什么缘故导致的呢?
这是因为,HIV如果以总人口来看的话,感染率十分低,即x的值十分的小,如果不是检测手段极为精确的话,换算成概率并没有想象的那么大。
当然,这里忽略了另外一个可能的已知条件,那就是既然张三去做HIV检测,很有可能他(或她)是属于某种很可能接触到HIV的高危人群。
例如,医护群体做外科手术时,病人隐瞒了自身的HIV病情,那么相关的医护人员就属于高危群体。因此,上面公式中x的值不再是0.06%(PS:据全世界范围统计,这个x的值仍然很小,所以医护人员不用怕怕,注意手术中的防护即可)。
在机器学习中,这个案例似乎可以给我们某些启示:我们面临的识别和分类任务中,如果某些样本的出现在总体中比较少,那么即使我们改进分类器的对整体样本的性能,可能对这类小群体的识别与分类性能并不会有很大的提升。
比如:如果某手机厂商的广告词是AI拍照,如果其训练的时候数据库中主要是中国人的话,由于中国人特别黑的比较少,那么如果黑人兄弟是用该手机的AI拍照功能,那么很可能就达不到预期的效果。所以说,要么加大数据量,要么就对小样本进行特殊处理,例如传音手机,其拍照功能针对黑人兄弟做了特别优化,在非洲市场大放异彩。
二、统计基础
2.1 重要的统计量
样本均值

样本方差

前者是无偏估计。
样本k阶原点矩

样本k阶中心矩

样本协方差

2.2 重要的分布
2.2.1 离散分布
二项分布:n次Bernoulli试验中成功的次数。
Pascal分布:Bernoulli试验中,取得第r次成功所需要的试验次数。
几何分布:Bernoulli试验中,等待一次成功所需要的试验次数。
Poisson分布。
2.2.2 连续分布
均匀分布:概率密度函数是一条直线。
指数分布:电子元器件的寿命等。
正态分布:概率密度函数是一个Gauss函数,也称Gauss分布。
卡方分布:

密度函数:

不同n值的密度曲线如下图所示。

卡方分布的性质:

t分布:

密度函数:

不同n值的密度曲线如下图所示,从图中可以看出,随着n的增大,t分布逐渐趋近于N(0,1)。

F分布

密度函数:

不同情况的密度曲线如下图所示。

F分布的性质:
- 若Z~F(m,n),则1/Z~F(n,m);
- 若T~t(n),则T^2~F(1,n);
- F(m,n)[1-x]=1 / F(n,m)[x]。
最后这条性质对于计算F分布的值很有用。
总结
最常用的部分可能是条件概率和Bayes公式。
网友评论