问题
1. 什么是朴素贝叶斯
2. 怎么理解贝叶斯公式和朴素贝叶斯公式
3. 朴素贝叶斯算法流程是怎样
4. 朴素贝叶斯有哪些优缺点
5. 朴素贝叶斯其他模型
1. 什么是朴素贝叶斯
朴素贝叶斯是基于贝叶斯定理与假设特征之间是独立的分类方法
2. 贝叶斯公式的理解和朴素贝叶斯公式
贝叶斯公式是用来描述两个条件概率之间的关系
因为
则
一些概率基础
条件概率:在事件Y发生的条件下,事件X发生的概率,表示为 P(X|Y)
联合概率:事件X和事件Y同时发生的概率,表示为P(X,Y)
全概率: 事件Y1,Y2,...,Yn 构成一个完备事件X,表示为P(X)

贝叶斯公式如下
由于分母是一个固定值,所以贝叶斯公式可以缩写成
其中 是先验概率,
是后验概率,
是条件概率(似然函数)
假设
为了避免X中的组合没有出现导致的错误,所以朴素贝叶斯假设特征之间相互独立
那么,朴素贝叶斯的公式可表示为
3. 朴素贝叶斯算法流程
a. 假设一个样本
b. 类别
d. 根据贝叶斯公式,分别计算的值
e.取 ,
就属于
类型
4. 朴素贝叶斯的优缺点
优点
a. 对小规模数据表现的较好,适合多分类任务
b. 算法比较简单,容易理解
缺点
a. 朴素贝叶斯假设特征之间是相互独立的,但在实际过程中往往是不成立的,在特征相关性越大,分类效果越不好
b. 对输入数据表达形式很敏感
5. 朴素贝叶斯其他模型
高斯朴素贝叶斯
当 特征属性是连续值 且服从高斯分布时,计算P(X|Y)可以直接使用高斯分布概率公式
因此,只要计算出在各类别中,各个特征的均值和方差
多项式朴素贝叶斯
当 特征属性是离散值 时,直接计算类别数目的占比作为先验概率和条件概率
其中是总样本数,
是类别为
的样本数,
是类别为
中
的样本数
是类别个数,
是特征
中不同取值的个数
是平滑值,主要是用来克服条件概率为0的问题,当
时,是Laplace平滑,
当时,是Lidstone平滑,
时,不做平滑
伯努利(0-1分布)朴素贝叶斯
当 特征属性是连续值且服从伯努利分布,计算P(X|Y)可以使用伯努利概率公式
参考资料
【1】朴素贝叶斯算法理解和实现
【2】朴素贝叶斯算法详解
【3】带你搞懂朴素贝叶斯
网友评论