特征选择
特征选择的目的是为了筛选出对训练数据具有分类能力的特征,提供决策树学习的效率。通常特征选择的准则是
信息增益
和信息增益率
(信息增益比)
熵entropy
在信息论和概率统计中,熵entropy
表示的是随机变量不确定性的度量,即不纯度。设是一个取有值的随机离散变量,其概率分布为:
则随机变量
的熵定义为
;若果
,则定义0log0=0.。上式中的对数以2或者自然数
e
为底数,此时熵的单位是比特(bit
)或者纳特(nat
)。根据上式得知:熵和X的取值没有关系,值依赖于其分布,将X的熵记作,即:
熵越大,随机变量的不确定就越大,根据定义得到:
。
当随机变量只取0和1的时候,X的分布是,那么对应的熵
为
- 当
时,
,此时随机变量完全没有不确定性。
- 当
时,熵取值最大,此时不确定最大

条件熵
条件熵表示在已知随机变量X的条件下随机变量Y的不确定性。此时,条件熵
,定义为X给定条件下Y的条件概率分布的熵对X的期望:
在这里,
规定:由数据统计(特别是极大似然估计)得到的熵和条件熵,分别称之为经验熵empirical entropy
和经验条件熵 empirical conditional entropy
,并且规定0log0=0。
信息增益 information gain
信息增益表示的是:得知X的信息而是的类Y的信息的不确定性较少的程度。信息增益定义如下:
特征A对训练数据集D的信息增益为
,定义为集合D的经验熵
与给定条件下D的经验熵
之差,记为
一般情况下,熵和条件熵的差称之为互信息
mutual information
。决策树模型中学习的信息增益
== 训练数据中类与特征
的互信息。
- 决策树学习应用信息增益来选择特征
- 信息增益就是表示由于特征使得对训练数据集的分类的不确定减少的程度
- 信息增益依赖于特征,不同的特征往往具有不同的信息增益
- 信息增益大的特征具有更强的分类能力
- 根据信息增益来选择特征的方法:
- 对于训练数据集,计算每个特征的信息增益
- 比较每个信息增益的大小
- 选取信息增益最大的特征进行分类
信息增益算法
假设训练数据集为D,|D|表示样容量即本数。数据集中总共有K个类
,
,|
|为样本
的个数,则
设特征A有n个不同的取值:
,根据特征A将数据集D分成n个不同的子集
,其中|
|表示
的样本数,
。记子集
中属于类
的样本的集合为
,即:
,
为
的样本个数。
- 训练数据集:D
- 样本容量:
- 数据中类的总数:K个类,
, 其中
- 所有类
Y
的总数满足: - 训练数据总特征
X
数:n, - 根据某个类A将数据集D划分为n个不同的子集:
- 所有子集之和满足:
网友评论