1、Adaboost作为一种集成学习方法,核心思想是经过多轮迭代,对分类器的权重参数每次迭代进行修正,然后集成得到最优解;
2、修正的参数有两个:迭代器的权重、样本自身的权重,权重的大小根据每轮迭代中的误分率自我调节
3、弱分类器的权重:
假设我们的训练集样本是:T={(,
),(
,
),...(
,
)}
训练集的在第k个弱学习器的输出权重为: D(k)=(,
,...
);
=
;i=1,2...m
这里假设我们是二元分类问题,输出为{-1,1},则第k个弱分类器在训练集上的加权误差率为:
=
接着我们看弱学习器权重系数,对于二元分类问题,第k个弱分类器的权重系数为:
从上述式子可以看到弱分类器的误差率越大,它的权重系数越小;
4、样本的权重:
如何更新样本权重:假设第k个弱分类器的样本权重系数为:,则对应第k+1个弱分类器的样本集权重系数 为:
=
exp(
),这里
是归一化因子。
从上述式子可以看到 的值越相近,它们的乘积越大,
的权重系数
越小。换句话说,对于分对的样本,给与的
权重越小,对于分错的样本,给与的权重越大;
5、错误率和弱分类器的权重、样本的权重之间的关系
本次迭代的分类错误率越大,整个弱分类器的权重将会越小,下次迭代的弱分类器所使用的分类错误的样本的权重越大;
网友评论