美文网首页
样本比例不均衡的处理的方法

样本比例不均衡的处理的方法

作者: 不痛不仰 | 来源:发表于2018-01-14 22:54 被阅读0次

声明:此文摘自微信公众号“机器学习研究会”的一篇推送。

原文链接:https://mp.weixin.qq.com/s/5csfnBWZ2MQsnWZnNj9b8w

样本不均衡带来的问题:模型过拟合。

针对样本不均衡的解决思路有:

    1、搜集更多的数据:

        当搜集数据代价不大时,这种方法最有效。注意:当收集数据的场景本来产生数据的比例就是不平衡时,这种方法并不能解决数据不均衡问题。

    2、改变评判指标:

        改变评判指标,也就是不用准确率来评判和选择模型,一些专门用来解决样本不均衡时的评判指标,如:召回率、F1值、ROC和Kappa等。

        关于评判指标更详细的内容可参考文章: Classification Accuracy is Not Enough: More Performance Measures You Can Use

    3、对数据进行采样:

        对数据采样针对性地改变数据中样本的比例,采样一般有两种方式:over-sampling和 under-sampling,前者是增加样本数较少的样本,其方式是直接复制原来的样本,而后者是减少样本数较多的样本,其方式是丢弃这些多余的样本。

通常来说,当总样本数目较多的时候考虑 under-sampling,而样本数数目较少的时候考虑 over-sampling

    4、合成样本:

    5、改变样本权重:

相关文章

网友评论

      本文标题:样本比例不均衡的处理的方法

      本文链接:https://www.haomeiwen.com/subject/wfploxtx.html