美文网首页
非均衡数据处理--如何评价?

非均衡数据处理--如何评价?

作者: 史春奇 | 来源:发表于2017-11-01 11:10 被阅读132次

​在分类问题中, 常见的数据预处理包括: 数据缺失(Missing), 奇值处理(Outlier), 数据变换(Transformation), 特征选择(Feature Selection), 特征提取(Feature Extraction), 非均衡数据预处理(Imbalanced/unbalanced)。

什么是非均衡数据?

这个问题很直观, 就是样本中数据的不同类别的样本的比例相差很大, 一般可以达到 9:1 或者更高。 这种情况其实蛮常见的, 譬如去医院看病的人,最后当场死亡的比例(大部分人还是能活着走出医院的, 所以要对医生好点)。 或者搞大数据的人员中男女比例。再或者, 生长线上的正品和次品。 如下图就是, 两种样本非常不成比例, 就失衡了(Imbalanced/unbalanced) 。

为什么非均衡是个大问题?

主要的原因就是非均衡影响到了分类算法的效果。是怎么影响的呢? 首先我们看一下如何评价一个分类算法。  一般来说会用到Confusion Matrix。

一般来说,一个分类器要正确率高。 那么正确率(Accuracy,ACC)是什么呢?

但是如果是非均衡的情况下, 如果选择绝对分类器(absolute classifier), 简单全部判别成主要(Major)的类别, 那么 (TP+TN)/ (P + N) = P / (P + N)> 90%。

另外一个原因, 因为目前大部分分类器是按平衡数据的正确率来进行优化的, 那么很容易忽视较小(Minor)的类别, 使得分类器对Minor失效。

因此两个问题放在我们面前了:

1):如何评价非均衡数据分类效果。

2):如何学习到一个适合分类器。

非均衡数据分类的评价?

有个最早在自信号处理领域发明, 但是生物医学领域发扬光大的标准叫受试者操作特征曲线Receiver operating characteristic (ROC) curve的标准。受试者, 一听就像药物测试的对象。 对的,这正是前面提到在生物医药领域, 非均衡情况特别普遍, 这也是ROC curve标准广泛应用的原因吧。

ROC 曲线是坐标系上的曲线, X轴是FPR (Specificity), Y轴是TPR(Sensitivity / Recall)。

一般情况下, 这个曲线采用描点法(4个点)来确定这个曲线。 而这个曲线下面和X轴的面积,就叫Area Under Curve(AUC)。 AUC是衡量分类器好坏的标准。

为什么ROC有效呢?因为我们选择一个随机分类器(random classifier), 这是比较一个分类器好坏的最好办法。 因为比随机分类器稍好的叫弱分类器(weak classifier), 要好很多的叫强分类器(strong classifier)。ROC在随机分类器情况下,刚好是对角线。

ROC 曲线在absolute classifier把全部数据分到major类别时候, 不存在Accuracy的问题。 因为AUC=0, 是很差的情况。

因此, 把ACC受到非均衡影响的叫imbalance sensitive的标准, 而把AUC这类的叫imbalance non-sensitive标准。 所以要选这non-sensitive的标准来衡量非均衡数据。 和ACC相关的F-Measure, 或者相关系数Correlation Coefficient(CC), 以及决策树用的Mutual Information(MI)这些都是sensitive的,不推荐使用。 而G-Mean, AUC,以及基于ROC衍生的PCF-EC图(Probility Cost Function - Expected Cost)等是non-sensitive的比较推荐。

大致情况,如下图所示, 更多细节就不在这里展开了。

根据Chris Chen的提醒, 加入“Cumulative Gains Curve and lift chart” 和 “Area Under Lift, AUL”:

小结, 这样我们总结了如何评价非均衡数据分类的情况, 该选用non-sensitive的标准。  但是如何学习的问题?后续会继续介绍,主要有三种方式:

通过sampling技术,生成均衡的样本

调整算法,允许算法改变权重weight变得cost-sensitive。

采用集成学习思想, 将major类进行横向划分,形成小的均衡的样本集群。

参考:

http://journal.frontiersin.org/article/10.3389/fncom.2014.00043/full

https://classeval.wordpress.com/introduction/basic-evaluation-measures/

https://eva.fing.edu.uy/pluginfile.php/69453/mod_resource/content/1/7633-10048-1-PB.pdf

相关文章

  • 非均衡数据处理--如何评价?

    ​在分类问题中, 常见的数据预处理包括: 数据缺失(Missing), 奇值处理(Outlier), 数据变换(T...

  • 非均衡数据处理--如何学习?

    ​后续会继续介绍, 主要有三种方式: 通过sampling技术,生成均衡的样本 调整算法,允许算法改变权重weig...

  • 非均衡分类问题和分类评价指标

    分类中的重点 非均衡分类问题 大多数情况下,不同类别的分类代价并不相等 所以我们要考虑将不同的决策代价考虑在内 -...

  • 漫谈纬度表如何设计(四)

    一:均衡层次结构和非均衡层次结构 先来看看均衡层次结构和非均衡层次结构的定义吧。 均衡层次结构:纬度有多个递归层次...

  • 每日一记1215

    制度均衡和非均衡 1单项制度的供求均衡和非均衡 认为制度的功能是提供某种服务,引入微观的供求均衡分析。 2制度的结...

  • 从WordCount看Spark大数据处理的核心机制

    大数据处理肯定是分布式的了,那就面临着几个核心问题:可扩展性,负载均衡,容错处理。Spark是如何处理这些问题的呢...

  • 人与人之间的区别

    不知道最近知乎是不是知道我在考本科,总是推送我一些关于“如何评价小米HR非985/211不录用言论”、“如何评价7...

  • 比较静态分析05|局限

    毫无疑问比较静态分析是有意义的,因为在经济学中,我们常常对一个参数的非均衡变化如何影响模型的均衡状态感兴趣。但是比...

  • 非平衡数据集与准确度悖论

    分类问题是机器学习的研究重点,而后者在实践中常常碰到非均衡数据集这个难题。非均衡数据集(imbalanced da...

  • ApacheBeam:Pipeline I/O

    如何使用 Transform 来封装我们的数据处理逻辑,以及 Beam 是如何将数据处理高度抽象成为 Pipeli...

网友评论

      本文标题:非均衡数据处理--如何评价?

      本文链接:https://www.haomeiwen.com/subject/devwpxtx.html