美文网首页
评分卡知识查漏补缺

评分卡知识查漏补缺

作者: echolvan | 来源:发表于2019-12-26 17:20 被阅读0次

制作评分卡时候,做变量相关性应该在哪一个步骤?
做变量相关性分析,在WOE编码过后,带入模型之前合适。在变量WOE编码之后,因为变量可能在WOE编码前存在相关性,不过编码过后就不存在相关性了;当然有一些变量在WOE编码前不相关性,但是WOE编码后相关了。

IV值是越高越好吗?
一帮来说,变量IV小于0.02就不要带入模型了,但是IV>1.2过高,这个变量可能存在问题

缺失值在什么比例可以直接剔除?
缺失值一般在千分之一、万分之一可以直接剔除,否则可以使用均值填补,中位数等,也可以用随机森林,听说smote也可以做,没用过smote来填充过

评分卡变量挑选使用什么方法好?
评分卡模型IV方法挑选变量最佳,变量挑选方法有IV、LASSO,只用一种即可,不要混用。

评分卡样本好坏样本最大比例是多少才不失衡?
一般好坏样本不要超过20:1

分箱时要注意的
分箱里面不能全是好客户或者全是坏客户,否则不能计算WOE

连续型变量可直接分箱

类别型变量:

(a)当取值较多时,先用bad rate编码,再用连续型分箱的方式进行分箱

(b)当取值较少时:

   (b1)如果每种类别同时包含好坏样本,无需分箱

   (b2)如果有类别只包含好坏样本的一种,需要合并

卡方分箱优化建议
当变量取值大于100时候,我们可以先进行一个粗糙的等频分箱,加快程序运行速度

评分卡模型在什么阶段会变量挑选呢?
WOE后编码,单变量IV值过低可以剔除(IV值自己可以定,一般0.02)

WOE后编码,变量与变量之间的关联性,使用皮尔逊系数来检验(可以定一个皮尔逊值,大于这个值,两个变量选择IV高的那个;IV无太大差别,变量数值比较多的,这样分数更有层次性)

WOE后编码,变量的多重共线性,用VIF指标来衡量(一般VIF小于10则没有问题)

逻辑回归后,变量的P值不显著,也要剔除(注意,每剔除一次要重新进行逻辑回归,重新算剩下变量对应的P值和系数)

假如训练集分箱后,遇到的测试集的值不存在任何一个分箱,怎么处理?
依照该变量分箱最差情况考虑

为什么申请评分卡一定要使用WOE编码?
WOE编码能反映出组和组之间的差距和我们分箱初衷一样,使用箱与箱之间差距大,箱内差距小

相关文章

  • 评分卡知识查漏补缺

    制作评分卡时候,做变量相关性应该在哪一个步骤?做变量相关性分析,在WOE编码过后,带入模型之前合适。在变量WOE编...

  • 【Android面试查漏补缺】之事件分发机制详解

    前言 查漏补缺,查漏补缺,你不知道哪里漏了,怎么补缺呢?本文属于【Android面试查漏补缺】系列文章第一篇,持续...

  • table知识查漏补缺

    1.colgroup用法写在table内 thead的上面用于决定列宽2.border-collapse 去除边界...

  • 一对一辅导试卷分析优势是什么?

    通过考后一对一辅导试卷分析,学生可以从以下几个方面得到收获: 1、知识上的查漏补缺 所谓查漏补缺,就是找到学习上的...

  • 查漏补缺

    如果想让HTML5标签兼容低版本浏览器的话,可以使用 html5shiv js来实现。注意:一定要把它引入到前面。...

  • 查漏补缺

    图文环绕和浮动 最初的CSS只是用来写文章,熟练使用float和clear两个属性来布局: float属性:指定一...

  • 查漏补缺

    1.js字符串转换成数字与数字转换成字符串的实现方法https://www.2cto.com/kf/201612/...

  • 查漏补缺

    浮动原理 1.使用之初:是为了让文字环绕图片,并且不会遮住文字。如果让图片与文字有间距,我们在浮动元素上添加。2....

  • 查漏补缺

    今天数学老师外出学习,我用了一上午的时间给孩子们查漏补缺。 首先,训练朗读:从段落与段落之间的大停顿...

  • 查漏补缺

    1 Python提供了ord()和chr()函数,可以把字母和对应的数字相互转换2 写 u'中' 和 u'\u4e...

网友评论

      本文标题:评分卡知识查漏补缺

      本文链接:https://www.haomeiwen.com/subject/ivdloctx.html