贝叶斯
应用:垃圾邮件过滤
LR和FM
在线广告系统的click model通常使用logistic regression模型
应用经验之处理特征
-
如果连续变量,注意做标准化处理。LR对样本分布敏感,所以要注意样本的平衡性(y=1不能太少)样本量足的情况下采用下采样,不足的情况用上采样。
-
LR对于特征处理非常重要,常用的处理手段包括:通过组合特征引入个性化因素;注意特征的频度;聚类、分桶。但是LR不怕特征大,GBDT比较怕。对于连续变量的离散化,可以用cart(GBDT)查看离散的结果,生成新特征,最用LR。
gbdt为什么怕特征大?是不是因为底层是决策树 -
LR和FM对于稀疏高维特征处理时无压力的,GBDT对于连续值自己会找到合适的切分点,xgboost也可以处理分类类型的特征,无需one-hot,平展开的高维稀疏特征对它没有好处。
应用经验之算法调优
- 算法调优方面,选择合适的正则化,正则化系数,收敛阈值e、迭代轮数,调整loss function给定不同权重;
应用经验之数据处理
- LR和SVM 对于线性切分都有着比较好的表现,对于非线性切分,必须在原始数据上做一些非线性变换。LR必须做feature mapping,比如把x做个平方项,x1*x2等;SVM 则需要利用核函数
网友评论