GBDT算法

作者: 慢牛策略 | 来源:发表于2018-06-03 11:24 被阅读84次

集成学习之Boosting-gbdt
GBDT--原来是这么回事(附代码)
GBDT常见面试问题
【西瓜书】第8章集成学习
GBDT算法
GBDT 算法
决策树之 GBDT 算法 - 分类部分
GBDT原理最通俗的解释
GBDT集成算法（梯度提升树）
GBDT源码分析之三：GBDT

1 决策树分类:

屏幕快照 2018-06-03 10.37.15.png

2 GBDT(Gradient Boosting Decision Tree | 梯度提升决策树) 概念：

2.1 残差：

   在数理统计中是指实际观察值与估计值

2.2 泛化关系:

   是类元的一般描述和具体描述之间的关系，
   具体描述建立在一般描述的基础之上，并对其进行了扩展。

2.3 Boosting:

1 思想：
    对于一个复杂任务来说，将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断要好。
     通俗地说，就是"三个臭皮匠顶个诸葛亮"的道理。
2 概念：
    是一族可将弱学习器提升为强学习器的算法，属于集成学习（ensemble learning）的范畴。
    基于梯度提升算法的学习器叫做 GBM(Gradient Boosting Machine)，GBDT属于GBM的一种情况。
3 GB和DT结合原因：
    决策树算法相比于其他的算法需要更少的特征工程，比如可以不用做特征标准化，可以很好的处理字段缺失的数据，也可以不用关心特征间是否相互依赖等。
    决策树能够自动组合多个特征。
    单独使用决策树会出现过拟合的缺点，而使用梯度提升的方法集成多个决策树，能够很好解决过拟合的问题。

2.4 监督学习基础知识

监督学习关键概念：           
    模型（model）、参数（parameters）、目标函数（objective function）。
    
    模型：
        模型就是所要学习的条件概率分布或者决策函数，它决定了在给定特征向量时如何预测出目标。
    参数：
        参数就是我们要从数据中学习得到的内容。
    目标函数：
        Obj(--) = L(--)+Ω(--)
        L 是损失函数，用来衡量模型拟合训练数据的好坏程度；
        Ω 称之为正则项，用来衡量学习到的模型的复杂度。