最常用的回归算法,求具有最小均方误差的无偏估计
优点:结果易于理解,计算上不复杂
缺点:对非线性的数据拟合不好
适用数据类型:数值型和标称型数据
使用平方误差作损失函数,Σ(yi-xiTw)^2
有序属性可以直接转化成连续值,无序属性需要转成K维向量,如属性“瓜类”,“西瓜”,“黄瓜”,“南瓜”可以转成(1,0,0),(0,1,0),(0,0,1)
如果无序属性直接转化成了连续值,会对后续处理如计算距离等造成误差
最小二乘法求解,对损失函数的W和B分别求导
使用相关系数来计算拟合的好坏
局部加权线性回归:
给待预测点附近的每个点赋予更高的权重,最常用的核为高斯核
w(i,i) =exp(︱xi-x︱/-2k^2)
网友评论