R Squared

作者: 天之見證 | 来源:发表于2018-12-28 22:59 被阅读0次

R^2 可以用来表示一个线性回归的拟合程度的好坏

1. 代数表达式

符号介绍:

  1. 观测值: y=[y_1,\ldots,y_n]^T
  2. 预测值: f=[f_1,\ldots,y_n]^T

首先需要介绍3个平方和公式:

type formula
total sum of squares SS_{tot}=\sum_i(y_i-\bar{y})^2
explained sum of squares SS_{reg}=\sum_i(f_i-\bar{y})^2
residual sum of squares SS_{res}=\sum_i(y_i-f_i)^2=\sum_i e_i^2

R^2\equiv1-\frac{SS_{res}}{SS_{tot}}

线性回归中 SS_{reg}\rightarrow 0\; {then}\; R^2\rightarrow 1

2. 几何解释

Coefficient_of_Determination

左图表达的是 SS_{tot}, 右图表达的是 SS_{reg}

3. R^2 的缺陷

当我们引入的特征增加时, 不管直接模型的效果怎样, R^2 总是会比之前的更大

因为 SS_{tot} 在这个过程中不会变化, 例如增加了一个特征的 SS_{reg} 会变成如下:
\begin{align} SS'_{reg}&=\sum_i(y_i-f_i)^2 \\ &=\sum_i(y_i-X_ib)^2 \\ &=\sum_i(y_i-\sum_{j=1}^{k+1}x_{ij}b_j)^2 \\ &=\sum_i(y_i-\sum_{j=1}^kx_{ij}b_j-x_{i(k+1)}b_{k+1})^2 \\ &=SS_{reg}-2\sum_i(y_i-\sum_{j=1}^kx_{ij}b_j)(x_{i(k+1)}b_{k+1})+\sum_i(x_{i(k+1)}b_{k+1})^2 \\ &=SS_{reg}+b_{k+1}^2\sum_ix_{i(k+1)}^2-2b_{k+1}\sum_i(y_i-\sum_{j=1}^kx_{ij}b_j)(x_{i(k+1)}) \end{align}
最后面的部分是以 b_{k+1} 为变量的二次方程且二次项系数为正, 则一定会有 b_{k+1} 使得这个式子为负, 则会有
SS'_{reg} < SS_{reg}
从而使得 R^2 增大, 会给人造成误解是因为多了一个特征的原因,而使模型的准确度增加了

4. R^2 的改进

adjusted R^2: \bar{R}^2=1-(1-R^2)\frac{n-1}{n-p-1}, 其中 p 表示除常数项以外的特征的数, n 表示样本数

5. 与残差的比较

norm of residuals (\sqrt{SS_{res}}=||e||) 也可以用来表示拟合程度的好坏

R^2 相当于是用 SS_{tot} 做了一次标准化, 则不会随着量纲的变化而变化

ref: https://en.wikipedia.org/wiki/Coefficient_of_determination

相关文章

网友评论

      本文标题:R Squared

      本文链接:https://www.haomeiwen.com/subject/aleylqtx.html