梯度下降算法（gradient descent）

作者: DestinyBaozi | 来源:发表于2018-10-18 19:55 被阅读42次

梯度下降算法
吴恩达深度学习笔记(43)-动量梯度下降法（Momentum）
梯度下降算法的理解
单变量线性回归（二）
为什么局部下降最快的方向就是梯度的负方向？
ML2 - 梯度下降 Gradient Descent
神经网络优化2
吴恩达深度学习笔记(38)-优化算法(Optimization
梯度下降求解线性回归
梯度下降算法（gradient descent）

原理：

每次按照下降的方向进行计算，属于贪心的算法。

算法（就最小二乘法讨论）：

若训练集： $D\in\{(x_{i},y_{i})\}，i=1,2,...,n$
训练函数： $f(x) = \theta_{0}+\theta_{1}x$
参数向量： $\theta=(\theta_{1},\theta_{0})$
损失函数： $E(k,b)=\frac{1}{2n}\sum_{i=1}^{n}(f(x_{i})-y_{i})^{2}$
梯度： $\frac{\partial{E(k,b)}}{\partial{k}}=\frac{1}{n}\sum_{i=1}^{n}(f(x_{i})-y_{i})x_{i}$
$\frac{\partial{E(k,b)}}{\partial{b}}=\frac{1}{n}\sum_{i=1}^{n}(f(x_{i})-y_{i})$

gradient向量： $(\frac{\partial{E(k,b)}}{\partial{k}},\frac{\partial{E(k,b)}}{\partial{b}})^{T}$
$=\frac{1}{n}\sum_{i=1}^{n}(f(x_{i})-y_{i})*(x_{i},1)^{T}$

故在初始化的时候 $X$ 要补一列元素均为1，即 $(x_{i},1)$ 令为 $X$
则 $gradient=\Delta\theta=\frac{1}{n}X^{T}(X\theta-\vec{y})$
则 $\theta= \theta-\alpha\Delta\theta$ ， $\theta$ 的下降（减小）直到局部最小
其中 $\alpha$ 为学习率，即以一定比例的梯度下降
由于梯度是按增大的方向，故梯度减小为负