凸优化，梯度下降和优化算法进阶

作者: 英文名字叫dawntown | 来源:发表于2020-02-25 21:57 被阅读0次

datawhale-task06/09（批量归一化和残差网络；凸
凸优化，梯度下降和优化算法进阶
笔记6-Deep learning and backpropag
OPTIMIZATION AS A MODEL FOR FEW-
2019-11-01第二课二周优化算法
多层神经网络，从零开始——（九）、优化函数
浅谈神经网络中的梯度爆炸问题
笔记（二）梯度下降与反向传播算法
总结那些常用的优化方法
吴恩达深度学习复习: Optimization 最优化算法

1. 凸优化

优化方法目标：训练集损失函数值
深度学习目标：测试集损失函数值（泛化性）

1.1 优化在深度学习中的挑战

局部最小值
鞍点（Hessen阵判断）
梯度消失（梯度太小以至于消失）

1.2 凸函数（最优化课讲过）

性质

无局部极小值（ $f(x)>λf(x)+(1−λ)f(x′)≥f(λx+(1−λ)x′)$ ）
与凸集的关系（对于凸函数 $f(x)$ ，定义集合 $S_b:={x|x∈X and f(x)≤b}$ ，则集合 $S_b$ 为凸集）
二阶条件（ $f′′(x)≥0⟺f(x)$ 是凸函数）

具有限制条件的最优化（详见最优化课本）

2. 梯度下降

沿梯度反方向移动自变量可以减小函数值
$x \leftarrow x-\eta f^{\prime}(x)$
其中 $\eta$ 就是学习率

梯度下降的不同情况.png

2.1 多维梯度下降

与一维梯度一样，只不过所有标量变成矢量。
$\nabla f(\mathbf{x})=\left[\frac{\partial f(\mathbf{x})}{\partial x_{1}}, \frac{\partial f(\mathbf{x})}{\partial x_{2}}, \dots, \frac{\partial f(\mathbf{x})}{\partial x_{d}}\right]^{\top},\\f(\mathbf{x}+\epsilon)=f(\mathbf{x})+\epsilon^{\top} \nabla f(\mathbf{x})+\mathcal{O}\left(\|\epsilon\|^{2}\right),\\\mathbf{x} \leftarrow \mathbf{x}-\eta \nabla f(\mathbf{x}).$

2.2 经典方法

2.2.1 牛顿法

$\mathbf{x} \leftarrow \mathbf{x}-\eta \operatorname{diag}\left(H_{f}\right)^{-1} \nabla \mathbf{x}$
类似的还有共轭梯度法

2.2.2 随机梯度下降

$\mathbf{x} \leftarrow \mathbf{x}-\eta \nabla f_{i}(\mathbf{x})$

2.2.3 小批量随机梯度下降

$f_{B}(\mathbf{x})=\frac{1}{n_B} \sum_{i=1}^{n_B} f_{i}(\mathbf{x}),\\n_B:\space batch\space size$
$\mathbf{x} \leftarrow \mathbf{x}-\eta \nabla f_{B}(\mathbf{x})$

3. 优化算法进阶

3.1 Momentum

针对病态问题（ $cond_H=\frac{\lambda_{max}}{\lambda_{min}}$ ~20）会在某些参数方向上学习率过大而另一些参数方向上学习率过小的问题，引入动量算法
$\begin{aligned} \boldsymbol{m}_t &\leftarrow \beta \boldsymbol{m}_{t-1} + \eta_t \boldsymbol{g}_t, \\ \boldsymbol{x}_t &\leftarrow \boldsymbol{x}_{t-1} - \boldsymbol{m}_t, \end{aligned}$
使用了动量算法的的：AdaGrad，RMSProp，AdaDelta，Adam

datawhale-task06/09（批量归一化和残差网络；凸
批量归一化和残差网络凸优化，梯度下降和优化算法进阶目标检测基础图像风格迁移
凸优化，梯度下降和优化算法进阶
1. 凸优化优化方法目标：训练集损失函数值深度学习目标：测试集损失函数值（泛化性） 1.1 优化在深度学习中的挑...
笔记6-Deep learning and backpropag
优化算法：梯度下降，反向传播（BP）是梯度下降实现方法之一。
OPTIMIZATION AS A MODEL FOR FEW-
文章提出，在小样本数据下，基于梯度的优化算法失败的原因： 1、梯度优化算法无法在几步之内完成优化，特别是非凸问题，...
2019-11-01第二课二周优化算法
指数加权平均：动量梯度下降法： RMSprop：和动量梯度下降法相似 adam优化算法：将动量梯度下降法和RMS...
多层神经网络，从零开始——（九）、优化函数
常用的优化算法有：随机梯度下降、带动量的随机梯度下降、AdaGrad算法、RMSProp算法、Adam算法，其中A...
浅谈神经网络中的梯度爆炸问题
在神经网络中，梯度下降算法是使用非常广泛的优化算法。梯度下降算法的变体有好多，比如随机梯度下降（Stochasti...
笔记（二）梯度下降与反向传播算法
梯度下降算法基于梯度的优化是优化一个函数的最终取值。输入参数，需要优化的函数是，基于梯度的优化即通过改变使得最大...
总结那些常用的优化方法
知识点基础的损失函数优化算法为梯度下降算法SGD(根据每次参与计算的样本数又分为了普通梯度下降算法，随机梯度下降...
吴恩达深度学习复习: Optimization 最优化算法
吴恩达深度学习复习: Optimization 最优化算法 Jog My Mind 最优化算法都有哪些？梯度下降...

凸优化，梯度下降和优化算法进阶

1. 凸优化

1.1 优化在深度学习中的挑战

1.2 凸函数（最优化课讲过）

2. 梯度下降

2.1 多维梯度下降

2.2 经典方法

2.2.1 牛顿法

2.2.2 随机梯度下降

2.2.3 小批量随机梯度下降

3. 优化算法进阶

3.1 Momentum

相关文章

datawhale-task06/09（批量归一化和残差网络；凸

凸优化，梯度下降和优化算法进阶

笔记6-Deep learning and backpropag

OPTIMIZATION AS A MODEL FOR FEW-

2019-11-01第二课二周优化算法

多层神经网络，从零开始——（九）、优化函数

浅谈神经网络中的梯度爆炸问题

笔记（二）梯度下降与反向传播算法

总结那些常用的优化方法

吴恩达深度学习复习: Optimization 最优化算法

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读