美文网首页
深度学习讲稿(28)

深度学习讲稿(28)

作者: 山岳之心 | 来源:发表于2021-03-15 13:51 被阅读0次

5.6 批量梯度下降法

5.6.1 PCA降维的意义

在很多时候,我们需要综合使用随机梯度下降法和瀑布下降法的长处。这时往往数据量很大,一次计算所有的数据是非常耗费内存的。而一个一个的随机梯度下降的计算又耗费时间。如果把耗费内存的瀑布下降法看作是空间法,而把随机梯度下降则看作是时间法,那么批量梯度下降法就可以看作是时空法。这有点类似物理上的静力学,运动学到相对论的感觉。所以批量梯度下降法就是机器学习中的相对论算法。

那么问题来了。我们有没有可能耗费很小的计算资源,就能够得到很精确的学习结果呢?

答案当然是有的。从算法的本质来看,如果处理的数据都非常类似,那么对于算法来说,这些数据就没有必要处理很多次。这相当于说如果两条数据的相关性接近1,那么就把它们看作是一条数据。这个过程叫数据的降维。目前最好的数据降维的办法是矩阵PCA算法。我们先不讨论这个算法本身。只要记住它的核心功能就是让数据集瘦下来。实际上这个算法对于瀑布下降法也是适用的,但当我们选择用瀑布下降法的时候,实际上表明我们碰到的数据集完全可以用内存来处理,这时候在学习之前用PCA的意义并不大。因为这种小型的数据集可以简单粗暴对待。但是当数据量变得很大时,PCA的意义就十分突出了。它甚至可以在不丢失泛性的情况下,将数据集瘦身好几个数量级,这对于算法来说,就是快了好几个数量级。这种情形下,就可以将算法的性能提升到极致。

上面讲的PCA降维实际上还有更强的意义。由于它只取一部分特征数据来进行计算,所以在这个数据集下进行的深度学习,将不会陷入到局部最优解去。这是非常非常重要的性质。因为局部最优解的存在本身就反映了数据集中有数据分布聚集的现象存在。这种聚集在一起的数据,相关性一般比较大。当我们用PCA降维后,这些相关性很大的数据集,就之有一个代表会被抽取出来。这样就自动跳出了这个局部聚集的数据集。因此也不会陷入局部最优解。

我们将在算法优化的章节中,再来讨论这个问题。

说个题外话。如果你有相对论的数学基础,你会发现这里处理问题的方式和相对论很相似。只不过在相对论里讨论的是洛伦兹不变性。这也是为什么我将批量梯度下降法叫做时空法的原因。

我们现在回到批量梯度下降法。

相关文章

  • 深度学习讲稿(28)

    5.6 批量梯度下降法 5.6.1 PCA降维的意义 在很多时候,我们需要综合使用随机梯度下降法和瀑布下降法的长处...

  • 深度学习讲稿(2)

    1.4 深度学习的当前应用 目前,深度学习已经和商业结合得非常多。这个算法本身已经深刻地改变了人类社会,而且在未来...

  • 深度学习讲稿(1)

    深度学习 I. 从AlphaGo谈起 大家听说过2015年10月, 英国DeepMind设计的人工智能AlphaG...

  • 深度学习讲稿(4)

    第2章: 基本概念 本章主要内容: 什么是深度学习、机器学习和人工智能? 什么是参数模型和非参数模型? 什么是监督...

  • 深度学习讲稿(5)

    2.3 监督机器学习 监督学习对数据集进行转换 监督学习是一种将一个数据集转换成另一个数据集的方法。例如,如果你有...

  • 深度学习讲稿(7)

    2.6 监督参数学习 简化描述:使用旋钮进行试错学习 监督参数学习机是一台具有固定数量的旋钮(参数)的机器,通过转...

  • 深度学习讲稿(6)

    2.5 参数学习和非参数学习 简化表述:试错学习 VS. 计数和概率。前面谈的内容将所有的机器学习算法分成两组:有...

  • 深度学习讲稿(3)

    1.5 准备工作 安装jupyter Notebook 和 Numpy Python 库强烈建议安装VScode...

  • 深度学习讲稿(8)

    2.7 无监督参数学习 无监督参数学习本质上是对数据进行分类,但是在数据分类之前已经对该数据有一定的标记。比如淘金...

  • 深度学习讲稿(25)

    5.3 随机梯度下降法 我们首先来看随机梯度下降法的运算顺序。前面我们已经讲了这种算法的学习逻辑。它对整个数据集要...

网友评论

      本文标题:深度学习讲稿(28)

      本文链接:https://www.haomeiwen.com/subject/stjkcltx.html