美文网首页
降维方法综述

降维方法综述

作者: 长安逸魂 | 来源:发表于2019-05-29 15:04 被阅读0次

首先要明白,降维往往是为了在降低计算量的同时,尽量保持原来样本的分布

PCA

对于正交属性空间中的样本点,用超平面对样本进行表达需要满足最近重构性最大可分性

理论基础

  • 基本假设如下
    • x_i\in R^d, x_i' \in R^{d'}W\in R^{d \times d'} x = [x_1, x_2, ..., x_m]
    • 投影变换后得到的新坐标系为\{\omega_1,\omega_2,...,\omega_{d'}\}
    • 对样本进行中心化 x_i = \frac{1}{m}\sum^m_{i=1}x_i
  • 过程推导:
    样本点x_i在在新空间的投影为W^Tx_i,若使得个样本在新的空间尽量分开来,则需要使得方差最大,而方差为
    \max_{W}tr(W^TXX^TW) s.t. W^TW=I,对上述式子采用Lagrange乘子法,则可以得到
    W^TXX^TW - \lambda(W^TW-I)=0 \longrightarrow XX^TW=\lambda W因此,仅需要对于协方差阵XX^T进行特征值分解,并对特征值进行排序,选取前d'项特征值对应的特征向量构成W=(\omega_1,\omega_2,...,\omega_{d'})

伪代码

% INPUT: 样本集D={x_1,x_2,...x_m}; 低维空间维数 d' 
对所有样本进行中心化
计算协方差矩阵 XX^T
对协方差阵进行特征值分解
取最大的d'个特征值所对应的特征向量 w_1,w_2,...w_d'

多维缩放(MDS)

理论基础

  • 基本假设如下:
    • X\in R^{d\times m}, Z\in R^{d' \times m}
    • 保证任意两个样本在d'维的欧式距离等于在原空间的距离,即||z_i-z_j||=dist_{ij}
  • 过程推导
    B = Z^TZ\in R^{m\times m},表示降维后样本的内积矩阵
    dist_{ij}^2=||z_i||^2+||z_j||^2-2z_i^Tz_j=b_{ii}+b_{jj}-2b_{ij}假设降维后的样本Z被中心化,即\sum^m_{i=1}z_i=0,故而有\sum^m_{i=1}b_{ij}=\sum^{m}_{j=1}b_{ij}=0,由上述形式有:
    \sum^m_{i=1}dist_{ij}^2=tr(B)+mb_{jj} \sum_{j=1}^mdist_{ij}^2=tr(B)+mb_{ii} \sum^{m}_{j=1}\sum^{m}_{i=1}dist_{ij}^2=2mtr(B) 因此,可以知道b_{ij}=-0.5 (dist_{ij}^2-dist_{i.}^2-dist_{.j}^2+dist_{..}^2)从而B可得,对B进行特征值分解,得到B=V\lambda V^T,其中\lambda为特征值从大到小排序构成的对角矩阵,V为对应的特征向量矩阵,假设特征值中仅有d^*个非零值,则Z可以表达为Z=\lambda_*^{0.5}V_*^T\in R^{d^*\times m}, 但是实际中不必如此严格,只需要降维之后彼此距离与原始空间距离尽可能近似,而不必严格相等,此时可以直接选取d''<<d个最大特征值构成的对角阵,计算对应的Z

伪代码

% INPUT: 距离矩阵D,其元素为dist_{ij}为x_i到x_j的距离;低维空间的维数$d'$
计算dist_{i.},dist_{.j},dist_{..}
计算B
对B进行特征值分解
取\lambda中前d'个最大特征值和对应的特征向量矩阵V
输出: V\lambda^{0.5}

参考自 周志华 《机器学习》

相关文章

  • 降维方法综述

    首先要明白,降维往往是为了在降低计算量的同时,尽量保持原来样本的分布 PCA 对于正交属性空间中的样本点,用超平面...

  • 降维方法

    LASSO ref:http://statweb.stanford.edu/~tibs/lasso.htmlhtt...

  • 【R图千言】主成分分析之3D绘图

    主成分分析 (PCA, principal component analysis)是一种数学降维方法。 PCA降维...

  • Spark Mllib PCA降维

    与sk_learn相比,spark mllib的PCA降维方法,只能设置最终降维的维数。 实例demo: 踩坑:1...

  • 拼多多学霸批*两轮技术面+HR面

    PCA降维怎么实现,有哪些降维方法 ResNet densenet inception 都讲述一下原理 逻辑回归的...

  • 天天随手记,持续更新中(2018-05-02)

    降维方法: principal component analysis conical correlation an...

  • PCA降维

    当数据特征较多时,基本有两种方法:1 PCA降维2 Feature Selection(特征选择) PCA降维 <...

  • 主成分分析-原理

    1、降维是什么 降维简单直接的说就是减少自变量的个数,利于分类结果的可视化。 2、降维的两种方法 降低自变量个数的...

  • (十一)MDS算法

    1.用MDS的场景  从降维的层面来说,由于MDS是一种降维方法,那么它和PCA等其他降维方式有什么不同呢,什么样...

  • 今日学习要点

    (1)升维思考,降维打击 方法一、古为今用 方法二、他山之石 方法三、行动无时差 方法四、把握可控 (2)除了办嘉...

网友评论

      本文标题:降维方法综述

      本文链接:https://www.haomeiwen.com/subject/ayuetctx.html