使得数据集更易使用
确保变量之间彼此独立
降低算法计算运算成本
去除噪音
一旦我们能够正确处理这些信息,正确有效地进行降维,这将大大有助于减少计算量,进而提高机器运作效率。而数据降维,也常应用于文本处理、人脸识别、图片识别、自然语言处理等领域。02数据降维原理往往高维空间的数据会出现分布稀疏的情况,所以在降维处理的过程中,我们通常会做一些数据删减,这些数据包括了冗余的数据、无效信息、重复表达内容等。例如:现有一张*的图,除去中心50*50的区域其它位置均为零值,这些为零的信息就可以归为无用信息;而对于对称图形而言,对称部分的信息则可以归为重复信息。因此,大部分经典降维技术也是基于这一内容而展开,其中降维方法又分为线性和非线性降维,非线性降维又分为基于核函数和基于特征值的方法。线性降维方法:
PCA、ICALDA、LFA、LPP(LE的线性表示)非线性降维方法:
基于核函数的非线性降维方法——KPCA、KICA、KDA基于特征值的非线性降维方法(流型学习)——ISOMAP、LLE、LE、LPP、LTSA、MVU哈尔滨工业大学计算机技术专业的在读硕士生Hucodr则整理了PCA、KPCA、LDA、MDS、ISOMAP、LLE、TSNE、AutoEncodr、FastICA、SVD、LE、LPP共12种经典的降维算法,并提供了相关资料、代码以及展示,下面将主要以PCA算法为例介绍降维算法具体操作。0主成分分析(PCA)降维算法PCA是一种基于从高维空间映射到低维空间的映射方法,也是最基础的无监督降维算法,其目标是向数据变化最大的方向投影,或者说向重构误差最小化的方向投影。它由KarlParson在年提出,属于线性降维方法。与PCA相关的原理通常被称为最大方差理论或最小误差理论。这两者目标一致,但过程侧重点则不同。最大方差理论降维原理将一组N维向量降为K维(K大于0,小于N),其目标是选择K个单位正交基,各字段两两间COV(X,Y)为0,而字段的方差则尽可能大。因此,最大方差即使得投影数据的方差被最大化,在这过程中,我们需要找到数据集Xmxn的最佳的投影空间Wnxk、协方差矩阵等,其算法流程为:算法输入:数据集Xmxn;
按列计算数据集X的均值Xman,然后令Xnw=X?Xman;
求解矩阵Xnw的协方差矩阵,并将其记为Cov;
计算协方差矩阵COv的特征值和相应的特征向量;
将特征值按照从大到小的排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵Wnxk;
计算XnwW,即将数据集Xnw投影到选取的特征向量上,这样就得到了我们需要的已经降维的数据集XnwW。
最小误差理论降维原理而最小误差则是使得平均投影代价最小的线性投影,这一过程中,我们则需要找到的是平方错误评价函数J0(x0)等参数。详细步骤可参考《从零开始实现主成分分析(PCA)算法》: