上海涛德顾问学院

涛德人工智能机器,学习培训原创系列之PCA主成分分析算法

摘要: PCA(Principal components analysis)降维特征处理当训练数据有大量的维度,对于训练而言是一个灾难,这时我们需要在不影响模型主要效果的情况下降低维度,我们之前学习的随机森林、和以后要学的卷积神经网络带有降维 ...

PCA(Principal components analysis)降维特征处理

当训练数据有大量的维度,对于训练而言是一个灾难,这时我们需要在不影响模型主要效果的情况下降低维度,我们之前学习的随机森林、和以后要学的卷积神经网络带有降维的功能。

另外还有其他很多等其他特征工程的方法来降低维度。其中PCA是应用最多的一种。降维后的数据为 第一,第二,………M  主成分。例如原始有M个维度,我们可以把数据降低到2维度,就表示取第一,第二 2个主成分。其目的是在信息损失较小的前提下,将高维的数据转换到低维,从而减小计算量。

 

 

 

第一主成分:

 

例如下图的点表示了2维的数据,如果我们需要把它降低到一维来表示。那么就要再原始的图形上找到一个向量,下图的接近45度的那条直线线。同时保证所有点到直线的垂直距离平方和最短,如果能够找到这条线,这条线就第一主成分方向,这些原始的点在直线的投影就是第一主成分。聪明的你可以已经想到了,第一主成分的方向这不就是特征值最大那个向量嘛。

 

 

然后直线旋转到水平方向,这时原始的两个维度,就变成一个维度了。

 

 

其实可能你已经看到了,第一主成分的方向就是原始数据中方差最大的方向。方差越大,则样本在该特征上的差异就越大,因此该特征就越重要。也就是第一主成分可以看成是综合了多个特征的后得到一个新的特征的值。

 

 

 

 

 

 

 

 

 

第二主成分

 

第二主成分向量方向是与第一主成分方向垂直。例如下图。也就是第二主成分可以看成是除去第一个主成分,综合了多个特征的后得到第二个新的特征的值。

 


注:在涛德人工智能机器学习课程中,我们将采用手动用数学推导的方式在R中来实现PCA。同时也将用Python sklearn的包来来实现

 

联系

上海涛德顾问学院 ( 沪ICP备14006824号 )  

GMT+8, 2018-12-11 11:37 , Processed in 0.132864 second(s), 14 queries , Gzip On.

Top Data World

回顶部