PCA的算法步骤:设有m条n维数据
1)將原始数据按列组成n行m列矩阵X
2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值
4)求出协方差矩阵的特征值及对应嘚特征向量
5)将特征向量按对应特征值大小从上到下按行排列成矩阵取前k行组成矩阵P
6)Y=PX即为降维到k维后pca降维数后的数据据
最终的结果是保留维度中蕴含信息量最多的k个维度(可能既是方差最大的维度?)另外使得保留下来的维度正交既不相关。去掉了相关性高的维度
怎么确定保留多少维度是个问题。