spss因子分析变量减少 怎么看哪几个变量被划分为第一组因子 哪几个为第二组 然后提取出来的公因子方差有两

  SPSS统计分析基础、应用与实战精粹--王璐 (随书光盘课件)


专业文档是百度文库认证用户/机构上传的专业性文档,文库VIP用户或购买专业文档下载特权礼包的其他会员用户可用专业文档下载特权免费下载专业文档。只要带有以下“专业文档”标识的文档便是该类文档。

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取,非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档。

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取,非会员用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档。

付费文档是百度文库认证用户/机构上传的专业性文档,需要文库用户支付人民币获取,具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档。

共享文档是百度文库用户免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定。只要带有以下“共享文档”标识的文档便是该类文档。

还剩19页未读, 继续阅读

在问题研究中,为了不遗漏和准确起见,往往会面面俱到,取得大量的指标来进行分析。比如为了研究某种疾病的影响因素,我们可能会收集患者的人口学资料、病史、体征、化验检查等等数十项指标。如果将这些指标直接纳入多元统计分析,不仅会使模型变得复杂不稳定,而且还有可能因为变量之间的多重共线性引起较大的误差。有没有一种办法能对信息进行浓缩,减少变量的个数,同时消除多重共线性?

这时,主成分分析隆重登场。

(2)主成分分析的原理

主成分分析的本质是坐标的旋转变换,将原始的n个变量进行重新的线性组合,生成n个新的变量,他们之间互不相关,称为n个“成分”。同时按照方差最大化的原则,保证第一个成分的方差最大,然后依次递减。这n个成分是按照方差从大到小排列的,其中前m个成分可能就包含了原始变量的大部分方差(及变异信息)。那么这m个成分就成为原始变量的“主成分”,他们包含了原始变量的大部分信息。

注意得到的主成分不是原始变量筛选后的剩余变量,而是原始变量经过重新组合后的“综合变量”。

我们以最简单的二维数据来直观的解释主成分分析的原理。假设现在有两个变量X1、X2,在坐标上画出散点图如下:

可见,他们之间存在相关关系,如果我们将坐标轴整体逆时针旋转45°,变成新的坐标系Y1、Y2,如下图:

根据坐标变化的原理,我们可以算出:

通过对X1、X2的重新进行线性组合,得到了两个新的变量Y1、Y2。

此时,Y1、Y2变得不再相关,而且Y1方向变异(方差)较大,Y2方向的变异(方差)较小,这时我们可以提取Y1作为X1、X2的主成分,参与后续的统计分析,因为它携带了原始变量的大部分信息。

至此我们解决了两个问题:降维和消除共线性。

对于二维以上的数据,就不能用上面的几何图形直观的表示了,只能通过矩阵变换求解,但是本质思想是一样的。

因子分析是主成分分析的扩展。

在主成分分析过程中,新变量是原始变量的线性组合,即将多个原始变量经过线性(坐标)变换得到新的变量。

因子分析中,是对原始变量间的内在相关结构进行分组,相关性强的分在一组,组间相关性较弱,这样各组变量代表一个基本要素(公共因子)。通过原始变量之间的复杂关系对原始变量进行分解,得到公共因子和特殊因子。将原始变量表示成公共因子的线性组合。其中公共因子是所有原始变量中所共同具有的特征,而特殊因子则是原始变量所特有的部分。因子分析强调对新变量(因子)的实际意义的解释。

比如在市场调查中我们收集了食品的五项指标(x1-x5):味道、价格、风味、是否快餐、能量,经过因子分析,我们发现了:

(以上的数字代表实际为变量间的相关系数,值越大,相关性越大)

第一个公因子z1主要与价格、是否快餐、能量有关,代表“价格与营养”

第二个公因子z2主要与味道、风味有关,代表“口味”

e1-5是特殊因子,是公因子中无法解释的,在分析中一般略去。

同时,我们也可以将公因子z1、z2表示成原始变量的线性组合,用于后续分析。

(1)样本量足够大。通常要求样本量是变量数目的5倍以上,且大于100例。

(2)原始变量之间具有相关性。如果变量之间彼此独立,无法使用因子分析。在SPSS中可用KMO检验和Bartlett球形检验来判断。

(3)生成的公因子要有实际的意义,必要时可通过因子旋转(坐标变化)来达到。

三、主成分分析和因子分析的联系与区别

联系:两者都是降维和信息浓缩的方法。生成的新变量均代表了原始变量的大部分信息且互相独立,都可以用于后续的回归分析、判别分析、聚类分析等等。

(1)主成分分析是按照方差最大化的方法生成的新变量,强调新变量贡献了多大比例的方差,不关心新变量是否有明确的实际意义。

(2)因子分析着重要求新变量具有实际的意义,能解释原始变量间的内在结构。

SPSS没有提供单独的主成分分析方法,而是混在因子分析当中,下面通过一个例子来讨论主成分分析与因子分析的实现方法及相关问题。

男子十项全能比赛包含100米跑、跳远、跳高、撑杆跳、铅球、铁饼、标枪、400米跑、1500米跑、110米跨栏十个项目,总分为各个项目得分之和。为了分析十项全能主要考察哪些方面的能力,以便有针对性的进行训练,研究者收集了134个顶级运动员的十项全能成绩单,将通过因子分析来达到分析目的。

菜单选择(分析->降维->因子分析):

打开因子分析的主界面,将十项成绩选入”变量“框中(不要包含总分),如下:

点击”描述“按钮,打开对话框,选中”系数“和”KMO和Bartlett球形度检验“:

”系数“:为变量之间的相关系数阵列,可以直观的分析相关性。

”KMO和Bartlett球形度检验“:用于定量的检验变量之间是否具有相关性。

点击”继续“,回到主界面,点击”抽取“,打开对话框。

”方法“ =>”主成分“,”输出“=>”未旋转的因子解“和”碎石图“,”抽取“=>”基于特征值“,其余选择默认。

①因子抽取的方法:选取默认的主成分法即可,其余方法的计算结果可能有所差异。

②输出:”未旋转的因子解”极为主成分分析结果。碎石图有助于我们判断因子的重要性(详细介绍见后面)。

③抽取:为抽取主成分(因子)的方法,一般是基于特征值大于1,默认即可。

点击”继续“,回到主界面,点击”确定“,进入分析。

因子分析要求变量之间有相关性,所以首先要进行相关性检验。首先输出的是变量之间的相关系数矩阵:

可以直观的看到,变量之间有相关性。但需要检验,接着输出的是相关性检验:

上图有两个指标:第一个是KMO值,一般大于0.7就说明不了之间有相关性了。第二个是Bartlett球形度检验,P值<0.001。综合两个指标,说明变量之间存在相关性,可以进行因子分析。否则,不能进行因子分析。

(2)提取主成分和公因子

接下来输出主成分结果:

这就是主成分分析的结果,表中第一列为10个成分;第二列为对应的”特征值“,表示所解释的方差的大小;第三列为对应的成分所包含的方差占总方差的百分比;第四列为累计的百分比。一般来说,选择”特征值“大于1的成分作为主成分,这也是SPSS默认的选择。

在本例中,成分1和2的特征值大于1,他们合计能解释71.034%的方差,还算不错。所以我们可以提取1和2作为主成分,抓住了主要矛盾,其余成分包含的信息较少,故弃去。

下面,输出碎石图,如下:

碎石图来源于地质学的概念。在岩层斜坡下方往往有很多小的碎石,其地质学意义不大。碎石图以特征值为纵轴,成分为横轴。前面陡峭的部分特征值大,包含的信息多,后面平坦的部分特征值小,包含的信息也小。

由图直观的看出,成分1和2包含了大部分信息,从3开始就进入平台了。

接下来,输出提取的成分矩阵:

上表中的数值为公因子与原始变量之间的相关系数,绝对值越大,说明关系越密切。公因子1和9个运动项目都正相关(注意跑步运动运动的计分方式,时间越短,分数越高),看来只能称为“综合运动”因子了。公因子2与铁饼、铅球正相关,与1500米跑、400米跑负相关,这究竟代表什么意思呢?看来只能成为“不知所云”因子了。

前面提取的两个公因子一个是大而全的“综合因子”,一个不知所云,得到这样的结果,无疑是分析的失败。不过,不要灰心,我们可以通过因子的旋转来获得更好的解释。在主界面中点击“旋转”按钮,打开对话框,“方法”=>“最大方差法”,“输出”=>“旋转解”。

点击“继续”,回到主界面点击“确认”进行分析。输出结果如下:

这是选择后的成分矩阵。经过旋转,可以看出:

公因子1得分越高,所有的跑步和跨栏成绩越差,而跳远、撑杆跳等需要助跑类项目的成绩也越差,所以公因子1代表的是奔跑能力的反向指标,可称为“奔跑能力”。

公因子2与铁饼和铅球的正相关性很高,与标枪、撑杆跳等需要上肢力量的项目也正相关,所以该因子可以成为“上肢力量”。

经过旋转,可以看出公因子有了更合理的解释。

在最后,我们还要将公因子储存下来供后续使用。点击“得分”按钮,打开对话框,选中“保存为变量”,方法采用默认的“回归”方法,同时选中“显示因子得分系数矩阵”。

SPSS会自动生成2个新变量,分别为公因子的取值,放在数据的最后。同时会输出一个因子系数表格:

由上图,我们可以写出公因子的表达式(用F1、F2代表两个公因子,Z1~Z10分别代表原始变量):

注意,这里的变量Z1~Z10,F1、F2不再是原始变量,而是标准正态变换后的变量。

SPSS在因子分析中的应用

人们在研究实际问题时,往往希望尽可能多的收集相关变量,以期望对问题有比较全面、完整的把握和认识。为解决这些问题,最简单和最直接的解决方案是减少变量数目,但这必然又会导致信息丢失或不完整等问题。为此,人们希望探索一种有效的解决方法,它既能减少参与数据分析的变量个数,同时也不会造成统计信息的大量浪费和丢失。因子分析就是在尽可能不损失信息或者少损失信息的情况下,将多个变量减少为少数几个因子的方法。这几个因子可以高度概括大量数据中的信息,这样,既减少了变量个数,又同样能再现变量之间的内在联系。

通常针对变量作因子分析,称为R型因子分析;另一种对样品作因子分析,称为Q型因子分析,这两种分析方法有许多相似之处。

R型因子分析数学模型是:

由于实际中数据背景、特点均不相同,故采用因子分析步骤上可能略有差异,但是一个较完整的因子分析主要包括如下几个过程:

(1) 确认待分析的原变量是否适合作因子分析因子分析的主要任务是将原有变量的信息重叠部分提取和综合成因子,进而最终实现减少变量个数的目的。故它要求原始变量之间应存在较强的相关关系。进行因子分析前,通常可以采取计算相关系数矩阵、巴特利特球度检验和KMO检验等方法来检验候选数据是否适合采用因子分析。

(2)构造因子变量将原有变量综合成少数几个因子是因子分析的核心内容。它的关键是根据样本数据求解因子载荷阵。因子载荷阵的求解方法有基于主成分模型的主成分分析法、基于因子分析模型的主轴因子法、极大似然法等。

(3)利用旋转方法使因子变量更具有可解释性将原有变量综合为少数几个因子后,如果因子的实际含义不清,则不利于后续分析。为解决这个问题,可通过因子旋转的方式使一个变量只在尽可能少的因子上有比较高的载荷,这样使提取出的因子具有更好的解释性。

(4)计算因子变量得分实际中,当因子确定以后,便可计算各因子在每个样本上的具体数值,这些数值称为因子得分。于是,在以后的分析中就可以利用因子得分对样本进行分类或评价等研究,进而实现了降维和简化问题的目标。

根据上述步骤,可以得到进行因子分析的详细计算过程如下。

①将原始数据标准化,以消除变量间在数量级和量纲上的不同。

②求标准化数据的相关矩阵。

③求相关矩阵的特征值和特征向量。

④计算方差贡献率与累积方差贡献率。

⑤确定因子:设F1,F2,…,Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献率)不低于85%时,可取前m个因子来反映原评价指标。

⑥因子旋转:若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。

⑦用原指标的线性组合来求各因子得分。

⑧综合得分:通常以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。

因子分析的SPSS操作详解

选择菜单栏中的【Analyze(分析)】→【Data Reduction(降维)】→【Factor(因子)】命令,弹出【Factor Analysis(因子分析)】对话框,这是因子分析的主操作窗口。

Step02:选择因子分析变量

在【Factor Analysis(因子分析)】对话框左侧的候选变量列表框中选择进行因子分析的变量,将其添加至【Variables(变量)】列表框中。如果要选择参与因子分析的样本,则需要将条件变量添加至【Selection Variable(选择变量)】列表框中,并单击【Value】按钮输入变量值,只有满足条件的样本数据才能进行后续的因子分析。

Step03:选择描述性统计量

单击【Descriptives】按钮,在弹出的对话框中可以选择输出描述性统计量及相关矩阵等内容。

①【Statistics(统计量)】选项组

●Univariatedescriptives:单变量描述统计量,即输出参与分析的各原始变量的均值、标推差等。

●Initial solution:初始分析结果,系统默认项。输出各个分析变量的初始共同度、特征值以及解释方差的百分比等。

●Coefficients:原始分析变量间的相关系数矩阵。

●Significance levels:显著性水平。输出每个相关系数相对于相关系数为0的单尾假设检验的概率水平。

●Determinant:相关系数矩阵的行列式。

●Inverse:相关系数矩阵的逆矩阵。

●Reproduced:再生相关矩阵。输出因子分析后的相关矩阵以及残差阵。

●Anti-image:象相关阵。包括偏相关系数的负数以及偏协方差的负数。在一个好的因子模型中,除对角线上的系数较大外,远离对角线的元素应该比较小。

KMO and Bartlett's test of sphericity:KMO 和Bartlett 检验。前者输出抽样充足度的Kaisex-Meyer-Olkin测度,用于检验变量间的偏相关是否很小。后者Bartlett 球度方法检验相关系数阵是否是单位阵。如果是单位阵,则表明因子模型不合适采用因子模型。

Step04:选择因子提取方法

单击【Extract(抽取)】按钮,在弹出的对话框中可以选择提取因子的方法及相关选项。

①在【Method(方法)】框下拉列表框中可以选择因子提取方法。

●Principal components:主成份分析法。该方法假设变量是因子的纯线性组合。第一成分有最大的方差,后续的成分其可解释的方差逐个递减。

②【Analyze(分析)】选项组

③【Display(输出)】选项组:输出与因子提取有关的选项。

●Unrotatedfactor solution:输出未经旋转的因子提取结果。此项为系统默认的输出方式。

●Screeplot:输出因子的碎石图。它显示了按特征值大小排列的因子序号。它有助于确定保留多少个因子。典型的碎石图会有一个明显的拐点,在该点之前是与大因子连接的陡峭的折线,之后是与小因子相连的缓坡折线。

④【Extract(抽取)】选项组:输出与提取结果有关的选择项。由于理论上因子数目与原始变量数目相等,但因子分析的目的是用少量因子代替多个原始变量,选择提取多少个因子是由本栏来决定。

●Eigenvaluesover:指定提取的因子的特征值数目。在此项后面的矩形框中给出输入数值(系统默认值为1),即要求提取那些特征值大于1 的因子。

●Number of f actors:指定提取公因子的数目。用鼠标单击选择此项后,将指定其数目。

⑤Maximum iterations for Convergence:在对应的文本框中指定因子分析收敛的最大迭代次数。系统默认的最大迭代次数为25。

Step05:选择因子旋转方法

单击【Rotation】按钮,在弹出的对话框可以选择因子旋转方法及相关选项。

①【Method(方法)】选项组选择旋转方法。

●None:不进行旋转,此为系统默认的选择项。

●Varimax:方差最大旋转法。这是一种正交旋转方法。它使每个因子具有最高载荷的变量数最小,因此可以简化对因子的解释。

●Direct Oblimin:直接斜交旋转法。指定此项可以在下面的“Delta”矩形框中键入δ值,该值应该在0~1 之间。系统默认的δ值为0。

●Quartma:四次方最大正变旋转法。该旋转方法使每个变量中需要解释的因子数最少。

●Equamax:平均正交旋转法。

●Promax:斜交旋转方法。允许因子彼此相关。它比直接斜交旋转更快,因此适用于大数据集的因子分析。指定此项可以在下面的“Kappa”矩形框中键入“к”值,默认为4(此值最适合于分析)。

②【Display(输出)】选项组:选择有关输出显示。

●Lodingplot(s):因子载荷散点图。指定此项将给出以前两因子为坐标轴的各变量的载荷散点图。

③Maximum iterations for Convergence:可以指定旋转收敛的最大迭代次数。系统默认值为25。可以在此项后面的文本框中输入指定值。

Step06:选择因子得分

单击【Scores】按钮,在弹出的对话框中可以选择因子得分方法及相关选项。具体选项含义如下。

Step07:其他选项输出

单击【Options】按钮,在弹出的对话框中可以选择一些附加输出项。具体选项含义如下。

①【MissingValues(缺失值)】选项组:选择处理缺失值方法。

●Exclude cases listwise:分析变量中带有缺失值的观测量都不参与后续分析。

●Replace with mean:用该变量的均值代替工作变量的所有缺失值。

②【Coefficient Display Format(系数显示格式)】选项组:选择载荷系数的显示格式。

●Sorted by size:将载荷系数按其大小排列构成矩阵,使在同一因子上具有较高载荷的变量排在一起。便于得出结论。

●Suppress absolute values less than:不显示那些绝对值小于指定值的载荷系数。选择此项后还需要在该项的参数框中键入0~1之间的数作为临界值。系统默认的临界值为0.10。

Step08:单击【OK】按钮,结束操作,SPSS软件自动输出结果

我要回帖

更多关于 spss因子分析变量减少 的文章

 

随机推荐