关键词不能为空

当前您在: 主页 > 英语 >

因子分析法

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-03-01 12:08
tags:

-

2021年3月1日发(作者:学着)







因子分析



一、




础理论知识



1


概念



因子 分析



Factoranalysis


):就是用少数几个因子来描述许多指标或因素之


间的联系,以较少几个因子来反映原资 料的大部分信息的统计学分析方法。从


数学角度来看,主成分分析是一种化繁为简的降维 处理技术。



主成分分析


< p>
Principalcomponentanalysis


):是因子分析 的一个特例,是使


用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量 ,做线


性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这


样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量


的绝大部分的信息。



两者关系


:主成分分析(


PCA


)和因子分析(


FA



是两种把变量维数降低


以便于 描述、理解和分析的方法,而实际上


主成分分析可以说是因子分析的一

< br>个特例




2


特点



(< /p>


1


)因子变量的


数量远少于原有的指标变 量的数量


,因而对因子变量的分


析能够减少分析中的工作量。< /p>




2


)因子变 量不是对原始变量的取舍,而是根据原始变量的信息进行重新


组构,它能够反映原有变量 大部分的信息。




3


)因子变量之间不存在显着的线性相关关系,对变量的分析比较方便,


但原始部 分变量之间多存在较显着的相关关系。



4


)因


子变量具有命名解释


性,即 该变量是对某些原始变量信息的综合和


反映。



在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理


(即通过


因子分析或主成分分析)


。显然,在一个低维空间解释系统要比在高 维系统容易


的多。



3


类型



根据 研究对象的不同,把因子分析分



R


型 和


Q


型两种




当研究对象是变量时,属于


R


型因子分 析;



当研究对象是样品时,属于


Q< /p>


型因子分析。



但有的因子分析方法兼有


R


型和


Q


型因 子分析的一些特点,如因子分析中


的对应分析方法,有的学者称之为双重型因子分析,以 示与其他两类的区别。



4


分析原理



假定:有


n


个地理样本,每个样本共有


p


个变量,构成一个


n


×


p


阶的地理


数据矩阵


: < /p>



p


较大时,在


p


维空间中考察问题比较麻烦。这就需要进行降维处理,即


用较 少几个综合指标代替原来指标,而且使这些综合指标既能尽量多地反映原


来指标所反映的 信息,同时它们之间又是彼此独立的。



线性组合:

< p>


x1



x2

< p>
,…,


xP


为原变量指标



z1



z2


,…,


zm



m



p




新 变量指标


(主成分),则其线性组合为


:

Lij



原变量在各主成分上


的载 荷



无论是哪一种因子分析方法,其相应的因子解都不是唯一的 ,


主因子解仅


仅是无数因子解中之一。



zi



zj


相 互无关;



z1


x1



x2


,…,


xp


的一切线性组合中方差最大者


< br>z2


是与


z1


不相关的


x1



x2


,…的所有 线性组合中方差最大者。则,新变量指标


z1



z2


,…分别称


为原变量指标的第一,第二,…主成分 。



Z


为因子变量或公共因子,可以理 解为在高维空间中互相垂直的


m


个坐标


轴。



主成分分析实质就是确定原来变量


xj



j=1


2


,…,


p


在各主成分


zi



i=1



2


,…,


m


)上的荷载


lij




从数学上容易知道,从数学上也可以证明,它们分别是相关矩阵的


m


个较


大的特征值所对应的特征向量。



5


分析步骤


5.1


确定


待分析的原有若干变量


是否适合进行因子分析


(


第一步


)



因子分析是


从众多的原始变量中重构少数 几个具有代表意义的因子变量的


过程。


其潜在的要求:原有变量 之间要具有比较强的相关性。因此,因子分析


需要先进行相关分析,计算原始变量之间的 相关系数矩阵。如果相关系数矩阵


在进行统计检验时,


大部分相 关系数均


小于


0.3


且未通过检验,则 这些原始变量


就不太适合进行因子分析。


进行原始变量的相关分析


之前,


需要对输入的原始数据进行 标准化计算




般采用标准差标准化方 法,标准化后的数据均值为


0


,方差为


1





SP SS


在因子分析中还提供了几种判定是否适合因子分析的检验方法。主要


有以下


3


种:



巴特利特球形检验(


BartlettTestofSphericity< /p>




反映象相关矩阵检验(


Anti- imagecorrelationmatrix




KMO



Kaiser-Meyer- Olkin


)检验




1


)巴特利特球形检验



该检 验以变量的相关系数矩阵作为出发点,它的零假设


H0


为相关系 数矩阵


是一个单位阵,即相关系数矩阵对角线上的所有元素都为


1


,而所有非对角线


上的元素都为


0< /p>


,也即原始变量两两之间不相关。



巴特 利特球形检验的统计量是根据相关系数矩阵的行列式得到。如果该值


较大,且其对应的相 伴概率值小于用户指定的显着性水平,那么就应拒绝零假



H0


,认为相关系数不可能是单位阵,也即原始变量间存在相关性。




2


)反映象相关矩阵检验

< p>


该检验以变量的偏相关系数矩阵作为出发点,将偏相关系数矩阵的每个元


素取反,得到反映象相关矩阵。



偏相 关系数是在控制了其他变量影响的条件下计算出来的相关系数,如果


变量之间存在较多的 重叠影响,那么偏相关系数就会较小,这些变量越适合进


行因子分析。

< br>



3



KMO



Kaiser-Meyer- Olkin


)检验



该检验的统计量用于比较变量之间的简单相关和偏相关系数。



KMO


值介于


0-1

< br>,越接近


1


,表明所有变量之间简单相关系数平方和远大 于


偏相关系数平方和,越适合因子分析。


其中,


Kaiser


给出一个


KM O


检验标准:


KMO>0.9


,非常适 合;


0.8


,适合;


0.7


,一般;


0.6


,不太适合;


KMO<0.5


,不适合。< /p>



5.2


构造因子变量



因子分析中有很多确定因子变量的方法,如基于


主成分模型的主成分分析


和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。前


者 应用最


为广泛。



主成分分析法(


Principalcomponentanalysis


):



该方法通过坐标变换,将原有变量作线性变化,转换为另外一组不 相关的


变量


Zi


(主成分)。求


相关系数矩阵的特征根λ


i(


λ


1,


λ


2,



,


λ


p>0


)


和相应的标


准正交的特征向量


li

< br>;根据相关系数矩阵的特征根,即公共因子


Zj


的方差贡 献


(等于因子载荷矩阵


L


中第


j


列各元素的平方和),计算公共因子


Zj


的方差贡


献率与累积贡献率。


< p>
主成分分析是在一个多维坐标轴中,将原始变量组成的坐标系进行平移变


换 ,使得新的坐标原点和数据群点的重心重合。新坐标第一轴与数据变化最大


方向对应。通 过计算特征根(方差贡献)和方差贡献率与累积方差贡献率等指


标,来判断选取公共因子 的数量和公共因子(主成分)所能代表的原始变量信


息。



公共因子个数的确定准则:


1


)根据特征值 的大小来确定,一般取大于


1



特征值 对应的几个公共因子


/


主成分。


2



根据因子的累积方差贡献率来确定,一


般 取累计贡献率达


85-95%


的特征值所对应的第一、第二、… 、第


m



m



p


)个


主成分。也有学者认为累积方差 贡献率应在


80


%以上。



5.3


因子变量的命名解释



因子变量的命名解释是因子分析的另一个核心问题


。经过主成分分析得到


的公共因子


/


主成分

< br>Z1,Z2,



,Zm


是对原有 变量的综合。原有变量是有物理含义


的变量,对它们进行线性变换后,得到的新的综合变 量的物理含义到底是什


么?



在实际的 应用分析中,主要通过对载荷矩阵进行分析,得到因子变量和原


有变量之间的关系,从而 对新的因子变量进行命名。


利用因子旋转方法能使因


子变量更具 有可解释性。



计算主成分载荷,构建载荷矩阵


A




计算主成分载荷,构建 载荷矩阵


A


。载荷矩阵


A


中某一行表示原有变量


Xi


与公共因子


/


因子变量的相关关系。载荷矩阵


A


中某一列表示某一个公共因子


/


因子变量能够解释的原 有变量


Xi


的信息量。有时


因子载荷矩 阵的解释性不太


好,通常需要进行因子旋转


,使原有因子变量更 具有可解释性


。因子旋转的主


要方法:正交旋转、斜交旋转




正交旋转和斜交旋转是因子旋转的两类 方法。


前者由于保持了坐标轴的正


交性,因此使用最多。正交旋 转的方法很多,其中以方差最大化法最为常用。



方差最大正交 旋转(


varimaxorthogonalrotation


)——基本思想:使公共因子


的相对负荷的方差之和最大,且保持原公共因子的正交性和 公共方差总和不


变。可使每个因子上的具有最大载荷的变量数最小,因此可以简化对因子 的解


释。



斜交旋转

< br>(


obliquerotation


< br>——因子斜交旋转后,各因子负荷发生了变化,


出现了两极分化。各因子间不再相 互独立,而是彼此相关。各因子对各变量的


贡献的总和也发生了改变。

< br>


斜交旋转因为因子间的相关性而不受欢迎。但如果总体中各因子间存在明


显的相关关系则应该考虑斜交旋转。适用于大数据集的因子分析。


< /p>


无论是正交旋转还是斜交旋转,因子旋转的目的:是使因子负荷两极分

化,要么接近于


0


,要么接近于


1


。从而使原有因子变量更具有可解释性。



5.4


计算因子变量得分


< p>
因子变量确定以后,对于每一个样本数据,我们希望得到它们在不同因子


上 的具体数据值,即因子得分。估


计因子得分的方法主要有:回归法、

Bartlette


法等。


计算因子得分应首先将因子变量 表示为原始变量的线性组合。即:



回归法,即


Thomson


法:得分是由贝叶斯


Bayes


思想导出的,得到的因子


得分是有偏的,但计算结果误差较小。贝叶斯 (


BAYES


)判别思想是根据先验


概 率求出后验概率,并依据后验概率分布作出统计推断。



Bar tlett


法:


Bartlett


因子 得分是极大似然估计,也是加权最小二乘回归,得


到的因子得分是无偏的,


但计算结果误差较大。



因子得分可用于模型诊断, 也可用作进一步分析如聚类分析、回归分析等


的原始资料。关于因子得分的进一步应用将 在案例介绍一节分析。



5.5


结果的分析解释



此部分详细见案例分析



二、


案例分析



1


研究问题



石家庄


18


个县市


14


个指标因子,具体来说有人均


GDP(



/



)


、人均全社


会固定资产投资额、人均城镇固定资产投资额、人均一般预算性财政收入、第

三产业占


GDP


比重


(%)


、人均社会消费品零售额、人均实际利用外资额


(万美元


/


人)、人均城乡居民储蓄存款、农民人均纯收入、在岗职工平均工资、人才 密


度指数、科技支出占财政支出比重(


%


)、每万人拥有执业医师数量、每千人拥


有病床数。



要求根据这


14


项内容进行因子分析,得到维 度较少的几个因子




2


实现步骤




1


】在“


Analyze

< p>
”菜单“


DataReduction


”中选择“


Factor


”命令,如下图所


示。< /p>




2



在弹出的下图所示的


FactorAnalysis

< br>对话框中,从对话框左侧的变量列表中


选择这


14


个变量,使之添加到


Variables


框中 。




3


】点 击“


Descriptives


”按钮,弹出“


FactorAnalysis



Descripti ves


”对话框,


如图所示。



Statistics


框用于选择哪些相关的统计量,其中:



Univariatedescriptives

(变量描述):


输出变量均值、标准差;



Initialsolution


(初始结果)



CorrelationMatrix


框中提供了几种检验变量是否 适


合做引子分析的检验方法,



中:< /p>



Coefficients



相关系数矩阵)



Significancel eves


(显着性水平)



Deter minant


(相关系数矩阵的行列式)


Inverse


(相关系数矩阵的逆矩阵)



Reproduced


(再生相关矩阵,原始相关与再生相关的差值)



Anti- image


(反影像相关矩阵检验)



KMOandBartlett



stestofspheri city



KMO


检验和巴特利特球形 检验)



本例中,选中该对话框中所有选项,单击


Continue


按钮返回


FactorAnaly sis


对话框。



< br>4



单击“


Extractio n


”按钮,弹出“


FactorAnalysis



Extraction


”对话框,选择

< p>
因子提取方法,如下图所示:



因子提取方法在< /p>


Method


下拉框中选取,


SPSS< /p>


共提供了


7


种方法:


PrincipleComponentsAnalysis

(主成分分析)



Unweightedleastsqu ares


(未加权最小平方法)



Ge neralizedleastsquares


(综合最小平方法)


Maximumlikelihood


(最大似然估价法 )



Principalaxisfactoring


(主轴因子法)



Alphafactorin g


(α因子)



Imagefacto ring


(影像因子)



Analyz e


框中用于选择


提取变量依据,其中:



Correlationmatrix


(相关系数矩阵)



Covariancematrix


(协方 差矩阵)



Extract


框用于指定 因子个数的标准,其中:



Eigenvaluseover< /p>


(大于特征值)



Numberoffa ctors


(因子个数)



Displ ay


框用于选择输出哪些与因子提取有关的信息,其中:



Unrotatedfactorsolution


(未经旋转的因 子载荷矩阵)



Screenplot


(特征值排列图)



Maximuninterationsf orConvergence


框用于指定因子分析收敛


的最大迭 代次数



系统默认的最大迭代次数为


2 5




本例选用


Principalcomponents


方法,选择相关系数矩阵作为提取因子变量 的依


据,选中


Unrotatedfactorsolutio n



Screeplot


项,输出未经 过旋转的因子载荷矩


阵与其特征值的碎石图;


选择


Eigenvaluseover


项,在该选项后面可以输入


1


,指


定提取特征值大于


1< /p>


的因子


。单击


Continue


按钮返回


FactorAnalysis


对话框 。




5


】< /p>


单击


FactorAnalysis


对话 框中的


Rotation


按钮,弹出


F actorAnalysis:Rotation


对话框,如下图所示:



该对话框用于选择因子载荷矩阵的旋转方法。旋转目的是为了简化结构,


以帮助我们解释因子。


SPSS


默认不进行 旋转(


None


)。



Method


框用于选择因子旋转方法,其中:



None


(不旋转)



Varimax


(正交旋转)



DirectOblimin


(直接斜交旋转)



Quanlimax


(四分最大正交旋转)



Equamax


(平均正交旋转)



Promax


(斜交旋转)



Display


框用于选择输出哪些与因子旋转有关的信息,其中:



Rotatedsolution



输出旋转后的因子载荷矩阵)



Loadi ngplots



输出载荷散点图)



本例选择方差极大法旋转


Varimax


,并选中


Rotatedsolution



Loadingplot


项,表示输出旋转后的因子载荷矩阵和载荷散点图,单 击


Continue


按钮返回


Fact orAnalysis


对话框。



【< /p>


6


】单击


FactorAnalysis


对话框中的


Scores


按钮,弹出< /p>


FactorAnalysis:Scores



话框,如下图所示:



该对话框用以选择对因子得分进行设置,其中:



Regression


(回归法):


因子得分均值为


0


,采用多元相关平方;


< p>
Bartlett


(巴特利法):因子得分均值为


0


,采用超出变量范围各因子平方和


被最小化;



Anderson-Rubin


(安德森

< p>
-


洛宾法):因子得分均值为


0

< br>,标准差


1


,彼此不


相关;



Displayfactorscorecoefficient matrix



选择此项将在输出窗口中显示因子得分


系数矩阵。




7


】单击


FactorAnalysis


对话 框中的


Options


按钮,弹出


Fa ctorAnalysis:Options


对话框,如下图所示:


该对话框可以指定其他因子分析的结果,并选择对缺失数据的处理方法,


其中:



MissingValues


框用于选择缺失值处理方法:



Exclude caseslistwise



去除所有缺失值的个案



Excludecasespairwise


:含有缺失值的变量,去掉该案例



Replacewithm ean


:用平均值代替缺失值



Cof ficientDisplayFormat


框用于选择载荷系数的显示格式:



Sortedbysize



载荷系数按照数值大小排列



Suppressabs olutevalueslessthan


:不显示绝对值小于指定值的载荷量



本例选中


Excludecaseslist wise


项,单击


Continue


按 钮返回


FactorAnalysis



话框,完成设置。单击


OK


,完成计算。


3


结果与讨论




1



SPSS


输出的第一部分如下:



第一个表格中列出了


18


个原始变量的统计结果,包括平均值、标准差和

< br>分


析的个案数



这个是步骤


3


中选中


Univariatedescr iptives


项的输出结果




Descriptive


Statistics



人均


GDP(



/



)


人均全社会固定资产投资额



人均城镇固定资产投资额



人均一般预算性财政收入



第三产业占


GDP


比重


(%)


人均社会消费品零售额



人均实际利用 外资额


(万美元


/


人)



人均城乡居民储蓄存款



农民人均纯收入



在岗职工平均工资



人才密度指数



科技支出占财政支出比 重



%




每万人拥有执业医师数量



每千人拥有病床数



Mean


22600.5211


15190.9515


10270.3642


585.1712


29.0612


6567.2566


23.5667


ion


8410.55464


5289.14499


4874.14616


550.45659


9.46858


3068.75463


40.31361


AnalysisN


18


18


18


18


18


18


18


12061.2384


4852.5556


18110.3889


8.1548


1.3494


12.6883


2.3608


7363.08659


1202.52970


2374.05754


5.37552


.50193


8.88691


1.16077


18


18


18


18


18


18


18



2



SPSS


输出结果文件中的第二 部分如下:



该表格给出的



18


个原始变量的相关矩阵



CorrelationMatrix




Correlation



人均


GDP(



/< /p>



)


人均


GD P(



/



)


人均全社会固定资产投资额



人均城镇固定资产投资额



人均一般预算性财政收入



第三产业占


GDP


比重


(%)


人均社会消费品零售额



人均实际利用 外资额


(万美元


/


人)



人均城乡居民储蓄存款



.707


1.000


.503


.707


.776


.567


.737


.454


人均全社会固定


资产投资额



.503


1.000


.883


.571


.507


.247


.356


人均城镇固定资


产投资额



.707


.883


1.000


.821


.759


.600


.648


.480


.780


农民人均纯收入



在岗职工平均工资



人才密度指数



科技支出占财政支出比 重



%




每万人拥有执业医师数量



每千人拥有病床数



.559


.789


.741


.582


.434


.573


CorrelationMatrix



-.073


.325


.470


.378


.520


.565


.130


.544


.737


.486


.733


.761



Correlation



人均


GDP(



/< /p>



)


人均全社会固定资产投资额



人均城镇固定资产投资额



人均一般预算性财政收入



第三产业占


GDP


比重


(%)


人均社会消费品零售额



人均实际利用 外资额


(万美元


/


人)



人均城乡居民储蓄存款



农民人均纯收入



在岗职工平均工资



人才密度指数



科技支出占财政支出比 重



%




每万人拥有执业医师数量



每千人拥有病床数



人均一般预算性< /p>


第三产业占


GDP


人均社会消费品


财政收入



.776


.571


.821


1.000


.830


.693


.797


比重


(%)


.567


.507


.759


.830


1.000


.646


.822


零售额



.737


.247


.600


.693


.646


1.000


.616


.907


.132


.736


.795


.729


.818


.911


CorrelationMatrix



.882


.278


.548


.745


.575


.844


.806


.839


.516


.609


.812


.490


.627


.629



Correlation



人均


GDP(



/


人< /p>


)


人均全社会固定资产投资额



人均城镇固定资产投资额



人均一般预算性财政收入



第三产业占


GDP


比重


(%)


人均社会消费品零售额



人均实际利用 外


资额(万美元


/


人)



.454


.356


.648


.797


.822


.616


人均城乡居民储


蓄存款



.707


.480


.780


.907


.882


.839


农民人均纯收入



.559


-.073


.130


.132


.278


.516


人均实际利用外 资额


(万美元


/


人)

< br>


人均城乡居民储蓄存款



农民人均纯收入



在岗职工平均工资



人才密度指数



科技支出占财政支出比 重



%




每万人拥有执业医师数量



每千人拥有病床数



1.000


.792


-.007


.792


-.007


.388


.752


.570


.795


.784


CorrelationMatrix



1.000


.264


.647


.868


.626


.885


.866


.264


1.000


.411


.315


.210


-.075


.000



Correlation



人均


GDP(



/


人< /p>


)


人均全社会固定资产投资额



人均城镇固定资产投资额



人均一般预算性财政收入



第三产业占


GDP


比重


(%)


人均社会消费品零售额



人均实际利用 外资额


(万美元


/


人)



人均城乡居民储蓄存款



农民人均纯收入



在岗职工平均工资



人才密度指数



科技支出占财政支出比 重



%




每万人拥有执业医师数量



每千人拥有病床数



在岗职工平均工




.789


.325


.544


.736


.548


.609


.388


人才密度指数



.741


.470


.737


.795


.745


.812


.752


科技支出占财政


支出比重(


%




.582


.378


.486


.729


.575


.490


.570


.647


.411


1.000


.539


.421


.477


.575


.868


.315


.539


1.000


.577


.739


.719


.626


.210


.421


.577


1.000


.519


.769


CorrelationMatrix




Correlation



人均


GDP(



/< /p>



)


人均全社会固定资产投资额



人均城镇固定资产投资额



人均一般预算性财政收入



每万人拥有执业


医师数量



.434


.520


.733


.818


每千人拥有病床




.573


.565


.761


.911


第三产业占


GDP


比重


(%)


人均社会消费品零售额



人均实际利用 外资额


(万美元


/


人)



人均城乡居民储蓄存款



农民人均纯收入



在岗职工平均工资



人才密度指数



科技支出占财政支出比 重



%




每万人拥有执业医师数量



每千人拥有病床数



.844


.627


.795


.806


.629


.784


.885


-.075


.477


.739


.519


1.000


.912


.866


.000


.575


.719


.769


.912


1.000



3


SPSS


输出结果的第四部分如下:


KMOandBartlett'sTest




Bartlett'sTestofSphericity


Kaiser-Meyer- OlkinMeasureo


fSamplingAdequacy.


-Square


df


Sig.


.551


324.227


91


.000


该部分给出了


KMO


检验和


Bartlett


球度检验结果。其中


KMO


值为


0.551



根据统计学家


Kaiser


给出的标准,


KMO


取值小于


0.6< /p>


,不太适合因子分析。



Bartlet t


球度检验给出的相伴概率为


0.00


,小于显着性水平


0.05


,因此拒绝


Bartlett


球度检验的零假设,认为适合于因子分析。




4



SPS S


输出结果文件中的第六部分如下:



Communalities




人均


GDP(



/



)


人均全社会固定资产投资额



人均城镇固定资产投资额



人均一般预算性财政收入



第三产业占


GDP


比重


(%)


人均社会消费品零售额



人均实际利用 外资额


(万美元


/


人)



人均城乡居民储蓄存款



农民人均纯收入



在岗职工平均工资



Initial


1.000


1.000


1.000


1.000


1.000


1.000


1.000


Extraction


1.000


1.000


1.000


1.000


1.000


1.000


1.000


1.000


1.000


1.000


1.000


1.000


1.000

-


-


-


-


-


-


-


-



本文更新与2021-03-01 12:08,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/688145.html

因子分析法的相关文章