-
因子分析的基本概念和步骤
一、因子分析的意义
在研究实际问题
时往往希望尽可能多地收集相关变量,
以期望能对问题有比较全面、
完整的把握和认识。例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研
活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著
数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成
绩
、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的
次数
等。虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,
但在
实际数据建模时,这些变量未必能真正发挥预期的作用,
“投入”和“产出”并非呈
p>
合理的正比,反而会给统计分析带来很多问题,可以表现在:
计算量的问题
由于收集的变量较多,
如果这些变量都参与数据建模,无疑会增加分析过程中的计
算工作量。虽然,现在的计算
技术已得到了迅猛发展,但高维变量和海量数据仍是不容
忽视的。
变量间的相关性问题
收集到的诸
多变量之间通常都会存在或多或少的相关性。例如,高校科研状况评价
中的立项课题数与
项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究
中的专业基础课成绩
与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变
量之间信息的高度重叠
和高度相关会给统计方法的应用带来许多障碍。例如,多元线性
回归分析中,如果众多解
释变量之间存在较强的相关性,即存在高度的多重共线性,那
么会给回归方程的参数估计
带来许多麻烦,
致使回归方程参数不准确甚至模型不可用等。
类
似的问题还有很多。
为了解决这些问题,最简单和最直接的解
决方案是削减变量的个数,但这必然又会
导致信息丢失和信息不完整等问题的产生。为此
,人们希望探索一种更为有效的解决方
法,它既能大大减少参与数据建模的变量个数,同
时也不会造成信息的大量丢失。因子
分析正式这样一种能够有效降低变量维数,并已得到
广泛应用的分析方法。
因子分析的概念起源于
20
世纪初
Karl
Pearson
和
Charles <
/p>
Spearmen
等人关于智力测
验的统
计分析。目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领
域,并因
此促进了理论的不断丰富和完善。
因子分析以最少的信息丢失
为前提,将众多的原有变量综合成较少几个综合指标,
名为因子。通常,因子有以下几个
特点:
因子个数远远少于原有变量的个数
原
有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将
大大减少
分析过程中的计算工作量。
因子能够反映原有变量的绝大部分信息
因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有
变量
信息的大量丢失,并能够代表原有变量的绝大部分信息。
因子之间的线性关系并不显著
由原有
变量重组出来的因子之间的线性关系较弱,因子参与数据建模能够有效地解
决变量多重共
线性等给分析应用带来的诸多问题。
因子具有命名解释性
通常,因子分析
产生的因子能够通过各种方式最终获得命名解释性。因子的命名解
释性有助于对因子分析结果的解释评价,对因子的进一步应用
有重要意义。例如,对高
校科研情况的因子分析中,如果能够得到两个因子,其中一个因
子是对科研人力投入、
经费投入、立项项目数等变量的综合,而另一个是对结项项目数、
发表论文数、获奖成
果数等变量的综合,那么,该因子分析就是较为理想的。因为这两个
因子均有命名可解
释性,其中一个反映了科研投入方面的情况,可命名为科研投入因子,
另一个反映了科
研产出方面的情况,可命名为科研产出因子。
总之,
因子分析是研究如何以最少的信息丢失将众多原有变量浓
缩成少数几个因子,
如何使因子具有一定的命名解释性的多元统计分析方法。
二、因子分析的基本概念
1
、因子分析模型
< br>因子分析模型中,假定每个原始变量由两部分组成:共同因子(
common f
actors
)和
唯一因子(
uniq
ue factors
)
。共同因子是各个原始变量所共有的因
子,解释变量之间的相
关关系。唯一因子顾名思义是每个原始变量所特有的因子,表示该
变量不能被共同因子
解释的部分。原始变量与因子分析时抽出的共同因子的相关关系用因
子负荷(
factor
loadings
)表示。
因子分析最常用的理论模式如下:
Z
j
?
a
j
p>
1
F
1
?
a
j
2
F
2
?
a
j
< br>3
F
3
?
?
?
?
?
a
jm
F
m
?<
/p>
U
j
(
j=1,
2,3
…
,n
,
n
为原始变量总数)
可以用矩阵的
形式表示为
Z
?
AF
< br>?
U
。其中
F
< br>称为因子,由于它们出现在每个原始
变量的线性表达式中
(原始变量可以用
X
j
表示,
这里模型中实际上是以
F
线性表示各个
原始变量的标准化分数
Z
j
)
,因此又称为公共因子。因子可理解为高维空间中互相垂直
的
m
个坐标轴,
A
< br>称为因子载荷矩阵,
a
ji
(<
/p>
j
?
1
,
2
,
3
...
n
,
i
?
1
,
2
,
3
...
m
)
称为因子载荷,是第
j
个原始变量在第
i
个因子上的负荷。如果把变量
Z
j
看成
m
维因子空间中的一个向量
,则
a
ji
表示
Z
j
在坐标轴
F
i
上的投影,
相当于多元线性回归模型中的标准化回归系数
;
U
称为
特殊因子,
< br>表示了原有变量不能被因子解释的部分,
其均值为
0
p>
,
相当于多元线性回归模
型中的残差。
p>
其中,
(
p>
1
)
Z
j
为第
j
个变量的标准化分数;
< br>
(
2
)
F
i
(
i=1,2,
…
,m
)为共同因素;
p>
(
3
)
m
为所有变量共同因素的数目;
(
4
)
U
j
< br>为变量
Z
j
的唯一因素;
(
5
)
a
ji
为因素负荷量。
2
、因子分析数学模型中的几个相关概念
因子载荷(因素负荷量
factor
loadings
)
所谓的因子载荷就是因素结构中,原始变量与因素分析时抽取
出共同因素的相关。
可以证明,
在因子不相关的前提下,
因子载荷
a
ji
是变
量
Z
j
和因子
F
i
的相关系数,
反映了
变量
Z
j
与因子
F
i
的相关程度。因子载荷
a
ji
值小于等于
1
,绝对值越接近
1
,表明因子
F
i
与变量
Z
j
的相关性越强。同时,因子载荷
a
j
i
也反映了因子
F
i
< br>对解释变量
Z
j
的重要作用
p>
和程度。因子载荷作为因子分析模型中的重要统计量,表明了原始变量和共同因子之间
的相关关系。因素分析的理想情况,在于个别因素负荷量
a
ji
不是很大就是很小,这样每
个变量才能与较少
的共同因素产生密切关联,如果想要以最少的共同因素数来解释变量
间的关系程度,
p>
则
U
j
彼此间或与
共同因素间就不能有关联存在。
一般说来,
负荷量为
0.3
或更大被认为有意义。所以,当要判断一个因子的意义时,需要查看
哪些变量的负荷达
到了
0.3
或
0.3
以上。
变量
共同度(共同性,
Communality
)
< br>
变量共同度也就是变量方差,就是指每个原始变量在每个共同因子的负荷量的平
方
和,也就是指原始变量方差中由共同因子所决定的比率。变量的方差由共同因子和唯一
因子组成。共同性表明了原始变量方差中能被共同因子解释的部分,共同性越大,变量<
/p>
能被因子说明的程度越高,即因子可解释该变量的方差越多。共同性的意义在于说明如
p>
果用共同因子替代原始变量后,原始变量的信息被保留的程度。因子分析通过简化相关
矩阵,提取可解释相关的少数因子。一个因子解释的是相关矩阵中的方差,而解释方差
的大小称为因子的特征值。一个因子的特征值等于所有变量在该因子上的负荷值的平方
总和。
变量
Z
j
的共同度
h
的数学定义为:
h
?
?
a
ji
,
该式表明变量
Z
j
的共同度是因子
2
2
2
i
?
1
m
载荷矩阵
A
中第
j
行元素的平方和。由于变量
Z
j
的方差可以表示成
h
2<
/p>
?
u
2
?
1
,因此变
量
Z
p>
j
的方差可由两个部分解释:
第一部分为共
同度
h
2
,
是
全部因子对变量
Z
j
方差解释说
明的比例,体现了因子全体对变量
Z
j
的解释贡献程度。变量共同度
h
2
越接近
1
,说明因
子全体
解释说明了变量
Z
j
的较大部分方差,
如果用因子全体刻画变量
Z
j
,则变量
Z
j
的
信息丢
失较少;
第二部分为特殊因子
U
的平方
,
反应了变量
Z
j
方差中不能由因子全体解
释说明的比例,
u
2
越小则说明变量
Z
j
的信息丢失越少。
总之,
< br>变量
d
共同度刻画了因子全体对变量
Z
j
信息解释的程度,
是评价变量
Z
j
信息
丢失
程度的重要指标。如果大多数原有变量的变量共同度均较高(如高于
0.8
)
,则说明
提取的因子能够反映原有变量的大部分信
息(
80
%以上)信息,仅有较少的信息丢失,
因子分析的效果较好。因子,变量共同度是衡量因子分析效果的重要依据。
<
/p>
因子的方差贡献(特征值
eigenvalue
< br>)
因子的方差贡献(特征值)的数学定义为:
S
i
?
?
a
ji
,该式表明,因子
F
i
的方差
2
j
?
1
p>
n
2
贡献是因子载荷矩阵
< br>A
中第
i
列元素的平方和。因子
F
i
的方差贡献反映了因子
F
i
对原有
变量总方差的
解释能力。该值越高,说明相应因子的重要性越高。因此,因子的方差贡
献和方差贡献率
是衡量因子重要性的关键指标。
为了便于说明,以三个变量抽
取两个共同因素为例,三个变量的线性组合分别为:
Z
1
?
a
11
F
1
?
a
12
F
2
?
U
1
Z
2
?
a
21
F
1
?
a
2
2
F
2
?
U<
/p>
2
Z
3
?
a
31
F
1
?
a
32
F
2
?
U
3
转换成因素矩阵如下:
变量
F
1
(共同因素一)
F
2
(共同因素二)
共同性
(
h
)
2
唯一因素
(
d
)
p>
2
2
X
1
X
2
X
3
特征值
2
a
11
a
21
a
31
a
12
a
22
a
32
2<
/p>
a
11
?
a
p>
12
a
21
p>
?
a
22
2
2
a
31
?
a
32
2
2
2
2
1
?
h
1
1
?
h
2
2
1
?<
/p>
h
3
2
2
a
11
?
a
21
?
a
31
a
11
?
a
21
?
a
31
3
2
2
2
2
a
11
?
a
21
?
a
31
a
11
?
a
21
?
a
3
1
3
2
2<
/p>
2
2
2
解释量
所谓共同性,就是每个变量在
每个共同因素之负荷量的平方总和(一横列中所有因
素负荷量的平方和)
,也就是个别变量可以被共同因素解释的变异量百分比,这个值是个
别变量与共
同因素间多元相关的平方。从共同性的大小可以判断这个原始变量与共同因
素之间关系程
度。而各变量的唯一因素大小就是
1
减掉该变量共同性的值。<
/p>
(在主成分分
析中,有多少个原始变量便有多少个“
component
”成分,所以共同性会等于
1<
/p>
,没有唯
一因素)
。
至于特征值是每个变量在某一共同因素之因素负荷量的平方总和(一直行所有因素
负荷量的平方和)
。在因素分析之共同因素抽取中,特征值大的
共同因素会最先被抽取,
其次是次大者,最后抽取的共同因素之特征值最小,通常会接近
0
(在主成分分析中,
有
几个题项,便有几个成分,因而特征值的总和刚好等于变量的总数)
。将每个
共同因素的
特征值除以总题数,为此共同因素可以解释的变异量,因素分析的目的,即在
因素结构
的简单化,希望以最少的共同因素,能对总变异量作最大的解释,因而抽取的因
素越少
越好,但抽取因素之累积解释的变异量则越大越好。
<
/p>
3
、社会科学中因素分析通常应用在三个层面:
< br>
(
1
)显示变量间因素分析的
组型(
pattern
)
(
2
p>
)侦测变量间之群组(
clusters
)
,每个群组所包括的变量彼此相关很高,同构型
较大,亦即将关
系密切的个别变量合并为一个子群。
(
3
)减少大量变量数目,使之称为一组涵括变量较少的统计自变量(称为因素)
,
每个因素与原始变量间有某种线性关系存在,而以少数因素层面来代
表多数、个别、独
立的变量。
因素分
析具有简化数据变量的功能,以较少层面来表示原来的数据结构,它根据变
量间彼此的相
关,找出变量间潜在的关系结构,变量间简单的结构关系称为“成份”
(
components
)或“因素”
(
factors
)
.
三、因素分析的主要方式
围绕浓缩原
有变量提取因子的核心目标,因子分析主要涉及以下五大基本步骤:
1
、因子分析的前提条件
由于因子分析的主要任务之一是对原有变量进行浓缩,即将原有变量中的信息重叠
< br>部分提取和综合成因子,进而最终实现减少变量个数的目的。因此它要求原有变量之间
应存在较强的相关关系。否则,如果原有变量相互独立,相关程度很低,不存在信息重
叠,它们不可能有共同因子,那么也就无法将其综合和浓缩,也就无需进行因子分析。
本步骤正是希望通过各种方法分析原有变量是否存在相关关系,
是否适合进行因子分析。
SPSS
提供了四个统计量可帮助判
断观测数据是否适合作因子分析:
(
1
)计算相关系数矩阵
Correlation Matrix
在进行提取因子等分析步骤之前,应对相关矩阵进行检验,如果相关矩阵中的大部
分相关系数小于
0.3
,则不适合作因子分析
;当原始变量个数较多时,所输出的相关系数
矩阵特别大,观察起来不是很方便,所以一
般不会采用此方法或即使采用了此方法,也
不方便在结果汇报中给出原始分析报表。
p>
(
2
)计算反映
象相关矩阵
Anti-image correlation matrix
反映象矩阵重要包括负的协方差和负的偏相关系数。偏相关系数是在控制了其他变
量对两变量影响的条件下计算出来的净相关系数。如果原有变量之间确实存在较强的相
< br>互重叠以及传递影响,也就是说,如果原有变量中确实能够提取出公共因子,那么在控
制了这些影响后的偏相关系数必然很小。
反映象相关矩阵
的对角线上的元素为某变量的
MSA
(
Measure of Sample Adequacy
)
统
计量,其数学定义为:
?
r
ij
MSA
i
?
j
?
i
2
?
r
j
?
i
2
ij
?
< br>?
p
ij
j
?
i
2
,其中,
< br>r
ij
是变量
x
i
和其他变量
x
j
(
j
?
i
)间的简单相关系
数,
p
ij
是变量
x
j
(
j
?
i
)在控
制了剩余变量下的偏相关系数。由公式可知,某变量
x
i
的
MSA
i
统计量的
取值在
0
和
1
之间。
当它与其他所有变量间的简单相关系数平方和远大于
偏相
关系数的平方和时,
MSA
i
值接近<
/p>
1
。
MSA
i<
/p>
值越接近
1
,意味变量
< br>x
i
与其他变量间的
相关性越强
;当它与其他所有变量间的简单相关系数平方和接近
0
时,
p>
MSA
i
值接近
0
。
MSA
i
值
越接近
0
,意味变量
x
i
与其他变量间的相关性越弱。
观察反映象相关矩阵,如果反映象
相关矩阵中除主对角元素外,其他大多数元素的
绝对值均小,
对
角线上元素的值越接近
1
,
则说明这些
变量的相关性较强,
适合进行因子
分析。与(
< br>1
)中最后所述理由相同,一般少采用此方法。
(
3
)巴特利特球度检验
Bartlett test of sphericity
Bartlett<
/p>
球体检验的目的是检验相关矩阵是否是单位矩阵
(
identity matrix
)
,
如果是单
位矩阵,则认为因子模型不合适。
Bartl
ett
球体检验的虚无假设为相关矩阵是单位阵,如
果不能拒绝
该假设的话,就表明数据不适合用于因子分析。一般说来,显著水平值越小
(
<0.05
)表明原始变量之间越可能存在有意义的关系,如果显著性水平
很大(如
0.10
以
上)可能表明数据
不适宜于因子分析。
(
4
)
KMO
(
Kaiser
-Meyer-Oklin Measure of Smapling
Adequacy
)
KMO
是
Kaiser-Meyer-
Olkin
的取样适当性量数。
KMO
测度的值越高
(接近
1.0
时)
,
表明变量间的共同因子越多,研究数据适合用因子分析。通常按以下
标准解释该指标值
的大小:
KMO
值达
到
0.9
以上为非常好,
0.8
~
0.9
为好,
0.
7
~
0.8
为一般,
< br>0.6
~
0.7
为差,
0.5
~
0.6
为很差
。如果
KMO
测度的值低于
0.5
p>
时,表明样本偏小,需要扩大样本。
综上
所述,经常采用的方法为巴特利特球度检验
Bartlett
test
of
sphericit
y
和
KMO
(
Kaiser-Meyer-Oklin Measure of Smapling
Adequacy
)
。
2
、抽取共同因子,确定因子的数目和求因子解的方法
将原有变量综合成少数几个因子是因子分析的核心内容。本步骤正是研究如何在样<
/p>
本数据的基础上提取和综合因子。决定因素抽取的方法,有“主成份分析法”
(
principal
components <
/p>
analysis
)
、主轴法、一般化最
小平方法、未加权最小平方法、最大概似法、
Alpha
因素抽
取法与映象因素抽取法等。
使用者最常使用的是主成份分析法与主轴法,
其
中,
又以主成份分析法使用最为普遍,
在
SPSS
使用手册中,
也
建议研究者多采用主成份
分析法来估计因素负荷量
(SPSS
Inc,1998)
。
所谓主成份分析法,
就是以较少的成份解释原
始变量方差的较大部分。进行主成份分析时,先要将每个变
量的数值转换成标准值。主
成份分析就是用多个变量组成一个多维空间,
然后在空间内投射直线以解释最大的方差,
所得的直线就是共同因子,该直线最
能代表各个变量的性质,而在此直线上的数值所构
成的一个变量就是第一个共同因子,<
/p>
或称第一因子
(
F
1
)
。
但是在空间内还有剩余的方差
,
所以需要投射第二条直线来解释方差。这时,还要依据第二条准则,即投射的第二条直
线与第一条直线成直交关系(即不相关)
,意为代表不同的方面
。第二条直线上的数值所
构成的一个变量,称为第二因子(
F<
/p>
2
)
。依据该原理可以求出第三、第四或
更多的因子。
原则上,因子的数目与原始变量的数目相同,但抽取了主要的因子之后,如
果剩余的方
差很小,就可以放弃其余的因子,以达到简化数据的目的。
< br>
因子数目的确定没有精确的定量方法,但常用的方法是借助两个准则来确定因子
的
个数。一是特征值(
eigenvalue
< br>)准则,二是碎石图检验(
scree
test
)准则。特征值准则
就是选取特征值大于或等于
1
的主成份作为初始因子,而放弃特征值小于
1
的主成份。
因为每个变量的方差为
1
,
该准则认为每个保留下来的因子至少应该能解释一个变量的方
差,否则达不到精简数据的目的。碎石检验准则是根据因子被提取的顺序绘出特征值随
< br>因子个数变化的散点图,根据图的形状来判断因子的个数。散点曲线的特点是由高到低,
< br>先陡后平,最后几乎成一条直线。曲线开始变平的前一个点被认为是提取的最大因子数。
< br>后面的散点类似于山脚下的碎石,可舍弃而不会丢失很多信息。
3
、使因子更具有命名可解释性
p>
通常最初因素抽取后,对因素无法作有效的解释。这时往往需要进行因子旋转
(
rotation
p>
)
,
通过坐标变换使因子解的意义更容易解
释。
转轴的目的在于改变题项在各因
素负荷量的大小,转轴时根
据题项与因素结构关系的密切程度,调整各因素负荷量的大
小,转轴后,使得变量在每个
因素的负荷量不是变大(接近
1
)就是变得更小(接近
0
)
,
而非转轴前在每
个因素的负荷量大小均差不多,这就使对共同因子的命名和解释变量变
得更容易。转轴后
,每个共同因素的特征值会改变,但每个变量的共同性不会改变。常
用的转轴方法,有最
大变异法(
Varimax
)
、四次方
最大值法(
Quartimax
)
、相
等最大值法
(
Equamax
)
、直接斜交转轴法(
Direct Oblimin
< br>)
、
Promax
转轴法,其中
前三者属于“直
交转轴法”
(
orth
ogonal
rotations
)
,在直交转轴法中,因素(成份)与因素(成份)间没
有相关,亦即其相关为
0
,因素轴间夹角为
90
°;而后二者(直接斜交转轴、
Promax
转
轴法)属“斜交转轴”
(
oblique rotat
ions
)
,采用斜交转轴法,表示因素与因素间彼此有某
p>
种程度的相关,亦即因素轴间的夹角不是
90
°。
直交转轴法的优点是因素间提供的信息不会重叠,观察
体在某一个因素的分数与在
其它因素的分数,彼此独立不相关;而其缺点是研究者迫使因
素间不相关,但在实际情
境中,它们彼此有相关的可能性很高。因而直交转轴方法偏向较
多人为操控方式,不需
要正确响应现实世界中自然发生的事件(
Bryman&Cramer,1997
)
。
< br>
所谓直交旋转法
(
ortho
gonal rotations
)
,
就是要求各个因子在旋转时都要保持直角关
系,即不相关。在直交旋转时,每个变量的共
同性(
commonality
)是不变的。不同的直
交旋转方法有不同的作用。在直交旋转法中,常用于社会科学研究的方式是
Varimax
旋
转法。该方法是在旋转时尽量弄清楚在每一
个因子上各个变量的因子负荷情况,也即让
因子矩阵中每一列的
?
的值尽可能变成
1
或
0
,该旋转法的作用是突出每个因子的性质,
可以更清
楚哪些变量是属于它的。
由此可见,
Varimax
旋转法可以帮助找出多个因子,
以
澄清概念的内容
。
Quartimax
旋转法可以则可以尽量弄清楚每个变量在
各个因子上的负荷
情况,
即让每个变量在某个因子上的负荷尽可
能等于
1
,
而在其它因子上则尽可能等
于
0
。
该方法可以增强第一因子的解释
力,而使其它因子的效力减弱。可见
Quartimax
旋转法
适合于找出一个最强效力的因子。
Equamax
旋转法则是一种折中的做法,
即尽可能简化因
子,也
可弄清楚负荷情况。其缺点是可能两方面都未照顾好。
斜交旋转(
oblique rotarion
)方法是要求在旋转时各个因子之间呈斜交的关系,
表示允许该因子与因子之间
有某种程度上的相关。斜交旋转中,因子之间的夹可以是任
意的,所以用斜交因子描述变
量可以使因子结构更为简洁。选择直接斜交旋转时,必须
指定
D
elta
值。该值的取值范围在
0
~-
1
之间,
0
值
产生最高相关因子,大的负数产生
旋转的结果与直交接近。
Pr
omax
斜交旋转方法也允许因子彼此相关,它比直接斜交旋转
更快,因此适用于大数据集的因子分析。
综上所述,不同的因
子旋转方式各有其特点。因此,究竟选择何种方式进行因子旋
转取决于研究问题的需要。
如果因子分析的目的只是进行数据简化,而因子的确切含义
是什么并不重要,就应该选择
直交旋转。如果因子分析的目的是要得到理论上有意义的
因子,应该选择斜交因子。事实
上,研究中很少有完全不相关的变量,所以,从理论上
看斜交旋转优于直交旋转。但是斜
交旋转中因子之间的斜交程度受研究者定义的参数的
影响,而且斜交选装中所允许的因子
之间的相关程度是很小的,因为没有人会接受两个
高度相关的共同因子。如果两个因子确
实高度相关,大多数研究者会选取更少的因子重
新进行分析。
因
此,
斜交旋转的优越性大打折扣。
在实际研究中,
直交旋转
(尤其是
Varimax
< br>旋转法)得到更广泛的运用。
4
、决定因素与命名
转轴后,要决定因素数目,选取较少因素层面,获得较大的解释量。在因素命名与
结果解释上,必要时可将因素计算后之分数存储,作为其它程序分析之输入变量。
5
、计算各样本的因子得分
因子分析的最终目标是减少变量个数,以便在进一步的分析中用较少的因子代替原
有变量参与数据建模。本步骤正是通过各种方法计算各样本在各因子上的得分,为进一
< br>步的分析奠定基础。
此外,在因素分析中,研究者还应
当考虑以下几个方面(
Bryman&Cramer,1997
)
:
(
1<
/p>
)可从相关矩阵中筛选题项
题项间如果
没有显著的相关,或相关太小,则题项间抽取的因素与研究者初始构建
的层面可能差距很
大。相对的题项间如果有极其显著的正
/
负相关,则因素分析较
易构建
成有意义的内容。因素分析前,研究者可从题项间相关矩阵分布情形,简扼看出哪
些题
项间有密切关系。
(
2
)样本大小
因素分析
的可靠性除与预试样本的抽样有关外,预样本数的多少更有密切关系。进
行因素分析时,
预试样本应该多少才能使结果最为可靠,学者间没有一致的结论,然而
多数学者均赞同“
因素分析要有可靠的结果,受试样本数要比量表题项数还多”
,如果一
< br>个分量表有
40
个预试题项,则因素分析时,样本数不得
少于
40
。
此外,在进行因素分析时,学者
Gorshch
(
1983
)的观点可作为参考:
< br>①题项与受试者的比例最好为
1
:
5
;
②受试总样本总数不得少于<
/p>
100
人。如果研究主要目的在找出变量群中涵括何种因
素,样本数要尽量大,才能确保因素分析结果的可靠性。
(
3
)因素数目的挑选
<
/p>
进行因素分析,因素数目考虑与挑选标准,常用的准则有两种:一是学者
< br>Kaiser
所
提的准则标准:选取特征值大于
1
的因素,
Kaiser
准则判断应用时,因素分析的题项数
最好不要超过
30
题,题项平均共同性最好在
0.70
以上,如
果受试样本数大于
250
位,
则平均共
同性应在
0.60
以上(
Steven
s
,
1992
)
,如果题项数在
50
题以上,有可能抽取
过多的共同因素(此时研究者可以限定因素抽取的数目)
;二为
CATTELL(1996)
所倡导的
特征值图形的陡坡检
验(
scree
test
)
,此图根据最初抽取因素所能解释的变异量高低绘
制而成。
“陡坡石”
(
scree
)原是地质学上的名词,代表在岩石斜坡底层发现的小碎石,这
些碎石价值性不高。应用于统计学之因素分析中,表示陡坡图底端的因素不具重要性,
可
以舍弃不用。因而从陡坡图的情形,也可作为挑选因素分析数目的标准。
在多数的因素分析中,根据
Kaiser
选取的标准
,通常会抽取过多的共同因素,因而
陡坡图是一个重要的选取准则。在因素数目准则挑选
上,除参考以上两大主要判断标准
外,还要考虑到受试者多少、题项数、变量共同性的大
小等。
四、因素分析的操作说明
Statistics/Data
Reduction/Factor
…
(统计分析
/
数据缩减
/
因子…)
出现“
Factor Analys
is
”
(因子分析)对话框,将左边框中鉴别度达显著性的
p>
a1
~
a22
选如
右边“
Variables
”
(变量)
下的空框中。
其中五个按钮内的图标意义如下:
D
escriptives
(
描
述
性
统
计
量
)
按
钮
,
会
出
现
“
Factor
Analysis:Descriptives
”(因子分析:描述性统计量)对话窗口
1
.
“
Statistics
”
(
统计量
)
选项框
(
1
)
“
Univariate descriptives
”(单变量描述性统计量)
:显示每一题项的
平
均数、标准差。
(
2
)
“
Initial solution
”
(未转轴之统计量)
:显示因素分析未转轴前之共
同性
(
communality
)
p>
、特征值(
eigenvalues
)
p>
、变异数百分比及累积百分比。
2
.
“
Correlation Matric
”
(
相关矩阵
)
选项框
(
1
)
“
Coefficients
p>
”
(系数)
:显示题项的相关矩阵;
-
-
-
-
-
-
-
-
-
上一篇:SCI EI 中文核心期刊一览
下一篇:贝叶斯计量经济学 从先验到结论