-
判别分析
- 1 -
第四讲
判别分析
第一节
判别分析概述
1
.
1
判别分析的任务
假设事先存在若干个
已知类
(group)
,判别分析是研究将一
< br>个新的个体
(case)
,用什么方法将它分到最合适的
已知类中去。
1
.
2
数学描述
设有
m
个已知类:
G
1
< br>,
G
2
,
…
,G
m<
/p>
,类的
特征
由
p
个变量
X
1
,
X
2
,
…
p>
,
X
p
决定,这<
/p>
p
个变量也叫
判别指标
< br>。今后用一个
p
维
?
x
向量
?
(
X
1
,
X
< br>2
,...,
X
p
)
?
表示;类
G
i
含
n
i
个个体,其弟
k
个个
体(特征
)为:
?
(
i
)
x
k
?<
/p>
(
X
(
i
)
k
1
m
,
X
(
i
)
k
2
,...,
X
(
i
)
kp
)
?
,
< br>k
?
1
,
2
,...,
n
i
< br>,
i
?
1
,
2
,...,
m
< br>
并且有:
?
i
?
1
n
i
?
n
。
?
(
0
)
p<
/p>
(
0
)
(
0
)
(
0
)
?
(
X
1
,
X
2
,...,
X
现有一个新
的个体<
/p>
x
)
?
,设计一
种归类的方法,将
x
(
0
)
归入最适合它的已知类中去。
?
第二节
判别函数
2
.
1
<
/p>
判别的基本方法是把新个体归入与它性质最相近的类。
在表达“性
质最相近”时,有时候是的距离远近衡量,有时候
用损失的大小表示。
< br>不管用什么方法表达,
都离不开判别函数。
2
.
2
判别函数
1
.形式
(线性)判别函数是判别指标(变量)的线性函数
f
s
?
c
s
1
X
1
?
c
s
2
X
2
?
?
?<
/p>
c
sp
X
?
p>
c
其中,向量:
s
?
(
c
s
1<
/p>
,
c
s
2
,...,
c
sp
)
?
,
p
?
p>
?
?
c
s
?
x
,
s
?
1
,
2
< br>,...,
q
s
?
1
,
2
< br>,...,
q
(<
p
)
判别分析
- 2 -
2
.本质
判别函数是一组由
R
p
→
R
q
的映射,它把一个原本
属于高维空间的问题转换成为一个维数较低的空间问题。我们
把空间
R
p
中
原始已知类
G
i
经过
< br>f
s
映射后在空间
R
q
中的像记为
f
s
(
G
i
)
。
3
.判别函数应具备的基本要求
p>
判别函数是从高维空间
R
p
到较低维空间
R
q
的一组线性
变
换,为了使低维空间内的判别工作变得更容易,很自然地对判
别函数提出两个基本要求:
p>
(1)
空间
R
p<
/p>
中的原始类:
G
1
,
G
2
,
…
,
G
m
在空间
R
q
中的像集合
f
(
G
1
)
,
f
(
G
2<
/p>
),
…
,
f
p>
(
G
m
)
应该容易区分,即这些像集合之间应有较大
的间隔空间;
(2)
每个原始类
G
i
的像集合
p>
f
(
G
i
)
,其元素在空间的分布上应
较为集中,或者说
f
(
G
i
p>
)
有较大的“密度”
。
4
.基本要求的数学表达
(1)
引入一些符号:
像集合
f
(
G
i
)
的中心:
f
(
i
)
?
1
n
i
?
n
i
k
?
1
?
(
i<
/p>
)
f
(
x
k
)
,
i
?
1
,
2
,...,
m
像空间
R
q
中,所有像点的中心:
< br>
f
?
1
n
?
m
i
?
1
?
n
i
p>
k
?
1
1
?
(
i
)
f
(
x
k
< br>)
?
n
?
m
i
?
1
n
i
f
(
i
p>
)
(2)
定义两个平方和:
组内平方和
(Within Groups)
SW
?
?
m
< br>i
?
1
?
n
i
k
?
1
(
f
(
i
p>
)
k
?
f
(
i
)
)
2
组间平方和
(Between Groups)
SB
?
?
m
i
?
1
n
i
(
f
(
i
)
2
?
f<
/p>
)
判别分析
- 3 -
我们看到:
SB
可以表示
R
q
中类间的间隔,
SW
则是
R
q
中类的
密度大小的一种度量。因此,对判别函数提出的两个基本要求
就被表示成为:
SB
要充分大,
SW
要尽可能小。
5
)特征值
(Eigenvalue)
Eigenvalue
?
SB
SW
可见,对于一个判别函数来说:特征值越
大,区别已知类的能
力就越强。这是比较判别函数好坏的一个重要指标。
第三节
典型判别函数
(Cannonical
Discriminant)
3
.
1
判别函数的获得
获得判别函
数的过
程就是
根据样本
对判别
函数中
的系数
作出估计的过程。
由于采用的估计方法不同,也就派生出不同
的判别法:距离判别,
F
isher
判别,
Bayes
p>
判别等。
3
.
2
典型判别
基于典型相关分析原理估计
判别参数,并用得到的判别函
数进行判别分析,这种做法叫典型判别分析。
普通相关分析是在两个变量
X
和
Y
之间进行,
典型相关分
析则是在两组变量
(
X
1
,
…
,
X
p
)
和
(
p>
Y
1
,
…
,
Y
m
)
之间进行,
也就是考察
?
x
两个向量之间的相关关系。现在,向量
?
(
X
1
,
X
2
,...,
X
p
)
?
代表
?
判别指标,而向量
y
?
(
Y
1
,
< br>?
,
Y
m
)
?
其中
?
如果
x
?
G
i
?
1
Y
p>
i
?
?
i
?
1
,
2
,
?
,
m
< br>
?
如果
x
?
G
i
?
0
如果判别函数是:
f
s
(
x
)
< br>?
?
?
j
?
1
p
c
s
j
X
j
s
?<
/p>
1
,
2
,
?
,
q
?
?
它的系数
c
s
j
的估计过程,也是求
x
和
y
的典型变量过程。
判别分析
- 4 -
第四节
判别效果的检验
< br>以
下
的
统
计
检
验
,
都
要
求
已
知
p>
类
?
(
i
)
G
i
~
N
p
(
?
< br>,
?
i
)
,
i
=
1,2,
…
,m
;并且协方差矩阵相等:
?
1
??
2
??
??
m
。
4
.
1
判别函数有效性检验
实际是已知类<
/p>
G
1
,
G
2
,
…
,
G
m
在所选判别指标与样本数据之
下,能否被区别的检验。检验的原假设是:
H
0
:
?
1
?
?
2
???
?
p
其中的:
?
i
?
E(
X
i
)
,
i
=1,2,
…
,
p
.
如果原假设显著,则所采用的判
别指标
x
?
(
X
1
,
X
2
,
?
,
X
p
)
?
无法区分已知类
G
1
,
G
2
,
…
,
G
m
。
这也
就等于说
:
判别函数无效
。此项检验所用的统计量是威尔克斯
?
(
Wilks
’
lambda
)
,在原假设
H
0
为真时,它服从
Wilks
分布:
?
~
?
(
m
,
n-p
,
p-1
)
,这个分布也可以用
?
2
分布来近似。在
SPSS
p>
判别分析
输出文
件中,
这部分
检验
见
Summary
of
Canonical
Discriminant Functions
中的
Wilks
’
lambda
表格。
*4
.
2
协方差矩阵相等的
Box
检验
(Box
’
s
test of equality of variance matrices)
原假设
H
0
:
?
1
??
2<
/p>
????
m
,其中
?
i
是已知类
G
i
的协方差。
检验统计量为
Box
’
s M
,原假设
H
0
为真时,该统计量近似服从
F
分布。在
SPSS
输出文件中有相关检
验结果。
4
.
3
判别指标的显著性检验
(Test of equality
of group means)
1
.
这项检验是逐个检查每个判别指标
,
其类平均值在一定的
显著性水平下是否有显著差异,
也就是能否用来当作分类特征。
原假设
(
i
)
(
i
)
(
i
)
H
i0
:
< br>?
1
?
?
2
?
?
?
?
p
,
p>
i
=1,2,
…
,
m
?
其中,
?
(
j
i
p>
)
是变量
X
j
p>
在已知类
G
i
上的
均值。此假设即:
被检验
指标的类平均值无显著差异,即该指标
不能当作分类特征
。检
-
-
-
-
-
-
-
-
-
上一篇:技能中英文翻译
下一篇:电子商务英语专业名词