关键词不能为空

当前您在: 主页 > 英语 >

主成分分析(修改后)

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2020-10-22 16:21
tags:3132

坐的成语-角度计

2020年10月22日发(作者:薛承让)



1.基于主成分分析的空气污染数据探究

摘 要 本文讨论了有关分析处理空气污染数据的问题。
对于问题一比较样本协方差矩阵和样本相关矩阵主成分分析的结果差异。首
先,

本文 采用降维的思想,运用主成分分析法减少变量的个数,借助Matlab软
件建立有关7项指标的协方差 矩阵和样本相关矩阵,得出其特征值和特征向量;
其次,分别计算各自主成分的贡献率,对于样本协方差 矩阵,前三个主成分的贡
献率分别为87.20%,95.33%和98.62%,对于样本相关矩阵, 根据主成分个数提
取原则,提取特征值大于1的成分,从而确定三种主成分,它们在反应样本数据信息中所占的贡献率分别为33.03%,19.76%和17.30%;从而发现样本相关矩阵的
求 解结果更符合实际。
对于问题二选择三个或者更少的主成分反映原始数据的变化及原因。样本协
方差矩阵的前三个主成分累计贡献率为98.62%,而样本相关矩阵的前三个主成
分累计贡献率为7 0.09%;从而得出结论:样本相关矩阵的结论更符合实际,确
定空气污染程度需根据原始数据综合前 三个样本成分。
考虑到各主成分之间存在的相互依赖关系,将模型进行推广,进一步运用回
归 分析法预测和控制空气污染的主要成分,得到的结果将更加贴近实际情况。

关键词 主成分分析;降维思想;空气污染

1


一、问题重述
CO
、 已知某城市在42天中中午12点的7项空气污染数据:风速、太阳辐射、NO

NO
2

O
3

HC
,完成以下问题:
问题一:分别利用样本协方差矩阵和样本相关矩阵作主成分分析,比较二者
结果差异;
问题二:选择三个或者更少的主成分反映原始数据的变化并作出解释。

二、问题分析
空气污染是现下较为严重且广受关注的热点问题,研究污染空气的主要因素及特点有助于控制空气污染源,为改善环境提供必要依据。
由于题目所给数据较多,需要对其进行 处理分析,因此本文将采取主成分分
析法([1])分析影响空气污染的主要因素。
对于问题一:首先,利用Matlab求出样本协方差矩阵和样本相关矩阵;其
次,分别计算这两个矩阵 的特征值与特征向量,及相应的主成分贡献率与累计贡
献率;比较结果分析其差异;
对与问题 二:根据累计贡献率的大小,选择前几个主成分代替原来的7个变
量,使得信息损失最小,并对比所选取 的主成分与原始数据对比做出合理解释。

三、模型假设
1.假设已知数据均真实有效,具有统计价值;
2.忽略其他对空气污染造成微小影响的空气成分。

四、符号说明
符号 符号含义
样本方差
原始变量
样本主成分
样本协方差
样本相关矩阵
样本平均值
2
?
ii

x

Y

Cov(X
i
,X
j
)

?

?
i


?

P

协方差矩阵
特征向量矩阵
矩阵的特征值
矩阵的特征向量
?

e


五、模型建立与求解
问题中的变量太 多不但会增加计算的复杂性,而且也给合理的分析问题和解
决问题带来很大的困难;同时,这些变量之间 存在一定的相关性,也使得这些变
量所反映的信息在一定程度上有所重叠。为了减少变量的个数,同时提 高问题研
究的合理性,本文采用了降维的思想,利用主成分分析法来减少变量的个数,同
时不会 使数据反映的信息量有大的损失。
5.1协方差矩阵主成分分析

?
是< br>x?(x
1
,x
2
,x
3
,?,x
p
)
T
的协方差矩阵,
?
的特征值与正交化特征向量分别

?
1
?
?
2
?
?
3
???
?p
?0

e
1
,e
2
,e
3
,
?
,e
p
,且
x
的第
i
个主成分为

Y
i
?
e
i1
x
1
?
e
i2
x
2
?
e
i3
x
3
??< br>e
ip
x
p
,(i
?
1,2,3,
?
,p)
(1)
根据已有数据计算得样本
x?(x
1
,x
2
,x
3
,?,x
p
)
T
的 均值向量
x?(x
1
,x
2
,x
3
,?,x
p
)
T

x?(7.573.83334.47622.190510. 04769.40483.0952)
T

根据协方差矩阵计算公式
1
n
(2)
??(x
i
?x)(x
i
?x)
T

?
n?1
i?1
利用Matlab软件代入数据可求得随机变量
x? (x
1
,x
2
,x
3
,x
4
,x
5
,x
6
,x
7
)
T
相应的样本
协方差矩 阵为(只写下三角)
?
2.5000
?
?2.7195299.9472< br>?
?0.41464.1545
?
??
?
?0.4634?1 .3577
?
?0.58546.8618
?
?2.231730.7276
?
0.6504
?
0.1707
1.8165
0.7607
2.3182
2.9977
0.1487
?
?
?
?
1.1823
?

1.088311.3635
?
?0.8 1073.126630.9785
?
?
0.17651.04410.59470. 4785
?
利用特征值计算公式
?
E???0
代入数据可求得
?
的特征值
?
i
与对应单位正交

3


化特征向量
e
i
(i?1,2,?,7)
分别为
?
1
?303.6941

e
1
?(0.009 9?0.9932?0.01500.0046?0.0246?0.1125?0.0024)
T
?
2
?28.3132
,
e
2
?(0.0 7660.1163?0.10590.0128?0.1501?0.9727?0.0237)
T< br>
?
3
?11.4674
,
e
3
?(?0 .0314?0.00700.18610.13200.9541?0.17110.0851)
T< br>
?
4
?2.5494
,
e
4
?(0.8 996?0.0005?0.1998?0.34670.11880.06700.1092)
T
?
5
?1.4703
,
e
5
?(0.38 860.00160.71830.5364?0.2074?0.00950.0470)
T

?
6
?0.5479
,
e
6
?(0.03860 .0036?0.50990.5912?0.02640.05570.6207)
T

?
7
?0.2243
,
e
7
?(?0.1766 ?0.00810.3716?0.4743?0.0931?0.06520.7699)
T

利用第
i
个主成分的贡献率
?
i
及前
k
个主成分的累计贡献率
?
?
k?1
p
k
(3)

?
?
s
s?1
k
?
?

t
t?1
p
(4)
代入数据计算得
?
的各标准化 主成分的贡献率及累计贡献率(如表1所示),可
以看出,前三个标准化样本的累计贡献率已经达到98 .62%,故只需提取前三个
主成分即可:
表1
?
的各标准化主成分的贡献率及累计贡献率

4


i

?
i

303.6941
28.3132
11.4674
2.5494
1.4703
0.5479
0.2243
贡献率(%)
87.20
8.13
3.29
0.73
0.42
0.16
0.06
累计贡献率(%)
87.20
95.33
98.62
99.36
99.78
99.94
100.00
1
2
3
4
5
6
7
记主成分向量为
Y?(Y
1
,Y
2,Y
3
,Y
4
,Y
5
.Y
6
,Y7
)


Y?P
T
X
,
P?(e
1
,e
2
,e
3
,e
4
,e
5
,e
6
,e
7
)


x
的前三个主成分分别为
Y
1
?0.0099x
1
?0.9932x
2
?0.0150x
3
?0.0046x4
?0.0246x
5
?0.1125x
6
?0.0024x< br>7
Y
2
?0.0766x
1
?0.1163x
2?0.1059x
3
?0.0218x
4
?0.1501x
5< br>?0.9727x
6
?0.0237x
7
Y
3
??0 .0314x
1
?0.0070x
2
?0.1861x
3
? 0.1320x
4
?0.9541x
5
?0.1711x
6
?0.0851x
7

因此,用前三个主成分代替原来7个变量,信息损失量较小。
进一步由
Y
i

X
i
的相关系数
?< br>Y
i
,x
i
?
?
i
e
ij

?
jj
(5)
计算出前三个主成分与各原始变量的相关系数如下表:
表2 前三个主成分与各原始变量的相关系数






Y
1

Y
2






Y
3

-0.0672
-0.0014
0.4675
0.4111
0.9585
-0.1041
0.4168
x
1

0.1087
-0.9994
-0.1937
0.0740
-0.1274
-0.3521
-0.0613
0.2576
0.0357
-0.4181
0.0626
-0.2369
-0.9299
-0.1824
x
2

x
3

x
4

x
5

x
6

x
7

由表可看出,
Y
1

x
2
相关度较高,而由相关矩阵的主成分权重系数(即特
征向量
e
1
中的 各个值)知,太阳辐射对空气污染的影响最大;
Y
2

x
6
相关度较
高,由相关矩阵的主成分权重系数(即特征向量
e
2
中的各个值)知 ,
O
3
对空气
污染的影响较大;
Y
3

x
5
相关度较高,同理,由相关矩阵的主成分权重系数(即

5


特征向量
e
3
中的各个值)知,
NO
2
对空气污 染的影响较大。考虑前三个主成分的
贡献率依次降低,得出结论:影响空气污染的最重要因素为太阳辐射 。由于
x
2

方差较大,第一主成分主要由变量
x
2
控制,所以所得结论与实际不符。
5.2样本相关矩阵主成分分析
利用标准化公式对原数 据
X?
进行标准化处理得到一组新的数
(x
1
,x
2
,?,x
7

**

X
*
?(X
1*
,X
2
,?,X
7
)

即令
X
i
?
?
x
i
?
?
i
?
ii
,i?1,2,?,7
(6)
其中
?
i

x
i
的平均值,
?
ii

x
i
的方差。
此时,由于
X
?
?(X
1
,X
2
,X
3
,X
4
,X
5
,X
6
,X
7
)
T
的协方差矩阵即为
???????
x?(x1
,x
2
,x
3
,x
4
,x
5
,x
6
,x
7
)
T
的相关矩阵
?
?(< br>?
ij
)
p?p
其中
?
ij
?E(Xi
?
,Y
j
?
)?
Cov(X
i
,X
j
)

X
i
,X
j
的协方差
Cov(X
i
,X
j
)
?
ii
?
jj (7)
则运用Matlab软件代入数据计算得到样本相关矩阵为
?
1.0000
?
?0.09931.0000
?
?0.19460.1780
?
?
?
?
?0.2695?0.0721
?
?0.10980.1175
?
?0.25360.3188
?
?
0.15610.05431.0000
0.5191
0.5103
0.3996
0.1595?
?
?
?
1.0000
?

0.29691. 0000
?
?0.13400.16661.0000
?
0.23470.4 4780.15451.0000
?
?
?
利用特征值计算公式
?E?
?
?0
代入数据可求得
?
的特征值
?
i< br>与单位正交化特
征向量
e
i
(i?1,2,3,?,7)
分别 为
?
?
1
?
?2.3122

e
1?(?0.24210.20680.54630.38980.49010.32370.3212)T

?
?
2
?
?1.3833

e< br>2
?(0.2768?0.5273?0.00390.43560.1960?0.57090 .3021)
T

?
?
3
?
?1.2109


6


e
3
?(0.63030.2274?0.1333?0.39740.21 360.15860.5518)
T

?
?
4
?
?0.7286

e
4
?(0.21790.76450.05570.2853?0.0572?0.4980?0.1798)T

?
?
5
?
?0.6565

e< br>5
?(?0.58650.2048?0.59310.01410.0836?0.18030 .4179)
T

?
?
6
?
?0.5417

e
6
?(0.10770.03050.02630.4185?0.76280.28520.3854)
T

?
?
7
?
?0.1668

e
7
?(?0.2539?0.01150.5729?0.4936?0.2892?0.42700 .3123)
T

利用第
i
个主成分的贡献率
?
i
k
?
?

p
(8)
?
及前
k
个主成分的累计贡献率
?
?
s
s?1
(9)
p

其中
p?7
。计算
?
的各标准化主成分的贡献率及累计贡献率(如表 3所示)。
表3
?
的各标准化主成分的贡献率及累计贡献率
i

?
i
?

贡献率(%) 累计贡献率(%)
1 2.3122 33.03 33.03
2 1.3833 19.76 52.79
3 1.2109 17.30 70.09
4 0.7286 10.41 80.50
5 0.6565 9.38 89.88
6 0.5417 7.74 97.62
7 0.1668 2.38 100.00
可以看出,当特征值大于1时,提取前三个标准化样本的累计贡献率为70.09%。
记主成分向量为
Y
?
?(Y
1
,Y
2
,Y
3
,Y
4
,Y
5
,Y
6< br>,Y
7
)


Y
?
?P
?
X
?
,
P
?
?(e1
,e
2
,e
3
,e
4
,e
5
,e
6
,e
7
)


X
?
的前四个主成分分别为
T
???????
???????

7


Y
1
??0.2421X
1
?0.2068X
2
?0.546 3X
3
?0.3898X
4
?0.4901X
5
?0.32 37X
6
?
?0.3212X
7
Y
2
?0.276 8X
1
?0.5273X
2
?0.0039X
3
?0.43 56X
4
?0.1960X
5
?0.5709X
6
?
?0.3021X
7
??????
???????
???????
Y
3
?0.6303X
1
?0.2274X
2
?0.133 3X
3
?0.3974X
4
?0.2136X
5
?0.15 86X
6

?
?0.5518X
7
?

Y
i

X
i
的相关系数
?
Y
?< br>,X
?
?
?
i
e
ij
(10)
ii
??
??
计算出前三个主成分与各原始变量的相关系数如表:
表4 前三个主成分与各原始变量的相关系数





?
??

Y

YY
3

12





?
X
1

?
X
2

-0.3681
0.3145
0.8307
0.5927
0.7452
0.4922
0.4884
?
0.3255
-0.6202
-0.0046
0.5123
0.2305
-0.6714
0.3553
0.6936
0.2502
-0.1467
-0.4373
0.2350
0.1745
0.6072
?
X
3

?
X
4

?
X
5

X
6

X
7

由表4可看出,
Y
1

X
3

X
5
相关度较高,
Y
1
近似是7个变量的等权重
之和,反映了空气质量 的综合指标,
Y
1
值越大,空气质量越差。
Y
2

X
3
相关
度较低,由相关矩阵的主成分权重系数(即特征向量
e
2< br>中的各个值)知,co对
空气污染指标y2的影响较小;
Y
3

X
1

X
7
相关度较高,同理,由相关矩阵
的主成分权重 系数(即特征向量
e
3
中的各个值)知,风速和HC对空气污染的影
响较大。 考虑前三个主成分的贡献率之和达到70.09%,因此综合考虑来
Y
1

Y
2
?
??
?
??
?
??
?
??
?
?

Y
3
来评判影响空气污染的重要指标。
5.3结果分析
(1)结果差异:当采用样本协方差矩阵求
X
的主成分时, 选取前三个主成分其
样本贡献率可达98.62%;而采用相关矩阵的求解结果可以看出,根据特征值大
于1的原则,选取前三个主成分,其贡献率仅为70.09%。与实际情况比较知采
用协方差矩 阵求解的结果不符合实际情况,因此在原变量数据方差较大的情况
下,可采取相关矩阵求解的方法综合评 判原变量与指标之间的关系。
??
(2)
Y
1
近似是7个变量的等 权重之和,反映了空气质量的综合指标,
Y
1
值越

8

< p>
大,空气质量越差。综合考虑来
Y
1

Y
2

Y
3
来评判影响空气污染的重要指标。
??
?

六、模型评价与推广
模型评价:
优点:
对给出的数据进行主成分分析,选择更少的变量反映原始变量,简化模型的
建立;
缺点:
新变量只是反映原变量所提供的绝大部分信息,在实际问题的研究中,采用< br>这种分析方法会使结果出现一定的偏差。
模型推广:
在研究空气污染程度时,因为造 成空气污染的因素繁多,所以可以利用主成
分分析的方法对所给的空气污染数据进行处理,从中选出为数 较少的变量来反映
空气污染的主要原因,进一步用回归分析法对选出的主成分进行预报及控制,给
出合理控制空气污染的方案;主成分分析法还广泛应用于涉及众多有关变量的领
域,如葡萄酒的酿制。

参考文献
[1]范金城等,数据分析,北京:科学出版社,2002.

9


附录

计算协方差矩阵和相关矩阵程序
x1=[8 7 7 10 6 8 9 5 7 8 6 6 7 10 10 9 8 8 9 9 10 9 8 5 6 8 6 8 6 10 8 7 5 6 10 8
5 5 7 7 6 8];

x2=[98 107 103 88 91 90 84 72 82 64 71 91 72 70 72 77 76 71 67 69 62 88 80
30 83 84 78 79 62 37 71 52 48 75 35 85 85 86 79 79 68 40];

x3=[7 4 4 5 4 5 7 6 5 5 5 4 7 4 4 4 4 5 4 3 5 4 4 3 5 3 4 2 4 3 1 4 6 4 4 4 3 7 7 5
6 4];

x4=[2 3 3 2 2 2 4 4 1 2 4 2 4 2 1 1 1 3 2 3 3 2 2 3 1 2 2 1 3 1 1 1 5 1 1 1 1 2 4 2
2 3];

x5=[12 9 5 8 8 12 12 21 11 13 10 12 18 11 8 9 7 16 13 9 14 7 13 5 10 7 11 7 9
7 10 12 8 10 6 9 6 13 9 8 11 6];

x6=[8 5 6 15 10 12 15 14 11 9 3 7 10 7 10 10 7 4 2 5 4 6 11 2 23 6 11 10 8 2 7
8 4 24 9 10 12 18 25 6 14 5];

x7=[2 3 3 4 3 4 5 4 3 4 3 3 3 3 3 3 3 4 3 3 4 3 4 3 4 3 3 3 3 3 3 4 3 3 2 2 2 2 3 2
3 2];

x=[x1',x2',x3',x4',x5',x6',x7'];

m=cov(x)
[v,d]=eig(m);
n=corrcoef(x)
[j,k]=eig(n)


10



2.基于主成分分析的径赛项目纪录探究

摘 要 本文讨论了55个国家和地区1984年前7个女子径赛项目纪录的数据处
理问题。
对于问题 一、二,首先,本文采用降维的思想,运用主成分分析法减少变量
的个数,借助Matlab软件建立7 种指标的样本相关矩阵,并计算其特征值和相
应正交单位化特征向量,同时确定前两个标准化样本主成分 及其累计贡献率为
92.28%;
对于问题三、四,由累计贡献率知第一主成分的值越小,该 国家或地区运动
员优秀程度越高;第二主成分的值越小,该国家或地区相对实力越强。进而利用
Matlab求出第一主成分的得分,分析主成分数据知,原东德在52个国家的径赛
项目纪录中成绩最 好,得分为-3.5060。
由于各主成分之间存在相互关联性,综合考虑7项纪录,将模型进行推广 ,
运用回归分析法控制各个变量,得到的结果将更加贴近实际情况。

关键词 主成分分析;降维思想;径赛项目纪录

11


一、问题重述 已知世界上55个国家和地区1984年前在7个径赛项目上的女子记录:100m、
200m、4 00m、800m、1500m、3000m、马拉松,完成以下问题:
问题一:对所给数据 进行主成分分析,求出样本相关矩阵
R
及它的特征值和
相应正交单位化特征向量;
问题二:求出前两个标准化样本主成分及其累计贡献率;
问题三:解释问题二中的两个主成分的实际意义;
问题四:求出第一主成分的得分,对各国家和地区进行排序,并与原始数据
进行比较;

二、问题分析
题目中给出的数据较多,需要对数据进行处理,因此对数据作主成分分析
([1])。
问题一:利用Matlab求出样本相关矩阵,计算特征值与相应正交单位化特
征向量;
问题二:基于问题一,写出前两个样本主成分及累计贡献率;
问题三:根据题意,解释两个主成分的实际含义;
问题四:求出第一主成分的得分,与原始数据进行比较;

三、模型假设
1.所给数据均真实有效,具有统计价值;
2.其他径赛项目成绩不计入得分情况。

四、符号说明
符号 符号含义
样本方差
原始变量
样本主成分
样本相关矩阵
样本平均值
特征向量矩阵
12
?
ii

X

Y

R

?
i

P


?

矩阵的特征值
矩阵的特征向量
第一主成分得分
e

D


五、模型建立与求解
5.1样本相关矩阵主成分分析 利用标准化公式对原数据
X?(X
1
,X
2
,X
3,X
4
,X
5
,X
6
,X
7
)
进行标准化处理得
**
到一组新的数据
X
*
?(X
1*
,X
2
,?,X
7
)

即令

X
i
?
?
X
i
?
?
i
?
ii

,i?1,2,?,7
(1)
其中
?
i

x
i
的平均值,
?ii

x
i
的方差。
此时
???????
X
?
?(X
1
,X
2
,X
3
,X
4
,X
5
,X
6
,X
7
)
T
的协方 差矩阵即为
X?(X
1
,X
2
,X
3
,X
4
,X
5
,X
6
,X
7
)
的相关矩阵?
?(
?
ij
)
p?p
其中
?
ij
?E(X
i
?
,Y
j
?
)?
随机变量X?(X
1
三角)
?
1.0000
?
0.9528< br>?
?
0.8347
?
R?
?
0.7277
?
0.7281
?
?
0.7417
?
0.6864
?
1.0000
0.85701.0000
0.72410.8984
0.69 850.7879
0.70990.7776
0.68560.7054
Cov(X< br>i
,X
j
)
?
ii
?
jj
(2)
X
2
X
3
X
4
X
5
X< br>6
X
7
)
T
的相应的相关矩阵为(只写下
?
?
?
?
?
1.0000
?

?
0.901 61.0000
?
0.86300.96911.0000
?
0.77930 .87830.89991.0000
?
?
利用特征值计算公式
?
E ?R?0
代入数据可求得
R
的特征值
?
i
与单位正交化特< br>征向量
e
i
(i?1,2,?,7)
分别为
?
1
?5.8057


13


e
1
?(0.36830.36540.38160.38460.38910.38890.3 670)
T

?
2
?0.6537

e
2
?(0.49020.53650.2465?0.1553?0.3605?0.3474?0.36 93)
T

?
3
?0.2999

e
3< br>?(0.28610.2298?0.5154?0.5846?0.01270.15270.4842 )
T

?
4
?0.1251

e
4
?(0.3191?0.0831?0.3477?0.04130.42790.3648?0.6727)
T

?
5
?0.0538

e
5
?(?0.2312?0.04150.5726?0.6208?0.02930.4623?0.1302)
T

?
6
?0.0392

e
6
?(?0.61920.7097?0.18880.01590.2383?0.0155?0.1416)< br>T

?
7
?0.0226

e
7
? (?0.05980.1166?0.20880.3145?0.69120.5981?0.0694)T

5.2前两个标准化样本主成分
记主成分向量为
Y?(Y
1
,Y
2
,Y
3
,Y
4
,Y
5
.Y
6
,Y
7
)



Y?P
T
X
,
P?(e
1,
e
2
,e
3
,e
4
,e
5
,e
6
,e
7
)

知前两个标准化样本主成分为
Y
1
?0.3683 X
1
?0.3654X
2
?0.3816X
3
?0.384 6X
4
?0.3891X
5
?0.3889X
6
?0.36 70X
7
Y
2
?0.4902X
1
?0.5365X
2
?0.2465X
3
?0.1553X
4
?0.3605X5
?0.3474X
6
?0.3693X
7
其中第一个主成分贡 献率为
?
1
?
1
?
?
?
?
7?
1
?
?
2
?
1
?
?
??
7
?82.94%

前两个主成分累计贡献率为
5.3前两个主成分的意义

?92.28%

14


计算出前两个主成分与各原始变量的相关系数如下表:
表1 前两个主成分与各原始变量的相关系数






Y
1

Y
2






X
1

X
2

0.8874
0.8804
0.9195
0.9267
0.9375
0.9371
0.8843
0.3963
0.4338
0.1993
-0.1256
-0.2915
-0.2809
-0.2986
X
3

X
4

X
5

X
6

X
7

由表可知
Y
1

X
5
X
6
的相关度较高,
Y
2

X
2< br>相关度较高。
实际上,第一个主成分近似于各变量的等权重之和,它反应了各个国家和地区的< br>运动员的优秀程度,其优秀程度由100m、200m、400m、800m、1500m、3000m和
马拉松这7个指标共同决定,
Y
1
值越小,运动员优秀程度越高,则七项指标 的值
也越小;第二个主成分用以度量个国家和地区在各竞赛项目上的相对实力,
Y
2< br>值
越小,相对实力越强,在100m、200m、800m项目上所用时间越少,其国家或地区的相对实力越强。
5.4主成分得分及排序
表2 各个国家第一主成分得分情况表
国家 得分(
D
) 名次
原东德 -3.5060 1
俄罗斯 -3.4648 2
美国 -3.3359 3
捷克斯洛伐克 -3.0537 4
原西德 -2.9258 5
英国 -2.7832 6
波兰 -2.6721 7
加拿大 -2.6081 8
芬兰 -2.1818 9
意大利 -2.1396 10
澳大利亚 -2.0935 11
诺马尼亚 -2.0299 12
法国 -1.8921 13
瑞典 -1.8277 14

15


荷兰 -1.7944 15
新西兰 -1.5112 16
比利时 -1.5099 17
挪威 -1.4831 18
匈牙利 -1.4772 19
奥地利 -1.3803 20
瑞士 -1.3467 21
爱尔兰 -1.1173 22
丹麦 -1.1163 23
中国台北 -0.4999 24
肯尼亚 -0.4308 25
西班牙 -0.3556 26
葡萄牙 -0.2243 27
以色列 -0.1429 28
巴西 -0.1181 29
墨西哥 -0.0628 30
日本 -0.0591 31
哥伦比亚 0.1418 32
百慕大 0.3882 33
朝鲜 0.4624 34
阿根廷 0.5275 35
智利 0.5479 36
中国 0.6414 37
希腊 0.8159 38
印度 1.0147 39
韩国 1.2341 40
卢森堡 1.3019 41
土耳其 1.6084 42
菲律宾 1.6406 43
缅甸 1.6823 44
泰国 1.9536 45
新加坡 1.9704 46
印度尼西亚 2.1127 47
多米尼加共和国 2.2959 48
马来西亚 2.3292 49
哥斯达黎加 2.6196 50
危地马拉 3.2279 51
巴布亚新几内亚 3.9814 52
毛里求斯 4.2344 53
库克岛 6.0778 54
西萨摩亚 8.3341 55
结论:第一个主成分近似于各变量的等权重之和,它反应了各个国家和地区
的运动员的优秀程度,其优秀程度由100m、200m、400m、800m、1500m、3000m
16


和马拉松这7个指标共同决定,第一主成分值越小,运动员优秀程 度越高,则七
项指标的值也越小。

六、模型评价与推广
模型评价:
优点:
(1)对给出的数据进行主成分分析,选择更少的变量反映原始变量,简化模型
的建立;
缺点:
新变量只是反映原变量所提供的绝大部分信息,在实际问题的研究中,采用< br>这种分析方法会使结果出现一定的偏差;
模型推广:
衡量某个国家和地区的径赛成绩 的好坏,因为相应的变量种类繁多,所以可
以采用主成分分析的方法,对所给的数据进行选择来反映原始 数据的大部分信
息;主成分分析法还广泛应用于涉及众多有关变量的领域,如葡萄酒的酿制等。

参考文献
[1]范金城等,数据分析,北京:科学出版社,2002.

17


附录

1.计算相关矩阵程序
x1=[11.61 11.20 11.43 11.41 11.46 11.31 12.14 11.00 12.00 11.95 11.60
12.90 11.96 11.09 11.42 11.79 11.13 11.15 10.81 11.01 11.00 11.79 11.84
11.45 11.95 11.85 11.43 11.45 11.29 11.73 11.73 11.96 12.25 12.03 12.23
11.76 11.89 11.25 11.55 11.58 12.25 11.76 11.13 11.81 11.44 12.30 11.80
11.16 11.45 11.22 11.75 11.98 10.79 11.06 12.74];

x2=[22.94 22.35 23.09 23.04 23.05 23.17 24.47 22.25 24.52 24.41 24.00
27.10 24.60 21.97 23.52 24.05 22.39 22.59 21.71 22.39 22.13 24.08 24.54
23.06 24.28 24.24 23.51 23.57 23.00 24.00 23.88 24.49 25.78 24.96 24.21
25.08 23.62 22.81 23.13 23.31 25.07 23.54 22.21 24.22 23.46 25.00 23.98
22.82 23.31 22.62 24.46 24.44 21.83 22.19 25.85];

x3=[54.50 51.08 50.62 52.00 53.30 52.80 55.00 50.06 54.90 54.97 53.26
60.40 58.25 47.99 53.60 56.05 50.14 51.73 48.16 49.75 50.46 54.94 56.09
51.50 53.60 55.34 53.24 54.90 52.01 53.73 52.70 55.70 51.20 56.10 55.09
58.10 53.76 52.38 51.60 53.12 56.96 54.60 49.29 54.30 51.20 55.08 53.59
51.79 53.11 52.50 55.80 56.45 50.62 49.19 58.73];

x4=[2.15 1.98 1.99 2.00 2.16 2.10 2.18 2.00 2.05 2.08 2.11 2.30 2.21 1.89
2.03 2.24 2.03 2.00 1.93 1.95 1.98 2.07 2.28 2.01 2.10 2.22 2.05 2.10 1.96
2.09 2.00 2.15 1.97 2.07 2.19 2.27 2.04 1.99 2.02 2.03 2.24 2.19 1.95 2.09
1.92 2.12 2.05 2.02 2.02 2.10 2.20 2.15 1.96 1.89 2.33];

x5=[4.43 4.13 4.22 4.14 4.58 4.49 4.45 4.06 4.23 4.33 4.35 4.84 4.68 4.14
4.18 4.74 4.10 4.14 3.96 4.03 4.03 4.35 4.86 4.14 4.32 4.61 4.11 4.25 3.98
4.35 4.15 4.42 4.25 4.38 4.68 4.79 4.25 4.06 4.18 4.01 4.84 4.60 3.99 4.16
3.96 4.52 4.14 4.12 4.07 4.38 4.72 4.37 3.95 3.87 5.81];

x6=[9.79 9.08 9.34 8.88 9.81 9.77 9.51 8.81 9.37 9.31 9.46 11.10 10.43 8.92
8.71 9.89 8.92 8.98 8.75 8.59 8.62 9.87 10.54 8.98 9.98 10.02 8.89 9.37 8.63
9.20 9.20 9.62 9.35 9.64 10.46 10.90 9.59 9.01 8.76 8.53 10.69 10.16 8.97
8.84 8.53 9.94 9.02 8.84 8.77 9.63 10.28 9.38 8.50 8.45 13.04];

x7=[178.52 152.37 159.37 157.85 169.98 168.75 191.02 149.45 171.38
168.48 165.42 233.22 171.80 158.85 151.75 203.88 154.23 155.27 157.68
148.53 149.72 182.20 215.08 156.37 188.03 201.28 149.38 160.48 151.82
150.50 181.05 164.65 179.17 174.68 182.17 261.13 158.58 152.48 145.48
145.48 233.00 200.37 160.82 151.20 165.45 182.77 162.60 154.48 153.42
177.87 168.45 201.08 142.72 151.22 306.00];

x=[x1',x2',x3',x4',x5',x6',x7'];
m=cov(x)
[v,d]=eig(m);
n=corrcoef(x)
[j,k]=eig(n)


18


2.计算各个国家得分程序
x1=[11.61 11.20 11.43 11.41 11.46 11.31 12.14 11.00 12.00 11.95 11.60
12.90 11.96 11.09 11.42 11.79 11.13 11.15 10.81 11.01 11.00 11.79 11.84
11.45 11.95 11.85 11.43 11.45 11.29 11.73 11.73 11.96 12.25 12.03 12.23
11.76 11.89 11.25 11.55 11.58 12.25 11.76 11.13 11.81 11.44 12.30 11.80
11.16 11.45 11.22 11.75 11.98 10.79 11.06 12.74];

x2=[22.94 22.35 23.09 23.04 23.05 23.17 24.47 22.25 24.52 24.41 24.00
27.10 24.60 21.97 23.52 24.05 22.39 22.59 21.71 22.39 22.13 24.08 24.54
23.06 24.28 24.24 23.51 23.57 23.00 24.00 23.88 24.49 25.78 24.96 24.21
25.08 23.62 22.81 23.13 23.31 25.07 23.54 22.21 24.22 23.46 25.00 23.98
22.82 23.31 22.62 24.46 24.44 21.83 22.19 25.85];

x3=[54.50 51.08 50.62 52.00 53.30 52.80 55.00 50.06 54.90 54.97 53.26
60.40 58.25 47.99 53.60 56.05 50.14 51.73 48.16 49.75 50.46 54.94 56.09
51.50 53.60 55.34 53.24 54.90 52.01 53.73 52.70 55.70 51.20 56.10 55.09
58.10 53.76 52.38 51.60 53.12 56.96 54.60 49.29 54.30 51.20 55.08 53.59
51.79 53.11 52.50 55.80 56.45 50.62 49.19 58.73];

x4=[2.15 1.98 1.99 2.00 2.16 2.10 2.18 2.00 2.05 2.08 2.11 2.30 2.21 1.89
2.03 2.24 2.03 2.00 1.93 1.95 1.98 2.07 2.28 2.01 2.10 2.22 2.05 2.10 1.96
2.09 2.00 2.15 1.97 2.07 2.19 2.27 2.04 1.99 2.02 2.03 2.24 2.19 1.95 2.09
1.92 2.12 2.05 2.02 2.02 2.10 2.20 2.15 1.96 1.89 2.33];

x5=[4.43 4.13 4.22 4.14 4.58 4.49 4.45 4.06 4.23 4.33 4.35 4.84 4.68 4.14
4.18 4.74 4.10 4.14 3.96 4.03 4.03 4.35 4.86 4.14 4.32 4.61 4.11 4.25 3.98
4.35 4.15 4.42 4.25 4.38 4.68 4.79 4.25 4.06 4.18 4.01 4.84 4.60 3.99 4.16
3.96 4.52 4.14 4.12 4.07 4.38 4.72 4.37 3.95 3.87 5.81];

x6=[9.79 9.08 9.34 8.88 9.81 9.77 9.51 8.81 9.37 9.31 9.46 11.10 10.43 8.92
8.71 9.89 8.92 8.98 8.75 8.59 8.62 9.87 10.54 8.98 9.98 10.02 8.89 9.37 8.63
9.20 9.20 9.62 9.35 9.64 10.46 10.90 9.59 9.01 8.76 8.53 10.69 10.16 8.97
8.84 8.53 9.94 9.02 8.84 8.77 9.63 10.28 9.38 8.50 8.45 13.04];

x7=[178.52 152.37 159.37 157.85 169.98 168.75 191.02 149.45 171.38
168.48 165.42 233.22 171.80 158.85 151.75 203.88 154.23 155.27 157.68
148.53 149.72 182.20 215.08 156.37 188.03 201.28 149.38 160.48 151.82
150.50 181.05 164.65 179.17 174.68 182.17 261.13 158.58 152.48 145.48
145.48 233.00 200.37 160.82 151.20 165.45 182.77 162.60 154.48 153.42
177.87 168.45 201.08 142.72 151.22 306.00];

d=[x1',x2',x3',x4',x5',x6',x7'];

f=size(d,2)+1;

m=1;

while m
x1=d(:,m);

a=mean(x1);

b=std(x1);

n=length(x1)+1;

c=1;

while c

19


x1(c)=(x1(c)-a)b;

c=c+1;

end

d(:,m)=x1;

m=m+1;

end

x=d;

a=cov(d);

[j,k]=eig(a);

m=[-0.2421 0.2068 0.5463 0.3898 0.4901 0.3237 0.3212]';

defen=d*j(:,7)




20

起立英语-移动英文


巴西利亚-归的拼音


眩晕怎么读-草长莺飞的意思


液冷-mt是什么意思


瞻仰的近义词-火锅英语


tess是什么意思-ticks


春天用英语怎么写-蹿的读音


twa-角逐的拼音



本文更新与2020-10-22 16:21,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/418851.html

主成分分析(修改后)的相关文章