-
数据分析建模简介
观察和实验是科学家探究自
然的主要方法,但如果你有数据,那么如何让
这些数据开口说话呢?数据用现代人的话说
即信息,信息的挖掘与分析也是建
模的一个重要方法。
1
.科学史上最有名的数据分析例子
开普勒三定律
数据来源:
第谷
?
布拉赫
(
1546-1601,
丹麦人)
,
观察力极强的天文学家,
一辈子(
20
年)观察记录了
750
颗行星资料,位置误差不超过
0.67
°。
观测数据可以视为实验模型。
数据处
理:开普勒(
1571-1630
,德国人)
< br>,身体瘦弱、近视又散光,
不适合观天,但有一个非常聪明的数学头脑、坚韧的性
格(甚至有些固执)
和坚强的信念(宇宙是一个和谐的整体)
,
花了
16
年(
1596-1612
p>
)研究第
谷的观测数据,得到了开普勒三定律。
开普勒三定律则为唯象模型。
2
.数据分析法
2.1
思想
采用数理统计方法(如回归分析、聚类分析等)或插值方法或曲线拟合方
法,对已知离
散数据建模。
适用范围:系统的结构性质不大清楚,无法从理
论分析中得到系统的规律,
也不便于类比,但有若干能表征系统规律、描述系统状态的数
据可利用。
2.2
数据分析法
2.2.1
基础知识
(
1
)数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的
形式给出;
(
2
)数据分析(
data
analysis
)是指分析数据的技术和理论;
(
3
)数据分析的目的是把隐没在一大批看来杂乱
无章的数据中的信息集
中、萃取和提炼出来,以找出所研究对象的内在规律;
(
4
)作用:在实用中
,它可帮助人们作判断,以采取适当行动。
(
5
)实际问题所涉及的数据分为:
①
受到随机性影响(随机现象)的数据;
②
不受随机性影响(确定现象)的数据;
③
难以确定性质的数据(如灰色数据)
。
(
6
)数理统计学是一门以收集和分析
随机数据为内容的学科,目的是对数
据所来自的总体作出判断,总体有一定的概率模型,
推断的结论也往往一
概率的形式表达(如产品检验合格率)
。<
/p>
(
7
)探索性
数据分析是在尽量少的先验假定下处理数据,以表格、摘要、
图示等直观的手段,探索数
据的结构及检测对于某种指定模型是否有重大
偏离。它可以作为进一步分析的基础,也可
以对数据作出非正式的解释。
实验者常常据此扩充或修改其实验方案(作图法也该法的重
要方法,如饼
图、直方图、条形图、走势图或插值法、曲线(面)拟合法等)
。
2.2.2
典型的数据分析工作步骤
第一步:探索性数据分析
<
/p>
目的:通过作图、造表、用各种形式的方程拟合、计算某些特征量等
手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐
含在数据中的
规律性。
第二步:模型选定分析
目的:在探索性分析的基础上,提出一类或几类可能的模
型(如进一
步确定拟合多项式(方程)的次数和各项的系数)
。
第三步:推断分析
目的:通常用数理统计或其它方法对所选定的模型或估计的可靠程度
或精确程度
作出推断(如统计学中的假设检验、参数估计、统计推断)
。
3
.建模中的概率统计方法
现实世界存在确定性现象和随机现象,研究随机现象主要由随机数学来承
担,随机数学包括十几个分支,但主要有概率论、数理统计、试验设计、贝叶
斯统计、随
机过程、时间序列分析、马尔可夫决策、可靠性理论等。
3.1
概率统计建模基本思想
面对实际的随机现象,有两类定量方法:
(
1
)方法一:概率统计方法。其思想是从对随机现象的大
量观察中提出相
应的数学模型(即概率空间)
,用随机变量来描
述随机现象,然后再研究这
一数学模型的性质、
特点
(如随机变量及其分布、
随机变量的数字特征等)
,
由此来阐述随机现象的统计规律性。
(
2
)方法二:数理统计方法。其思想是从对随机现象的观测
所得到的资料
出发(在概率论的指导下)研究怎样去有效地收集、整理和分析带有随机<
/p>
性的数据,以对所考察的问题作出推断或预测,直至为采取一定的决策和
< br>行动提供依据和建议。
(
3<
/p>
)概率统计分析方法建模的步骤:
【<
/p>
Step1
】
:模型的选择与建立
即确定总体的分布类型(分布函数或密度函数如二项分布、泊松分<
/p>
布、正态分布、
?
2
、
t
、
F
分布等)
、回归函数等,其方法为绘制频
数直方图。
【
Step2
】
:描述性统计
?
数据的收集(全面观测、抽样观测和安排特定的实验(实验设
计
法、正交实验设计、回归设计、抽样检验)
)
?
数据的整理(数字特征和统计量,如均值、方差等)
【
Step3
】
:统计
推断
据总体模型和由样本描述分析,作出有关总体分布的某种
论断,如
残次品率为正态分布,常用参数估计和假设检验,或用统计软件做
概率值检验。
【
Step
4
】
:统计预测
预测随机变量在未来某个时刻的值,如预测一种产品在未来三年内
市场的销售量,常
用回归。
【
Step5
】
:统计决策
就是依据所
做的统计推断或预测,并考虑到行动的后果(一经济损
失的形式表示)
< br>,而指定的一种行动方案。
【注意】
< br>:
Step4
和
Step5
p>
涉及内容包含:非参数统计、多元统计分析
(相关、方差、聚类、判
别、因子、主成分、多维标度法、多变量的图
表示法、对应分析(列联表对应分析)
p>
)
、序贯分析、时间序列分析和随
机过程统
计等。
(
4
)熟悉几个重要的分布:二项分布、泊松分布、正态分布、
?
2
分布、
t
分布、
F
分布。
在数学软件中包含很多概
率分布,例如在
Matlab
的统计工具箱
(
toolboxstats
)中的概率分布共有
20
多种,有
norm--
正态分布、
chi2--
?
2
p>
分布、
t--t
分布、
f
—
F
分布等。工具箱对每一种分
布都提供
5
类函数,其命令字为:
<
/p>
pdf-
概率密度,
cdf-
概率分布,
inv-
逆概率分布,
stat-
均值与方差,
rnd-
随机数生成(可以通过
help pdf
等查询命令格式)
3.2
建模中的实用概率统计方法
简单地讲,统计的任务就是从样本推断总体。样本是统计研究的主要
对象,对于一次具体的试验,样本是一组数据,但它的取值是随机的,从
概率论的观
点可以把样本当作随机变量,而且当每个个体都是从总体中独
立抽取(即个体被抽取的结
果互不影响)时,样本就是一组相互独立、同
分布的随机变量,当然总体也可以被视为随
机变量,与样本同分布。例如,
学校全体学生的身高为总体,
其
中
100
名学生的身高数据为样本,
1
00
为样
本容量。
< br>在实际问题的数学建模中,
常用的统计方法有数据的统计描述和分析、
统计推断、相关性分析、方差分析、回归分析、因子分析、主成分分析、
聚
类分析和判别分析等。
3.2.1
数据的描述性统计
针对一组杂乱无章
的数据(即样本)
,描述性统计的步骤为:
?
初步整理和直观描述
----
作出频数表和直方图
?
进一步加工,提取有用信息
----
计算统计量
统计量:用来进一步反映数据特征,它是加工出来的,反映样本数据特征
的函数,它不
含任何未知量,大致可以分三类:
?
表示位置的统计量
----
样本均值、
中位数、上下
1
、
4
< br>分位点
?
< br>表示变异程度的统计量
----
标准差、方差、极差
p>
?
表示分布形
状的统计量
----
偏度、峰度
3.2.2
统计推断
统计推断主要有参数估计和假设检验。
?
参数估计:点估计、均值的区间估计和方差的区间估计
?
假设检验:均值检验、方差检验
【例
】
:学校学生的身高构成一个总体,通常认为身高是服从正态分布
,从这群人中随机抽出
n
人,量得身
N
(
?
,
?<
/p>
2
)
的(这就是问题的基本假定)
高为
x
1
,
x
2
,
?
,
x
n
(这就是观测数据)
,它受到随机性的影响。
若要估计这
群人的平均身高,即上述正态分布的均值
?
(这种估计就是一<
/p>
种推断形式,此处估计的对象是总体分布中的未知参数
?
,故又称为参数
估计)
。若感兴趣的问题是“平
均身高是否超过
1.7
米”就需要通过样本检
< br>验关于总体分布的命题“
?
?
1
.7
”是否成立?(这便是假设检验)
3.2.3
相关性分析
在现实问题中,常会遇到没有因果关系的变量
x
与
y
(地位对称)
,比如:
(
1
)一个家庭的月收入
x
与这个家庭的孩子数量
y
;
(
2
)一个人的身高<
/p>
x
与他的体重
y
等。这里
x
与
y
无因果关系,但它们之间却存在着一定的关
系,如(
2
)中,一般来说个子高的人体重也大一些。因此,人们希望了解
这些<
/p>
x
、
y
之间关系
究竟密切到了什么程度?这变需要统计意义下的相关。
相关分析的步骤:
?
建立样本相关系数
?
xy
,这是衡量
x
、
y
之间关系密切程度的指标。
?
xy
?
< br>cov(
x
,
y
)
?
?
(
x
?
x
)(
y
?
y
)
i
i
i
?
1
p>
n
?
i
?
1
n
(
x
i
?
x
)
< br>2
?
?
i
?
1
n
(
y
i
?
y
p>
)
2
?
主要任务:由
x
、
y<
/p>
的一些观测值如
(
x
i
,
y
i
)
估计
?
xy
及检验有关
?
xy
的假
设,
如
H
0
< br>:
?
xy
?
0
(一般地,
当
?
xy
?
0
时,
x
、
y
不相关;
?
xy
?
0(
?
0)
时,
x
、
y
有正(负)相关)
。<
/p>
【例】
:从某大学中随机选择
10
名男生,的观测值如表
3
< br>。
表
3
身高与体重观测值
身高
(x)
1.71
1.63
1.84
1.90
1.58
1.60
1.75
1.78
1.80
1.64
体重
(y)
65
计算相关系数:
?
< br>xy
?
0.91
;
设(
x,y
)服从正态分
布,考虑假设检验问题:
H
0
:
x
与
y
线性不相关,
取
显著水平
?
?
0.01
,查表得
63
70
75
60
55
64
69
65
58
t
n
?
2
(
2
)
?
t
8
p>
(0.005)
?
3.355
,
c
?
?
< br>t
n
?
2
(
?
2
)
n
?
2
?
t
p>
2
?
n
?
2
2
(
)
?
0.765
?
0.91<
/p>
所以拒绝
H
0
,即
x
与
y<
/p>
的线性相关性高度显著,即格子高的人一般体重也
要大些。
3.2.4
方差分析
在试验和实践中,影响试验
或生产的因素往往很多,我们通常需要分析哪
种因素对事情有显著影响,并希望知道起决
定影响的因素在什么时候有着
最有利的影响。
可以分为:单因素多水平方差分析和多因素方差分析。
【参见文件】
:方差分析
.doc
3.2.5
回归分析
回归分析是研究一个或多个随机变量
y
1
,
y
2
,
?
,
y
m
与另一些变量
x
1
,
x
2
,
?
< br>,
x
n
之间的关系的统计方法。
“回归”一词首先被英国生物统计学家高尔顿
(
Galton
)使用。应用回归模型可以进行因果关系分析、预测、优化与控<
/p>
制等多种目的。
回归分析分类:
?
一元回归分析:
< br>m=n=1
;
模型:
y
?
f
(
x
)
?
?
< br>,
?
?
N
(0,
?
2
)
?
多元回归分析:
m=1,n=k>1
;
模
型:
y
?
f
(
x
1
,
x
p>
2
,
?
,
x
k
,
?
1
,
?
2
< br>,
?
,
?
p
)
?
?
,
?
?
N
(0,
?
2
)
?
多重回归分析:
< br>m>1
,
n>1
;
模型:
Y
m
?
1
?
F
< br>(
x
1
,
?
,
x
k
,
?
1
,
?
p>
,
?
p
)
?
?
回归分析的方法与步骤:
?
选定回归函数;
?
对回归函数中的位置参数
?
1
,
?
2
,
?
,
< br>?
p
进行估计(最小二乘方法)
;
?
检验有关参数的假设(假设检验)
;
?
对
?
p>
的影响估计;
?
建立回归方程进行预测和控制。
3.2.6
主成分分析
在实际问题中,经常需要对多个变量同时进行统计分析。变量个数多了,
就
不易看清变量之间的相互关系,会给统计分析带来困难。
主成
分分析的基本思想是:对原来多个变量进行适当的组合,组合成一些
综合指标,用较少的
综合指标来近似代替原来的多个变量。这种由原来多
个变量组合而成的综合指标,成为主
成分。主要目的:降维。
主成分选取的原则:
?
主成分是原变量的线性组合;
?
各个主成分之间互不相关;
?
如果原来有
m
个变量,
则最多可以取到
m
个主成分,
这
m
个主
成分的变
化可以完全反映原来全部
m
个
变量的变化;
如果选取的主成分少于
m
个,
那么这些主成分的变化应该尽可能多地反映原来全部
m
p>
个变量的变化。
3.2.8
聚类分析
【参见文件】
:聚类分析
.doc
。
-
-
-
-
-
-
-
-
-
上一篇:Facebook引流方法和操作技巧
下一篇:怎么利用Facebook做外贸