关键词不能为空

当前您在: 主页 > 英语 >

数据分析建模简介

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-28 08:51
tags:

-

2021年2月28日发(作者:cult)


数据分析建模简介



观察和实验是科学家探究自 然的主要方法,但如果你有数据,那么如何让


这些数据开口说话呢?数据用现代人的话说 即信息,信息的挖掘与分析也是建


模的一个重要方法。




1


.科学史上最有名的数据分析例子



开普勒三定律



数据来源:

< p>
第谷


?


布拉赫



1546-1601,


丹麦人)



观察力极强的天文学家,


一辈子(


20


年)观察记录了


750


颗行星资料,位置误差不超过


0.67


°。



观测数据可以视为实验模型。



数据处 理:开普勒(


1571-1630


,德国人)

< br>,身体瘦弱、近视又散光,


不适合观天,但有一个非常聪明的数学头脑、坚韧的性 格(甚至有些固执)


和坚强的信念(宇宙是一个和谐的整体)


, 花了


16


年(


1596-1612


)研究第


谷的观测数据,得到了开普勒三定律。


开普勒三定律则为唯象模型。



2


.数据分析法



2.1


思想



采用数理统计方法(如回归分析、聚类分析等)或插值方法或曲线拟合方


法,对已知离 散数据建模。



适用范围:系统的结构性质不大清楚,无法从理 论分析中得到系统的规律,


也不便于类比,但有若干能表征系统规律、描述系统状态的数 据可利用。



2.2


数据分析法



2.2.1


基础知识




1


)数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的


形式给出;




2

< p>
)数据分析(


data analysis


)是指分析数据的技术和理论;


< p>


3


)数据分析的目的是把隐没在一大批看来杂乱 无章的数据中的信息集


中、萃取和提炼出来,以找出所研究对象的内在规律;

< p>



4


)作用:在实用中 ,它可帮助人们作判断,以采取适当行动。




5


)实际问题所涉及的数据分为:





受到随机性影响(随机现象)的数据;





不受随机性影响(确定现象)的数据;





难以确定性质的数据(如灰色数据)





6


)数理统计学是一门以收集和分析 随机数据为内容的学科,目的是对数


据所来自的总体作出判断,总体有一定的概率模型, 推断的结论也往往一


概率的形式表达(如产品检验合格率)


。< /p>




7


)探索性 数据分析是在尽量少的先验假定下处理数据,以表格、摘要、


图示等直观的手段,探索数 据的结构及检测对于某种指定模型是否有重大


偏离。它可以作为进一步分析的基础,也可 以对数据作出非正式的解释。


实验者常常据此扩充或修改其实验方案(作图法也该法的重 要方法,如饼


图、直方图、条形图、走势图或插值法、曲线(面)拟合法等)

< p>




2.2.2


典型的数据分析工作步骤




第一步:探索性数据分析



< /p>


目的:通过作图、造表、用各种形式的方程拟合、计算某些特征量等


手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐


含在数据中的 规律性。



第二步:模型选定分析




目的:在探索性分析的基础上,提出一类或几类可能的模 型(如进一


步确定拟合多项式(方程)的次数和各项的系数)




第三步:推断分析



目的:通常用数理统计或其它方法对所选定的模型或估计的可靠程度


或精确程度 作出推断(如统计学中的假设检验、参数估计、统计推断)




3


.建模中的概率统计方法



现实世界存在确定性现象和随机现象,研究随机现象主要由随机数学来承


担,随机数学包括十几个分支,但主要有概率论、数理统计、试验设计、贝叶


斯统计、随 机过程、时间序列分析、马尔可夫决策、可靠性理论等。



3.1


概率统计建模基本思想



面对实际的随机现象,有两类定量方法:



1


)方法一:概率统计方法。其思想是从对随机现象的大 量观察中提出相


应的数学模型(即概率空间)


,用随机变量来描 述随机现象,然后再研究这


一数学模型的性质、


特点

< p>
(如随机变量及其分布、


随机变量的数字特征等)



由此来阐述随机现象的统计规律性。




2


)方法二:数理统计方法。其思想是从对随机现象的观测 所得到的资料


出发(在概率论的指导下)研究怎样去有效地收集、整理和分析带有随机< /p>


性的数据,以对所考察的问题作出推断或预测,直至为采取一定的决策和

< br>行动提供依据和建议。




3< /p>


)概率统计分析方法建模的步骤:



【< /p>


Step1



:模型的选择与建立



即确定总体的分布类型(分布函数或密度函数如二项分布、泊松分< /p>


布、正态分布、


?


2


t



F


分布等)


、回归函数等,其方法为绘制频


数直方图。

< p>



Step2



:描述性统计



?



数据的收集(全面观测、抽样观测和安排特定的实验(实验设


计 法、正交实验设计、回归设计、抽样检验)




?



数据的整理(数字特征和统计量,如均值、方差等)




Step3



:统计 推断



据总体模型和由样本描述分析,作出有关总体分布的某种 论断,如


残次品率为正态分布,常用参数估计和假设检验,或用统计软件做


概率值检验。




Step 4



:统计预测


预测随机变量在未来某个时刻的值,如预测一种产品在未来三年内


市场的销售量,常 用回归。




Step5



:统计决策



就是依据所 做的统计推断或预测,并考虑到行动的后果(一经济损


失的形式表示)

< br>,而指定的一种行动方案。



【注意】

< br>:


Step4



Step5


涉及内容包含:非参数统计、多元统计分析


(相关、方差、聚类、判 别、因子、主成分、多维标度法、多变量的图


表示法、对应分析(列联表对应分析)



、序贯分析、时间序列分析和随


机过程统 计等。




4


)熟悉几个重要的分布:二项分布、泊松分布、正态分布、


?


2


分布、


t


分布、


F


分布。



在数学软件中包含很多概 率分布,例如在


Matlab


的统计工具箱


toolboxstats


)中的概率分布共有


20


多种,有


norm--

正态分布、


chi2--


?


2


分布、


t--t


分布、

f



F


分布等。工具箱对每一种分 布都提供


5


类函数,其命令字为:


< /p>


pdf-


概率密度,


cdf-

< p>
概率分布,


inv-


逆概率分布,


stat-


均值与方差,


rnd-

随机数生成(可以通过


help pdf


等查询命令格式)




3.2


建模中的实用概率统计方法



简单地讲,统计的任务就是从样本推断总体。样本是统计研究的主要

对象,对于一次具体的试验,样本是一组数据,但它的取值是随机的,从


概率论的观 点可以把样本当作随机变量,而且当每个个体都是从总体中独


立抽取(即个体被抽取的结 果互不影响)时,样本就是一组相互独立、同


分布的随机变量,当然总体也可以被视为随 机变量,与样本同分布。例如,


学校全体学生的身高为总体,


其 中


100


名学生的身高数据为样本,


1 00


为样


本容量。


< br>在实际问题的数学建模中,


常用的统计方法有数据的统计描述和分析、

< p>
统计推断、相关性分析、方差分析、回归分析、因子分析、主成分分析、


聚 类分析和判别分析等。



3.2.1


数据的描述性统计



针对一组杂乱无章 的数据(即样本)


,描述性统计的步骤为:



?



初步整理和直观描述


----


作出频数表和直方图



?



进一步加工,提取有用信息


----


计算统计量



统计量:用来进一步反映数据特征,它是加工出来的,反映样本数据特征


的函数,它不 含任何未知量,大致可以分三类:



?



表示位置的统计量


----


样本均值、 中位数、上下


1



4

< br>分位点



?


< br>表示变异程度的统计量


----


标准差、方差、极差



?



表示分布形 状的统计量


----


偏度、峰度



3.2.2


统计推断



统计推断主要有参数估计和假设检验。



?



参数估计:点估计、均值的区间估计和方差的区间估计



?



假设检验:均值检验、方差检验



【例 】


:学校学生的身高构成一个总体,通常认为身高是服从正态分布


,从这群人中随机抽出


n


人,量得身


N


(


?


,


?< /p>


2


)


的(这就是问题的基本假定)


高为


x


1


,


x


2


,


?


,


x


n


(这就是观测数据)


,它受到随机性的影响。



若要估计这 群人的平均身高,即上述正态分布的均值


?


(这种估计就是一< /p>


种推断形式,此处估计的对象是总体分布中的未知参数


?


,故又称为参数


估计)


。若感兴趣的问题是“平 均身高是否超过


1.7


米”就需要通过样本检

< br>验关于总体分布的命题“


?


?


1 .7


”是否成立?(这便是假设检验)



3.2.3


相关性分析


< p>
在现实问题中,常会遇到没有因果关系的变量


x



y


(地位对称)


,比如:




1


)一个家庭的月收入


x


与这个家庭的孩子数量


y

< p>



2


)一个人的身高< /p>


x


与他的体重


y


等。这里


x



y


无因果关系,但它们之间却存在着一定的关


系,如(


2


)中,一般来说个子高的人体重也大一些。因此,人们希望了解


这些< /p>


x



y


之间关系 究竟密切到了什么程度?这变需要统计意义下的相关。



相关分析的步骤:



?



建立样本相关系数


?


xy


,这是衡量


x



y


之间关系密切程度的指标。



?


xy


?

< br>cov(


x


,


y


)


?


?


(

x


?


x


)(


y


?


y


)


i


i


i


?


1


n


?


i


?


1


n


(


x


i


?


x


)

< br>2


?


?


i


?


1


n



(


y


i


?


y


)


2


?



主要任务:由


x



y< /p>


的一些观测值如


(


x

i


,


y


i


)


估计


?


xy


及检验有关


?


xy


的假


设,



H


0

< br>:


?


xy


?

0


(一般地,



?


xy


?


0


时,


x



y


不相关;


?


xy


?


0(


?


0)


时,


x



y


有正(负)相关)


。< /p>



【例】


:从某大学中随机选择


10


名男生,的观测值如表


3

< br>。




3


身高与体重观测值



身高


(x)


1.71


1.63


1.84


1.90


1.58


1.60


1.75


1.78


1.80


1.64


体重


(y)


65



计算相关系数:


?

< br>xy


?


0.91




设(


x,y


)服从正态分 布,考虑假设检验问题:


H


0



x



y


线性不相关, 取


显著水平


?


?


0.01


,查表得



63


70


75


60


55


64


69


65


58


t


n


?


2


(


2


)


?


t


8


(0.005)


?


3.355


,


c


?


?

< br>t


n


?


2


(


?


2


)


n


?


2


?


t


2


?


n


?


2


2


(


)


?


0.765


?


0.91< /p>



所以拒绝


H


0


,即


x



y< /p>


的线性相关性高度显著,即格子高的人一般体重也


要大些。




3.2.4


方差分析



在试验和实践中,影响试验 或生产的因素往往很多,我们通常需要分析哪


种因素对事情有显著影响,并希望知道起决 定影响的因素在什么时候有着


最有利的影响。



可以分为:单因素多水平方差分析和多因素方差分析。



【参见文件】


:方差分析


.doc


3.2.5


回归分析



回归分析是研究一个或多个随机变量


y


1

< p>
,


y


2


,


?


,


y


m

与另一些变量


x


1


,


x


2


,


?

< br>,


x


n


之间的关系的统计方法。


“回归”一词首先被英国生物统计学家高尔顿



Galton


)使用。应用回归模型可以进行因果关系分析、预测、优化与控< /p>


制等多种目的。



回归分析分类:



?



一元回归分析:

< br>m=n=1




模型:


y


?


f


(


x


)


?


?

< br>,


?


?


N


(0,


?


2


)



?



多元回归分析:


m=1,n=k>1




模 型:


y


?


f


(


x


1


,


x


2


,


?


,


x


k


,


?


1


,


?


2

< br>,


?


,


?


p


)


?


?


,


?


?


N


(0,


?


2


)



?



多重回归分析:

< br>m>1



n>1




模型:


Y


m


?


1


?


F

< br>(


x


1


,


?


,


x


k


,


?


1


,


?


,


?


p


)


?


?



回归分析的方法与步骤:



?



选定回归函数;



?



对回归函数中的位置参数


?


1


,


?


2


,


?


,

< br>?


p


进行估计(最小二乘方法)




?



检验有关参数的假设(假设检验)




?




?


的影响估计;



?



建立回归方程进行预测和控制。




3.2.6


主成分分析


< p>
在实际问题中,经常需要对多个变量同时进行统计分析。变量个数多了,


就 不易看清变量之间的相互关系,会给统计分析带来困难。



主成 分分析的基本思想是:对原来多个变量进行适当的组合,组合成一些


综合指标,用较少的 综合指标来近似代替原来的多个变量。这种由原来多


个变量组合而成的综合指标,成为主 成分。主要目的:降维。



主成分选取的原则:



?



主成分是原变量的线性组合;



?



各个主成分之间互不相关;



?



如果原来有


m


个变量,


则最多可以取到


m


个主成分,



m


个主 成分的变


化可以完全反映原来全部


m


个 变量的变化;


如果选取的主成分少于


m


个,


那么这些主成分的变化应该尽可能多地反映原来全部


m


个变量的变化。



3.2.8


聚类分析



【参见文件】


:聚类分析


.doc




-


-


-


-


-


-


-


-



本文更新与2021-02-28 08:51,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/680006.html

数据分析建模简介的相关文章