关键词不能为空

当前您在: 主页 > 数学 >

概率分布和抽样分布

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2020-09-21 11:10
tags:高中数学软件

太原学大教育高中数学老师待遇如何-看高中数学竞赛书好吗

2020年9月21日发(作者:苗侨伟)


Stata软件基本操作和数据分析入门
第三讲 概率分布和抽样分布
赵耐青
概率分布累积函数
1. 标准正态分布累积函数norm(X)
2. t分布右侧累积函数ttail(df,X) ,其中df是自由度
3. ?
2
分布累积函数chi2(df,X) ,其中df是自由度
4. ?
2
分布右侧累积函数chi2tail(df,X) ,其中df是自由度
5. F分布累积函数F(df1,df2,X),df1为分子自由度,df2为分母
自由度
6. F分布右侧累积函数F(df1,df2,X),df1为分子自由度,df2为
分母自由度
累积函数的计算使用
正态分布计算
X服从N(0,1),计算概率P(X<1.96)
. display norm(1.96)
.9750021 即概率P(X<1.96)=0.9750021
display 可简写为 di,如: di norm(1.96),同样可以得到上述结果。
X服从N(0,1),计算概率 P(X>1.96),则
. di 1- norm(1.96)
.0249979 即概率P(X>1.96)=0.0249979
X服从N(?,?
2
),则
Y?
X?
?
?
~N(0,1)
,因此对其他正态分布只要在函


数括号中插入一个上述表达式就 可以得到相应概率。
例如:X服从N(100,6
2
),计算概率P(X<111.76),则操作如下
. di norm((111.76-100)6)
.9750021 即:概率P(X<111.76)=0.9750021
又如X服从N(100,6
2
),计算概率P(X>90),操作如下
. di 1-norm((90-100)6)
.95220965
?
2
分布累积概率计算
设X服从自由度为1的?
2
分布,计算概率P(X>3.84),则操作如下
. di 1-chi2(1,3.84)
.05004353 概率P(X>3.84)=0.05004353
设X服从自由度为3的?
2
分布,计算概率P(X<5),则操作如下
. di chi2(3,5)
.82820288 概率P(X<5)=0.82820288
?
2
分布右侧累积概率计算
设X服从自由度为1的?
2
分布,计算概率P(X>3.84),则操作如下
. di chi2tail(1,3.84)
.05004353 概率P(X>3.84)=0.05004353
设X服从自由度为3的?
2
分布,计算概率P(X<5),则操作如下
.di chi2(3,5)
.82820288 概率P(X<5)=0.82820288




t分布右侧累积概率计算
设t服从自由度为10的t分布,计算概率P(t>2.2),操作如下
. di ttail(10,2.2)
.02622053 概率P(t>2.2)=0.02622053 (注意:这是右累积函数)
设t服从自由度为10的t分布,计算概率P(t<-2),操作如下
. di 1-ttail(10,-2)
.03669402 概率P(t<-2)=0.03669402
F分布累积概率计算
设F服从F(3,27),计算概率P(F<1),操作如下:
. di F(3,27,1)
注意这里的函数是大写F,stata软件中是区分大小写的
.59208514 概率P(F<1)=0.59208514
设F服从F(4,40),计算概率P(F>3),操作如下:
. di 1-F(4,40,3)
.02954694 概率P(F>3)=0 .02954694
F分布右侧累积概率计算
设F服从F(3,27),计算概率P(F<1),操作如下:
. di 1-Ftail(3,27,1)
注意这里的函数是大写F,stata软件中是区分大小写的
.59208514 概率P(F<1)=0.59208514
设F服从F(4,40),计算概率P(F>3),操作如下:
. di Ftail(4,40,3)


.02954694 概率P(F>3)=0 .02954694

概率分布的临界值计算
正态分布的临界值计算函数invnorm(P)
例如:双侧U
0.05
(即:左侧累积概率为0.975),操作如下
. di invnorm(0.975)
1.959964 即U
0.05
=1.959964


t分布的临界值计算函数invchi2tail(df,P)
例如计算自由度为28的右侧 累积概率为0.025的临界值t
28

?
,操作
如下
. di invttail(28,0.025)
2.0484071 临界值t
28

?
=2.0484071

?
2
分布的临界值计算函数invchi2(df,P) 或invchi2tail(df,P)
例如:计算自由度为1的?
2
右侧累积概率 为0.05的临界值?
2
0.05
,操
作如下:
. di invchi2(1,0.95)
3.8414591 临界值?
2
0.05
=3.8414591
或者操作如下:
. di invchi2tail(1,0.05)


3.8414591 临界值?
2
0.05
=3.8414591
F分布的临界值计算函数invF(df1,df2,P) 或invF(df1,df2,P)
例如计算分子自由度为3和分母自由度27的右侧累积概率为0.05的
临界值,操作如下:
. di invF(3,27,0.95)
2.9603513 临界值F
0.05
(3,27)= 2.9603513
或者操作为:
. di invFtail(3,27,0.05)
2.9603513 临界值F
0.05
(3,27)= 2.9603513

产生随机数 < br>计算机所产生的随机数是通过一串很长的序列数模拟随机数,故
称为伪随机数,在实际应用这些随 机数时,这些随机数一般都能具有
真实随机数的所有概率性质和统计性质,因此可以产生许许多多的序< br>列伪随机数,一个序列的第一个随机数对应一个数,这个数称为种子
数(seed),因此可以利 用种子数,使随机数重复实现。
设置种子数的命令为set seed 数。每次设置同一种子数,则产生
的随机序列是相同的。
产生(0,1)区间上的均匀分布的随机数 uniform()
例如产生种子数为100的20个在(0,1)区间上的均匀分布的随机
数,则操作如下:
clear 清除内存


set seed 100 设置种子数为100
set obs 20 设置样本量为 20
gen r=uniform() 产生20个在(0,1)区间上均匀分布的随机数。
list 显示这些随机数
结果如下
r
1. .7185296
2. .1646728
3. .9258041
4. .1833736
5. .0067327
6. .7413361
7. .3599943
8. .1634543
9. .445553
10. .6489049
11. .3799431
12. .5964895
13. .0251346
14. .2164402
15. .6848479
16. .1270018
17. .6466258
18. .1869288
19. .4522384
20. .067132
利用均匀分布随机数进行随机分组:
例:某实验要把20只大鼠随机分为2组,每组10只,请制定随
机分组方案和措施。
第一步、把20只大鼠编号,1,2,3,4,5,6,7,8,9,10,
11,12,13,14 ,15,16,17,18,19,20。并且标明。
第二步、用Stata软件制定随机分组方案,操作如下:


clear
set seed 200
set obs 20
range no 1 20
gen r=uniform()
gen group=1
sort r
replace group=2 in 1120
清除内存
设置种子数为200
设置样本量为20
建立编号1至20
产生在(0,1)均匀分布的随机数
设置分组变量group的初始值为1
对随机数从小到大排序
设置最大的10个随机数所对应的记录
为第2组,即:最小的 10个随机数所
对应的记录为第1组
sort no
list
结果如下:
按照编号排序
显示随机分组的结果
no r group
1. 1 .9512007 2
2. 2 .5249876 2
3. 3 .5129986 1
4. 4 .126439 1
5. 5 .5866161 2
6. 6 .7059209 2
7. 7 .2633286 1
8. 8 .5644688 2
9. 9 .1171033 1
10. 10 .954065 2
11. 11 .4822863 1
12. 12 .3347736 1
13. 13 .5678902 2
14. 14 .7994431 2
15. 15 .1180503 1
16. 16 .9834299 2
17. 17 .2807874 1
18. 18 .095245 1
19. 19 .9446051 2
20. 20 .3467524 1


随机分组整理如下

编号

编号
< br>产生服从正态分布N(?,?
2
)的随机数invnorm(uniform())*? +?。
例如产生10个服从正态分布N(100,6
2
)的随机数,操作如下:
clear
set seed 200
set obs 10
gen x=invnorm(uniform())*6+100
list
结果如下:
x
1. 109.9397
2. 100.3761
3. 100.1955
4. 93.13968
5. 101.3131
6. 103.249
7. 96.2013
8. 100.9739
9. 92.86244
10. 110.1137
第一组
3 4 7 9 11 12 15 17 18 20
第二组
1 2 5 6 8 10 13 14 16 19
清除内存
设置种子数为200
设置样本量为10
产生服从N(100,6
2
)的随机数
显示随机数

教学应用:考察样本均数的分布。
由于个体变异的原因,样本均数
X
的抽样 误差(其定义为样本均数


与总体均数的差值)是不可避免的,并且样本均数的抽样误差是 呈随
机变化的。对于一次抽样而言,无法考察样本均数的抽样误差的规律
性,但当大量地重复抽 样,计算每次抽样的样本均数
X
,考察样本均

X
的随机分布规律性 和统计特征。举例如下:
利用计算机模拟产生100000个服从正态分布N(100,6
2
)的样本,
样本量分别为n=4,n=9,n=16,n=36,每个样本计算样本均数。这< br>里关键处是要清楚什么是样本量(每次抽样所观察的对象个数,也就
是每个样本的个体数n)、什 么是样本个数(指抽样的次数),现以n=4
为例,一条记录存放一个样本,样本量n=4,也就是每个 样本的第1
个数据放在第1列,第2个数据放在第2列,第3个数据放在第3
列,第4个数据放 在第4列,因此第1行是第一个样本,第2行是第
2个样本,第100000行是第100000个样本 ,计算样本均数放在第5
列,因此共有100000个样本均数。具体操作如下:
clear
set memory 60m
set obs 100000
set seed 200
gen x1=invnorm(uniform())*6+100
gen x2=invnorm(uniform())*6+100
gen x3=invnorm(uniform())*6+100
gen x4=invnorm(uniform())*6+100
gen mean=(x1+x2+x3+x4)4
清除内存
扩大虚拟内存为60M
设置记录数为100000
设置种子数为200
产生第1个随机数据
产生第2个随机数据
产生第3个随机数据
产生第4个随机数据
计算平均数,并且存放在变量名为
mean


su mean
结果
以样本均数为数据,计算其平均值和
标准差
Variable | Obs Mean Std. Dev. Min Max
-------------+----------------- ------------------------------------
mean | 100000 99.98388 3.002225 87.97424 112.0461

现共有100000个样本,每个样本计算一个样本均数,因此有1000 00
个样本均数,现在把一个样本均数
X
视为一个数据,把100000个样
本均数视为一个样本量为100000的新样本(这个样本里有100000个
X
),计算这1 00000个
X
的平均值和标准差:得到:
这100000个
X
的平均值=99.98388非常接近总体均数?=100 这100000个
X
的标准差=3.002225
?
?
n
?
6
?3
(理论上可以证明样
4
本均数的总体均数与样本所在的总 体的总体均数相同,样本均数的标
准差=
样本所在总体的总体标准差
)
n
再考察这100000个
X
的频数图
graph mean,bin(50) xlabel ylabel norm


.06
.04
F
r
a
c
t
i
o
n
.02
0
90100
mean
110

可以发现正态分布的样本均 数仍呈正态分布,峰的位置在?=100。
再考察这100000个
X
的百分位数
-- Binom. Interp. --
Variable | Obs Percentile Centile [95% Conf. Interval]
-------------+---------------------- ---------------------------------------
mean | 100000 2.5 94.11224 94.05934 94.15675
| 5 95.04831 95.00758 95.08677
| 50 99.97672 99.95568 100.0002
| 95 104.9248 104.8881 104.9571
| 97.5 105.8656 105.8161 105.9181

比较理论上的百分位数
百分位数 Stata操作 理论百分位数 模拟百分位数
di 100+invnorm(0.025)*3 94.120108 94.11224
P
2.5
P
5
P
50
P
95
P
97.5
di 100+invnorm(0.05)*3
di 100+invnorm(0.5)*3
di 100+invnorm(0.95)*3
di 100+invnorm(0.975)*3
95.065439
100
104.93456
105.87989
95.04831
99.97672
104.9248
105.8656
可以发现理论上 的百分位数与模拟数据的百分位数非常接近。可以证
明:样本量越大,这种
X
的误差小 的可能性越大。
由于在实际研究中,只有一个样本,因此只有一个样本均数,无法如

< br>模拟数据一样计算样本均数的标准差,但是一个样本的数据可以计算
样本的标准差S近似?,利用 样本均数的标准差
?
X
?
估计得到样本均数的标准差估计为
S
X
?
和样本均数的标准差,故称
S
X
?
?
n关系,间接
S
,为了区分样本的标准差
n
S
为标准误。
n
为了帮助大家方便地进行模拟实习,特地编制的相应的stata模拟程
序:模拟正态分布 的样本均数分布的模拟程序复制到
stata软件安装的目录下的子目录adobase。例如:sta ta软件安装在
D:stata,则 复制到 d:stataadobase
然后启动stata软件后,输入连接命令:net set ado d:stataadobase
若stata安装在其他目录下,则相应改变上述路径便是(这是一次性操
作,以后无需再重复 进行)。这是模拟抽10000个正态分布的样本,
具体说明如下:
举例说明
simumean 样本量 均数 标准差
例如模拟抽10000个正态分布的样本,样 本量为4、总体均数是20、
标准差为6,则操作如下:
simumean 4 20 6
得到下列结果(随机的)

Variable | Obs Mean Std. Dev. Min Max
-------- -----+-------------------------------------------- ---------
mean | 10000 19.99352 2.990616 8.344506 31.40937
ssd | 10000 5.511469 2.346368 .258496 15.51934
即10000个样本均数(视为一个新的样本数据)的平均值为
19.99352?总


体均数20,
10000个样本均数的标准差=
2.990616
?< br>6总体标准差
??3


4n
变量 样本量 % 百分位数
-- Binom. Interp. --
Variable | Obs Percentile Centile [95% Conf. Interval]
-------------+---------------------- ---------------------------------------
mean | 10000 2.5 14.19629 14.01392 14.31436
| 5 15.08899 14.96281 15.2017
| 50 19.96537 19.88963 20.03251
| 95 24.91111 24.78268 25.05202
| 97.5 25.92742 25.75092 26.05995

理论上,样本均数
X
的95%范围是??1.96?
=20?1.96×3=(14.12,25.88)
n
比较10000个样本均数的95%百分位数=(14.196,25.927)
模拟习题
1)运行正态分布的样本均数模拟程序,考察不同样本
量情况下,
X
的标准差与
样本量n
总体均数?
总体标准差?
?
的差异,95%范围的比较。

n
9
100
6








16
100
6




25
100
6




36
100
6




49
100
6
X
的标准差
?

n
?
??1.96
n
P
2.5
-P
97.5

考察频数图的变化
graph 变量名,xlabel bin(40)
考察原始资料:graph x1,xlabel bin(40)
考察样本均数(变量名为mean) graph mean,xlabel bin(40)
考察:原始资料和样本均数的峰的位置,离散程度。
考察非正态分布情况下,样本均数
可以运行下列程序


双峰分布的样本均数分布程序:
自由度为1的?
2
分布的样本均数模拟程序
把上述程序复制到 路径:stataadobase
连接:net set ado 路径:stataadobase
操作: 样本量
样本量
考察原始资料的分布和样本均数的分布变化,
原始资料所在总体分布的频数图:graph x1,bin(40) xlabel
样本均数的抽样分布的频数图:graph meanx ,bin(40) xlabel
考察原始资料x1,x2的标准差和样本均数meanx的标准差
样本量n
9 16 25 36 100
考察不同样本量对样本均数分布的影响。
可以证明:样本量较大时,样本均数的分布趋向于正态分布(称为中
心极限定理),并且样本均 数的总体均数(理论均数)仍与样本所在总体
相同,样本均数的总体标准差(标准误)=


样本所在总体的总体标准差
?

n

高中数学函数求值域的典型方法-万门大学高中数学必修1


高中数学选修b版下载-2018年高中数学竞赛初赛试题


高中数学知识清单和知识大全哪个好-珠海市高中数学教师解题比赛


高中数学老师的读书计划-高中数学青年教师指导记录表


高中数学高考概率题及解析-高中数学评价标准体系


高中数学易错-湖南高中数学竞赛牛校


高中数学人教版选修2-3答案-高中数学选修2课本答案


高中数学作业设计比赛-高中数学数形结合题ppt



本文更新与2020-09-21 11:10,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/406882.html

概率分布和抽样分布的相关文章

  • 爱心与尊严的高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊严高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊重的作文题库

    1.作文关爱与尊重议论文 如果说没有爱就没有教育的话,那么离开了尊重同样也谈不上教育。 因为每一位孩子都渴望得到他人的尊重,尤其是教师的尊重。可是在现实生活中,不时会有

    小学作文
  • 爱心责任100字作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任心的作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文