高中数学平均数-高中数学社团活动计划和内容
在散点图中样本点大致分
布在一条直线附近,则利用线性回归模型进行研究,可近
^^^^^
似地利用回归直线方程y=
bx+a来预报,利用公式求出回归系数a,b,即可写出回归直线方
程,并用回归直线方程进行预测说
明.
[典例1] 以下是某地收集到的新房屋的销售价格y和房屋的面积x的数据:
房屋面积xm
2
销售价格y万元
(1)画出数据对应的散点图;
(2)若线性相关,求线性回归方程;
(3)根据(2)的结果估计当房屋面积为150
m
2
时的销售价格.
解:(1)数据对应的散点图如图所示.
115
24.8
110
21.6
80
18.4
135
29.2
105
22
(2)由散点图知y与x具有线性相关关系.
1
5
由表中数
据知x=
?
x
i
=109,
5
i
=
1<
br>55
1
5
2
y=
?
y
i
=23.2
,
?
x
i
=60
975,
?
x
i
y
i
=12 952.
5
i
=
1i
=
1i
=
1
^^^
设所求回归
直线方程为y=bx+a,
--
?
x
i
y
i
-5
xy
5
^
则b=
i
=
1
i
=
1<
br>?
x
2
i
-5x
5
^^-
≈0.196
2,a=y-bx≈1.814 2,
2
^
故所求回归直线方程为y=0.196
2x+1.814 2.
^
(3)根据(2),当x=150时,销售价格的估计值为y=0
.1962×150+1.814 2=31.244 2(万
元).
[对点训练]
1.随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存
款(年底余额)
如下表:
年份
时间代号t
储蓄存款y(千亿元)
2010
1
5
2011
2
6
2012
3
7
2013
4
8
2014
5
10
^^^
(1)求y关于t的回归方程y=bt+a;
(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.
^^^^
附:回归方程y=bt+a中,b=
i
=
1
?
t
i
y
i
-n t y
-
2
?
t
2
i
-nt
n
n
^^
,a=y-b t.
i
=
1
解:(1)列表计算如下:
i
1
2
3
4
5
∑
t
i
1
2
3
4
5
15
y
i
5
6
7
8
10
36
t
2
i
1
4
9
16
25
55
t
i
y
i
5
12
21
32
50
120
1n
151
n
36
这里n=5,t=
?
t
i==3,y=
?
y
i
==7.2,
n
i
=<
br>1
5n
i
=
1
5
-
22
又l
tt
=
?
t
2
i
-nt=55-5×3=10,
i
=
1
n
l
ty
=
?
t
iy
i
-n t y=120-5×3×7.2=12,
i
=
1
n
^
l
ty
12
^^
从而b===1.2,a=y
-b t=7.2-1.2×3=3.6,
l
tt
10
^
故所求回归方程为y=1.2t+3.6.
^
(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为y=1.2×6+3.6=
10.8(千亿元).
对于建立的回归模型,我们必须对模型的拟合效果进行分析
,也就是对利用回归模型解
决实际问题的效果进行评价.一方面可以对比残差或残差平方和的大小,同时
观察残差图,
进行残差分析;另一方面也可以研究数据的R
2
(相关系数r).对模型
拟合效果的分析能够帮
助我们利用最优化的模型来解决实际问题.
[典例2] 在研究弹簧伸
长长度y(cm)与拉力x(N)的关系时,对不同拉力的6根弹簧进
行测量,测得如下表中的数据:
xN
ycm
5
7.25
10
8.12
15
8.95
20
9.90
25
10.9
30
11.8
^
若依据散点图及最小二乘法求出的回归直线方程为y=0
.18x+6.34,求R
2
,并结合残差
说明拟合效果.
解:列表求值如下:
x
i
y
i
x
i
y
i
x
2
i
^
y
i
-y
i
y
i
-y
x=17.5,y
=14.678 4.
5
7.25
36.25
25
0.01
-2.24
10
8.12
81.2
100
-0.02
-1.37
15
8.95
134.25
225
-0.09
-0.54
20
9.90
198
400
-0.04
0.41
25
10.9
272.5
625
0.06
1.41
30
11.8
354
900
0.06
2.31
6
2
≈9.49,x
i
y
i
=1
076.2,x
i
=2 275,
i
=
1i
=
1
i
=
1
?
6
?
66
^
2
?
(y
i
-y
i
)=0.017 4,
?
(y
i
-y)
2
i
=
1
0.017
4
∴R
2
=1-≈0.998
81,回归模型拟合效果较好.由表中数据可以看出残差比较
14.678 4
均匀地落在宽度
不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较
高.
[对点训练]
2.从某大学中随机选取5名女大学生,其身高和体重数据如下表所示:
编号
身高xcm
体重ykg
1
165
48
2
165
57
3
157
50
4
170
54
5
175
64
甲、乙两位同学在计算
根据女大学生的身高预报体重的回归方程时,分别得到以下回归
^^
模型:甲:y=0.75x
-70;乙:y=0.76x-71.试依据R
2
判定哪一个模型的拟合效果较好?
^
解:对甲模型,y
i
-y
i
与y
i
-y的值如下
表:
^
y
i
-y
i
y
i
-y
-5.75
-6.6
3.25
2.4
2.25
-4.6
-3.5
-0.6
2.75
9.4
5
^
所以
?
(y
i
-y
i
)
2
=(-5.75)
2
+3.25
2
+2.25
2
+(-3.5)
2
+2.75
2
=68.5,
i
=
1
i
=
1
?
(y<
br>i
-y)
2
=(-6.6)
2
+2.4
2
+
(-4.6)
2
+(-0.6)
2
+9.4
2
=159.2
.此时R
2
=1-
159.2
≈0.57.
5
68.5<
br>^
对乙模型,y
i
-y
i
与y
i
-y的值如
下表:
^
y
i
-y
i
y
i
-y
5
-6.4
-6.6
2.6
2.4
1.68
-4.6
-4.2
-0.6
2
9.4
^
所以
?
(y
i
-y
i
)
2
=(-6.4)
2
+2.6
2
+1.68
2
+(-4.2)
2
+2
2
≈72.2,
i
=
1
i
=
1
?
(y
i
-y)
2
=(-6.6)
2
+2.4
2
+(-4.6)<
br>2
+(-0.6)
2
+9.4
2
=159.2.此时R
2
=1-
159.2
≈0.55.
5
72.2
因为0.57>0.55,
所以甲模型的拟合效果较好.
独立性检验就是根据采集的样本数据,利用公式求出随机变量K
2
的观测值k,通过比
较k与临界值k
0
的大小来确定两个分类变量是
否有关系的方法.
[典例3] 户外运动已经成为一种时尚运动,某单位为了了解员工喜欢户外运动是
否与
性别有关,决定从本单位全体650人中采用分层抽样的办法抽取50人进行问卷调查,得到
了如下列联表:
男性5
女性
总计50
喜欢户外运动
10
不喜欢户外运动
总计
3
已知在这50人中随机抽取1人抽到喜欢户外运动的员工的概率是.
5
(1)请将上面的列联表补充完整;
(2)求该公司男、女员工各多少人; (3)在犯错误的概率不超过0.005的前提下能否认为喜欢户外运动与性别有关?并说明
你的理
由.
下面的临界值表仅供参考:
P(K
2
≥k
0
)
k
0
2
0.15
2.072
0.10
2.706
0.05
3.841
0.025
5.024
0.010
6.635
0.005
7.879
0.001
10.828
n?ad-bc?
2
参考公式:K=,其中n=a+b+c+d
?a+b?
?c+d??a+c??b+d?
3
解:(1)因为在全部50人中随机抽取1人抽到喜欢户外
运动的员工的概率是,所以喜
5
欢户外运动的男女员工共30人,其中男员工20人,列联表补
充如下:
男性
女性
总计
喜欢户外运动
20
10
30
不喜欢户外运动
5
15
20
总计
25
25
50
(2)该公司男员工人数为25÷50×650=325(人),则女员工有325人.
50×?20
×15-10×5?
2
(3)K的观测值k=≈8.333>7.879,所以在犯错误的概率
不超过
30×20×25×25
2
0.005的前提下认为喜欢户外运动与性别有关.
[对点训练]
3.吃零食是中学生中普遍存在的现象,吃零食对学生身体发育有诸多不利影响
,影响
学生的健康成长.下表是性别与吃零食的列联表:
男 女 总计
喜欢吃零食
不喜欢吃零食
总计
请问喜欢吃零食与性别是否有关?
n?ad-bc?
2
解:k=,
?a+b??c+d??a+c??b+d?
把相关数据代入公式,得
85×?5×28-40×12?
2
k=
17×68×45×40
≈4.722>3.841.
5
40
45
12
28
40
17
68
85
因此,在犯错误的概率不超过0.05的前提下,可以认为“喜欢吃零食与性别有关”.
(时间:120分钟,满分:150分)
一、选择题(本大题共12个小题,每小题5分,共
60分,在每小题给出的四个选项中,
只有一项是符合题目要求的)
1.有下列关系:①人的年龄与他拥有的财富之间的关系;
②曲线上的点与该点的坐标之间的
关系;③苹果的产量与气候之间的关系;④森林中的
同一种树木,其横断面直径与高度之间的关系,其中
有相关关系的是( )
A.①②③ B.①②
C.②③
D.①③④
解析:选D
曲线上的点与该点的坐标之间是确定关系——函数关系,故②不正确.其
余均为相关关系.
2.对于回归分析,下列说法中错误的是( )
A.在回归分析中,若变量间的关系是非确定性关系,则因变量不能由自变量唯一确定
B.相关系数可以是正的也可以是负的
C.回归分析中,如果R
2
=1,说明变量x与y之间是完全线性相关
D.样本相关系数r∈(-∞,+∞)
解析:选D
在回归分析中,样本相关系数r的范围是|r|≤1,故选D.
3.在一次调查后,根据所得数据绘制成如图所示的等高条形图,则( )
A.两个分类变量关系较弱
B.两个分类变量无关系
C.两个分类变量关系较强
D.无法判断
解析:选C 从条形图中可以看出,在x
1
中y
1
比重明显大于x
2
中y
1
的比重
,所以两个
分类变量的关系较强.
4.设两个变量x和y之间具有线性相关关系,它们的相关
系数是r,y关于x的回归直
线的斜率是b,纵轴上的截距是a,那么必有( )
A.b与r的符号相同 B.a与r的符号相同
C.b与r的符号相反
D.a与r的符号相反
解析:选A
因为b>0时,两变量正相关,此时r>0;b<0时,两变量负相关,此时r<0.
5.下表显示出样本中变量y随变量x变化的一组数据,由此判断它最可能是( )
x
y
4
14
5
18
6
19
7
20
8
23
9
25
10
28
A.线性函数模型 B.二次函数模型
C.指数函数模型
D.对数函数模型
解析:选A
画出散点图(图略)可以得到这些样本点在某一条直线上或该直线附近,故
最可能是线性函数模型.
6.下表是某厂1~4月份用水量(单位:百吨)的一组数据:
月份x
用水量y
1
4.5
2
4
3
3
4
2.5
^
由散点图可知,用水量y与月份x之间有较好的线性相关关系,其线性回归
方程是y=
^^
-0.7x+a,则a=( )
A.10.5 B.5.15
C.5.2 D.5.25
^
解析:选D
样本点的中心为(2.5,3.5),将其代入线性回归方程可解得a=5.25.
7.在研究吸烟与
患肺癌的关系中,通过收集数据并整理、分析,得到“吸烟与患肺癌
有关”的结论,并且有99%的把握
认为这个结论成立.下列说法正确的个数是( )
①在100个吸烟者中至少有99个人患肺癌;②
如果一个人吸烟,那么这个人有99%的
概率患肺癌;③在100个吸烟者中一定有患肺癌的人;④在1
00个吸烟者中可能一个患肺癌
的人也没有.
A.4 B.3 C.2 D.1
解析:选D 有99%的把握认为“吸烟与患肺癌有关”,指的是“吸烟与患肺癌有关”
这个结
论成立的可能性或者可信程度有99%,并不表明在100个吸烟者中至少有99个人患
肺癌,也不能说
如果一个人吸烟,那么这个人就有99%的概率患肺癌;更不能说在100个
吸烟者中一
定有患肺癌的人,反而有可能在100个吸烟者中,一个患肺癌的人也没有.故正
确的说法仅有④,选D
.
8.下表是某小卖部一周卖出热茶的杯数与当天气温的对比表:
气温(℃)
杯数
18
24
13
34
10
39
4
51
-1
63
若热茶杯数y与气温x近似地满足线性关系,则其关系式最接近的是( )
^^
A.y=x+6 B.y=x+42
^^
C.y=-2x+60 D.y=-3x+78
解析:选C 由表
格可知,气温与杯数呈负相关关系.把x=4代入y=-2x+60得y
^^
=52,e=52
-51=1.把x=4代入y=-3x+78得y=66,e=66-51=15.故应选C.
9.如图,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是( )
A.相关系数r变大
B.残差平方和变大
C.相关指数R
2
变大
D.解释变量x与预报变量y的相关性变强
解析:选B 由散点图知,去掉D后,x与y的相
关性变强,且为正相关,所以r变大,
R
2
变大,残差平方和变小.
10.
根据一位母亲记录儿子3~9岁的身高数据,建立儿子身高(单位:cm)对年龄(单位:
^
岁
)的线性回归方程为y=7.19x+73.93,若用此方程预测儿子10岁时的身高,有关叙述正确
的是( )
A.身高一定为145.83 cm
B.身高大于145.83 cm
C.身高小于145.83 cm
D.身高在145.83 cm左右
解析:选D
用线性回归方程预测的不是精确值,而是估计值.当x=10时,y=145.83,
只能说身高在14
5.83 cm左右.
11.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了
60名高
中生,通过问卷调查,得到以下数据:
课外阅读量较大
课外阅读量一般
总计
作文成绩优秀
22
8
30
作文成绩一般
10
20
30
总计
32
28
60
由以上数据,计算得到K
2
的观测值k≈9.643,
根据临界值表,以下说法正确的是( )
A.没有充足的理由认为课外阅读量大与作文成绩优秀有关
B.有0.5%的把握认为课外阅读量大与作文成绩优秀有关
C.有99.9%的把握认为课外阅读量大与作文成绩优秀有关
D.有99.5%的把握认为课外阅读量大与作文成绩优秀有关
解析:选D 根据临界值表,
9.643>7.879,在犯错误的概率不超过0.005的前提下,认
为课外阅读量大与作文成绩优
秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀
有关.
12.两个分类变量
X和Y,值域分别为{x
1
,x
2
}和{y
1
,y
2
},其样本频数分别是a=10,
b=21,c+d=35.若X与Y有关系的可信程度不小
于97.5%,则c等于( )
A.3 B.4 C.5 D.6
附:
P(K
2
≥k
0
)
k
0
解析:选A 列2×2列联表如下:
y
1
y
2
总计
2
0.05
3.841
0.025
5.024
x
1
10
c
10+c
x
2
21
d
21+d
总计
31
35
66
66×[10?35-c?-21c]
2
故K的观测值k=≥5.024.
31×35×?10+c??56-c?
把选项A,B,C,D代入验证可知选A.
二、填空题(本大题共14小题,每小题5分,共20分,把答案填在题中横线上)
13.下面是一个2×2列联表:
x
1
x
2
总计
则表中b-a=________.
解析:b-a=8.
y
1
a
8
b
y
2
21
25
46
总计
73
33
答案:8
1111
^^
14.已
知样本容量为11,计算得
?
x
i
=510,
?
y
i
=214,回归方程为y=0.3x+a,则x
i
=
1i
=
1
^
≈________,a≈________.(精确到0.01)
1
11
5101
11
214
^
解析:由题意得x=
?
x
i
=≈46.36,y=
?
y
i
=,因为y=0.3x
+a,
11
i
=
1
1111
i
=
111
214510
^^
所以=0.3×+a,可得a≈5.55.
1111
答案:46.36 5.55
15.某单位为了了解用电量y(度)与气温
x(℃)之间的关系,随机统计了某4天的用电量
^^^^
与当天气温,并制作了对照表,由表
中数据得线性回归方程y=bx+a,其中b=-2.现预测
当气温为-4℃时,用电量的度数约为__
______.
气温x(℃)
用电量y(度)
18
24
13
34
10
38
-1
64
1
解析:由题意可知x=(18+13+10-1)=10,
4
1
^
y=(24+34+38+64)=40,b=-2.
4
^^^
又回归直线y=-2x+a过点(10,40),故a=60,
^
所以当x=-4时,y=-2×(-4)+60=68.
答案:68
16.某部门通过随机调查89名工作人员的休闲方式是读书还是健身,得到的数据如下
表:
女
男
总计
读书
24
8
32
健身
31
26
57
总计
55
34
89
在犯错误的概率不超过________的前提下性别与休闲方式有关系.
解析:由列联表中的数据,得K
2
的观测值为
89×?24×26-31×8?
2
k=≈3.689>2.706,
55
×34×32×57
因此,在犯错误的概率不超过0.10的前提下认为性别与休闲方式有关系.
答案:0.10
三、解答题(本大题共6小题,共70分,解答时应写出必要的文字说明、证
明过程或演
算步骤)
17.(本小题10分)x与y有如下五组数据,
x
y
1
10
2
5
3
4
5
2
10
2
试分析x与y之间是否具有线性相关关系.若有,求出回归直线方程;若没有,说明理
由.
解:作出散点图,如图所示:
由散点图可以看出,x与y不具有线性相关关系.
18.(本小题12分)有两个分类变量x与y,其一组观测值如下面的2×2列联表所示:
x
1
x
2
y
1
a
15-a
y
2
20-a
30+a
其中a,15-a均为大于5的整数,则a取何值时,在犯错误的概率不超过0.
1的前提下
认为x与y之间有关系?
解:查表可知,要使在犯错误的概率不超过0.1的前提
下认为x与y之间有关系,则
k≥2.706,而
65×[a?30+a?-?20-a??15-a?]
2
k=
20×45
×15×50
65×?65a-300?
2
13×?13a-60?
2
==.
20×45×15×5060×90
由k≥2.706得a≥7.19或a≤2.04.
又a>5且15-a>5,a∈Z,解得a=8或9,
故a为8或9时,在犯错误的概率不超过0.1的前提下认为x与y之间有关系.
19.(本小题 12分)某学校高三年级有学生1000名,经调查,其中750名同学经常参加体育锻炼(称为A类同学),另外250名同学不经常参加体育锻炼(称为B类同学),现用分层
抽
样方法(按A类、B类分两层)从该年级的学生中共抽取100名同学,如果以身高达165
cm
作为达标的标准,对抽取的100名学生,得到以下列联表:
经常参加体育锻炼
不经常参加体育锻炼15
总计100
身高达标
40
身高不达标
总计
(1)完成上表;
(2)能否在犯错误的概
率不超过0.05的前提下认为经常参加体育锻炼与身高达标有关系
(K
2
的观测值精
确到0.001)?
解:(1)填写列联表如下:
经常参加体育锻炼
不经常参加体育锻炼
总计
身高达标
40
10
50
身高不达标
35
15
50
总计
75
25
100
(2)由列联表中的数据,得K
2
的观测值为
100×?40×15-35×10?
2
k=≈1.333<3.841.
75×25×50×50
所以不能在犯错误的概率不超过0.05的前提下认为经常参加体育锻炼与身高
达标有关
系.
20.(本小题12分)某车间为了规定工时定额,需要确定加工零件所花费的
时间,为此
做了4次试验,得到数据如下:
零件的个数x(个)
加工的时间y(小时)
2
2.5
3
3
4
4
5
4.5
(1)在给定坐标系(如图)中画出表中数据的散点图;
^^^
(2)求y关于x的线性回归方程y=bx+a;
(3)试预测加工10个零件需要的时间.
解:(1)散点图如图所示:
(2)由表中数据得x=3.5,y=3.5,
i
=
1
?
(x
i
-x)(y
i
-y)=3.5,
4
i
=
1
?
(x
i
-x)
2
=5,
4
^^-^-
由公式计算得b=0.7,a=y-bx=1.05,
^
所以所求线性回归方程为y=0.7x+1.05.
^
(3)当x=10时,y=0.7×10+1.05=8.05,
所以预测加工10个零件需要8.05小时.
21.(本小题12分)某工厂有25周岁以上
(含25周岁)工人300名,25周岁以下工人200
名.为研究工人的日平均生产量是否与年龄有关
,现采用分层抽样的方法,从中抽取了100
名工人,先统计了他们某月的日平均生产件数,然后按工人
年龄在“25周岁以上(含25周
岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数
分为5组:[50,60),
[60,70),[70,80),[80,90),[90,100]分
别加以统计,得到如图所示的频率分布直方图.
(1)从样本中日平均生产件数不足60件
的工人中随机抽取2人,求至少抽到一名“25周
岁以下组”工人的概率;
(2)规定日平均
生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2
列联表,并判断是否有90%的
把握认为“生产能手与工人所在的年龄组有关”?
P(K
2
≥k)
k
0.100
2.706
0.050
3.841
0.010
6.635
0.001
10.828
解:(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.
所以,样本中日平均生产件数不足60件的工人中,
25周岁以上组工人有60×0.05=3(人),
记为A1,A
2
,A
3
;
25周岁以下组工人有40×0.05=2(人),
记为B
1
,B
2
.
从中随机抽取2名工人,所有的可能结果共有10种,
它们是(A
1
,A<
br>2
),(A
1
,A
3
),(A
2
,A
3
),(A
1
,B
1
),(A
1
,B
2
),(A
2
,B
1
),(A
2
,B
2),(A
3
,
B
1
),(A
3
,B
2
),(B
1
,B
2
).
其中,至少有1名“25周岁以下
组”工人的可能结果共有7种,它们是(A
1
,B
1
),(A
1,
7
B
2
),(A
2
,B
1
),(A
2
,B
2
),(A
3
,B
1
),(A3
,B
2
),(B
1
,B
2
).故所求的概率
P=.
10
(2)由频率分布直方图可知,在抽取的100名工人中,
“25周岁以上组”中的生产能手有60×0.25=15(人),
“25周岁以下组”中的生产能手有40×0.375=15(人),
据此可得2×2列联表如下:
25周岁以上组
25周岁以下组
合计
n?ad-bc?
2
所以得K=
?a+b??c+d??a+c??b+d?
2
生产能手
15
15
30
非生产能手
45
25
70
合计
60
40
100
100×?15×25-15×45?
2
=
60×40×30×70
25
=≈1.79.
14
因为1.79<
2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.
22.(本小题12
分)在一段时间内,某种商品价格x(万元)和需求量y(t)之间的一组数据
如下表:
价格x
需求量
(1)画出散点图;
(2)求出y对x的线性回归方程,并在(1)的图形上画出它的图象;
(3)如果价格定为1.9万元,预测需求量大约是多少.(结果精确到0.01 t).
解:(1)散点图如图所示.
1.4
12
1.6
10
1.8
7
2
5
2.2
3
5
5
--
(2)x=1.8,y=7.4,
?
x
i
y
i
=62,
?
x
2
i
=16.6,
i
=
1i
=
1
^
b=
i
=
1
--?
x
i
y
i
-5xy
=
i
=
1
5
?
x
i
2
-5x
2
5
-62-5×1.8×7.4-4.6
^-^-
=-11.5,a=y-bx=7.4+11
.5×1.8=
2
=
0.4
16.6-5×1.8
2
8.1.
^
所以y对x的线性回归方程为y=-11.5x+28.1.画出图象如图. <
br>(3)当价格定为1.9万元,即x=1.9时,y=-11.5×1.9+28.1=6.25.所以商
品价格定为
1.9万元时,需求量大约是6.25t.