人教版高中数学必修2课后答案-高中数学笔记 知识点
高中数学选修2-3学案
§3.1 回归分析的基本思想及其初步应用
知识导学
知识点一 线性回归模型
(1)函数关系是一种关系,而相关关系是一种关系.
(2)回归分析是对具有关系的两个变量进行统计分析的一种常用方法.
(3)对于一组具有
线性相关关系的数据(x
1
,y
1
),(x
2
,y
2
),…,(x
n
,y
n
),回归直线y=bx+a的
n<
br>----
∑ ?x-x??y-y?
∑
xy-nxy
^
iii
i
^
i
=
1i
=
1
-
^
-
斜率和截距的最小二乘估计公式分别为b==,a=y-bx,
nn
-
2
-
22
∑ ?x
i
-x?
∑
x
i
-nxi
=
1i
=
1
n
^^^
--
其中(x
,y)称为样本点的中心.
(4)线性回归模型y=bx+a+e,其中a和b是模型的未知参数,e
称为,自变量x称为,因
变量y称为.
知识点二 线性回归分析
1.残差平方和法
(1)e
i
=
^
=
n
^
(i=1,2,…
,n)称为相应于点(x
i
,y
i
)的.
(2)残差平方和
i
∑
(y
i
-y
i
)
2
越小,模型拟合效果越好.
=
1
2.残差图法
残差点落在水平的带状区域内,说明选用的模型比较合适
,其中这样的带状区域宽度,说明
模型的精确度越高.
3.利用相关指数R
2
刻画回归效果
其计算公式为:R
2
=1-.其几何意义:,表示回归效果越好.
-
2
∑
?y
i
-y?
i
=
1
n
∑ ?y
i
-y
i
?
2
i
=
1
n
^
知识拓
展
1.建立回归模型的基本步骤
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性相关关系等). (3)由经验确定回归方程的类型(如观察到数据呈线性相关关系,则选用线性回归方程y=bx
+
a ).
(4)按一定规则估计回归方程中的参数(如最小二乘法).
(5)得出结果后分
析残差图是否有异常,若存在异常,则检查数据是否有误或模型是否合适
等.
1
^
^^
高中数学选修2-3学案
2.线性回归模型中随机误差的主要来源
(1)用线性回归模型作为真实模型的近似所引起的
误差.可能存在非线性的函数能够更好地
描述y与x之间的关系,但是现在却用线性函数来表述这种关系
,结果会产生误差.
(2)忽略了某些因素的影响.影响变量y的因素不仅有变量x,可能还包括其他
许多因素,例
如,在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯
、
生长环境等其他因素的影响.
(3)观测误差.由于测量工具等原因,导致y的观测值产生误差.
3.残差分析的结果 <
br>(1)残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域
的宽
度越窄,说明模型拟合精度越高,回归方程的预报精度越高.
(2)若是有个别样本点的残差比较大,
需要确认在采集这些样本点的过程中是否有人为的错
误.如果数据采集有错误,就予以纠正,然后再重新
利用线性回归模型拟合数据;如果数据
采集没有错误,则需要寻找其他的原因.
4.对R
2
的理解
(1)预报变量的变化与解释变量和随机误差的关系 <
br>预报变量的变化程度可以分解为解释变量引起的变化程度与残差变量的变化程度之和,
其中这个变
化与解释变量和随机误差(即残差平方和)有关的程度是由相关指数R
2
的值决定
的.
在线性回归模型中,R
2
表示解释变量对预报变量变化的贡献率.R
2
越接近
于1,表示解
释变量和预报变量的线性相关性越强;反之,R
2
越小,说明随机误差对
预报变量的效应越
大.
(2)R
2
与r的关系
①相关系数可较好
地反映变量的相关性及正相关或负相关,而R
2
反映了回归模型拟合数据
的效果; <
br>②R
2
是相关系数的平方,其变化范围为[0,1],而相关系数的变化范围为[-1,
1];
③当相关系数|r|接近于1时说明两变量的相关性较强,当|r|接近于0时说明两变量的相
关性
较弱,而当R
2
接近于1时,说明线性回归方程的拟合效果较好.
自诊小测
1.判一判(正确的打“√”,错误的打“×”)
(1)残差平方和越小,线性回归方程的拟合效果越好.( )
(2)在画两个变量的散点图时,预报变量在x轴上,解释变量在y轴上.( )
(3)R
2
越接近于1,线性回归方程的拟合效果越好.( )
2.做一做
(1)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关
关系称为
________.
2
高中数学选修2-3学案
(2)在残差分析中,残差图的纵坐标为________.
(3)如果发现散点图中所有的
样本点都在一条直线上,则残差平方和等于________,解释变
量和预报变量之间的相关系数等于
________.
课堂互动探究
探究
1
求线性回归方程
例1 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据
x
y
6
2
8
3
10
5
12
6
(1)请画出上表数据的散点图;(要求:点要描粗)
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx+a;
(
3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.(相关公式:b=
--
∑<
br>xy-nxy
^
ii
i
=
1
-
^
-
,a=y-bx)
n
-
22
∑
x
i
-n
x
i
=
1
拓展提升
求线性回归方程的步骤
(1)列出散点图.从直观上分析数据间是否存在线性相关关系.
--
n
2
n
2
n
(2)计算x,y,
i
∑x
i
,<
br>i
∑y
i
,
i
∑x
i
y
i
.
=
1
=
1
=
1
(3)代入公式求出y=bx+
a中参数b,a的值.
(4)写出回归方程并对实际问题作出估计.
跟踪训练1
某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试
验,得到的数据如下:
^^^^^
n
^
^^^
3
高中数学选修2-3学案
零件的个数x(个)
加工的时间y(小时)
(1)在给定的坐标系中画出表中数据的散点图;
2
2.5
3
3
4
4
5
4.5
(2)求出y关于x的线性回归方程,y=bx+a,并在坐标系中画出回归直线;
(3)试预测加工10个零件需要多少时间?
--
?
x
i
y
i
-nxy
注:b=
^
i
=
1
n
^
-
^
-
,a=y-bx.
n
^^^
?
x
i
2
-nx
2
i
=
1
-
探究
2
线性回归分析
例2
已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:
x
y
14
12
16
10
18
7
20
5
22
3
求y对x的回归直线方程,并说明回归模型拟合效果的好坏.
拓展提升
这类题目的数据
运算繁琐,通常采用分步计算的方法,由R
2
可以看出回归模型的拟合
效果,也可以计
算相关系数r,看两个变量的相关关系是否很强.
4
高中数学选修2-3学案
跟踪训练2 为研究重量x(单位:克)对弹簧长度
y(单位:厘米)的影响,对不同重量的6个
物体进行测量,数据如下表所示:
x
y
5
7.25
10
8.12
15
8.95
20
9.90
25
10.9
30
11.8
(1)作出散点图并求线性回归方程;
(2)求出R
2
;
(3)进行残差分析.
探究
3
非线性回归分析
例3
为了研究某种细菌随时间x变化繁殖的个数,收集数据如下:
天数x天
繁殖个数y个
1
6
2
12
3
25
4
49
5
95
6
190
(1)将天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图;
(2)描述解释变量与预报变量之间的关系;
(3)计算残差、相关指数R
2
.
拓展提升
非线性回归方程的求法
(1)根据原始数据(x,y)作出散点图;
(2)根据散点图,选择恰当的拟合函数;
5
高中数学选修2-3学案
(3)作恰当的变换,将其转化成线性函数,求线性回归方程;
(4)在(3)的基础上通过相应的变换,即可得非线性回归方程.
跟踪训练3
某电容器充电后,电压达到100 V,然后开始放电,由经验知道,此后电压U
随时间t变化的规律用
公式U=Ae
bt
(b<0)表示,现测得时间t(s)时的电压U(V)如下表:
ts
UV
0
100
1
75
2
55
3
40
4
30
5
20
6
15
7
10
8
10
9
5
10
5
试求:电压U对时间t的回归方程.(提示:对公式两边取自然对数,把问
题转化为线性回
归分析问题)
随堂自测
1.关于回归分析,下列说法错误的是( )
A.回归分析是研究两个具有相关关系的变量的方法
B.散点图中,解释变量在x轴,预报变量在y轴
C.回归模型中一定存在随机误差
D.散点图能明确反映变量间的关系
2.甲、乙、丙、丁四位同学在建立变量x,y的回归模
型时,分别选择了4种不同模型,计
算可得它们的相关指数R
2
分别如下表:
R
2
甲
0.98
乙
0.78
丙
0.50
丁
0.85
哪位同学建立的回归模型拟合效果最好?( )
A.甲
C.丙
B.乙
D.丁
3.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系
.根据一组样本
数据(x
i
,y
i
)(i=1,2,…,n),用最
小二乘法建立的回归方程为y=0.85x-85.71,则下列结论
中不正确的是( )
A.y与x具有正的线性相关关系
--
B.回归直线过样本点的中心(x,y)
6
^
高中数学选修2-3学案
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
4.某单位
为了了解用电量y度与气温x℃之间的关系,随机统计了某4天的用电量与当天
气温,并制作了对照表:
气温(℃)
用电量(度)
^
18
24
13
34
10
38
-1
64
由表中数据得线性回归方程y=bx+a中b=-2,预测当气温为-4
℃时,用电量的度数约
为________.
5.假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:
x
y
15.0
39.4
25.8
42.9
30.0
42.9
36.6
43.1
44.4
49.2
(1)以x为解释变量,y为预报变量,作出散点图;
(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗;
(3)计算各组残差,并计算残差平方和;
(4)求相关指数R
2
,并说明残差变量对有效穗的影响占百分之几?
——★ 参 考 答 案 ★——
知识导学
知识点一 线性回归模型
(1)确定性非确定性
(2)相关
(4)随机误差解释变量预报变量
7
高中数学选修2-3学案
知识点二 线性回归分析
1.(1)残差
2.比较均匀地越窄
3.R
2
越接近于1
自诊小测
1.[[答案]] (1)√ (2)× (3)√
2.[[答案]]
(1)正相关 (2)残差 (3)0 1或-1
[[
解析
]]
(1)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关
系称为正相关. <
br>(2)由残差图的定义知道,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,
或体
重的估计值等,这样作出的图形称为残差图.
(3)设样本点为(x
i
,y
i
),i=1,2,3,…,n,回归直线为y=bx+a;若散点图中所有的样本点都
在一条
直线上,则此直线方程就是回归直线方程.所以有y
i
=y
i
;残差平方和<
br>i
∑ (y
i
-y
i
)
2
=0;
=
1
解释变量和预报变量之间的相关系数R满足R
2
=1-
n
=1,
-
2
∑
?y
i
-y?
i
=
1
所以R=±1.
课堂互动探究
探究
1
求线性回归方程
例1
解:(1)如图:
2
∑ ?y
i
-y
i
?
=i1
n
^
^
n
^
^^^
(2)i
∑x
i
y
i
=6×2+8×3+10×5+12×6=158
,
=
1
-
6+8+10+12
x==9,
4
-
2+3+5+6
y==4,
4
2
=6
2
+8
2
+10
2
+12
2
=344,
∑
x
i
=
i1
4
4
158-4×9×4
14
b===0.7,
344-4×9
2
20
^
^
-
^
-
a=y-bx=4-0.7×9=-2.3,
8
高中数学选修2-3学案
故线性回归方程为y=0.7x-2.3.
(3)由(2)中线性回归方程当x=9时,y=0.7×9-2.3=4,预测记忆力为9的同学的判断力约
为4.
跟踪训练1 解:(1)散点图如图.
^
^
(2)由表中数据得
?
x
i
y
i
=52.5, <
br>i
=
1
4
--
x=3.5,y=3.5,
?
x
2
i
=54,
i
=
1
4
--
?
x
i
y
i
-nxy
所以b=
^
i
=
1
n
n
=0.7.
-
?
x
i
2
-nx
2
i
=
1
-
^
-
所以
a=y-bx=1.05.
所以y=0.7x+1.05.
回归直线如图中所示.
(3)将x=10代入回归直线方程,得y=0.7×10+1.05=8.05(小时),
所以预测加工10个零件大约需要8.05小时.
探究
2
线性回归分析
-
1
例2 解:x=(14+16+18+20+22)=18,
5
-
1
y=(12+10+7+5+3)=7.4,
5
i
=
1
22222
∑
x
2
i
=14+16+
18+20+22=1660,
5
^
^
^
5
--
∑
xy-5xy
620-5×
ii
5^
18×7.4
i=
1
∑
xy=14×12+16×10+18×7+20×5+22×3=620
,所以,b==
ii
5
i
=
1
1660-5×18
2
2
-5
-
2
∑
xx
i
i
=1
=-1.15,
9
高中数学选修2-3学案
-
^
-
a=y-bx=7.4+1.15×18=28.1,
所以所求回归直线方程是y=-1.15x+28.1.
列出残差表:
y
i
-y
i
-
y
i
-y
^
^
^
0
4.6
0.3
2.6
-0.4
-0.4
-0.1
-2.4
0.2
-4.4
5^5
2
=0.3,∑
(y-
-
所以,
i
∑ (y-y)y)
2
=53.2, <
br>iii
=
1i
=
1
R
2
=1-
5<
br>≈0.994,
-
2
∑
?y
i
-y?
i
=
1
所以回归模型的拟合效果很好.
跟踪训练2 解:(1)散点图如图
∑ ?y
i
-y
i
?
2
i
=
1
5^
-
1
x=(5+10+15+20+25+30)=17.5,
6
-
1
y=(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,
6
6
2
x
i
=2275,x
i
y
i
=1076.2
=
i
1
i
=
1
?6
?
计算得,b ≈0.183,a ≈6.285,
所求线性回归方程为y=0.183x+6.285.
(2)列表如下:
y
i
-y
i
-
y
i
-y
^
^
^^
0.05
-2.24
^
0.005
-1.37
-0.08
-0.54
-0.045
0.41
0.04
1.41
0.025
2.31
6
-
2
所以
(y
i
-y
i
)
≈0.01318,
(y
i
-y)
2
=14.6784.
i
=
1i
=
1
?
6
?
0.01318
所以,R
2
=1-
≈0.9991,
14.6784
回归模型的拟合效果较好.
(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时
10
高中数学选修2-3学案
候是否有人为的错误,如果有的话,
需要纠正数据,重新建立回归模型;由表中数据可以看
出残差点比较均匀地落在不超过0.15的狭窄的
水平带状区域中,说明选用的线性回归模型
的精度较高,由以上分析可知,弹簧长度与重量成线性关系.
探究
3
非线性回归分析
例3
解:(1)由表中数据作散点图如图所示.
(2)由散点图看出样本点分布在一条指数函数y=c1
ec2x的图象的周围,其中c
1
和c
2
是待定
系数
.于是令z=ln y,则z=bx+a(a=ln c
1
,b=c
2
),因
此变换后的样本点应该分布在直线
z=bx+a的周围,因此可以用线性回归模型来拟合z与x的关系,
则变换后的样本数据如下
表:
x
z
1
1.79
^
2
2.48
3
3.22
4
3.89
5
4.55
6
5.25
由表中数据得到线性回归方程z=0.69x+1.115.
因此细菌繁殖个数关于时间的回
归方程为y=e
0.69
x
(3)列出残差表:
编号i
y
i
y
i
e
i
^
^
^
+
1.115
.
1
6.08
6
-0.08
2
12.12
12
-0.12
3
24.17
25
0.83
4
48.18
49
0.82
5
96.06
95
-1.06
6
191.52
190
-1.52
6^6^6
2
=∑ (y-y)
2
=4.8161,∑
(y-
-
∑
ey
i
)
2
=24630.1, iiii
i
=
1i
=
1i
=
1
4.8
161
R
2
=1-
≈0.9998.
24630.1
故解
释变量天数对预报变量繁殖个数解释了99.98%,说明该回归模型拟合效果非常好.
跟踪训练3
解:对U=Ae
bt
两边取对数得ln U=ln A+bt,
令y=ln
U,a=ln A,x=t,则y=a+bx,y与x的数据如下表:
x
y
0
4.6
1
4.3
2
4.0
3
3.7
4
3.4
5
3.0
6
2.7
7
2.3
8
2.3
9
1.6
10
1.6
根据表中数据画出散点图,如图所示,从图中可以看出,y与x具有较好的线性相关关系,
--
由表中数据求得x=5,y
≈3.045,
11
高中数学选修2-3学案
-
^
-
由公式
计算得b
≈-0.313,a
=y-bx=4.61,
所以y对x的线性回归方程为y=-0.313x+4.61.
所以ln U=-0.313
t+4.61,即U=e
^
^^
-
0.313
t
+
4.61
^^
^
,
.
因此电压U对时间t的回归方程为U=e
随堂自测
1.[[答案]] D
-
0.313
t
+
4.61
[[
解析
]]
用散点图反映两个变量间的关系时,存在误差.
2.[[答案]] A
[[
解析
]] 相关指数R
2
越大,表示回归模型的拟合效果越好.
3.[[答案]] D
[[
解析
]] A,B,C均正确,是回归方程的性
质,D项是错误的,线性回归方程只能预测学
生的体重.选项D应改为“若该大学生某女生身高为170
cm,则估计其体重大约为58.79 kg”.
4.[[答案]] 68
----
[[
解析
]] x=10,y=40,回归方程过点(x,y),
∴40=-2×10+a.
∴a=60.∴y=-2x+60.
令x=-4,∴y=(-2)×(-4)+60=68.
5.解:(1)散点图如下:
^
^
(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此
可以用回归方程刻画它
们之间的关系.
^^^
--
设回归方程为y=bx+a,x=30.36,y=43.5,
12
高中数学选修2-3学案
5
2
x
i
=5101.56,y
2
i
=9511.43.
i
=1
i
=
1
5
??
----
xy=1320.6
6,y
2
=1892.25,x
2
=921.7296,
?
x
i
y
i
=6746.76.
i
=<
br>1
5
--
?
x
i
y
i
-5xy由b=
^
i
=
1
5
5
≈0.29,
-
2
?
x
2
i
-5x
i
=
1^
-
^
-
a=y-bx=43.5-0.29×30.36≈34.70
.
故所求的线性回归方程为y=34.70+0.29x.
当x=56.7时,y=34.70+0.29×56.7=51.143.
估计成熟期有效穗为51.143.
(3)由于y=bx+a+e,
可以算得e<
br>i
=y
i
-y
i
分别为e
1
=0.35,e
2
=0.718,e
3
=-0.5,e
4
=-2.214,
e
5
=1.624,
残差平方和:
?
e
i
2
≈8.43.
i
=
1
5
5
^
^^^^^^^
^
^
-
(4)
?
(y
i
-y)
2
=50.18,
i
=
1
8.43
所以R
2
=1-
≈0.832. <
br>50.18
所以解释变量小麦基本苗数对有效穗约贡献了83.2%.残差变量贡献了约1-83
.2%=16.8%.
13