关键词不能为空

当前您在: 主页 > 数学 >

高中数学选修2-3公开课教案3.1回归分析的基本思想及其初步应用

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2020-09-19 07:38
tags:高中数学思想方法

高中数学三视图高考题-教学反思关于高中数学

2020年9月19日发(作者:穆懿夫)


第三章、统计案例
3.1回归分析的基本思想及其初步应用
(共计4课时)
授课类型:新授课
一、教学内容与教学对象分析

学生将在必修课程学习统 计的基础上,通过对典型案例的讨论,了解和使用一些常用
的统计方法,进一步体会运用统计方法解决实 际问题的基本思想,认识统计方法在决策中的
作用。
二、学习目标
1、知识与技能
通过本节的学习,了解回归分析的基本思想,会对两个变量进行回归分析,明确建立回归模
型的 基本步骤,并对具体问题进行回归分析,解决实际应用问题。
2、过程与方法
本节的学习, 应该让学生通过实际问题去理解回归分析的必要性,明确回归分析的基本思想,
从散点图中点的分布上我 们发现直接求回归直线方程存在明显的不足,从中引导学生去发现
解决问题的新思路—进行回归分析,进 而介绍残差分析的方法和利用R的平方来表示解释
变量对于预报变量变化的贡献率,从中选择较为合理的 回归方程,最后是建立回归模型基本
步骤。
3、情感、态度与价值观
通过本节课的 学习,首先让显示了解回归分析的必要性和回归分析的基本思想,明确回归分
析的基本方法和基本步骤, 培养我们利用整体的观点和互相联系的观点,来分析问题,进一
步加强数学的应用意识,培养学生学好数 学、用好数学的信心。加强与现实生活的联系,以
科学的态度评价两个变量的相关系。教学中适当地增加 学生合作与交流的机会,多从实际生
活中找出例子,使学生在学习的同时。体会与他人合作的重要性,理 解处理问题的方法与结
论的联系,形成实事求是的严谨的治学态度和锲而不舍的求学精神。培养学生运用 所学知识,
解决实际问题的能力。
三、教学重点、难点
教学重点:熟练掌握回归分 析的步骤;各相关指数、建立回归模型的步骤;通过探究使学生
体会有些非线性模型通过变换可以转化为 线性回归模型,了解在解决实际问题的过程中寻找
更好的模型的方法。
教学难点:求回归系数 a , b ;相关指数的计算、残差分析;了解常用函数的图象特点,
选择不同的模型建模,并通过 比较相关指数对不同的模型进行比较。
四、教学策略:
教学方法:诱思探究教学法
学习方法:自主探究、观察发现、合作交流、归纳总结。
教学手段:多媒体辅助教学
五、教学过程:
(一)、复习引入:回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法。
(二)、新课:
探究:对于一组具有线性相关关系的数据:

x
1
,y
1
) , (
x
2
,y
2
) ,…, (
x
n
,y
n
),


我们知道其回归方程的截距和斜率的最小二乘估计公式分别为:
$$
?y?bx
$$
(1)
a
$$
?

b
?
(x?x)(y ?y)
ii
i?1
n
?
(x?x)
i
i?1
n
(2)
2
1
n
1
n
其中
x?
?
x
i< br>,y?
?
y
i
,(
x,y
)成为样本点的中心.
n
i?1
n
i?1
注:回归直线过样本中心.
你能推导出这两个计算公式吗?
$$
和斜率
b
$$
分别是使 从我们已经学过的知识知道,截距
a

Q(
?
,
?)?
?
(y?bx?a)
ii
i?1
n
2

取到最小值时
?
,
?
的值.
由于

Q(
?
,
?
)?
n
?
[y?
?< br>x?(y?
?
x)?(y?
?
x)?
?
]
i i
i?1
n
2

?
?
{[y
i
?
?
x
i
?(y?
?
x)]
2
?2[yi
?
?
x
i
?(y?
?
x)]?[(y??
x)?
?
]?[(y?
?
x)?
?
]
2
}

i?1
n
?
?
[y
i
?
?
x
i
?(y?
?
x)]?2
?
[yi
?
?
x
i
?(y?
?
x)]?(y?
?
x?
?
)?n[(y?
?
x)?
?
]
2

2
i?1i?1
n
注意到
?
[y?
?
x?(y?
?
x)](y?
?
x?
?
)

ii
i?1
n
?(y?
?
x?
?
)
?
[y
i
?
?
x
i
?(y?
?
x)]

i?1
n
?(y?
?
x?
?
)[
?
y
i
?
?
?
x
i
?n(y?< br>?
x)]

i?1i?1
nn
?(y?
?
x ?
?
)[ny?n
?
x?n(y?
?
x)]?0
.
Q(
?
,
?
)?
?
[y
i
??
x
i
?(y?
?
x)]
2
?n(y?
?
x?
?
)
2

i?1
n


?
?
2
?
(x?x)
i
i?1
n
2?2
?
?
(x
i
?x)(y
i
?y)?
?
(y
i
?y)
2
?n(y?
?
x?
?
)
2

i?1i?1
nn
?n(y?
?
x ?
?
)?
?
(x
i
?x)[
?
?
22
i?1
n
?
(x?x)(y?y)
ii
i?1
n
?
(x?x)
i
i?1
n
]??
2
[< br>?
(x
i
?x)(y
i
?y)]
2
i?1< br>n
2
?
(x?x)
i
i?1
n
2
?
?
(y
i
?y)
2
i?1
n
在上 式中,后两项和
?
,
?
无关,而前两项为非负数,因此要使Q取得最小值,当 且仅
当前两项的值均为0,即有
?
?
?
x?y?nx?y
ii
i?1
n
?
x
i?1
n

?
?y?
?
x.

2
i
?nx
2
这正是我们所要推导的公式.
下面我们从另一个角度来推导的公式.
人教A版选修2-2P37习题1.4A组第4题:
用测量工具测量某物体的长度,由于工具的精度以及测量技术的原因,测得n个数据
a
1
,a
2
,L,a
n
.
1
n
证明:用这个数据的平均值
x?
?
a
i

n
i?1
表示这个物体的长度,能使这n个数据的方差
1
n
f(x)?
?
(x?a
i
)
2

n
i?1
最小.
思考:这个结果说明了什么?通过这个问题,你能说明最小二乘法的基本原理吗?
1
n
2
证明:由于
f(x)?
?
(x?a
i
)
,所以
n
i?1
2
n
f(x)?
?
(x?a< br>i
)

n
i?1
'
1
n

f(x)?0
, 得
x?
?
a
i

n
i?1
'
1
n
可以得到,
x?
?a
i
是函数
f(x)
的极小值点,也是最小值点.
n
i?1


1
n
这个结果说明,用n个数据的平均值
?
a
i
表示这个物体的长度是合理的,这就是最
n
i?1
小二乘法的基本 原理.
由最小二乘法的基本原理即得
x
1
?x
2
?L?x
n
,则
n
11
[(x?x
1
)
2
?(x?x
2
)
2
?L?(x?x
n
)
2
]?[(x?x
1
)
2
?(x?x
2
)
2
?L?(x?x
n
)
2
]?s
2
(*)
nn
x?x
2?L?x
n
当且仅当
x?x?
1
时取等号.
n
x?x
2
?L?x
n
(*)式说明,
x?< br>1
是任何一个实数
x

x
1
,x
2
,L,x
n
的差的平方的平均
n
定理 设
x?R
,
x?
数中最小的数.从而说明了方差具有最小性,也即定义标准差的合理性.
222
下面借助(*)式求
Q?(y
1
?bx
1
?a)?(y
2< br>?bx
2
?a)???(y
n
?bx
n
?a)
的最小
值.
(y
1
?bx
1
)?(y
2
?bx
2
)?L?(y
n
?bx
n
)

n
y?y?L?y
n
x?x?L?x
n
?
12
?b ?
12
?y?b?x
,
nn
由(*)式知,
Q?[a ?(y
1
?bx
1
)]
2
?[a?(y
2
?bx
2
)]
2
?L?[a?(y
n
?bx
n)]
2

?[(y?b?x)?(y
1
?bx
1
)]
2
?[(y?b?x)?(y
2
?bx
2
)]
2
?L?[(y?b?x)?(y
n
?bx
n
)]
2
?[(x
1
?x)b?(y
1
?y)]
2
? [(x
2
?x)b?(y
2
?y)]
2
?L?[(x
n
?x)b?(y
n
?y)]
2

?
?
(x
i
?x)b?2
?
(x
i
?x)(y
i
?y)b?
?
(y
i
?y)
2

22
i ?1i?1i?1
nnn
?
?
(x
i
?x)[b?
2
i?1
n
?
(x?x)(y?y)
ii
i?1
n
?
(x?x)
i
i?1
n
ii
i?1
n< br>n
2
]?
?
(y
i
?y)
2
?2
i?1
n
[
?
(x
i
?x)(y
i
?y)]
2
i?1
n
?
(x?x)
i
i? 1
n
i?1
n
n

2
?
?
(x< br>i
?x)
2
[b?
i?1
n
?
(x?x)( y?y)
?
(x?x)
i
i?1
n
i?1
n
2
]
2
?
?
(y
i
?y)
2
?
i?1
n
[
?
(x
i
?x)(y
i
?y)]
2

2
i
?
(x?x)
i?1
?
?
(y
i
?y)
2
?
i?1
nn
n
[
?
(x
i
?x)(y
i
?y)]
2

2
i
?
(x?x)
i?1
2
n
i
i?1
2
n
?
?
(x?x)
?
(y?y )
2
i
i?1i?1
i?1
?[
?
(x
i
?x)(y
i
?y)]
2

?
(x?x)
i


当且仅当
a?y?b?x
,且
b?
?
(x ?x)(y?y)
?
xy?nxy
iiii
i?1
nn
?< br>(x?x)
i
i?1
n
?
2
i?1
n
?
x
i?1
2
i
?nx
2
时,
Q
达到最小值
?
(x?x)
?
(y?y)
2ii
i?1i?1
n
i?1
nn
2
?[
?(x
i
?x)(y
i
?y)]
2
i?1
2n
.
?
(x?x)
i
n
?
(x
i< br>?x)(y
i
?y)
?
?
?
b?
i?1n
?
由此得到,
?
2
(x?x)
?
i
?
i?1
?
?
a?y?bx.
?
x
i?1
n
n
i
?y
i
?nx?y

2
i
?
x
i?1
?nx
2
其中
b
是回归直线的斜率,< br>a
是截距.
rrrrrr
借助
||a|?|b||?|a?b|?| a|?|b|
和配方法,我们给出了人教A版必修3的第二章统计
第三节变量间的相关关系中回 归直线方程
y?bx?a
的一个合理的解释.
1、回归分析的基本步骤:
(1) 画出两个变量的散点图.
(2) 求回归直线方程.
(3) 用回归直线方程进行预报.
下面我们通过案例,进一步学习回归分析的基本思想及其应用.
2、举例:
例1. 从某大学中随机选取 8 名女大学生,其身高和体重数据如表
编号
体重kg
1 2 3 4 5 6
61
7
155
43
8
170
59
身高cm
165 165 157 170 175 165
48 57 50 54 64
求根据女大学生的身高预报体重的回归方程,并预报一名身高为 172 cm 的女大学生的体
重.
解:由于问题中要求根据身高预报体重,因此选取身高为自变量 x ,体重为因变量 y .
作散点图(图3 . 1 一 1)

从图3. 1一1 中可以看出,样本点呈条状分布,身高和体重有比较好的线性相关关系,
因此可以用线性回归方程来近似 刻画它们之间的关系.


?
?0.849,a
?
??85.712
.
根据探究中的公式(1)和(2 ) ,可以得到
b
于是得到回归方程
$$
y?0849x?85.712
.
因此,对于身高172 cm 的女大学生,由回归方程可以预报其体重为
$$
y?0849?172?85.712?60.316
( kg ) .
?
?0.849
是斜率的估计值,说明身高 x 每增加1个单位时,体重y就增加0.849 位,
b
这表明体重与身高具有正的线性相关关系.如何描述它们之间线性相关关系的强弱?
在必修 3 中,我们介绍了用相关系数;来衡量两个变量之间线性相关关系的方法.本
相关系数的具体计算公式为
r?
?
?
x?x
??
y?y
?
ii
i?1
n
?
(x?x)
?
(y?y)
2
iii?1i?1
nn

2
当r>0时,表明两个变量正相关;当r<0时, 表明两个变量负相关.r的绝对值越接近
1,表明两个变量的线性相关性越强;r的绝对值接近于0时, 表明两个变量之间几乎不存
在线性相关关系.通常,当r的绝对值大于0. 75 时认为两个变量有很强的线性相关关系.
在本例中,可以计算出r =0. 798.这表明体重与身高有很强的线性相关关系,从而也表
明我们建立的回归模型是有意义的.
显然,身高172cm 的女大学生的体重不一定是60. 316 kg,但一般可以认为她的体重接
近于60 . 316 kg .图3 . 1 一 2 中的样本点和回归直线的相互位置说明了这一点.

由于所有的样本点不共线,而只是散布在 某一条直线的附近,所以身高和体重的关系可
用下面的线性回归模型来表示:

y?bx?a?e
, ( 3 )
y?bx?a
之间的误差.这里 a 和 b 为模型的未知参数,e是 y 与
%
通常e为随机变量,
称为随机误差,它的均值 E (e)=0,方差D(e)=
D(e)?
?
>0 .这样线性回归模型的
2


完整表达式为:
?
y?bx?a?e,
(4)
?
2
?
E(e)?0,D(e)?
?
.
在线性回归模型(4)中,随机误差e的方 差护越小,通过回归直线
%
y?bx?a
(5)
预报真实值y的精度越高.随机误差是引起预报值
$$
y
与真实值 y 之间的误差的原因之一,
大小取决于随机误差的方差.
$$

b
$$
为截距和斜率的估计值,它们与真实值a另一方面,由于公式(1)和(2)中
a
和b 之间也存在误差,这种误差是引起预报值
$$
y
与真实值y之间误差的另一个原因.

思考:产生随机误差项e的原因是什么?
一个人的体重值除了受身高的影响外,还 受许多其他因素的影响.例如饮食习惯、是否
喜欢运动、度量误差等.事实上,我们无法知道身高和体重 之间的确切关系是什么,这里只
是利用线性回归方程来近似这种关系.这种近似以及上面提到的影响因素 都是产生随机误差
e 的原因.
因为随机误差是随机变量,所以可以通过这个随机变量的数 字特征来刻画它的一些总体
特征.均值是反映随机变量取值平均水平的数字特征,方差是反映随机变量集 中于均值程度
的数字特征,而随机误差的均值为0,因此可以用方差
?
来衡量随机误差 的大小.
为了衡量预报的精度,需要估计护的值.一个自然的想法是通过样本方差来估计总体方
差.如何得到随机变量
e
的样本呢?由于模型(3)或(4)中的
e
隐含在 预报变量 y 中,
我们无法精确地把它从 y 中分离出来,因此也就无法得到随机变量
e
的样本.
解决问题的途径是通过样本的估 计值来估计
?
.根据截距和斜率的估计公式(1)和(2 ) ,
可以建立回归方程
2
2
%
y?bx?a
,
$$
?y?y
是< br>e
的估计量.对于
y
的估计量.由于随机误差
e?y?
%y
,所以
e
因此
y
是(5)中
%
样本点(x
1
,y
1
) , (
x
2
,y
2
) ,…, (
x
n
,y
n
)
而言,相应于它们的随机误差为
e
i
?y
i
?y
i
?y
i
?bx
i
?a,i?1,2,L,n
,
其估计值为
?
?y?
?
$$
?a
$$
ey
i
?y
i
?bx,i?1 ,2,L,n
,
iii
?
称为相应于点
(x,y)
的残差(residual ).类比样本方差估计总体方差的思想,可以用
e
ii
i



1
n
?
2
1
?
2
$$
$$
) (n?2)

?
?e?Q(a,b
?
i
n?2
i? 1
n?2
$$

b
$$
由公式(1) (2)给出,Q(
a
$$
,
b
$$
)称为残差平方和(residual 作为
?
的估计量, 其中
a
2
sum of squares ).可以用
?
衡量回归方程的预报精度.通常,
?
越小,预报精度越高. < br>在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可
以用线性回 归模型来拟合数据.然后,可以通过残差
?
2
?
2
?
,e
??
e
12
,L,e
n

来判断模型拟合的效果, 判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分
析.表3一 2 列出了女大学生身高和体重的原始数据以及相应的残差数据.
编号
身高cm
体重kg
1
165
48
2
165
57
3
157
50
4
170
54
5
175
64
6
165
61
7
155
43
8
170
59
$$

-6.373 2.627 2.419 -4.618 1.137 6.627 -2.883 0.382
残差
e
我们可以利用图形来分析残差特性作图时纵坐标为残差,横坐标可以选为样本编号,或
身高数据,或体重的估计值等,这样作出的图形称为残差图.图 3 . 1 一 3 是以样本编号
为横坐标的残差图.



从图3 . 1 一 3 中可以看出,第 1 个样本点和第 6 个样本点的残差比较大,需要确认
在采集这两个样本点的过程 中是否有人为的错误.如果数据采集有错误,就予以纠正,然后
再重新利用线性回归模型拟合数据;如果 数据采集没有错误,则需要寻找其他的原因.另外,
残差点比较均匀地落在水平的带状区域中,说明选用 的模型比较合适.这样的带状区域的宽
度越窄,说明模型拟合精度越高,回归方程的预报精度越高.另外 ,我们还可以用相关指数
R
2
来刻画回归的效果,其计算公式是:
y)?
(y?
?
ii
n
2
R
2
?1??
(y?y)
i
i?1
i?1
n

2
显然,
R
取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.在线性
回 归模型中,
R
表示解释变量对于预报变量变化的贡献率.
R
越接近于1,表 示回归的
效果越好(因为
R
越接近于1,表示解释变量和预报变量的线性相关性越强) .如果对某组
2
22
2


数据可能采取几种不同的回归方程进行 回归分析,也可以通过比较几个
R
2
,选择
R
2
大的模型作为这组数据的模型.
在例 1 中,
R
2
=0. 64 ,表明“女大学生的身高解释了64 %的体重变化”,或者说“女
大学生的体重差异有 64 %是由身高引起的”.
用身高预报体重时,需要注意下列问题:
1.回归方程只适用于我 们所研究的样本的总体.例如,不能用女大学生的身高和体重
之间的回归方程,描述女运动员的身高和体 重之间的关系.同样,不能用生长在南方多雨地
区的树木的高与直径之间的回归方程,描述北方干旱地区 的树木的高与直径之间的关系.
2.我们所建立的回归方程一般都有时间性.例如,不能用 20 世纪 80 年代的身高体
重数据所建立的回归方程,描述现在的身高和体重之间的关系.
3.样本取值的范围会影响回归方程的适用范围.例如,我们的回归方程是由女大学生
身高和体重数据建 立的,那么用它来描述一个人幼儿时期的身高和体重之间的关系就不恰当
(即在回归方程中,解释变量 x 的样本的取值范围为[155cm,170cm〕 ,而用这个方程计
算 x-70cm 时的y值,显然不合适.)
4.不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它 是预报变量的
可能取值的平均值.
一般地,建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)画出确定好 的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线
性关系等)
(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程
y=bx+a )
(4)按一定规则估计回归方程中的参数(如最小二乘法); < br>(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的
规律性等 等),若存在异常,则检查数据是否有误,或模型是否合适等.
例2.现收集了一只红铃虫的产卵数y和温度x之间的7组观测数据列于下表:
温度x
o
C
21 23 25 27 29 32 35
产卵数y个
7 11 21 24 66 115 325
(1)试建立y与x之间的回归方程;并预测温度为28
o
C时产卵数目。
(2)你所建立的模型中温度在多大程度上解释了产卵数的变化?
探究:
方案1(学生实施):
(1)选择变量,画散点图。
(2)通过计算器求得线性回归方程:
y
=19.87x-463.73
(3)进行回归分析和预测:
R
2
=r
2
≈0.8642=0.7464
预测当气温为28 时,产卵数为92个。这个线性回归模型中温度解释了74.64%产卵
数的变化。
困惑:随着自变量的增加,因变量也随之增加,气温为28 时,估计产卵数应该低于
66个, 但是从推算的结果来看92个比66个却多了26个,是什么原因造成的呢?
方案2:
(1)找到变量t=x
2
,将y=bx
2
+a转化成y=bt+a;
(2)利用计算器计算出y和t的线性回归方程:y=0.367t-202.54
(3)转换回y和x的模型:
?


(4)y=0.367x
2
-202.54
(5)计算相关指数R
2≈0.802这个回归模型中温度解释了80.2%产卵数的变化。
预测:当气温为28 时,产卵数为85个。
困惑:比66还多19个,是否还有更适合的模型呢?
方案3:
(1)作变换z=lgy,将
y?c
1
10
c
2x
转化成z=c
2
x+lgc
1
(线性模型)。
(2)利用计算器计算出z和x的线性回归方程: z=0.118x-1.672
(3)转换回y和x的模型:
y?10
0.118x?1.672

(4)计算相关指数R
2
≈0.985这个回归模型中温度解释了98.5%产卵数的变化。
预测:当气温为28 时,产卵数为4 2个。
解:根据收集的数据作散点图(图3. 1一4 ) .

在散点图中,样本点并没有分布在某个带状区域内,因此两个变量不呈线性 相关关系,
所以不能直接利用线性回归方程来建立两个变量之间的关系.根据已有的函数知识,可以发< br>现样本点分布在某一条指数函数曲线
y?c
1
e
c
2
x
的周围,其中
c
1

c
2
是待定参数.现在,问
题变为如何估计待定参数
c
1

c
2
.我们可以通 过对数变换把指数关系变为线性关系.令
z?lny
,则变换后样本点应该分布在直线
z?bx?a(a?lnc
1
,b?lnc
1
)
的周围.这样,就< br>可以利用线性回归模型来建立 y 和 x 之间的非线性回归方程了.
由表3一3 的数据可以得到变换后的样本数据表 3一4 ,图3.1一5 给出了表 3 一 4
中数据的散点图.从图3.1一5 中可以看出,变换后的样本点分布在一条直线的附近,因此
可以用线性回归方程来拟合.
x 21 23 25 27 29 32 35
z 1.946 3.398 3.045 3.178 4.190 4.745 5.784
由表 3 一 4 中的数据得到线性回归方程
$$
?0.272x?3.849
.
z



因此红铃虫的产卵数对温度的非线性回归方程为
(1)
$$
y?e
0.272x?3.849
. ( 6 )
2
另一方面,可以认为图3. 1一4 中样本点集中在某二次曲线
y ?c
3
x?c
4
的附近,其

c
3
c
4
为待定参数.因此可以对温度变量做变换,即令
t?x
,然后建立y 与t之间的线
性回归方程,从而得到y与x之间的非线性回归方程.表3一5 是红铃虫的产卵数和对应
的温度的平方,图3 . 1一6 是相应的散点图.
t 441 529 625 729 841 1024 1225
x 7 11 21 24 66 115 325
2

从图3.1一6 中可以看出,y与t的散点图并不分布在一条直线的周 围,因此不宜用线
2
性回归方程来拟合它,即不宜用二次曲线
y?c
3
x?c
4
来拟合 y 和 x 之间的关系.这个结
论还可以通过残差分析得到,下面介绍具体方法.
为比较两个不同模型的残差,需要建立两个相应的回归方程.前面我们已经建立了y
关于x 的指数回归方程,下面建立y关于x的二次回归方程.用线性回归模型拟合表 3 一
5 中的数据,得到 y 关于 t 的线性回归方程
(2)
$$
y?0.367t?202.543
,


即 y 关于 x 的二次回归方程为
(2)
$$
y?0.367x
2
?202.543
. ( 7 )
可以通过残差来比较两个回归方程( 6 )和( 7 )的拟合效果.用 x
i
表示表3一3 中第
1 行第 i 列的数据,则回归方程( 6 )和( 7 )的残差计算公式分别为
(1)
(1)
0.272x?3.849
??

ei
?y
i
?y
i
?y
i
?e,i?1,2,L ,7
;
(2)
2
?
(2)
?y?
?
ey ?y?0.367x?202.543,i?1,2,L,7
.
iiii
表3一6 给出了原始数据及相应的两个回归方程的残差.从表中的数据可以看出模型 ( 6 )
的残差的绝对值显然比模型( 7 )的残差的绝对值小,因此模型( 6 )的拟合效果比模型
( 7 ) 的拟合效果好.
x
y
21
7
23
11
25
21
27
24
-8.950
29
66
9.230
32
115
35
325
0.557
(1)
?
e
i

-0.101 1.875 -13.381 34.675
47.696 19.400 -5.832 -41.000 -40.1.4 -58.265 77.968
(2)
?
e
i


在一般情况下,比较两个模型的残差比较困难.原因是在某些样本点上一个模型的残差
的绝对值比另一个模型的小,而另一些样本点的情况则相反.这时可以通过比较两个模型的
残差平方和 的大小来判断模型的拟合效果.残差平方和越小的模型,拟合的效果越好.由表 3
一 6 容易算出模型( 6 )和( 7 )的残差平方和分别为
?
(1)
?1550. 538,Q
?
(2)
?15448.431
.
Q
因此模型(6)的拟合效果远远优于模型(7).
类似地,还可以用尸来比较两个模型的拟合效果,R
2
越大,拟合的效果越好.由表 3
一 6 容易算出模型(6)和(7)的R
2
分别约为 0 . 98 和 0 . 80 ,因此模型( 6 )的效果
好于模型(7) 的效果.
对于给定的样本点(
x
1
,y
1
) , (
x
2
,y
2
) ,…, (
x
n
,y
n
),两个含有未知参数的模型
(1)(2)
%
y?f(x,a)

%
y?g(x,b)
,
其中 a 和 b 都是未知参数.可以按如下的步骤来比较它们的拟合效果:
$$

b
$$
(1)分别建立对应于两个模型的回归方程
%
其中
a
y?f(x,a)

%
y?g(x,b)
, ,
(1)(2)
分别是参数a和b的估计值;
(1)(1)
2
? ?
(2)分别计算两个回归方程的残差平方和
Q?
?
(y
i
?y
i
)

i?1
n
(2)
?
(2)?(y?
?
Qy
?
ii
)
2
;
i? 1
n


(1)(2)
(1)(2)(1)
??
$$$$$$$$ $$$$
( s )若
Q?Q
,则
y?f(x,a)
的效果比
y ?g(x,b)
的好;反之,
y?f(x,a)

$$
)
的好 . 效果不如
$$
y?g(x,b
例2:(提示后做练习、作业)研究某灌溉渠道水的流 速y与水深x之间的关系,测得
一组数据如下:

水深xm 1.40 1.50 1.60 1.70 1.80 1.90 2.00 2.10
流速1.70 1.79 1.88 1.95 2.03 2.10 2.16 2.21
yms
(1)求y对x的回归直线方程;

(2)预测水深为1。95m 时水的流速是多少?

解:依题意,把温度作为解释变量x ,产卵个数y作为预报变量 , 作散点图,由观察
知两个变量不呈线性相关关系。但样本点分布在某一条指数函数 y=c
1
e
c2 x
周围.
令 z=lny , a=lnc
1
, b=c
2
则 z=bx+a
此时可用线性回归来拟合 z=0.272x-3.843
因此红铃虫的产卵数对温度的非线性回归方程为
Y=e
0.272x-3.843.
3、从上节课的例1提出的问题引入线性回归模型:
Y=bx+a+e
解释变量x
预报变量y
随机误差 e
4、(1) 相关指数: 相关系数 r (公式) , r>0 正相关. R<0 负相关
R绝对值接近于1相关性强接 r绝对值 近于0 相关性几乎无
(2)
?
2
?
总偏差平方和 :
?
?
y
i
?y
?
1
n
2

?
i
=y
i
-y
?
i

?
3
?
残差 e
?
i
?

?
4
?
残差平方和
?
?
y
i
? y
1
n
2
?
5
?
回归平方和 = 总偏差平方和 - 残差平方和
?
6
?
回归效果的相关指数R
2

?1?
?
?
?
?
y?y
ii
n
2
?
?
y?y
?
i
1
1
n
2
?< br>7
?
残差分析通过残差判断模型拟合效果判断原始数据是否存在可疑数据
5、回 忆建立模型的基本步骤 ① 例2 问题背景分析 画散点图。 ② 观
察散点图,分析解释变量与预报变量更可能是什么函数关系。 ③ 学生讨论后建立自
己的模型 ④ 引导学生探究如果不是线性回归模型如何估计参数。能否利用回归模型
通过探究体会有些不是线性的模型通过变换可以转化为线性模型 ⑤ 对数据进行变


换后,对数据(新)建立线性模型 ⑥ 转化为原来的变量模型,并通过计算相关指数
比较几个不同模型的拟合效果 ⑦ 总结建模的思想。鼓励学生大胆创新。 ⑧ 布
置课后作业: 习题1.1 1、

6、复习与巩固:练习1:某班5名学生的数学和化学成绩如下表所示,对x与y进行回归< br>分析,并预报某学生数学成绩为75分时,他的化学成绩。
A B C D E
数学x 88 76 73 66 63
化学y 78 65 71 64 61

解略。

练习2:某医院用光电比色计检验尿汞时,得尿汞含量 (mgl) 与消光系数的结果如
下:

尿汞含量x
消光系数y
2
64
4
138
6
205
8
285
10
360

(1)求回归方程。(2)求相关指数R
2


解:略。

(三) 课堂小结
1.知识梳理:

2规律小结:(1)回归直线方程;(2)样本相关系数;(3)样本残差分析;(4)样本指数;
(5)建立回归模型的基本步骤。
(四) 作业:见〈〈一日一练〉〉
(五) 课后反思:
本节内容对回归分析的探讨过程很精彩,学生讨论很热烈,激发了学生的学习热情。但对< br>残差分析学生只能欣赏它的过程,计算量太大,思维的跳跃性太强!

薄弱高中数学的初高中衔接-高中数学必修二圆系方程


高中数学二项式习题-高中数学基础复习试卷及答案


高中数学课堂教学模式-高中数学期中考试总结与反思800字


青海省高中数学用a版还是b版-浦东 高中数学辅导机构


2017年全国高中数学竞赛湖北赛区成绩-高中数学平面几何教学视频


全国高中数学联赛是高几水平-作业帮高中数学竞赛


高中数学包括函数和什么区别-高中数学学校试讲课都选概念课


高中数学各本书考多少-高中数学 有什么数



本文更新与2020-09-19 07:38,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/404060.html

高中数学选修2-3公开课教案3.1回归分析的基本思想及其初步应用的相关文章

高中数学选修2-3公开课教案3.1回归分析的基本思想及其初步应用随机文章