高中数学哪些知识点难-高中数学中非的意义
高考数学复习总结归纳点拨
回归分析的基本思想及其初步应用知识点精析
教材中通过一些典型的案例,从不同的角度阐述了统计的一些基本思想方法。教材中
主
要阐述的是线性回归的思想方法及其应用。我们可以从中很好地感悟其回归的思想方法,把
它
应用到生活实际中去。
一.知识要点,学习目标
1
复习线性回归方程的求法及步骤,了解回归方程中的参数求法;
2
结合案例体会回归分析的基本思想及其应用;
(1)掌握用相关系数
r
分析两个变量之间线性相关关系的强弱;
(2)掌握线性回归模型与线性回归方程的关系及其参数、变量的意义;
(3)会通过残差分析研究模型的拟合精度以及回归方程的预报精度;
(4)会通过相关指数
R
2
表达出解释变量和误差变量对预报变量的贡献比,刻画出回归
效果。
(5)了解非线性回归问题转化为线性回归问题;
(6)通过求回归方程,建立回归模型进行
回归分析,使知识形成网络。体会回归分析的
基本思想。
二.线性回归方程的确定(复习内容)
gg,(x
n
,y
n
),
作出散点图大致分布在一如果一
组具有相关关系的数据
(x
1
,y
1
),(x
2
,
y
2
),g
条直线附近,那么我们称这样的变量之间的关系为线性相关关系(也称一元
线性相关),这条
?
?bx?a
. 直线就是回归直线,记为
y
那么
如何求得参数
a和b
使得各点与此直线的距离的平方和为最小,即如何求得线性回
归方
程呢?
?
?bx?a
中,当
x
取
x
i<
br>时,
$$
在所求回归直线方程
y
y
i
?bx
i
?a
与实际收集到的数据
y
i
之
间的偏差为
yi
?
$$
y
i
?y
i
?(bx
i
?a)
,偏差的平方为
(y
i
?
$$
y
i
)
2
?[y
i
?(bx
i
?a)]
2
(如
图1).
即以
Q?
?
(y?bx?a)
ii
i?1
n
2
来刻画出
n
个点与回归直线在整体上偏差的平方和,显然Q取最
1
高考数学复习总结归纳点拨
小值时的
a,b
的值就是我们所求的。
应注意,这个最小距离不是通常所指
的各数据的点
(x
i
,y
i
)
到直线的距离,而是各数据点
(x
i
,y
i
)
沿平行y轴方向到直线的距离(如图1所示
).
下面我们看最小二乘法求
a,b
的几种方法:
1.配方法
将
Q?
y
(y
i
?
$$
y
i
)
2
y
i
$$
y
i
g
o
g
?
g
$$
y?bx?a
g
y
?
g
y
g
g
?
?
g
$$
y?bx?a
g
g
x
i
x
o
x
图2
x
图1
?
(y?bx?a
)
ii
i?1
n
2
展开,再合并,然后配方整理,从而求得
a,b
.此解法求参数
a和b
的
思想及方法是简单的,但是运算量较大,我们
只要明白其思想方法即可.
2.二次函数法
下面举例说明如何用二次函数法求参数
a和b
。
例.
已知变量
x
与
y
由下列四对对应数据:
x
1 2
2
3 4
高考数学复习总结归纳点拨
用最小二乘法求关于
x
的回归直线方程.
分析:要理解最小二乘法的隐含的数学思想方法,区别公式求法。
y
1
2
2
3
2 3
?
?bx?a
,
解答:设所求回归方程为
y
则各数据点与回归直线距离的偏差平方和为:
Q(a,b)?(a?b?)
2
?(a?2b?)
2
?(a?3b?
2)
2
?(a?4b?3)
2
整理成关于
a
的二次函数为:
Q(a,b)?4a
2
?(20b?14)a?30b
2
?43b?
所以当
a??
1
2
3
2
5
?13
2
20b?14
2?4
?
7?10b
4
(1),
Q(a,b)
有最小值
整理成关于
b
的二次函数为:
Q(a,b)?30b
2
?(20a?43)b?4a
2
?14a?
所以当
b??
5
?13
2
20a?4343?20a
(2),
Q(a,b)
有最小值
?
2?3060
14
解(1),(2)得
a??
,
b?
45
)
14
因此,所求回归方程为
y???x
.
45
解题剖析:
这里通过特例给出了较为简单的最小二乘法求回归方程,同学们可以
?
?bx?a
的参
数
a和b
,这也体现了由特殊到一般的数学思以此法求线性回归方程中
y
想方
法.
3.添项法
$$
和斜率
b
$$
分别
是使
Q(a,b)?(y?bx?a)
2
取 可以用添项法较为简捷的求出截距<
br>a
?
ii
i?1
n
最小值时
a和b
的值.
3
高考数学复习总结归纳点拨
n
解答:Q(a,b)?
?
(y?bx?a)
ii
i?1
n
2<
br>
?
?
[(y
i
?bx
i
?y?bx)?(
a?y?bx)]
2
i?1
n
=
?
(y?bx?
y?bx)
?
?
(a?y?bx)
2
ii
i?1
n
2
i?1
-2
?
(y?bx?y?bx)(a?y?bx)
ii
i?1
n
2
n
由于
?
(a?y?bx)
i?1
=
n(a?y?bx)
,
又
?
(y?bx?y?bx)(a?y?bx)
ii
i?1
n
=
(a?y?bx)
[
?
(y?bx)?ny?nbx)]
ii
i?1
n
=
(a?y?bx)(ny?nbx?ny?nbx)
=0
所以,
Q(a,b)?
?
(y?bx?y?bx)
ii
i?1
2
n
n
2
?n(a?y?bx)
2<
br>
=
b
2
?
(x?x)
i
i?1<
br>n
?2b
?
(x
i
?x)(y
i
?y)
i?1
+
?
(y
i?1
n
i
?y)
2
?n(a?y?bx)
2
n
=
n(a?y?b
x)
+
2
?
(x?x)
[
b?
2
i
i?1
n
?
(x?x)(y?y)
ii
i?1
?
(x?x)
i
i?1
n
]
2
2
[
?
(x
i
?x)(y
i
?y)
]
2
-<
br>i?1
n
?
(x?x)
i
i?1
n
?
2
?
(y
i?1
n
2
?y)
i
4
高考数学复习总结归纳点拨
由于后两项与
a
、
b
无关,而前两项非负,因此要使
Q
取得最小值,当且仅当前两项的和为0,即有
$$
?
b
?
(x?
x)(y?y)
?
xy?nxy
iiii
i?1
nn
?(x?x)
i
i?1
n
?
2
i?1
n
?
x
i?1
2
i
?nx
2
$$
?y?bx
$$
a
这就是我们所要求的公式(无特殊要求时以此公式求回归方程中的
a
、
b
).
1
n
1
n
其中
(x
i
,y
i<
br>)
为样本数据,
x?
?
x
i
,y?
?
y
i
为样本平均数,
(x,y)
称为样本点
n
i
n
i
中心,且所求线性回归直线经过样本点中心点(如图2所示).
当回归直线斜率
b?0
时,为线性正相关,
b?0
时为线性负相关.
三.线性回归分析:
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.前
面我们给出
了线性回归方程,这里我们主要结合教材分析一元线性回归问题.
1.以散点图分
析线性相关关系,散点图是较粗略地分析和判断两个具有相关关系的
变量是否线性相关的问题,如果是线
性相关的,我们可以求其线性回归方程,如果不是线
性向相关的,即使求得线性回归方程,也是无效的;
也就是说不能对一些数据进行分析判
断,不能应用它解决和解释一些实际问题.
2.以相关系数分析线性相关关系的强弱
两个变量之间的相关关系的样本相关系数:
r?
?
(x?x)(y?y)
ii
i?1
n
?
(
x?x)
?
(y?y)
2
ii
i?1i?1
nn
可
衡量是否线性相关,以及线性相性关系的强弱.由于
2
分子与线性回归方程中的斜率
b
的分子一样(这也给出了公式的内在联系以及公式的记法),
因此,当
r?0
时,两个变量正相关;当
r?0
时两个变量负相关.当
r
的绝对值接近1,表
明两个变量的线性相关性很强;当
r
的绝对值接近0,表明两个变量之间几乎不存在线
性相
关关系.规定当
r?0.75
时,我们认为两个变量有很强的线性相关关系.
5
高考数学复习总结归纳点拨
3.解释变量与随机误差对预报精度的影响以及残差分析
(1)有关概念
?
?bx?a
上的点还有一定的差距,由于样本数据点与一元线性回归方程
y
这说明<
br>了另外的一个因素随机误差
e
的影响.
于是有线性回归模型
y?bx?a?e
其中
a
和
b
为模型的未知参数;
y
e
i
?y
i
?
$$
y
i
x
称为解释变量,
y
称为预报变量;
y
i
?
?bx?a
之间的误差,
e
是
y
与
y
e
叫随机误差。
随机误差的估计值为:
$$
y
i
g
o
g
?
?
g
g
$$
y?bx?a
g
x
i
图3
x
$$
i
?y?
$$$$
?a
$$
ey
i
?y
i
?bx
ii
$$
i
称为相应于样本点
(x,y)
的残差(如图3)
e
.
ii
(2)通过残差分析判断模型拟合效果
$$
i
?y?
$$$$
?a
$$
计算出残差 由
e
y
i
?y
i
?bx
ii
$$
1
,
e
$$
2
,…,
e
$$
n
,然后选取横坐标为
e
编号、或解释变量或预报变量,纵坐标为残差作出残差图.通过图形分析,如果样本
点的残差较
大,就要分析样本数据的采集是否有错误;另一方面,可以通过残差点分
布的水平带状区域的宽窄(如教
材
p
8
图1.1-5),说明模型拟合效果,反映回归方程
的预报精度.
4.相关指数
R
反应模型的拟合效果
2
<
br>R
2
?1?
y
i
)
?
(y
i
?
$$
n
2
?
(y?y)
i
i?1
ni?1
n
y)
?
(y?y)?
?
(y?
$$2
ii
i
nn
2
=
2
i?1i?1
?
(y?y)
i
i?1
n
2
(1)变量剖析理解:
总偏差平方和
?
(y
i?1
i
i
?y)
2
,表示解释变量和随机误差产生的总的效应;
残差平方和
y)
?
(y?
$$
i
i?1
n
2
,表示了随
机误差效应;
6
高考数学复习总结归纳点拨
nn
其差
y)
?
(y?y)?
?
(y?
$$
2
ii<
br>i
i?1i?1
2
,表示了解释变量效应.
(2)模型拟合效果 <
br>y)
?
(y?
$$
i
i
n
2
①残差平
方和占总偏差平方和的百分比
?
(y?y)
i
i?1
i?1
n
,反映了随机误差对
2
预报变量(总效应)的贡献率,显然这个数值越大,模型的拟
合效果越差.
②解释变量效应占总偏差平方和的百分比
R
2
?1?
y
i
)
?
(y
i
?
$$
n
2
?
(y?y)
i
i?1
i?1
n
反映了
2
解释变量对预报变量(总效应)的贡献率;
因此,
R
2
越接近
1(即
y)
?
(y?
$$
i
i
n
2
?
(y?y)
i
i?1
i?1
n
越接近0),表示回归的效
果越好,即解释变量和预报变量的
2
线性相关性越强.
四.非线性回归的问题转化为线性回归问题
(1)作散点图确定曲线模型
根据收集的数据作散点图(如图4),
可见两个变量不呈线性相关关系.而是 分布在某一条指数函数曲线
y?c
1
e
c
2
x
g
的
周围,也可以认为样本点集中在某二次
2
曲线
y?c
3
x?c
4
的附近.
o
g
?
g
?
g
图4
(2)非线性转化为线性
这时
通过对数变换把指数关系
y?c
1
e
c
2
x
2
变为线性关系
z?c
2
x?lnc
1
;通过换元把二
次函数
y?c
3
x?c
4
关系变换为
线性关系
y?c
3
t?c
4
. 在这两种情况下就可以利用
线性回归模型,建立
y
和
x
之
间的非线性回归方程了.
7
高考数学复习总结归纳点拨
(3)比较两种模型的拟合效果
gg,(x
n
,y
n
),
对于给定的样本点
(x
1
,y
1
),(x
2
,y
2
),g
ⅰ可以通过转换后的对应数表作散点图来确定线性回归的拟合情况,判断选用
哪一种曲线模型较为合适;
ⅱ可以通过原始数据及
y
和
x
之间的非线性回归方程列出残差对比分
析表,一
般通过残差平方和比较两种模型的拟合效果,显然残差平方和较小的拟合效果较
好;
ⅲ还可以用
R
2
来比较两个模型的拟合效果,
R
2
越大(越接近1),拟合效果
越好。
8