北师大版高中数学单元教案-高中数学高等数学吗
.
3.2 独立性检验的基本思想及其初步应用
(共计3课时)
授课类型:新授课
一、教学内容与教学对象分析
通过典型案例,学习下列一些常用的统计方法,并能初步应用这些方法解决一些实际
问题。
① 通过对典型案例(如“患肺癌与吸烟有关吗”等)的探究。了解独立性检验(只要
求2×2
列联表)的基本思想、方法及初步应用。
②
通过对典型案例(如“人的体重与身高的关系”等)的探究,了解回归的基本思想、
方法及其初步应用。
二. 学习目标
1、知识与技能
通过本节知识的学
习,了解独立性检验的基本思想和初步应用,能对两个分类变量是否有关
做出明确的判断。明确对两个分
类变量的独立性检验的基本思想具体步骤,会对具体问题作
出独立性检验。
2、过程与方法
在本节知识的学习中,应使学生从具体问题中认识进行独立性检验的作用及必要性,树立学
好本
节知识的信心,在此基础上学习三维柱形图和二维柱形图,并认识它们的基本作用和存
在的不足,从而为
学习下面作好铺垫,进而介绍K的平方的计算公式和K的平方的观测值
R的求法,以及它们的实际意义。
从中得出判断“X与Y有关系”的一般步骤及利用独立性检
验来考察两个分类变量是否有关系,并能较准
确地给出这种判断的可靠程度的具体做法和可
信程度的大小。最后介绍了独立性检验思想的综合运用。
3、情感、态度与价值观
通过本节知识的学习,首先让学生了解对两个分类博变量进行独立性
检验的必要性和作用,
并引导学生注意比较与观测值之间的联系与区别,从而引导学生去探索新知识,培
养学生全
面的观点和辨证地分析问题,不为假想所迷惑,寻求问题的内在联系,培养学生学习数学、应用数学的良好的数学品质。加强与现实生活相联系,从对实际问题的分析中学会利用图形
分析、解
决问题及用具体的数量来衡量两个变量之间的联系,学习用图形、数据来正确描述
两个变量的关系。明确
数学在现实生活中的重要作用和实际价值。教学中,应多给学生提供
自主学习、独立探究、合作交流的机
会。养成严谨的学习态度及实事求是的分析问题、解决
问题的科学世界观,并会用所学到的知识来解决实
际问题。
三.教学重点、难点
教学重点:理解独立性检验的基本思想;独立性检验的步骤。
教学难点;1、理解独立性检验的基本思想;
2、了解随机变量K
2
的含义;
3、独立性检验的步骤。
四、教学策略
教学方法:诱思探究教学法
学习方法:自主探究、观察发现、合作交流、归纳总结。
教学手段:多媒体辅助教学
五、教学过程:
.
对于性别变量,其取值为男和女两种
.这种变量的不同“值”表示个体所属的不同类别,
像这类变量称为分类变量.在现实生活中,分类变量
是大量存在的,例如是否吸烟,宗教信
仰,国籍,等等.在日常生活中,我们常常关心两个分类变量之间
是否有关系.例如,吸烟
与患肺癌是否有关系?性别对于是否喜欢数学课程有影响?等等.
为
调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单
位:人)
表3-7 吸烟与肺癌列联表
不患肺癌 患肺癌 总计
42
49
91
7817
2148
9965
不吸烟
7775
吸烟
总计
2099
9874
那么吸烟是否对患肺癌有影响吗?
像表3一7 这样列出的两个分类变量的频数表,称为列联
表.由吸烟情况和患肺癌情
况的列联表可以粗略估计出:在不吸烟者中,有0.54 %患有肺癌;在吸
烟者中,有2.28%
患有肺癌.因此,直观上可以得到结论:吸烟者和不吸烟者患肺癌的可能性存在差
异.
与表格相比,三维柱形图和二维条形图能更直观地反映出相关数据的总体状况.图3. 2
一1 是列联表的三维柱形图,从中能清晰地看出各个频数的相对大小.
图3.2一2 是叠在一起的二维条形图,其中浅色条高表示不患肺癌的人数,深色条高
表示患
肺癌的人数.从图中可以看出,吸烟者中患肺癌的比例高于不吸烟者中患肺癌的比例.
为了
更清晰地表达这个特征,我们还可用如下的等高条形图表示两种情况下患肺癌的比
.
例.如图3.2一3
所示,在等高条形图中,浅色的条高表示不患肺癌的百分比;深色的条
高表示患肺癌的百分比.
通过分析数据和图形,我们得到的直观印象是“吸烟和患肺癌有关”.那么我们是否能
够以一定的把握认为“吸烟与患肺癌有关”呢?
为了回答上述问题,我们先假设
H
0
:吸烟与患肺癌没有关系.用A表示不吸烟,
B表示不患肺癌,则“吸烟与患肺癌没
有关系”独立”,即假设 H
0
等价于
PAB)=P(A)+P(B) .
把表3一7中的数字用字母代替,得到如下用字母表示的列联表:
表3-8
吸烟与肺癌列联表
不患肺癌 患肺癌 总计
b
d
b+d
a+b
c+d
a+b+c+d
不吸烟 a
吸烟
总计
c
a+c
在表3一8中,a恰好为事件AB发生的频数;a+b 和a+c恰好分别为事件A和B发生
的
频数.由于频率近似于概率,所以在H
0
成立的条件下应该有
aa?ba?c
,
??
nnn
其中
n?a?b?c?d
为样本容量,
(a+b+c+d)≈(a+b)(a+c) ,
即ad≈bc.
因此,|ad-
bc|越小,说明吸烟与患肺癌之间关系越弱;|ad
-bc|越大,说明吸烟与患肺癌
之间关系越强.
为了使不同样本容量的数据有统一的评判标准,基于上面的分析,我们构造一个随机变
量
n
?
ad?bc
?
2
K?
(1)
?
a?b
??
c?d
??
a?c
??b?d
?
其中
n?a?b?c?d
为样本容量.
若
H
0
成立,即“吸烟与患肺癌没有关系”,则 K
“应该很小.根据表3一7中的数据,
利用公式(1)计算得到 K “的观测值为
2
9965
?
7775?49?42?2099
?
K
2
??
56.632
,
7817?2148?9874?91
这个值到底能告诉我们什么呢?
统计学家经过研究后发现,在 H
0
成立的情况下,
2
.
P(K
2
?6.635)?0.01
.
(2)
(2)式说明,在H
0
成立的情况下,
K
2
的观测值超过 6.
635 的概率非常小,近似为0 .
01,是一个小概率事件.现在
K
2
的观测值
k
≈56.632 ,远远大于6. 635,所以有理由断
定H
0
不成立,即认为“吸烟与患肺癌有关系”.但这种判断会犯错误,犯错误的概率不会超
过0.0
1,即我们有99%的把握认为“吸烟与患肺癌有关系” .
在上述过程中,实际上是借助于随机变
量
K
2
的观测值
k
建立了一个判断H
0
是否成立的
规则:
如果
k
≥6. 635,就判断H
0
不成立,即认
为吸烟与患肺癌有关系;否则,就判断H
0
成
立,即认为吸烟与患肺癌没有关系.
在该规则下,把结论“H
0
成立”错判成“H
0
不成立”的概率不会超过
P(K
2
?6.635)?0.01
,
即有99%的把握认为从不成立.
上面解决问题的想法类似于反证法.要确认是否能以给定的
可信程度认为“两个分类变
量有关系”,首先假设该结论不成立,即
H
0
:“两个分类变量没有关系”
成立.在该假设下我们所构造的随机变量
K
2
应该很小.如果由观测数据计算得到的
K
2
的
观测值k
很大,则在一定可信程度上说明H
0
不成立,即在一定可信程度上认为“两个分类
变量
有关系”;如果k的值很小,则说明由样本观测数据没有发现反对H
0
的充分证据.
2
怎样判断
K
的观测值 k 是大还是小呢?这仅需确定一个正数
k
0
,当
k?k
0
时就认为
K
2
的观测值k大.此时相应于
k
0
的判断规则为: 如果
k?k
0
,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量
之间没
有关系”.
我们称这样的
k
0
为一个判断规则的临界值.
按照上述规则,把“两个分类变量之间没
2
有关系”错误地判断为“两个分类变量之间有关系”
的概率为
P(K?k
0
)
.
2
在实际应用中,我们把<
br>k?k
0
解释为有
(1?P(K?k
0
))?100%
的把握认为“两个分类
2
变量之间有关系”;把
k?k
0
解释为不
能以
(1?P(K?k
0
))?100%
的把握认为“两个分类
变量
之间有关系”,或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据.上
面这种利用随机
变量
K
来确定是否能以一定把握认为“两个分类变量有关系”的方法,称
为两个分类变
量的独立性检验.
利用上面结论,你能从列表的三维柱形图中看出两个变量是否相关吗?
一般地,假设有两个分类变量X和Y,它们的可能取值分别为{
x
1
,x2
}和{
y
1
,y
2
},
其样本频数列联表(称为2×2列联表)为:
表3一 9 2×2列联表
2
.
y
1
y
2
总计
x
1
x
2
a
b
a?b
d
c?d
总计
a?c
b?d
a?b?c?d
若要推断的论述为
H
l
:X与Y有关系,
可以按如下步骤判断结论H
l
成立的可能性:
1.通过三维柱形图和二
维条形图,可以粗略地判断两个分类变量是否有关系,但是这
种判断无法精确地给出所得结论的可靠程度
.
① 在三维柱形图中,主对角线上两个柱形高度的乘积ad
与副对角线上的两个柱形高
度的乘积bc相差越大,H
1
成立的可能性就越大.
② 在二维条形图中,可以估计满足条件X=
x
1
的个体中具有Y=
y
1
的个体所占的比例
c
c
a
,也可以估计满足
条件X=
x
2
的个体中具有Y=
y
2
,的个体所占的比例.
“两个
c?d
a?b
比例的值相差越大,H
l
成立的可能性就越大.
2.可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给
出这种判
断的可靠程度.具体做法是:
①
根据实际问题需要的可信程度确定临界值
k
0
;
② 利用公式( 1 )
,由观测数据计算得到随机变量
K
的观测值
k
;
2
③
如果
k?k
0
,就以
(1?P(K?k
0
))?100%<
br>的把握认为“X与Y有关系”;否则就
2
说样本观测数据没有提供“X与Y有关系”的充
分证据.
在实际应用中,要在获取样本数据之前通过下表确定临界值:
表3一10
P(K
2
?k
0
)
0.50
0.40
0.25
0.15
0.10
0.05
0.025 0.010
0.005 0.001
k
0
0.455 0.708 1.323
2.072 1.323 2.706 3.841 5.024 6.635 10.828
(四)、举例:
例1.在某医院,因为患心脏病而住院的 665 名男性病人中,有
214 人秃顶,而另外
772 名不是因为患心脏病而住院的男性病人中有 175 人秃顶.
(1)利用图形判断秃顶与患心脏病是否有关系.
(2)能够以 99
%的把握认为秃顶与患心脏病有关系吗?为什么?
解:根据题目所给数据得到如下列联表:
(1)相应的三维柱形图如图3.2一4所示.比较来说,底面副对角线上两个柱体高度的乘
积要大一些
,可以在某种程度上认为“秃顶与患心脏病有关”.
.
(2)根据列联表3一11中的数据,得到
1437?(214?597?175?451)
2
k?
≈16.373>6
.
389?1048?665?772
因此有 99
%的把握认为“秃顶与患心脏病有关” .
例2.为考察高中生的性别与是否喜欢数学课程之间的关系
,在某城市的某校高中生中随
机抽取300名学生,得到如下列联表:
表3一12
性别与喜欢数学课程列联表
男
女
由表中数据计算得
K
的观测值
k?4.514
.能够以95%的把握认为高中生的性别与是否喜
欢数学课程之间有关系吗?请详细阐明得出结论的依据.
解:可以有约95%以上的把握认为“性别
与喜欢数学课之间有关系”.作出这种判断的
依据是独立性检验的基本思想,具体过程如下:
分别用a , b , c , d 表示样本中喜欢数学课的男生人数、不喜欢数学课的男生人数、喜
欢
数学课的女生人数、不喜欢数学课的女生人数.如果性别与是否喜欢数学课有关系,则男生
中
喜欢数学课的比例
2
喜欢数学课程 不喜欢数学课程 总计
37
35
85
143
228
122
178
300 总计 72
c
a
与女生中喜欢数学课的人数比例应该相差很多,即
c?d
a?b
|
acad?bc
?|?||
应很大.
a?bc?d(a?b)(c?d)
将上式等号右边的式子乘以常数因子
(a?b?c?d)(a?b)(c?d)
(a?c)(b?d)
,
n(ad?bc)
2
然后平方得
K?
,
(a?b)
(c?d)(a?c)(b?d)
2
其中
n?a?b?c?d
.因此
K
越大,“性别与喜欢数学课之间有关系”成立的可能性越大.
另一方面,在假设“性别与喜欢数学课之间没有关系”的前提下,事件A
={
K
≥3. 841}
2
2
.
的概率为P (
K
2
≥3. 841) ≈0.05,
因此事件
A
是一个小概率事件.而由样本数据计算得
K
2
的观测值k=4.514,即小概率事件
A发生.因此应该断定“性别与喜欢数学课之间有关系”成立,并且这种判断结果出错的可
能性
约为5 %.所以,约有95 %的把握认为“性别与喜欢数学课之间有关系”.
补充例题
1:打鼾不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所
得的数据,试问:每一晚都
打鼾与患心脏病有关吗?
患心脏病 未患心脏病 合计
每一晚都打鼾 30
224 254
不打鼾 24 1355 1379
合计 54 1579 1633
解:略。
补充例题2: 对196个接受心脏搭桥手术的病人和196个接受血管
清障手术的病人进
行3年跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
心脏搭桥手术
血管清障手术
合计
又发作过心脏病
39
29
68
未发作过心脏病
157
167
324
合计
196
196
392
试根据上述数据比较两种手术对病人又发作心脏病的影响有没有差别。
解略
(四) 课堂小结
1.知识梳理
2.规律小结
(1)三维柱形图与二维条形图
(2)独立性检验的基本思想
(3)独立性检验的一般方法
(五) 作业:
五
课后反思:
.
本节内容对独立性检验的探讨过程学生基本没什么困难,还有
学生提出了新的探讨路径和思
想,学生思维活泼!对独立性检验的作用,本节课也作了系统总结比较。