关键词不能为空

当前您在: 主页 > 高中公式大全 >

求正方体的棱长公式记数数据统计法卡方检验法.

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2020-11-06 05:46
tags:卡方统计量公式

水浒传好词好句好段摘抄大全-茂名职业学院

2020年11月6日发(作者:车婉婉)
第八章 记数数据统计法—卡方检验法
知识引入
在各个研究领域中,有些研究问题 只能划分为不同性质的类别,各类别没有量的联系。例如,
性别分男女,职业分为公务员、教师、工人、 ……,教师职称又分为教授、副教授、……。
有时虽有量的关系,因研究需要将其按一定的标准分为不同 的类别,例如,学习成绩、能力
水平、态度等都是连续数据,只是研究者依一定标准将其划分为优良中差 ,喜欢与不喜欢等
少数几个等级。对这些非连续等距性数据,要判别这些分类间的差异或者多个变量间的 相关
性方法称为计数数据统计方法。
卡方检验是专用于解决计数数据统计分析的假设检验 法。本章主要介绍卡方检验的两个
应用:拟合性检验和独立性检验。拟合性检验是用于分析实际次数与理 论次数是否相同,适
用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上 的因素
之间是否有关联或是否独立的问题。
在计数数据进行统计分析时要特别注意取 样的代表性。我们知道,统计分析就是依据样
本所提供的信息,正确推论总体的情况。在这一过程中,最 根本的一环是确保样本的代表性
及对实验的良好控制。在心理与教育研究中,所搜集到的有些数据属于定 性资料,它们常常
是通过调查、访问或问卷获得,除了少数实验可以事先计划外,大部分收集数据的过程 是难
于控制的。例如,某研究者关于某项教育措施的问卷调查,由于有一部分教师和学生对该项
措施存有意见,或对问卷本身有偏见,根本就不填写问卷。这样该研究所能收回的问卷只能
代表一部分观 点,所以它是一个有偏样本,若据此对总体进行推论,就会产生一定的偏差,
势必不能真实地反映出教师 与学生对这项教育措施的意见。因此应用计数资料进行统计推断
时,要特别小心谨慎,防止样本的偏倚性 ,只有具有代表性的样本才能作出正确的推论。
第一节 卡方拟合性检验
一、卡方检验的一般问题
卡方检验应用于计数数据的分析,对于总体的分布不作任何假 设,因此它又是非参数检
验法中的一种。它由统计学家皮尔逊推导。理论证明,实际观察次数(f
o
)与理论次数(f
e
),
又称期望次数)之差的平方再除以理论次数所得 的统计量,近似服从卡方分布,可表示为:

这是卡方检验的原始公式,其中当f
e
越大(f
e
≥5),近似得越好。显然f
o
与f
e相差越大,
卡方值就越大;f
o
与f
e
相差越小,卡方值就越小 ;因此它能够用来表示f
o
与f
e
相差的程度。
根据这个公式,可认 为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数
分布之间是否存在显著差异。它主 要应用于两种情况:
卡方检验能检验单个多项分类名义型变量各分类间的实际观测次数与理论次数 之间是
否一致的问题,这里的观测次数是根据样本数据得多的实计数,理论次数则是根据理论或经
验得到的期望次数。这一类检验称为拟合性检验。
拟合性检验的零假设是观测次数与理论次数之 间无差异。其中理论次数的计算一般是根
据某种理论,按一定的概率通过样本即实际观测次数来计算。这 里所说的某种理论,可能是
经验规律,也可能是理论分布。确定理论次数是卡方检验的关键。
拟合性检验自由度的确定与两个因素有关:一是分类的项数,二是在计算理论次数时,
所用统计量或约束 条件的个数,这两者之差即为自由度。由于一般情况下,计算理论次数时
只用到“总数”这一统计量,所 以自由度一般是分类的项数减1。但在对连续数据分布的配合
度检验中,常常会用数据个数、平均数、标 准差等统计量来计算理论次数,所以此时的自由
度应从总分类项中减去更多的个数。按照检验中理论次数 的定义不同,拟合性检验有以下集
中应用。

二、检验无差假设
所谓无差假设,是指各项分类的实计数之间没有差异,也就是说各项分类之间的概率相
等(均匀分布), 因此理论次数完全按概率相等的条件来计算。即任一项的理论次数都等于
总数分类项数。因此自由度也就 等于分类项数减1。

【例1】 随机地将麻将色子抛掷300次,检验该色子的六 个面是否均匀。结果1-6点
向上的次数依次是,43,49,56,45,66,41。
解:每个类的理论次数是 3006 = 50,代入公式:

因此,在0.05的显著性水平下,可以说这个色子的六面是均匀的。
【例2】 随机抽取60名 高一学生,问他们文理要不要分科,回答赞成的39人,反对
的21人,问对分科的意见是否有显著的差 异。
解:如果没有显著的差异,则赞成与反对的各占一半,因此是一个无差假设的检验,于
是理论次数为602=30,代入公式:

所以对于文理分科,学生们的态度是有显著的差异的。

三、检验假设分布的概率
这里的假设分布可以是经验性的,也可以是某理论分布。公式中所需的理论次数则按照
这里 假设的分布进行计算。
【例3】 国际色觉障碍讨论会宣布,每12个男子中,有一个是先天性色 盲。从某校抽
取的132名男生中有4人是色盲,问该校男子色盲比率与上述比例是否有显著差异?
解:按国际色觉障碍讨论会的统计结果,132人应该有13212=11人是色盲,剩下的121
人非色盲,代入公式有:

因此,在0.05和显著性水平下,该校男子色盲比 率与国际色觉障碍讨论会的统计结果
有显著差异,显然根据比例可知该校的色盲率小于国际色觉障碍讨论 会的统计结果。
【例4】 在英语四级考试中,某学生做对了80个四择一选择题中的28题,现 在要判
断该生是否是完全凭猜测做题。
解:假如该生完全凭猜测做题,那么平均而言每道 题做对的可能性是14,因此80个题
中平均而能做对804=20题,代入公式有:

因此,该生可能会做一些题。

四、连续变量分布的拟合性检验
对于一组连续数据,经常需要对其次数分布究竟服从哪种理论分布进行探讨,这一方面
的主 要应用就是在前面经常所提到的总体正态性检验。首先要将测量数据整理成次数分布表
和画出次分布图, 并据此选择恰当的理论分布。这些理论分布是多种多样的,例如有正态分
布、均匀分布等。然后根据选择 的理论分布计算出理论次数,就可以计算卡方统计量并进行
显著性检验了。若差异显著,说明所选择的理 论分布不合适,可以再选一个理论分布进行检
验,直至完全拟合。当然有时也只需检验是否与某确定的理 论分布相符,如正态性检验(参
见教材有关内容)。
对连续随机变量分布的吻合性检验, 关键的步骤是计算理论次数与确定自由度。理论次
数的计算是按所选理论分布规律,并利用观测数据的有 关统计量来计算各分组(次数分布表
中)理论次数。自由度则是用分组数减去计算理论次数时所用统计量 的数目。
这种拟合性检验计算较为繁琐,不做要求。

五、小理论次数时的连续性校正
卡方检验中,当某分类理论次数小于5时,卡方统计量不能很好地 满足卡方分布,此时
需要对卡方统计量进行校正,称为卡方的连续性校正,其公式如下:

尽管采用此方法校正后,卡方统计量能较为接近卡方分布,不过我们仍然建议在实际中
最好 增大样本的容量,尽量减少出现这种不大服从理论分布的情况。
第二节 独立性检验
卡方 检验还可以用于检验两个或两个以上因素(各有两项或以上的分类)之间是否相互影
响的问题,这种检验 称为独立性检验。例如要讨论血型与性格的关系,血型有A、B、AB、
O四类,性格采用心理学上的A 型性格来划分,即有A型和B型两种,每个人可能是它们
之间交叉所形成的8种类型中的一种,那么倒底 它们之间有不有关系,就可以用卡方独立性
检验。
卡方独立性检验用于检验两个或两个以 上因素(各有两项或以上的分类)之间是否相互
影响的问题。所谓独立,即无关联,互不影响,就意味着 一个因素各个分类之间的比例关系,
在另一个因素的各项分类下都是相同的,比如在血型与性格关系中, 如果A型性格人群中
各血型的比例关系,与B型性格人群中各血型的比例关系相同,就可能说血型与性格 相互
独立,当然这里的“两者比例相同”在统计的意义下,应表述为“两比例差异不超过误差范围”,< br>因为就算总体之间相互独立,收集到两个比例完全相同的样本的可能是很小很小的,甚至是
不可能 的。相反,若一个因素各个分类之间的比例关系,在另一个因素的各项分类下是不同
的,则它们之间相关 。假如A型性格中A型血的比例高于B型性格中A型血的比例,而且
达到显著水平,那么就可以说血型与 性格之间相关,不相互独立。
卡方独立性检验的零假设是各因素之间相互独立。因此理论次数的计 算也是基于这一假
设,具体计算时,采用列联表的方式,后面将举例说明。

【例1】 某校对学生课外活动内容进行调查,结果整理成下表,表中彩色格子里的数
是原始数据的汇总 数,括号内的数是理论次数(是按下面将要介绍的原理计算得来的),此
外的是原始数据。

课外活动内容(因素1)
性别(因素2)
体育
21(15.3)
6(11.7)
27
文娱
11(10.2)
7(7.8)
18
阅读
23(29.5)
29(22.5)
52
小计和(fx)
男生
女生
小计和(fy)
55
42
97

由于所有学生参加三项活动的比例是2 7:18:52,因此如果课外活动的选择与性别没有关
系的话,男女生参加这三项活动的比例也应是这 同一比例,而男女各自的人数可以计算,所
以每格内的理论次数的计算方法如下:
男生中
参加体育活动的理论人数:55×2797=15.3
参加文娱活动的理论人数:55×1897=10.2
参加阅读活动的理论人数:55×5297=29.5
女生中
参加体育活动的理论人数:42×2797=11.7
参加文娱活动的理论人数:42×1897= 7.8
参加阅读活动的理论人数:42×5297=22.5
我们将行列的小计和分别用 f
x
和 f
y
来表示,总人数用 N 来表示时,上述计算理论
次数的方法可以表示为:
fe
ij
= fx
i
× fy
j
N
所以,卡方独立性检验的公式可以表示如下,其中最后一个式子比较便于计算,fxy 表
示每格的原始数据。

由于在计算理论次数时,用了按每个因素分类的小计和(fx 和 fy,其个数分别记为 R
个和 C 个),和总和 N ,而总和又可由按每个因素分类的小计和计算得来,因此若从总
分类个数R×C中减去 R+C,则将总和重复减去了,因此要补 1 个自由度回来,所以最终
独立性检验的自由度表示为:

上述例题最终计算得:


或者:


这两个公式的计算结果有一点点差异,这完全是计算误差即四舍五入引起的。
df = (3-1)(2-1) = 2,而χ
2
0.05
(2) = 5.99,所以在0.05的显著性水平下,拒绝零假设,即可
以认为性别与课外活动内容有关联,或者 说男女生在选择课外活动上存在显著的差异。

四格表独立性检验
对于两个都只作两项分类的因素,它们的数据整理成的是一个 2×2 的表格,一般称为
四格表,对于四格表教材里给出了一个更简洁的公式:

公式 中,a、b、c、d的规定要求是a和d必须呈对角线。该公式的含义非常明确,即
当对角线单元格中的 次数差异越大时,卡方检验越容易显著,自然也就意味着两变量间的关
联越密切。掌握了一般的R*C表 计算后,四格表计算相对简单地多。这里不再展开。
注意,在独立性检验中,同样存在某格的理论次数小于等于 5 的问题,如同拟合性检
验中一样,我们 仍然建议在实际中最好增大样本的容量,尽量减少出现这种不大服从理论分
布的情况。
此 外,在独立性检验中,若拒绝了零假设,即各因素之间有关联,则如同方差分析中仅
判定了存在交互作用 一样,只是一个总体的结果,并不能回答具体关联的形式的问题。如果
各因素之间独立,则到此为止,若 各因素间有关联,还应该作进一步的分析,具体搞清楚各
变量的次数间是如何关联的。对此卡方检验有一 些办法,但不如参数检验中那样严格。卡方
独立性检验一般也仅限于两变量间的关联考察,对于多个名义 型变量,往往采用分拆一个变
量分别进行独立性检验的办法,然后试图整合多次检验的结果。这种做法就 显得更牵强一些。

品质相关
卡方检验既然是用来解决变量间关联性的,则 也可以构造和积差相关或等级相关系数一样的
相关程度的度量,称为品质相关。常用的品质相关有以下几 种:
1、Φ相关系数
Φ相关只适用于四格表,它要求两变量是不同性质的。Φ相关 的公式实际上是根据四格
表的卡方值变换而来的,通过变换使得其取值大约在正负1之间,这样便于联系 一般的相关
系数的含义进行解释。在卡方检验一节,我们曾讲到卡方值的大小反映了实际次数与理论次< br>数之间差异的大小,而独立性检验中的理论次数是根据两变量独立的假设计算出来的,因此
卡方值 的大小也就反映了两变量距独立有多远,离独立越远就越相关,因此卡方值本身就反
映了两变量间相关的 程度。Φ相关的计算公式如下:

Φ相关系数依分子的正负号可取正负值。不过,所有的 品质相关几乎都不是独立构造的,
而都是对卡方检验中卡方统计量的变换。因此实际上,只要进行了卡方 独立性检验,则这两
步过程就一次解决了。计算品质相关系数只是为了更好地理解两变量间关系的密切程 度。
2、列联相关C系数
列联相关实际上是将Φ相关的适用情况从四格表扩展到一 般的列联表。列联相关公式
的来历也基本上与Φ相关相同。列联相关公式为:

该系数的取值也在0和1之间,不会取到1。与使用Φ相关一样,使用列联相关之前,
最好先检验两变量 是否相关,只有两变量相关时,这一系数才有意义。

阅读材料
班上要选班长 ,有两名候选人A和B,他们获得的票数分别是45和49。班主任认为票数
悬殊太小,不足以说明B更 受欢迎,因此决定让二者各任一周班长,两周后再进行公开投
票。B很不服气,认为老师偏心,请你为他 主持公道,你能不能用统计学的知识来说明这次
投票的结果?先想一想
这个案例可以用卡方分布来检验两名候选人的票数是否有显著差异。
候选人 O(实际频数) E(预期频数) D(偏差) (O-E)
2
(O-E)
2
E
A
B
45
49
47
47
2
2
4
4
0.085
0.085
得出的显著性水平是0.68,显然,二者所得票数确实无显著差异,老师的决策是对的。

小英雄故事简短-亚洲河流


关于新年的英语作文-山东省教育招生考试信息平台


其在文言文中的意思-服装设计说明


政审父母怎样不能通过-一年级上册数学题


等腰三角形斜边长公式-退伍武警能进什么单位


和女生聊哪些话题-开网店卖什么


克己复礼什么意思-五月份的节日


班主任评语-收入



本文更新与2020-11-06 05:46,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/441187.html

记数数据统计法卡方检验法.的相关文章