关键词不能为空

当前您在: 主页 > 英语 >

对广义线性模型的学习

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-03-01 12:21
tags:

-

2021年3月1日发(作者:衬垫)


对广义线性模型(


Generalized Linear Model


)的学习




引言



在学习普通线性模型时就对因变 量为离散的情况存有疑问。


在统计实


验课程研读吴喜之老师的《 复杂数据》一书的第六章时,发现了对离


散因变量或者因变量为计数或有序数据时,


可采用广义线性模型来处


理。因此这燃起了我对于广义线性模型的学 习兴趣,通过查阅资料,


对此模型有了以下的初步了解。


并在对 经典方法理论有了一定的了解


之后,


利用该模型对实际数据进行 了处理与分析,


同时又用其他方法


(包括机器学习等方法)


对相同的数据进行了处理,


在最后比较了各


种方法之间的优缺点。



一、数据特点



1


、横截面数据(


Cross- Section Data


):在同一时间,不同统计单位相


同 统计指标组成的数据列。









Note



①与时序数据相比较,


其区别在于数据的排列标准不同,
















时序数据是按照时间顺序排列的,横截面数据是按照
















统计单位排列的。














②横截面数据不要求统计对象及其范围相同,但要求统
















计的时间相同。


< br>#


横截面数据即为同一时间截面上的数据



2


、横截面数据分析的要点:








①异方差问题










由于数据是在某一时期对个体或地域的样本的采集,不同个










体或地域本身就存在差异。








②数据的一致性










主要包括变量的样本容量是否一致,样本的取样时期是否一










致,数据的统计标准是否一致。



3


、面板数据(


Panel Data


):是指在时间序列上取多个截面,对于每


一个截面上的数据均 为一横截面数据列。









Note


:①面板数据是一个


m*n


的数据矩阵,记载的是


n


个时

















间节点 上,


m


个对象的某一数据指标。















②其有时间序列和截面两个维度,当这类数据按两个

















维度排列时,是排在一个平面上,与只有一个维度

















的数据排在一条线上有着明显的不同,整个表格像

















是一个面板。















③如果从其内在含义上讲,把


panel data


译为“时间

















序列


-


截面 数据”


更能揭示这类数据的本质上的特点。


< br>4


、广义线性模型主要用于因变量取离散值的情况






当可能 值为一切自然数


0,1,2,


??时,多用

Poisson


分布;







Y


取有限个值(实际是响应可以有有限个状态)时,多项分布






是自然的选择。



5

< br>、在很大的程度上可以说,广义线性回归就是针对因变量为有限个


值情况的回归分 析。



但在具体定模型时,需要考虑这有限个状态之间的关系。



一种是无序的,


即各状态的优劣并无公共的认定。

< br>例如外出旅行,



k


种交通工具 可以选择,其优劣取决于具体情况而并无公认的排


序。



另一种是有序的,


即各状态的优劣次序有公共的认定。


如治疗效


果、产品质量的分级等。



#


不同情况建模方法有所不同。



二、


广义线性模型的提出


< p>
广义线性模型的提出源于线性模型在应用上有重要影响的几个


缺点:



1


、只适用于因变量


Y


取值为连续的情况。










它特别不适用于分类数据(如


Y



0.1


为值) 。



T


E


(< /p>


Y


)


?


Z


(


X


)


?

< p>
?


相联系。


2



Y


的期望


E(Y)


与自 变量


X


是用线性关系










选择面太窄,往往与实际情况不符。



3


、线性模型的统计推断基本上只适用于误差正态的情形。










在某些


Y


取值连续的场合,


Y


的分布是偏态的,如指数分布、










伽马(


G amma


)分布等。



广义线性模型的 特点


正好是对应上面指出的问题:



1


、因变量


Y


可以取连续值或离散值,从 常见的应用看,取离散










值的场合更重要。



T


E


(


Y

)


?


Z


(


X


)


?


?


,有


E


(


Y


)


?


h


(


Z


T


(


X


)


?


?


)



2


、取代









函数


h


(其 反函数


g


称为联系


(或连接)


函数



link function












有较大的选择余地,这样扩大了模型的适用面。



?


?


Y


?

< br>b


(


?


))

d


?


(


Y


)



3



Y< /p>



q


维)有指数型分布

< br>Y


~


exp(









其中,


θ



q


维参数向量,

μ



R


上的


σ


有限测度,


μ


< br>θ










无关(或联系函数


g


?


h


?


1

使


?


?


Z


T


(


X


)


?< /p>


?


,称自然联系)。










指数型分布是一个适中的选择,一方面它包括了应用上最常










见的一 些分布:二项分布、多项分布、


Poisson


分布,以及










连续型的正态分布、指数分布、伽马分布等。另一方面,这










分布类有很好的分析性质,又便于理论上的研究。



q


三、广义线性模型



设有因变量


Y


,自变量


X


,普通线性模型有以下几个特征:



T


E


(


Y


)


?


Z


(


X


)


?


?


(线性:线性指对< /p>


β


,而非


X


)。



1










Z(X)



X


的已知(向量)函数。



2



X



Z(X)



Y


都是取值连续 的变量,如农作物产量、人的身高










体重之类。



3



Y


的分布为正态,或接近正态的 分布。



广义线性模型从以下几个方面推广:



T







1



E


(


Y


)


?


h


(


Z


(


X


)


?

< br>?


)



h


为一严格单调、充分光滑的函数。



h


已知,


g


?


h


?


1



h


的 反函数)称为联系函数(


link function



,










则有< /p>


g


(


?


)


?


Z


T


?

< p>












E


(


Y


)


不等于


Z


T


(


X


)


?


,而是


Z


T


(


X


)


?


的某一函数。



2



X



Z(X)



Y


可取连续或离散值,且在应用上更多见 的情况为











离散值。如


{0,1}



{0,1,2,


??< /p>


}


等。








3



Y


的分布属于 指数型,正态是其一特例。








4


、以下的表格中列出了


GLM


中常用的几种 分布:




由上表格中的第二列(


Range


of


y


)可以知道,当因变量为对应 数据


形式时应选择对应的分布来建立模型。


< br>5


、以下的表格中列出了


GLM


中常用的几种分布所对应的联系函数:



通常称这几种联系函数为标准联系函数,上表中的第三列为偏差。



四、


R


语言中的模型实现


< /p>



R


语言中利用


stats


包中的


glm()


函数来进 行广义线性模型的拟合。



lm


函数类 似,


glm


的建模结果可以通过下述的泛型函数进行二次


处理,如


summary()



coef()



confint()



residuals()



anova()



plot()



predict()




R


提供了一系列广义线性建模工具,

从类型上来说包括


gaussian



gaussian



二项式,< /p>


poisson



gamma

< p>
模型的响应变量分布以及在


响应变量分布没有明确给定时的拟似然


(quasi-likelihood)


模型。



后者,方差函数


(variance function)< /p>


可以认为是均值的函数,但是


在另外一些情况下,该函数可以由响 应变量的分布得到。



函数


glm()


的用法:



glm(formula, family = gaussian, data, weights, subset,


, start = NULL, etastart, mustart, offset,


control = list(...), model = TRUE, method =


x = FALSE, y = TRUE, contrasts = NULL, ...)


多数选项与普通线性模 型的拟合函数


lm()


相同,值得注意的是

family


选项,


family


即为选择模型的分布,有以下几种选项:



binomial(link =


#


二项分布



gaussian(link =


#


正态分布



Gamma(link =


#


伽马分布



an(link =


#



poisson(link =


#


泊松分布



quasi(link


=



variance


=



#



quasi- likelihood




Gaussian


分布



#


拟家族:响应变量分布没有明确给定时的拟似然模型


quasibinomial(link =


#


拟二项分布



#


有过度离散现象时使用:样本观测值变异性过大



quasipoisson(link =


#


拟泊松分布



#


有过度离散现象时使用:样本观测值变异性过大



注:


若样本观测值变异性过大,即出现了过度离散现象,此时仍使用二项 分布假设就会影响系数检


测的显著性。那么补救的方法是使用准二项分布(


quasibinomial


)。首先要检测样本是否存在过度


离散现象,方法是用残差除以残差自由度,若超过


1


则意味着过度离散。那么将


family


参数改为


quasibinomial



< br>同样,在进行泊松分布也要考虑过度离散现象。其检测方法同样是残差除以其自由度。若确定过度离


散存在,则要将


family


参数设置为准泊 松分布


(quasipoisson)





family


的分布选项下还有 几个常用选型即


link



varia nce


,可


以用来选择联系函数和方差的形式。



Example:


glm(y ~ x, family = quasi(variance =



五、建立广义线性模型的实例



1


、数据分析:


该数据是由美国国家癌症研究所资助的多中心血友病队列研究获得


的。该项研究从< /p>


1978



1



1


日到


1995



12



31


日在


16


个治疗


中心(


12


个在美国,


4


个在西欧 )跟踪了超过


1600


个血友病人,该


数据一共有


2144


个观测值及


6


个变量。下表为变量情况:



< p>
为了更加直观的分析该数据的特点,截取了原数据中的部分数据行:




变量


hiv


为分类变量,只有两个选项,


1



2< /p>


;变量


factor


也为分类

< p>
变量,有五个选项,


1,2,3,4,5


;变量< /p>


year



age



deaths


均为整数


数据,只有 变量


py


为数量变量。



要进行以死亡数即变量


deaths


作为因变量的回 归,由于因变量为整


数数据,因此选择广义线性模型来进行拟合。



考察因变量中数据的分布情况:




发现可将其看作是


{0,1


,??


}



{0,1


,? ?,


k}


的形式,因此我们


将采用


Poisson


对数线性模型(即分布设定为


Poisson


分布


,


联系函


数设定为对数函数)和多项


logit


模型( 即分布设定为二项分布,联


系函数设定为


logit

< p>
函数)两种方法来进行数据的拟合。






2


、卡方检验






卡方检验法是在总体


X


的分布未知时 ,根据来自总体的样本,检


验关于总体分布的假设的一种检验方法。





由于这个数据的分布信息是未知的,并且我们也不是很容易直观


的判断出它的分布信息,


因此在这里我们采用卡方检验的方法来判断


它的分布信息。





使用卡方检验对总体分布进行检验时,我们先提出原假设


:








H0


:总 体


X


的分布函数为


F(x)


然后根据样本的经验分布和所假设的理论分布之间的吻合程度来决


定是否 接受原假设。



这种检验通常称作拟合优度检验,它是一种非参数检验。






3



Poisson


对数线性模型

< p>


模型:



< p>
其中,


?


i


< p>
i=1,2


)代表


hiv


的两个水平,


?


j


< br>j=1,2,


??


,5


)代表< /p>


factor



5


个水平,


x


1


代表

< br>year



?


1


代表


year


的系数)



x


2


代表


age< /p>



?


2


代表


age


的系数),


x


3


代表


py



?


3


代表


py


的系数),


?


0


代表截


距。



> ap=


glm< /p>


(deaths~.,


family='poisson'


,dat


w)


a=

-


-


-


-


-


-


-


-



本文更新与2021-03-01 12:21,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/688259.html

对广义线性模型的学习的相关文章