-
对广义线性模型(
Generalized Linear
Model
)的学习
引言
在学习普通线性模型时就对因变
量为离散的情况存有疑问。
在统计实
验课程研读吴喜之老师的《
复杂数据》一书的第六章时,发现了对离
散因变量或者因变量为计数或有序数据时,
p>
可采用广义线性模型来处
理。因此这燃起了我对于广义线性模型的学
习兴趣,通过查阅资料,
对此模型有了以下的初步了解。
并在对
经典方法理论有了一定的了解
之后,
利用该模型对实际数据进行
了处理与分析,
同时又用其他方法
(包括机器学习等方法)
p>
对相同的数据进行了处理,
在最后比较了各
种方法之间的优缺点。
一、数据特点
1
、横截面数据(
Cross-
Section Data
):在同一时间,不同统计单位相
同
统计指标组成的数据列。
p>
Note
:
①与时序数据相比较,
其区别在于数据的排列标准不同,
时序数据是按照时间顺序排列的,横截面数据是按照
统计单位排列的。
②横截面数据不要求统计对象及其范围相同,但要求统
计的时间相同。
< br>#
横截面数据即为同一时间截面上的数据
2
、横截面数据分析的要点:
①异方差问题
由于数据是在某一时期对个体或地域的样本的采集,不同个
体或地域本身就存在差异。
②数据的一致性
主要包括变量的样本容量是否一致,样本的取样时期是否一
致,数据的统计标准是否一致。
3
、面板数据(
Panel Data
):是指在时间序列上取多个截面,对于每
一个截面上的数据均
为一横截面数据列。
p>
Note
:①面板数据是一个
m*n
的数据矩阵,记载的是
n
个时
间节点
上,
m
个对象的某一数据指标。
②其有时间序列和截面两个维度,当这类数据按两个
维度排列时,是排在一个平面上,与只有一个维度
的数据排在一条线上有着明显的不同,整个表格像
是一个面板。
③如果从其内在含义上讲,把
panel
data
译为“时间
序列
-
截面
数据”
更能揭示这类数据的本质上的特点。
< br>4
、广义线性模型主要用于因变量取离散值的情况
当可能
值为一切自然数
0,1,2,
??时,多用
Poisson
分布;
当
Y
p>
取有限个值(实际是响应可以有有限个状态)时,多项分布
是自然的选择。
5
< br>、在很大的程度上可以说,广义线性回归就是针对因变量为有限个
值情况的回归分
析。
但在具体定模型时,需要考虑这有限个状态之间的关系。
p>
一种是无序的,
即各状态的优劣并无公共的认定。
< br>例如外出旅行,
有
k
种交通工具
可以选择,其优劣取决于具体情况而并无公认的排
序。
另一种是有序的,
即各状态的优劣次序有公共的认定。
如治疗效
果、产品质量的分级等。
#
不同情况建模方法有所不同。
二、
广义线性模型的提出
广义线性模型的提出源于线性模型在应用上有重要影响的几个
缺点:
1
、只适用于因变量
Y
取值为连续的情况。
它特别不适用于分类数据(如
p>
Y
取
0.1
为值)
。
T
E
(<
/p>
Y
)
?
Z
(
X
)
?
?
相联系。
2
、
Y
的期望
E(Y)
与自
变量
X
是用线性关系
选择面太窄,往往与实际情况不符。
3
、线性模型的统计推断基本上只适用于误差正态的情形。
在某些
Y
取值连续的场合,
Y
的分布是偏态的,如指数分布、
伽马(
G
amma
)分布等。
广义线性模型的
特点
正好是对应上面指出的问题:
1
、因变量
Y
可以取连续值或离散值,从
常见的应用看,取离散
值的场合更重要。
T
E
(
Y
)
?
Z
(
X
)
?
?
,有
E
(
Y
)
p>
?
h
(
Z
T
(
X
)
?
?
)
2
、取代
函数
h
(其
反函数
g
称为联系
(或连接)
函数
(
link
function
)
)
有较大的选择余地,这样扩大了模型的适用面。
?
?
Y
?
< br>b
(
?
))
d
?
(
Y
)
3
、
Y<
/p>
(
q
维)有指数型分布
< br>Y
~
exp(
其中,
θ
为
q
维参数向量,
μ
是
R
上的
σ
有限测度,
μ
与
< br>θ
无关(或联系函数
g
?
h
?
1
使
?
?
Z
T
(
X
)
?<
/p>
?
,称自然联系)。
指数型分布是一个适中的选择,一方面它包括了应用上最常
见的一
些分布:二项分布、多项分布、
Poisson
分布,以及
p>
连续型的正态分布、指数分布、伽马分布等。另一方面,这
分布类有很好的分析性质,又便于理论上的研究。
q
三、广义线性模型
设有因变量
Y
,自变量
X
p>
,普通线性模型有以下几个特征:
T
p>
E
(
Y
)
?
Z
(
X
)
?
?
(线性:线性指对<
/p>
β
,而非
X
)。
1
、
Z(X)
为
X
的已知(向量)函数。
2
、
X
,
Z(X)
,
Y
都是取值连续
的变量,如农作物产量、人的身高
体重之类。
3
、
Y
的分布为正态,或接近正态的
分布。
广义线性模型从以下几个方面推广:
T
1
、
p>
E
(
Y
)
?
h
(
Z
(
X
)
?
< br>?
)
,
h
为一严格单调、充分光滑的函数。
h
已知,
g
?
h
?
1
(
h
的
反函数)称为联系函数(
link
function
)
,
则有<
/p>
g
(
?
)
?
Z
T
?
。
即
E
p>
(
Y
)
不等于
p>
Z
T
(
X
)
?
,而是
Z
T
(
X
)
?
的某一函数。
2
、
X
,
Z(X)
p>
,
Y
可取连续或离散值,且在应用上更多见
的情况为
离散值。如
{0,1}
,
{0,1,2,
??<
/p>
}
等。
p>
3
、
Y
的分布属于
指数型,正态是其一特例。
4
p>
、以下的表格中列出了
GLM
中常用的几种
分布:
由上表格中的第二列(
Range
of
y
)可以知道,当因变量为对应
数据
形式时应选择对应的分布来建立模型。
< br>5
、以下的表格中列出了
GLM
中常用的几种分布所对应的联系函数:
通常称这几种联系函数为标准联系函数,上表中的第三列为偏差。
四、
R
语言中的模型实现
<
/p>
在
R
语言中利用
stats
包中的
glm()
函数来进
行广义线性模型的拟合。
和
lm
函数类
似,
glm
的建模结果可以通过下述的泛型函数进行二次
处理,如
summary()
、
coef()
、
confint()
、
residuals()
、
anova()
、
plot()
、
p>
predict()
。
R
提供了一系列广义线性建模工具,
从类型上来说包括
gaussian
,
反
gaussian
,
二项式,<
/p>
poisson
和
gamma
模型的响应变量分布以及在
响应变量分布没有明确给定时的拟似然
(quasi-likelihood)
模型。
在
后者,方差函数
(variance function)<
/p>
可以认为是均值的函数,但是
在另外一些情况下,该函数可以由响
应变量的分布得到。
函数
glm()
的用法:
glm(formula,
family = gaussian, data, weights, subset,
, start = NULL, etastart, mustart,
offset,
control = list(...), model
= TRUE, method =
x = FALSE, y =
TRUE, contrasts = NULL, ...)
多数选项与普通线性模
型的拟合函数
lm()
相同,值得注意的是
family
选项,
family
即为选择模型的分布,有以下几种选项:
binomial(link =
#
二项分布
gaussian(link =
#
正态分布
Gamma(link =
#
伽马分布
an(link =
#
反
poisson(link =
#
泊松分布
quasi(link
=
variance
=
#
(
quasi-
likelihood
)
Gaussian
分布
#
拟家族:响应变量分布没有明确给定时的拟似然模型
quasibinomial(link =
#
拟二项分布
#
有过度离散现象时使用:样本观测值变异性过大
quasipoisson(link =
#
拟泊松分布
#
有过度离散现象时使用:样本观测值变异性过大
注:
若样本观测值变异性过大,即出现了过度离散现象,此时仍使用二项
分布假设就会影响系数检
测的显著性。那么补救的方法是使用准二项分布(
quasibinomial
)。首先要检测样本是否存在过度
离散现象,方法是用残差除以残差自由度,若超过
1
则意味着过度离散。那么将
family
参数改为
quasibinomial
。
< br>同样,在进行泊松分布也要考虑过度离散现象。其检测方法同样是残差除以其自由度。若确定过度离
散存在,则要将
family
参数设置为准泊
松分布
(quasipoisson)
。
在
family
的分布选项下还有
几个常用选型即
link
和
varia
nce
,可
以用来选择联系函数和方差的形式。
Example:
glm(y ~ x,
family = quasi(variance =
五、建立广义线性模型的实例
1
、数据分析:
该数据是由美国国家癌症研究所资助的多中心血友病队列研究获得
的。该项研究从<
/p>
1978
年
1
月
1
日到
1995
年
12
月
31
日在
16
个治疗
中心(
12
个在美国,
4
个在西欧
)跟踪了超过
1600
个血友病人,该
数据一共有
2144
个观测值及
6
p>
个变量。下表为变量情况:
为了更加直观的分析该数据的特点,截取了原数据中的部分数据行:
变量
hiv
为分类变量,只有两个选项,
1
和
2<
/p>
;变量
factor
也为分类
变量,有五个选项,
1,2,3,4,5
;变量<
/p>
year
、
age
和
deaths
均为整数
数据,只有
变量
py
为数量变量。
要进行以死亡数即变量
deaths
作为因变量的回
归,由于因变量为整
数数据,因此选择广义线性模型来进行拟合。
考察因变量中数据的分布情况:
发现可将其看作是
{0,1
,??
p>
}
或
{0,1
,?
?,
k}
的形式,因此我们
将采用
p>
Poisson
对数线性模型(即分布设定为
Poisson
分布
,
联系函
数设定为对数函数)和多项
logit
模型(
即分布设定为二项分布,联
系函数设定为
logit
函数)两种方法来进行数据的拟合。
2
、卡方检验
卡方检验法是在总体
X
的分布未知时
,根据来自总体的样本,检
验关于总体分布的假设的一种检验方法。
由于这个数据的分布信息是未知的,并且我们也不是很容易直观
的判断出它的分布信息,
因此在这里我们采用卡方检验的方法来判断
它的分布信息。
p>
使用卡方检验对总体分布进行检验时,我们先提出原假设
:
H0
:总
体
X
的分布函数为
F(x)
然后根据样本的经验分布和所假设的理论分布之间的吻合程度来决
定是否
接受原假设。
这种检验通常称作拟合优度检验,它是一种非参数检验。
3
p>
、
Poisson
对数线性模型
模型:
其中,
?
i
(
i=1,2
)代表
hiv
的两个水平,
?
j
(
< br>j=1,2,
??
,5
)代表<
/p>
factor
的
5
个水平,
x
1
代表
< br>year
(
?
1
代表
year
的系数)
,
p>
x
2
代表
age<
/p>
(
?
2
代表
p>
age
的系数),
x
3
代表
py
(
?
3
代表
py
的系数),
?
0
代表截
距。
> ap=
glm<
/p>
(deaths~.,
family='poisson'
,dat
w)
a=
-
-
-
-
-
-
-
-
-
上一篇:SCI、EI、中文核心期刊一览
下一篇:IEEE参考文献格式