关键词不能为空

当前您在: 主页 > 英语 >

类别数据分析 第四讲

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-03-01 12:28
tags:

-

2021年3月1日发(作者:奋斗英文)


I.


二分结果数据


(


Binary Response Data


)


的另一种模型:



1.



Probit


模型



-


在实际运用方面与


logit


模型十分类似



P(Y=1|X)= G(


α


+


β


1


X


1


+…β


k


X


k


),


此处


G


是一个范围在


0



1


之间的概率密度函数(


p.d.f.


)。



-




logit


模型相比,


Probit


模型在数学 上更容易一般化


(


generalize


)





如转换成


Tobit


模型。



-



在计量经济学上得到更广泛的运用。





logit


模型相比,运用


Probit


模型的两个特点:



i)



假定概率函数为常态分布:





logit


模型中


:


1


p


i


?


?


(


?


?


?


X


i


)


?


1


?


exp[< /p>


?


(


?


?


?


X


i


)]




probit


模型 中


:


1


p


i


?


?


(


?


?


?


X


i


)


?


2


?



1


?


?


?


X


i


??


?


?


1


exp(


2


)


du



2


u


Standard Normal Cumulative Probability Density Function


p


h


i


0


-2


.


2


.


4


.


6


.


8


-1


0


z


1

< p>
2




Normal Probability Density Function


.


4


l


p


h


i


0


-2


.


1< /p>


.


2


.


3


-1


0


z


1


2






logistic


函数类似,在< /p>


probit


模型中概率密度函数的设定是以均

< br>值为中心的对称形式。



通常


probit


模型可以被纳入一 般线性模型


GLM


的架构中,


(



logit


模型为


例,左手边的是对数型态的发生比率


log [p/(1-p)] )


,但是由于这个函数太过


复杂,我们




Ф


-1


(X )


来表示:





Ф


-1


(X )=α+βX



此处



Ф


-1


(X)


指的是:



-

累积正态分布密度的反函数


(


inverse of the cumulative normal


density function;


)





又称为



“probit”





ii)


第二个特点


:


可以用于出现应变量出 现选择性偏误而部份


无法观察的情况,这也是计量经济学家喜好


probit


模型的原


因。




Y*=a+bX+e



2




Y*


只能被部份观察到,可以表示为


Y=1 if Y*



0











=0 if Y*<0


假设



e~ N(0, σ


2


),


此时:



P(Y*



0|X) = P(a+bX+e



0)


= P[e



-(a+bX)]


= P(e


= P[e


/σ<


a


/σ+(


b


/σ)]



= P


[ε< α+β


X]




其实这就是


probit

< p>
模型,在


Y*


只能部分被观察到的条件下可以转


换成


Tobit


模型。


(


样本选择模型


sample selection models).





1


=


2


?


?


?


?


X


??


?


?


1< /p>


exp(


2


)


d u



2


u




2.



Logit



Probit


函数的比较




i) Logit



Probit


函数很接近,差异仅在函数两侧分配尾端的估计



TAILS


)。因此,在经验研究上的微小效果通常可以忽略不计。


此外,由于数学上的特质不同,


Logit



Probit


函数各自被推广到< /p>


多重分类回归模型与样本选择模型。总之,在社会科学研究领域


里 ,两种模型的好坏,迄今不易分出高下。




ii) logit


模型也有一些相对优势,



-


首先,


logistic


函数非常简单易懂,反之常态分布函数


(probit)


包括了一些无法轻易推断的统计预设。



-



其次,发生率的对数


logit



log odds


的系数可以很直觉地获


得解释。





3



但是如前述,


Probit


便于在样本 出现选择性偏误时,一般化为其它


模型(


generaliza ble



(e.g. Tobit model)











4



范例:


Logit


模型:





STATA


学习提示】


请回忆一下上 一章的


LOGIT


模型指令,注意此处的回归系数只是发


生率的对数,预测后的概率才能跟


PROBIT


比较:




. use



. keep if sample==1


(3386 observations deleted)



. gen rpart=party==1



. gen age=96-birth



. xi:logit rpart age



Iteration 0: log likelihood = -1423.3909


Iteration 1: log likelihood = -1341.749


Iteration 2: log likelihood = -1338.4351


Iteration 3: log likelihood = -1338.4309



Logit estimates Number of obs = 3087


LR chi2(1) = 169.92


Prob > chi2 = 0.0000


Log likelihood = -1338.4309 Pseudo R2 = 0.0597



------------------------------------------------- ----------------------------


rpart | Coef. Std. Err. z P>|z| [95% al]


-------------+---------------- -----------------------------------------------


age


| .046318


.0036533 12.68 0.000 .0391577 .0534783


_cons | -3.631983 .1794579 -20.24 0.000 -3.983714 -3.280252


----------------------------- ------------------------------------------------


. predict p1


(option p assumed; Pr(rpart))




Probit


模型与


Logit


模型的比较:





STATA


学习提示】


二分结果的应变量可以直接使用


probit


这个指 令:




. xi:probit rpart age



Iteration 0: log likelihood = -1423.3909


Iteration 1: log likelihood = -1336.9678


Iteration 2: log likelihood = -1336.2429


Iteration 3: log likelihood = -1336.2428



Probit estimates Number of obs = 3087


LR chi2(1) = 174.30


Prob > chi2 = 0.0000


Log likelihood = -1336.2428 Pseudo R2 = 0.0612



------------------------------------------------- ----------------------------


rpart | Coef. Std. Err. z P>|z| [95% al]



5



-------------+---------------------------- -----------------------------------


age |


.0266887


.0020641 12.93 0.000 .022643 .0307343


_cons | -2.122723 .0978868 -21.69 0.000 -2.314578 -1.930869


------------------ -------------------------------------------------- ---------



. predict p2


(option p assumed; Pr(rpart))


. version 7


. graph p1 p2 age, c(ss) s(id)


Pr(logit)


.392685


Pr(probit)< /p>


P


r


(


p


r


o


b


i

< p>
t


)


.056036


20


age


69



β


logit


1.81


β



probit




我们可以发现,在数学上


Logit



Probit


模型的回归系数之间的关


系相当于:



最直觉性的解释是


probit


模型 直接计算了概率的预测值。因此,妳


可以试着回答这个问题:在


1996


年一个


40


岁大的城镇居 民有多大


概率会成为共产党员?




3.



对数互补模型


Cloglog Model (Complementary log-log


model)

?


?


?


?


?


p


i


?


1< /p>


?


exp


?


?< /p>


exp


?


?


?< /p>


ik


x


ik


?< /p>


?



?


?


?


k


?


?

< p>


6




这个概率函数可以转换成线性模型:



log{-log[1-


P(X)]=α+βX




这是一个非对称


(

< br>ASSYMETRIC


)


的二分结果模型


binary response


model





比较一下


Cloglog



Logistic


的累积密度函数 (


CDF


):







7





为何要用


cloglog


呢?在某些实 际的经验研究中,


cloglog


模型更

能够掌握自然界的经验现象,比如:



-



生物体对有毒物质的反应:超出致死量存活概率就迅速下降。



-



产业组织科技发明的扩散速度:先快后降





范例




logit



cloglog


模型的比较




. xi:logit rparty educ_hiy



Iteration 0: log likelihood = -1422.6291


Iteration 1: log likelihood = -1391.4255


Iteration 2: log likelihood = -1390.739


Iteration 3: log likelihood = -1390.7382



Logit estimates Number of obs = 3083


LR chi2(1) = 63.78


Prob > chi2 = 0.0000


Log likelihood = -1390.7382 Pseudo R2 = 0.0224



----------------- -------------------------------------------------- -------


rparty | Coef. Std. Err. z P>|z| [95% Conf. Interval]

< p>
---------+---------------------------------- --------------------------


educ_hiy | .1025063 .0134258 7.64 0.000 .0761922 .1288204


_cons | -2.494303 .137368 -18.16 0.000 -2.763539 -2.225066


----------------------------- ---------------------------------------------


. predict p


(option p assumed; Pr(rparty))



8



(4 missing values generated)



. xi:cloglog rparty educ_hiy



Iteration 0: log likelihood = -1393.2867


Iteration 1: log likelihood = -1389.9854


Iteration 2: log likelihood = -1389.9755


Iteration 3: log likelihood = -1389.9755



Complementary log-log regression Number of obs = 3083


Zero outcomes = 2548


Nonzero outcomes = 535



LR chi2(1) = 65.31


Log likelihood = -1389.9755 Prob > chi2 = 0.0000


------------------- -------------------------------------------------- -----


rparty | Coef. Std. Err. z P>|z| [95% Conf. Interval]


-----------+--------------------------------- ---------------------------


educ_hiy | .095839 .0123748 7.74 0.000 .0715848 .1200933


_cons | -2.535837 .1287466 -19.70 0.000 -2.788176 -2.283499


----------------------------- ---------------------------------------------



. predict p1


(option p assumed; Pr(rparty))


(4 missing values generated)



. graph p p1 educ_hiy, c(ss)



. edit


- preserve


- label var p1


- label var p


Pr(logistic)


.358875


Pr(clogl og)


.076141


0


highes t year of schooling


18





9



II.



定序(


Ordinal Dependent Variable



Logit


模型





定序变量(


Ordinal Variable



:


在社会研究中 ,某些变量被分为有


次序的不同类别,但是并不连续。



我们已知不同类别之间有相对的大小或高低程度,但是无法从经验


讯息 中获得不同类别之间明确而连续的距离。





范例:



你觉得自己幸福吗


?


1.



很不幸福



2.



不太幸福



3.



还过得去



4.



有点幸福



5.



非常幸福




你的英语程度如何?



1.



不知道



2.



会一点



3.





4.



非常好






许 多职业声望、阶层高低、政治态度的相关问题,受访者回答的应


变项都是相对的次序。< /p>




定序


logit


与定序


probit


模型:是二分类


logit



probit


模型的自然


延伸运用。这两种模型又被称为累积(


cumulative

< p>


logit


或累积


probit


模型。




若 一个变量事实上是名目(


nominal


)变量,但我们却用定 序数据


的方式来运算,则我们事实上是对不同类别强加了不适当的顺序,



10



并假设其斜率彼 此平行。此时我们得出的结果,可能是一些偏误或


无意义的估计值。



反之,若一个变量事实上是定序变量,但我们却用名目 数据的方式


来运算,则我们所得出的统计结果,将由于遗漏掉排序的信息而丧

< p>
失统计效率。





1.


累积


Logit


模型



假设我们有一个由


J


类别组成的定序应变量



Y (Y=1, …, J).





L


j


(X )=logit[F


j


(X)], (j=1, …J


-1)


=log[P(Y



j|X)/P(Y>j|X)]


=log{P(Y



j|X)/[1- P(Y>j|X)]}



此时


F


j


(X)]=P(Y



j|X)



J


类别的累积概率函数,

< br>




Y

< br>独立于


X


,则:



L


j


(X) =α


j






此外则应为:




这个式子的意义是对不同数值的


X


,比如


X


1




X


2


来说:




L


j


(X) =α


j


+βX



L


j


(X


1


)- L


j


(X


2


) =β(X


1


- X


2


)



某个响应类别≤


j


在自变量


X


1



相对于


X


2


的发生比,



等于



exp[β(X


1


- X


2


)]





11






β >0


时,


L


j


(X) =α


j


+βX


【函数


A


】代表在固定数值的


X


之< /p>


下,低次序一端发生的累积概率函数(


c.d.f.


)随着


Y


的增加而


提高,反 过来说,随


X


的值越高,


Y

< p>
在较高次序


J


发生的概率密


度函数(


p.d.f.


)则降低。





由于这种反向关系可能造成混淆, 我们通常把【函数


A


】改写成


下列【函 数


B


】:




L


j


(X) =α


j


-


βX




这才 是


STATA


与其它软件所运用的参数计算方式。因此


STATA


的计算结果当中若


β>0

< p>


X


数值越大,则导致


Y


在较高


类别发生的概率越大。




另一种理解方式:依据上述的关系,我们可以把定序


logit


模型当


中的应变量次序视为一个潜在 连续变量


(Latent Variable) Y*


的某种< /p>


相关测量值。假设我们有四种类别的次序


(J=4)


,则:





12

-


-


-


-


-


-


-


-



本文更新与2021-03-01 12:28,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/688313.html

类别数据分析 第四讲的相关文章

  • 爱心与尊严的高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊严高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊重的作文题库

    1.作文关爱与尊重议论文 如果说没有爱就没有教育的话,那么离开了尊重同样也谈不上教育。 因为每一位孩子都渴望得到他人的尊重,尤其是教师的尊重。可是在现实生活中,不时会有

    小学作文
  • 爱心责任100字作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任心的作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文