类别数据分析第四讲_高中生题库网|高考真题|高考试题-「密云二中」

-

2021年3月1日发(作者：奋斗英文)

二分结果数据

(

Binary Response Data

)

的另一种模型：

Probit

模型

在实际运用方面与

logit

模型十分类似

P(Y=1|X)= G(

+…β

此处

是一个范围在

与

之间的概率密度函数（

p.d.f.

）。

与

logit

模型相比，

Probit

模型在数学上更容易一般化

(

generalize

)

，

例

如转换成

Tobit

模型。

在计量经济学上得到更广泛的运用。

与

logit

模型相比，运用

Probit

模型的两个特点：

假定概率函数为常态分布：

在

logit

模型中

(

)

exp[

(

)]

在

probit

模型中

(

)

exp(

)

Standard Normal Cumulative Probability Density Function

-2

-1

2

Normal Probability Density Function

-2

1

-1

与

logistic

函数类似，在

probit

模型中概率密度函数的设定是以均

值为中心的对称形式。

通常

probit

模型可以被纳入一般线性模型

GLM

的架构中，

(

以

logit

模型为

例，左手边的是对数型态的发生比率

log [p/(1-p)] )

，但是由于这个函数太过

复杂，我们

用

-1

(X )

来表示：

-1

(X )=α+βX

此处

-1

(X)

指的是：

累积正态分布密度的反函数

(

inverse of the cumulative normal

density function;

)

–

又称为

“probit”

！

ii)

第二个特点

可以用于出现应变量出现选择性偏误而部份

无法观察的情况，这也是计量经济学家喜好

probit

模型的原

因。

Y*=a+bX+e

只能被部份观察到，可以表示为

Y=1 if Y*

≥

=0 if Y*<0

假设

e~ N(0, σ

此时：

P(Y*

≥

0|X) = P(a+bX+e

≥

= P[e

≥

-(a+bX)]

= P(e

= P[e

/σ<

/σ+(

b

/σ)]

= P

[ε< α+β

X]

其实这就是

probit

模型，在

Y*

只能部分被观察到的条件下可以转

换成

Tobit

模型。

(

样本选择模型

sample selection models).

1

=

2

?

?

?

?

X

??

?

?

1

exp(

2

)

d u

2

u

2.

Logit

与

Probit

函数的比较

i) Logit

与

Probit

函数很接近，差异仅在函数两侧分配尾端的估计

（

TAILS

）。因此，在经验研究上的微小效果通常可以忽略不计。

此外，由于数学上的特质不同，

Logit

与

Probit

函数各自被推广到

多重分类回归模型与样本选择模型。总之，在社会科学研究领域

里，两种模型的好坏，迄今不易分出高下。

ii) logit

模型也有一些相对优势，

-

首先，

logistic

函数非常简单易懂，反之常态分布函数

(probit)

包括了一些无法轻易推断的统计预设。

-

其次，发生率的对数

logit

–

log odds

的系数可以很直觉地获

得解释。

3

但是如前述，

Probit

便于在样本出现选择性偏误时，一般化为其它

模型（

generaliza ble

）

(e.g. Tobit model)

。

4

范例：

Logit

模型：

【

STATA

学习提示】

请回忆一下上一章的

LOGIT

模型指令，注意此处的回归系数只是发

生率的对数，预测后的概率才能跟

PROBIT

比较：

. use

. keep if sample==1

(3386 observations deleted)

. gen rpart=party==1

. gen age=96-birth

. xi:logit rpart age

Iteration 0: log likelihood = -1423.3909

Iteration 1: log likelihood = -1341.749

Iteration 2: log likelihood = -1338.4351

Iteration 3: log likelihood = -1338.4309

Logit estimates Number of obs = 3087

LR chi2(1) = 169.92

Prob > chi2 = 0.0000

Log likelihood = -1338.4309 Pseudo R2 = 0.0597

------------------------------------------------- ----------------------------

rpart | Coef. Std. Err. z P>|z| [95% al]

-------------+---------------- -----------------------------------------------

age

| .046318

.0036533 12.68 0.000 .0391577 .0534783

_cons | -3.631983 .1794579 -20.24 0.000 -3.983714 -3.280252

----------------------------- ------------------------------------------------

. predict p1

(option p assumed; Pr(rpart))

※

Probit

模型与

Logit

模型的比较：

【

STATA

学习提示】

二分结果的应变量可以直接使用

probit

这个指令：

. xi:probit rpart age

Iteration 0: log likelihood = -1423.3909

Iteration 1: log likelihood = -1336.9678

Iteration 2: log likelihood = -1336.2429

Iteration 3: log likelihood = -1336.2428

Probit estimates Number of obs = 3087

LR chi2(1) = 174.30

Prob > chi2 = 0.0000

Log likelihood = -1336.2428 Pseudo R2 = 0.0612

------------------------------------------------- ----------------------------

rpart | Coef. Std. Err. z P>|z| [95% al]

5

-------------+---------------------------- -----------------------------------

age |

.0266887

.0020641 12.93 0.000 .022643 .0307343

_cons | -2.122723 .0978868 -21.69 0.000 -2.314578 -1.930869

------------------ -------------------------------------------------- ---------

. predict p2

(option p assumed; Pr(rpart))

. version 7

. graph p1 p2 age, c(ss) s(id)

Pr(logit)

.392685

Pr(probit)

P

r

(

p

r

o

b

i

t

)

.056036

20

age

69

β

logit

≈
1.81

β

probit

我们可以发现，在数学上

Logit

与

Probit

模型的回归系数之间的关

系相当于：

最直觉性的解释是

probit

模型直接计算了概率的预测值。因此，妳

可以试着回答这个问题：在

1996

年一个

40

岁大的城镇居民有多大

概率会成为共产党员？

3.

对数互补模型

Cloglog Model (Complementary log-log

model)
?

?

?

?

?

p

i

?

1

?

exp

?

?

exp

?

?

?

ik

x

ik

?

?

?

?

?

k

?

?


6

这个概率函数可以转换成线性模型：

log{-log[1-

P(X)]=α+βX

这是一个非对称

(
 ASSYMETRIC

)

的二分结果模型

binary response

model

。

比较一下

Cloglog

与

Logistic

的累积密度函数（

CDF

）：

7

为何要用

cloglog

呢？在某些实际的经验研究中，

cloglog

模型更
能够掌握自然界的经验现象，比如：

-

生物体对有毒物质的反应：超出致死量存活概率就迅速下降。

-

产业组织科技发明的扩散速度：先快后降

范例

：

logit

与

cloglog

模型的比较

. xi:logit rparty educ_hiy

Iteration 0: log likelihood = -1422.6291

Iteration 1: log likelihood = -1391.4255

Iteration 2: log likelihood = -1390.739

Iteration 3: log likelihood = -1390.7382

Logit estimates Number of obs = 3083

LR chi2(1) = 63.78

Prob > chi2 = 0.0000

Log likelihood = -1390.7382 Pseudo R2 = 0.0224

----------------- -------------------------------------------------- -------

rparty | Coef. Std. Err. z P>|z| [95% Conf. Interval]

---------+---------------------------------- --------------------------

educ_hiy | .1025063 .0134258 7.64 0.000 .0761922 .1288204

_cons | -2.494303 .137368 -18.16 0.000 -2.763539 -2.225066

----------------------------- ---------------------------------------------

. predict p

(option p assumed; Pr(rparty))

8

(4 missing values generated)

. xi:cloglog rparty educ_hiy

Iteration 0: log likelihood = -1393.2867

Iteration 1: log likelihood = -1389.9854

Iteration 2: log likelihood = -1389.9755

Iteration 3: log likelihood = -1389.9755

Complementary log-log regression Number of obs = 3083

Zero outcomes = 2548

Nonzero outcomes = 535

LR chi2(1) = 65.31

Log likelihood = -1389.9755 Prob > chi2 = 0.0000

------------------- -------------------------------------------------- -----

rparty | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-----------+--------------------------------- ---------------------------

educ_hiy | .095839 .0123748 7.74 0.000 .0715848 .1200933

_cons | -2.535837 .1287466 -19.70 0.000 -2.788176 -2.283499

----------------------------- ---------------------------------------------

. predict p1

(option p assumed; Pr(rparty))

(4 missing values generated)

. graph p p1 educ_hiy, c(ss)

. edit

- preserve

- label var p1

- label var p

Pr(logistic)

.358875

Pr(clogl og)

.076141

0

highes t year of schooling

18

9

II.

定序（

Ordinal Dependent Variable

）

Logit

模型

定序变量（

Ordinal Variable

）

:

在社会研究中，某些变量被分为有

次序的不同类别，但是并不连续。

我们已知不同类别之间有相对的大小或高低程度，但是无法从经验

讯息中获得不同类别之间明确而连续的距离。

范例：

你觉得自己幸福吗

?

1.

很不幸福

2.

不太幸福

3.

还过得去

4.

有点幸福

5.

非常幸福

你的英语程度如何？

1.

不知道

2.

会一点

3.

好

4.

非常好

许多职业声望、阶层高低、政治态度的相关问题，受访者回答的应

变项都是相对的次序。

定序

logit

与定序

probit

模型：是二分类

logit

与

probit

模型的自然

延伸运用。这两种模型又被称为累积（

cumulative

）

logit

或累积

probit

模型。

若一个变量事实上是名目（

nominal

）变量，但我们却用定序数据

的方式来运算，则我们事实上是对不同类别强加了不适当的顺序，

10

并假设其斜率彼此平行。此时我们得出的结果，可能是一些偏误或

无意义的估计值。

反之，若一个变量事实上是定序变量，但我们却用名目数据的方式

来运算，则我们所得出的统计结果，将由于遗漏掉排序的信息而丧

失统计效率。

1.

累积

Logit

模型

假设我们有一个由

J

类别组成的定序应变量

Y (Y=1, …, J).

令

L

j

(X )=logit[F

j

(X)], (j=1, …J

-1)

=log[P(Y

≤

j|X)/P(Y>j|X)]

=log{P(Y

≤

j|X)/[1- P(Y>j|X)]}

此时

F

j

(X)]=P(Y

≤

j|X)

是

J

类别的累积概率函数，
 

若

Y
 独立于

X

，则：

L

j

(X) =α

j

此外则应为：

这个式子的意义是对不同数值的

X

，比如

X

1

与

X

2

来说：

L

j

(X) =α

j

+βX

L

j

(X

1

)- L

j

(X

2

) =β(X

1

- X

2

)

某个响应类别≤

j

在自变量

X

1

相对于

X

2

的发生比，

等于

exp[β(X

1

- X

2

)]

：

11

当

β >0

时，

L

j

(X) =α

j

+βX

【函数

A

】代表在固定数值的

X

之

下，低次序一端发生的累积概率函数（

c.d.f.

）随着

Y

的增加而

提高，反过来说，随

X

的值越高，

Y

在较高次序

J

发生的概率密

度函数（

p.d.f.

）则降低。

由于这种反向关系可能造成混淆，我们通常把【函数

A

】改写成

下列【函数

B

】：

L

j

(X) =α

j

-

βX

这才是

STATA

与其它软件所运用的参数计算方式。因此

STATA

的计算结果当中若

β>0

，

X

数值越大，则导致

Y

在较高

类别发生的概率越大。

另一种理解方式：依据上述的关系，我们可以把定序

logit

模型当

中的应变量次序视为一个潜在连续变量

(Latent Variable) Y*

的某种

相关测量值。假设我们有四种类别的次序

(J=4)

，则：

12

-

-

-

-

-

-

-

-

本文更新与2021-03-01 12:28，由作者提供，不代表本网站立场，转载请注明出处：https://www.bjmy2z.cn/gaokao/688313.html

返回列表：英语

上一篇：SPSS因子分析法
下一篇：哈佛参考文献注释体系.

当前您在：主页 > 英语 >

类别数据分析第四讲

-

-

-

-

-

-

-

-

-

返回列表：英语

类别数据分析第四讲的相关文章

爱心与尊严的高中作文题库

爱心与尊严高中作文题库

爱心与尊重的作文题库

爱心责任100字作文题库

爱心责任心的作文题库

爱心责任作文题库

爱心长在作文题库

爱心中国感恩励志作文题

爱心助考作文题库

爱心助农作文题库

爱心尊重宽容拒绝作文题

爱心尊重作文题库

爱心作文题库好段

爱心作文题库120字

爱心作文题库读者

爱心作文题库分论点

爱心作文题库简短

爱心作文有哪些题库

爱需要被尊重作文题库

爱需要传递200字作文题库

爱需要公平作文题库

爱需要行动作文800高中作

爱需要行动作文题库

爱需要交流与沟通作文题

当前您在： 主页 > 英语 >

-

-

-

-

-

-

-

-

-

类别数据分析 第四讲的相关文章

当前您在：主页 > 英语 >

类别数据分析第四讲的相关文章