Chapter9 受限因变量模型_高中生题库网|高考真题|高考试题-「密云二中」

-

2021年3月1日发(作者：claire)

第

章

受限因变量模型

这一章讨论响应变量仅仅被部分观测到的情况。引入被部分观测到的潜在随机变量

，

的实际

观测变量为

。引入二元指示变量

，如果

< y

*

，

= 1

；否则，

= 0

。即

表示变量

*

是否可

以被观测得到。

（

, b

）称为观测区间。如果对于

= 1

和

D

i

= 0

都有实际观测数据，当

D

i

= 1

时，

潜在变量与实际观测变量相等，当

D

i

= 0

时，实际观测变量同样有取值，但不等于潜在变量，这时称

数据被归并（

censored

）

，即小于

a

i

的数据被归并为

a

i

，而大于

b

i

的数据被归并为

b

i

。用数学符号表示

为：

?
 a

i

,

????

如果

y

i

*
 ?

a

i

?

y

i

?

?

y

i

*

,

??? ?

如果

a

i

?

y

i

*

?

b

i

。

（

1

）

?

*

b

,

????

如果

y

?

b

i

i

i

?

如果只有当

D

i

= 1

时实际观测变量

y

i

才有观测数据，即：当

D

i

= 1

时，潜在变量与实际观测变量

相等，而当

D

i

= 0

时，

y

i

没有观测值，这时称数据被截断（

truncated

）

，即小于

a

i

的数据和大于

a

i

的数

据被截断了。因此截断数据与归并数据的区别在于，对于观测区间外的数据，归并数据将将其都归并

为一点，而截断数据没有观测值。

将潜在随机变量

y

*

的基本模型设定为：



y

i

*

?

?

i

?

?

v

i

。

（

2

）

其中

?

i

为位置参数，

?

为刻度参数；

v

i

为独立于

x

i

的连续随机扰动项，均值为

0

，方差为

1

，其分布函

数、密度函数分别为
 F

、

f

。在这些假定条件下，

y

i

的均值为

?

i

，方差为

?

，分布函数为

F

(
 概率密度函数为

f

(

*

2

y

i

*

?

?

i

?
 )

，

y

i

*

?

?

i

?

)

/

?

（证明请参见附录

1

）

。
a

i

<

y

i

*

i

?

?

d

i

，

那么

y

i

*

被观测到的概率为：


Pr(

a

i

?

y

i

*

?

b

i

)

?
Pr(

D

i

?
1)

?

F

(

d

i

)

?

F

(

c

i

)

（

3

）

下面对截断数据模型和归并数据模型分别进行介绍

1.1

截断数据模型

如果样本数据是从总体的一部分抽取得到，我们把这类数据称为截断数据。比如，研究高收入阶

层（月收入

x

?

1000 0

）的消费与收入的关系，所采集的数据只是位于收入总体分布的一个区间里。

假设所有居民的收入服从正态分布，那么高收入阶层的收入只是在

x

?

10000

的区间里观测得到的。

下面介绍截断数据的分布特征和模型估计。

1

1.1.1

截断数据的分布特征

如前面所述，截断数据只包括

D

i

= 1

情况下的数据。截断分布是指变量高于（低于）某个设定值

的未截断部分的分布。如果变量只有在高于某一门限值

a

时才被观测到（

x

>

a

）

，称之为从下面截断

（

truncation from below

）或者是从左边截断（

truncation from left

）

；如果变量只有在低于某一门限值

b

时才被观测到（

x


0

1

2

3

4

.0

-4

-3

-2

-1

0

1

2

3

4

图一

截断分布图（上面截断（左图）

、下面截断（右图）
 ）

下面分析截断数据的分布函数、密度函数、均值和方差。

1

．

截断变量的分布函数和密度函数

给定模型（

1

）及相应的观测概率（

2

）

，那么第

i

个观测变量

y

i

的条件分布函数为（证明请参见

附录

2

）

：

?

0,

? ??????????????????????????????????????????
 如果

y

i

*
?

a

i

?

?

F

?

(

y

i

?

?

i

)

/

?

?

?

F

?

c

i

?

F

y
(

y

i

)

?

?

,

????

如果

a

i

?

y

i

*

?

b

i

（

4

）

F

?

d

i

?

?

F

?

c

i

?

?
 ?

1,

?????????????????????? ?????????????????????

如果

y

*

?

b

i

i

?

（注：此处及后面的

a

i

,

b

i

,

c

i

,

d

i

的定义均与前面相同）

密度函数为：

?

1

f

?

(
 y

i

?

?

i

)

/

?

?

,

????

如果

a

i

?

y

i

*

?

b

i

?

（

5

）

f

y

(

y

i

)

?

?

?

F

?

d
 i

?

?

F

?

c

i

?

?

0,

?????????????????????????? ??????

其他

?

从截断数据的密度函数（

4

）式我们可以推出从下面截断或从上面截断的各种不同分布的变量的

密度函数。读者可以参阅下面介绍的几个例子。

例

1

截断均匀分布的密度函数和分布函数

如果

x

*

在区间

[

a

，

b

]

上服从均匀分布（

uniform distribution

）

，那么

f

(

x

)

?

1

,

b

?

a

F

(

x

)

?

x
 ?

a

???

(
 a

?

x

?

b

)

，

（

6

）

b

?

a

如果在

x

*

=

c

处截断，即实际观测值

x

=

x

*

，如果

x

*

?

c

；

x

= 

c

，如果

x

*

<

c

。

这是左截断的例子，即右截断点

=

b

。根据（

5

）式，在

x

=

c

处截断的随机变量

x

的截断分布的密

2

度函数为：

f

(

x

*

)

f

(

x

*

)

1/(

b

?

a

)

1

（

7

）

f

(

x

)

?

?

?

?

P

(

D

i
 ?

1)

F

(
b

)

?

F

(

c

)

1

?

(

c

?

a

)

/(

b

?

a

)

b

?

c

分布函数为：

F

(

x

)

?

F

(

x

)

?

F

(

c
)

(

x

?

a

)

/(

b

?

a

)

?

(

c

?

a

)

/(

b

?

a

)

x

?

c

?

?

（

8

）

Pr(

D

i

?

1)

1

?

(

c

?

a

)

/(

b

?

a

)

b

?

c
 例

2

截断正态分布的密度函数

模型设定为：

y
i

*

?

?

i

?

?

v

i

，

y

i

=

y

i

*

，如果

a

i

?

y

i

*

?

b

i

（

9

）

y

i

=

a

i

，如果

y

i

*

?

a

i

y

i

=

b

i

，如果

y

i

*

?

b

i

其中

v

i

~

N

(0, 1)

。即

y

i

*

~

N

(

?

i

,

?

2

)

，其中

?

i

、

?

分布表示

y

i

的均值和标准差。以

?

、

?

分别表示标准

正态分布密度函数和分布函数。那么：

Pr(

a

i

?

y

i

?

b

i

)

?

Pr(

a

i

?

?

i

?
?

?

b

?

?

i

a

?

?

i

???????????????????????

?

(

i

)

?

?

(

i
)

?

?

???????????? ?????????????

(

d

i

)

?

?

(

c

i

)

?

y

i

?

?

i

?

b

i
?

?

i

)

（

10

）



其中，

d

i

?

b

i

?

?

i

?

,

??

c

i

?

a

i

?

?

i
 ?

??

。

根据截断正态分布的密度函数公式：

?

1

f

?

(

y

i

?

?

i

)

/

?

?

,

????

如果

a

i

?

y

i

*

?

b

i

?

f

y

(

y

i

)

?

?

?

F

?

d

i

?
 ?

F

?

c

i

?

?

0,

????????????????????????????????

其他

?

可直接得到

a

i

?

y

i

*

?

b

i

时

y

i

的密度函数：

1

f

y

(

y

i

)

?
 ?

?

(

y

i

?

?

i

?

)

?

(

d

i

)

?

?

(

c

i

)

y

i

?

?
 i

?

?

(

)

?

1

?

? ??????

if

???

a

?

?

?

（

11

）



?

i

?

?

?

(

d

i

)

????????????

?
 ?

y

?

?

i

?

?

(

i

)

?

1

?

???????

if

???

b

?

?

??
 i

?

?

1

?

?

(

c

)

i

?

根据截断正态分布的分布函数公式：

3

?

0,

?????????????????????????? ?????????????????

如果

y
 i

*

?

a

i

?

?

F

?

(

y

i

?

?

i

)

/

?

?

?

F

?

c

i

?
 F

y

(

y

i

)

?

?

,

????

如果

a

i

?

y

i

*

?

b

i

F

?

d

i

?

?

F

?

c

i

?

?
 ?

1,

?????????????????????? ?????????????????????

如果

y

*

?

b

i

i

?

可直接得到

a

i

?

y

i

*

?

b

i
 时

y

i

的分布函数：


?

(

F

y

(

y

i
)

?

y

i

?

?

i

?

)

?

?

(

a

i

)

?

(

?

y

i

?

?

i

?

)
?

?

(

c

i

)

?

(

d

i

)

?

?

(

c

i

)

?

(

d

i

)

?

?

(
c

i

)

?

y

i

?

?

i

?

?

(

?

)

（

12

）



?????????????????????

if

???

a

?

?

?

?

i

?
 ?

(

d

i

)

?????????????

?

?

y

?

?

i

?

?

(

i

)

?

?

(

c

i

)

?
 ?

?????????

if

?? ?

b

i

?

?

?

?

1

?

?

(

c

i

)

?

图二

截断正态分布变量的累积分布函数图

（设潜变量

y

*

~
N

(0, 1)

，图中虚线表示标准正态分布函数，实线表示截断正态分布函数，截断点为

-1

、

1

）

2

．

截断变量的均值和方差

截断随机变量的均值和方差称之为截断均值（

truncated mean

）和截断方差（

truncated varianc e

）

，

由下面的（
5

）

、

（

6

）式可以推出各种不同截断分布的均值和方差。给定模型（

9

）

，

y

i

的均值为：

E

[

y

i

]

?

?

i

?

??

i

（

13

）

其中，

?

i

?

E

[

v

i

|c

i

?

v

i

?

d

i

]

?

?

v

c

i

d
i

f

(

v

)

dv

F

(

d

i

)

?

F

(

c

i

)

y

i
 的方差为：

Var

[

y

i

|

D

i

?

1]

?

?

2

Var

[

v

i

|

c
i

?

v

i

?

d

i

]

（

14

）



其中，

Var

[

v

i

|c

i

?

v

i

?

d

i

]

?

?

v

2

c

i

d

i

f

(
 v

)

dv

?
?

i

2

。

F

(

d

i

)

?

F

(

c

i

)

（证明请参见附录

3

）

。



例

3

：均匀分布的截断均值和截断方差

给定模型（

6

）

，截断变量

x

的均值和方差分别为：

4

E

(

x

)

?

?

xf

(

x

|

x

?

c

)

dx

?

?

x

c

c

b
c

b

b

1

1

dx

?

(

b

?

c

)

b

?

c

2

（

15

）



Var

(

x

)

?

?

[

x

?

E

(

x

|

x

?

c

)]

2

f

(
 x

|

x

?

c

)

dx

1

1

????????????

?

[

x

?

(

b

?

c

)]

2

dx

c

2

b

?

c

1

????????? ???

[

b

2

?

c

2

?

(

c

?

a

)(

b

?

c

)

2

]

2

b

例

4

：正态分布的截断均值和截断方差

给定模型（

9

）

，那么

y

i

的均值和方差分别为：

E

[
y

i

]

?

?

i

?

??

i

（

16

）



其中，

?

i

?

E

[

v

i

|

c

i

?

v

i

?

d

i

]

?

?
y

i

的方差为：

?

(

d

i
)

?

?

(

c

i

)

?

(

d

i

)

?

?

(

c

i

)

Var

[

y

i

|

D

i

?

1]

?

?

2

Var

[

v

i

|

c

i

?

v

i

?

d

i

]

（

17

）



其中，

Var

[

v

i

|c

i

?

v

i

?

d

i

]

?

1

?

d

i

?

(

d

i

)
 ?

c

i

?

(

c

i

)

?

(

d

i

)

?

?

(

c

i

)

2

?

[

]

。

 ?

(

d

i

)

?

?

(

c

i

)

?

(

d

i

)

?

?

(

c

i

)

其中，

?

、

?

分别表示正态分布的密度函数和分布函数。

（

1

）

如果

c

i



?

-

?

，即数据只是在右边截断，这时

?

(

c

i

) = 0

、

?

(

c

i

) = 0

，因此：

?

i

?

E

[

v

i

|v

i

?

d

i

]

?

?

?

(

d

i

)

?

(

d

i

)

?
?

(

d

i

)

<0

（

17a

）

Var

[

v

i

|v

i

?

d

i

]

?

1

?

d

i

?

(

d

i

)-

?

(

d

i
 )

2

（

17b

）

（

2

）

如果

d

i



?

+

?

，即数据只是在左边截断，这时

?

(

d

i

) = 0

、

?

(

d

i

) = 1

，因此：

?

i

?

E

[

v

i

|v

i

?

c

i

]

?

?

(

c

i

)

1

?

?

(

c

i

)
?

?

(

c

i

)

>0

（

18a

）

Var

[

v

i

|v

i

?

c

i

]

?

1

?

c

i

?

(

c

i

)-

?

(

c

i
 )

2

（

18b

）

（

17a

）式中

?

(

d

i

) =-

?

(

d

i

)

?

(

d

i

)

称之为

Inv erse Mills Ratio

，将（

18a

）式中

?

(

c

i

)=

?

(

c

i

)

1
?

?

(

c

i

)

称之为风险

函数（

Hazard Function

）

。

结论

1



E

(

y

|

y

?

b

)

?

E

(

y

)

?

E

(
y

|

y

?

a

)

。即，如果变量为从上面截断，则截断变量的均值小于初始

变量的均值；如果变量为从下面截断，则截断变量的均值大于初始变量的均值。

结论

2

截断变量的方差低于初始变量的方差。

5

图三

截断分布的均值（左图）

、方差（右图）

(

假定潜在变量

y

~

N

(2, 2)

)

*

1.1.2

截断回归模型估计

下面以左截断模型为例说明截断回归模型的估计。


设回归模型为：

y

i

?

x

i

β

?

?

v

i

(19)

其中，

v
 i

~

N

(0, 1)

。那么，

y

i

~

N

(

x

i

β

,

?

2
 )

。根据例

4

，我们可以得到截断随机变量

y

i

的均值和方差。

E

[

y

i

|

y

i

?

a

]

?
E

[

y

i

|

v

i

?

?

i

]

?

x

i

β

?

?

其中，

?

i

?

?

(

?

i

)

?

x

i
β

?

??

(

?

i

)

(20)

1

?

?

(

?

i

)

a

-

x

i

β

?

，

?

(

?

i

)

?

?
 (

?

i

)/[1

?

?

(

?
i

)]

Var
 [

y

i

|

y

i

?

a

]

?

1

?

?

i

?

(

?

i

)

?

?

(

?

i

)
 2

?

1

?

?

(

?

i

)

（

21

）



其中，

?

(

?

i

)

?

?

(

?

i

)[

?

(

?

i

)

?

?

i
 ]

由

（

20

）

式可以看出，

截断均值为

?

和

x

i

的非线性函数。

同一般的非线性模型一样，

变量

x

k

对

y

的

边际影响不等于其系数：

?

E

[

y

|

y

?

a
 ]

d

?

(

?

)

?

?

?

β

?

?

?

x

d

?

?

x

?

?

β

?

??????????????????????????

β

?

?

?
?

(

?

)

2

?

??

(

?

)

?

?

?

（

22

）



?

?

?

???? ?????????????????????

β

[1

?

?

(

?

)]

因为

0

?

?

(

?

i
 )

?

1

，所以变量

x

k

对

y
 的边际影响要小于其系数。

y

i

的方差也存在类似的缩减

（

attenuation

）

：

Var

(

y

i

|

y

i

?

a
)

?

?

2

[1

?

?

(

?

i

)]

?

?

2

（

23

）

注：

对于

y

i


(

?

i

)

，截断模型可以写为：

y

i

?

E

[

y

i

|

y

i

?

a

]

?

?

v

i

??????

x

i

β

?

??

i

?

u

i

（

24

）

6

其中，

u

i

=

?

v

i

为

y

i

减去其条件期望，

E(

u

i
)=0

。

如果以最小二乘法估计（

19

）式，就忽略了非线性项

?

i

，因此

OLS

估计量是有偏的。

另外，

y

i

|

y

i

>

a

的方差与

u

i

的方差相同，由

Var

(

y

i

|

y

i

?

a

)

?

?

2

[1

?

?

(

?

i

)]

可知，

y

i

存在异方差，为：

Va r

[

y

i

]

?

Var

[

u

i

]

?

?

2

Var

[

v

i

|

v

i

?

?

i

]

?????????????

?

2
(1

?

?

i

2

?

??

i

i

)

??????????????

?

2

(1

?

?

(

?

i

))

它是

x

i

的函数。

2

．

ML

估计

对于模型（

19

）

，由截断随机变量的概率密度函数可得

y

i

的密度函数为，

（

25

）



f

y

(

y

i

)

?

?

(

1

y

i

?

x

i

β
?

)

，

（

26

）



?

1

?

?

(

?

i

)

可以得到

y

i

的对数似然函数：

a

-

x

i

β

1

1

LogL

i

?

?

[log(2

?

)
?

log

?

2
]

?

2

(

y

i

?

x

i

β

)

2

?

log[1

?

?

(

)]

（

27

）



2

2

?

?

对于

N

个观测值

(

y

1

,

…

,

y

N

)

，其联合对数似然函数为：

N

1

LogL

i

?

?

[log(2

?

)

?

log

?

2

]

?

2

2

?

2

?

(

y

i

?

x

i

β

)
 ?

?

log[1

?

?

(

2

i
 ?

1

i

?

1

N

N

a

-

x

i

β

?

)]

（

28

）



通过最优化方法可以解得上式的参数

?

和

?

的值。

1.2

归并数据模型

计量经济学当中经常能碰到数据的归并问题，

简单地说，

归并数据即是被解释变量在某个区间的

观测值都转化为同一个值。比如，研究电影院的座位需求情况，电影院总的座位是

20000

个。如果实

际的需求量少于

20000

，

那么观测到的需求量就等于实际需求量；

但如果实际需求量大于

（等于）

20000

，

那么实际可观测到的需求数量只能为

20000

。这时我们说需求量数据被归并，即所有大于

20000

的数

据都被归并为
 20000

。

格林（

Greene

，

2000

）列举了经验文献中归并数据的应用。其中包括：

1

，

家庭耐用品消费支出

[Tobin(1958)]

2

，

婚外情次数

[Fair(1977,1978)]

3

，

劳动力市场中妇女工作的小时数

[Quester and Greene(1982)]

4

，

罪犯重新入狱的次数

[White(1980)]

等。

下面分别介绍归并数据的分布特征和模型估计。

1.2.1

归并数据的分布特征

如前所述，归并数据与截断数据的区别在于，归并变量包含

D

i

= 1

和

D

i

= 0

两种情况下的数据。

7

?

a

i

,

????

如果

y

i

*

?

a

i

?

y

i

?

?

y

i

*

,

????

如果

a

i

?

y

i

*

?

b

i

（

29

）



?

*

?

b

i

,

????

如果

y

i

?

b

i

或者写作：

y

i

?

max[

a

i

,min(

y

i

*

,

b

i

) ]

。即当

y

i

*

?

a

i

时，所有值被归并为

a

i

；当

y

i

*

?
 b

i

时，所有值被归

并为

b

i

。


归并数据按照归并点

a

i

,

b

i

是随机的还是确定的分为固定归并（

fixed

censoring

）和随机归并

（

random censoring

）两种。如果

a

i

,

b

i

是确定性的，我们称之为固定归并；如果

a

i

,

b

i

是随机的，我们

称之为随机归并。本章只介绍固定归并的情况。

归并数据按照归并点与观测区间的关系还可以分为左边归并和右边归并。如果：

*

?

?

a

i

,

????

如果

y

i

?

a

i

y

i

?

?
 *

*

y

,

????

如果

y
 ?

a

?

i

i

?

i

称潜在变量
 y

*

被从下面归并（

censo red below

）或者从左边归并（

censored from left

）

；

如果：

*

?

?

b

i

,

????

如果

y

i

?

b

i

y

i

?

?

*

*

y

,

????

如果

y

?

b

?

i

i

?

i

称潜在变量

y

*

被从上面归并（

censored above

）或者从左边归并（

censored from right

）

。

图

归并变量示意图

1

．归并变量的分布函数和密度函数

给定基本模型（

1

）的假定，

y

i

的分布函数为：

?

0

??????????????? ???????????

如果

y

i

?

a

i

?

F

y

(

y

i

)

?

?
 F

((

y

i
-

?

i

)

/

?

)

???
如果

?

a

i

?

y

i

?

b

i

（

30

）



?

?

1

???? ?????????????????????????????

如果
 y

i

?

b

i

??

归并变量的分布函数为一种混合分布（连续型和离散型综合在一起）

。在

y

i

=

a

i

和

y

i

=

b

i

两点的概

率分别为
P

(

y

i

?

a

i

)

?

P

(

y

i

*

?

a

i

)

?

F

((

a

i

-

?
 i

)/

?

)
 和

P

(

y

i

?

b

i

)

?

P

(

y

i

*

?

b

i

)

?

1

?

F

((

b

i

-

?

i
)/

?

)

，

因此对

于同一个潜在变量，其归并变量和截断变量的分布函数不相同，在观测区间内，归并分布同潜在变量

的分布重叠在一起。

8

-

-

-

-

-

-

-

-

本文更新与2021-03-01 12:24，由作者提供，不代表本网站立场，转载请注明出处：https://www.bjmy2z.cn/gaokao/688281.html

返回列表：英语

上一篇：教育技术的SSCI期刊(按影响因子的排名)
下一篇：Elsevier上发表论文的要求中文版

当前您在：主页 > 英语 >

Chapter9 受限因变量模型

-

-

-

-

-

-

-

-

-

返回列表：英语

Chapter9 受限因变量模型的相关文章

爱心与尊严的高中作文题库

爱心与尊严高中作文题库

爱心与尊重的作文题库

爱心责任100字作文题库

爱心责任心的作文题库

爱心责任作文题库

爱心长在作文题库

爱心中国感恩励志作文题

爱心助考作文题库

爱心助农作文题库

爱心尊重宽容拒绝作文题

爱心尊重作文题库

爱心作文题库好段

爱心作文题库120字

爱心作文题库读者

爱心作文题库分论点

爱心作文题库简短

爱心作文有哪些题库

爱需要被尊重作文题库

爱需要传递200字作文题库

爱需要公平作文题库

爱需要行动作文800高中作

爱需要行动作文题库

爱需要交流与沟通作文题

当前您在： 主页 > 英语 >

-

-

-

-

-

-

-

-

-

Chapter9 受限因变量模型的相关文章

当前您在：主页 > 英语 >