-
?
陈强
,
《高级计量经济学及
Stata
应用》课件,第二版,
2014
年,高等教育出版社。
第
14
章
受限被解释变量
被解释变量的取值范围有时受限制,称为“受限被解释变量”
(Limited Dependent
Variable)
。
14.1
断
尾
回
归
p>
对线性模型
y
i
?
x
i
p>
?
??
?
?
i
,假设只有满足
y
i
?
c
的数据才能观测到。
例:
y
i
为所有企业的销售收入,而统计局只收集规模以上企业
数据,比如
y
i
?
100,000
。被解释变量在
100,000
处存在“左边断尾”。
断尾随机变量的概率分布
随机变量
y
断尾后,其概率密度随之变化。
记
y
的概率密度为
f
(
y
)
,在
c
处左边断尾后的条件密度函数为
?
f
(
y
)
若
y
?
c
?
?
P(
y
?
c
)
,
f
(
y
|
y
?
c
)
?
??
?
?
0,
若
y
?
c
?
由于概率密度曲线下面积为
1
,故断尾变量的密度函数乘以因子
1
。
P(
y
?
c
)
2
图
14.1
断尾的效果
3
断尾分布的期望也发生变化。以左边断尾为例。
对于最简单情形,
y
~
N
(0, 1)
,可证明
(
参见附录
)
?
(
c
)
E(
y
|
y
?
c
)
??
1
?
?
(
c
)
对于任意实数
c
,定义“反米尔斯比率”
(Inverse
Mill’s
Ratio
,
简记
IMR)
为
?
(
c
)
?
(
c
)
??
1
?
?
(
c
)
则
E(
y
|
y
?
c
)
?
<
/p>
?
(
c
)
。
4
图
14.2
反米尔斯比率
5
对
于
正
态
分
布
y
~
N
(
?
,
?
)
,
定
义
z
?
y
?
?
?
?
z
。故
2
y
?
??
?
?
~
N
(0, 1)
,
则
E(
y
|
y
?
c
)
?
E(
??
?
?
z
|
??
?
?
z
?
c
)
?
E
?
?
?
?
?
?
z
z
?
(
c
?
?
)
?
?
?
p>
?
?
?
?
?
?
E
?
?
z
z
?
(
c
?
?
)
?
?
?
p>
?
?
?
?
?
?
?
?
?
(
c
?
?
)
?
?
?
p>
?
?
?
2
2
?
?
对于
模型
y
?
x
?
?
?
,
?
|
x
~
N
(0,
?
)
,则
y
|
x
~
N
(
x
?
,
?
)
,故
i
i
i
i
i
i
i
i
E(
y
i
|
y
i
?
c
) <
/p>
??
x
i
?
p>
?
?
?
?
?
?
?
(
c
??
x
i
?
?
p>
)
?
?
?
?
?
如
果
用
OLS
估
计
y
i
?
x
i
?
?
p>
?
?
i
,
则
遗
漏
了
非
线
性
项
?
?
?
?
(
c
?
x
i
p>
?
?
)
?
?
,与
x
i
相关,导致
OLS
不一致。
6
?
x
。
参见图
14.3
。总体回归线为
??
?
?
x
i <
/p>
,而样本回归线为
?
?
< br>
?
?
i
y
i
a
+
b
x
i
?
?
?<
/p>
?
c
?
?
?
?
?
?
p>
?
?
?
?
?
?
?
?
?
?
?
?
?
p>
?
?
?
?
?
?
?
?
?
?
x
?
+
a
b
i
?<
/p>
?
x
i
图
14.3
断尾回归示意图
7
使用
MLE
可得到一致估计。断尾前的概率密度:
?
2
p>
?
?
?
?
?
1
?
1
?
y
?
x
??
?
?
1
?
y
?
x
?
?
?
?
f
(
y
i
)
?
?
exp
?
??
i
i
?
?
i
i
?
?
?
?
?
?
p>
?
2
?
?
2
?
?
2
?
?
?
?
?
?
?
?
?
??
?<
/p>
样本被观测到的概率:
8
P(
y
i
?
c
|
x
i
)
?
1
?
P(
y
i
?
c
|
x
i
)
?
?
1
?
P
?
y
i
?
?
x
i
?
?<
/p>
c
?
<
/p>
x
?
??
??<
/p>
i
?
x
i
?
?
??
?
?
?
?
??
?
?
i
?
?
1
?
P
?
c
?
x
?
??
x
?
i
i
?<
/p>
?
??
?
?
p>
?
?
??
??
p>
?
c
?
?
1
?
?
?
p>
x
i
?
?
?
?
?
?
??
?
??
?
断尾后的条件密度:
?
1
?
?
(
i
y
?
x
?
p>
?
i
?
?
)
?
f
(
y
|
y
?
c
,
x
)
?
?
?
i
i
i
1
?
?
?
(
c <
/p>
??
x
i
?
p>
?
)
?
?
?
9 <
/p>
?
?
?
14.2
零断尾泊松回归与负二项回归
计数数据有时仅包括正整数,不包括取值为
0
的观测值,称为
“零断尾”
(zero-truncated)
。
例:在商场发放问卷调查,研究消费者每周去商场的次数。
例:在公交车上发放问卷调查,研究乘车者每周坐公交的次数
。
如果不对似然函数进行调整,将得不到一致估计。
记
f
(
y
)
为
y
的概率函数,而
F
(
y
)
?
P(
Y
?
y
)
为
cdf
。如果存在零
断尾,则断尾后的概率函数为
10
f
(
y
|
y
?
1)
??
f
(
y
)
,
y
?
1,
2,
??
1
?
F
(0)
如果
y
服从泊松分布,则
f
(
y
|
y
?
1)
??
?
?
,
y
?
1,
2,
??
y
!(1
?
e
)
?
?<
/p>
e
?
?
?
y
进行
MLE
估计,得到“零断尾泊松回归”
(zero-
truncated Poisson
regression)
。如果
y
服从负二项分布
(NB1
或
NB2)
,可进行“零断
尾负二项回归”
(zero-
truncated negative binomial
regression)
。
14.3
随机前沿模型
(
选读
)
11
14.4
偶然断尾与样本选择
被解释变量
y
i
的断尾有时与另一变量
z
i
有关,称为“偶然断尾”
(incidental
truncation)
或“样本选择”
(sample se
lection)
。
称
z
i
为选择变量。
例
在美国的亚裔移民给人的整体印象是聪明能干。但在美国
p>
的亚裔并非亚洲人口的代表性样本。通常只有受过高等教育或具
有吃
苦冒险精神的亚裔才会“自我选择”
(self
selection)
移民。
p>
决定移民与否的变量便对被解释变量产生了断尾作用,故“样
本选择
”将导致“选择性偏差”
(selection
bias)
。
12
例
妇女劳动力供给模型:
劳动时间方程
hours
?
?
0
?
?
1
wage
?
?
2
children
?
?
3
marriage
?
u
工资方程
w
?
w
?
?
?
?
?
age
?
?
education
?
?
children
?
??
location
?
v
0
1
2
3
0
o
r
w
o
表示
offered wage
,
w
r
表示
reservation wage
。
如果
w
?
w
?
0
,则选择不工作,无法观测到劳
动时间
(hours)
,
造成劳动时间方程的偶然断尾与样本选择问题。
o
r
13
-
-
-
-
-
-
-
-
-
上一篇:SGE2000继电保护装置说明书A5
下一篇:维纳滤波器的设计