关键词不能为空

当前您在: 主页 > 英语 >

抽样调查中基于模型的稳健比率估计(83)

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-10 16:38
tags:

-

2021年2月10日发(作者:estate是什么意思)


?


抽样调查中基于模型的稳健比率估计



巩红禹


13



贺本岚


1




金勇进


2






1


中国人 民大学



统计学院



北京


100872


2


中国人民大学应用统计科学研究中心



北京


100872


3


内蒙古财经学院



统计与数学学院



呼和浩特


010051




摘要:


基于模型推断是推断有限总体参数的一种重要方式,假设有限总体是某个超总体的一次随机实现,


估计量是基于这个超总体模型上作出的,估计量性质依赖于模型的假定条件。基于模型的比率 估计尽管很


“简单”


,但在抽样调查中占有非常重要的位置。人 们习惯用“简单”模型拟合总体,若总体的真实模型是


复杂的多项式模型,采用比率估计 显然有偏的,此时可通过设计平衡样本使得他们是偏倚稳健的,实现了


复杂问题简单处理 的思想。



关键词




超总体



最优无偏估计



比率估计




平衡样本





分别比率估计




分层平衡样本



中图分类号


: C811






Robust Model Based Ratio Estimator in Survey Sampling


Gong



Hongyu


13



He Benlan


1





Jin



Yongjin


2


(1 School of Statistics, Renmin


University of China, Beijing 100872


2 Center for Applied Statistics, Renmin University of China Beijing 100872


3 Statistics and Mathematics School, Inner Mongolia Finance and Economic College



Hohhot 010051)



Abstract:


model-based inference is a way of finite population population is a


realization of superpopulation that estimator is based on. Estimator



performance rely on


assumption of model. model-based Ratio estimator is important in survey sampling though it


is simple. Population


are


often fitted


by


simple


model.


Ratio


estimator


are


obviously


biased


if


underlying


model


is


polynomial


model,


which


are


bias-robust


by balanced


sample.


The


idea


that


complex question is solved simplely is achieved.


Key


words:



superpopulation



best


unbiased


estimator



ratio


estimator



balanced


sample


separate ratio estimator stratified balanced sample














一.问题的提出



在实际的抽样调查中 ,通常关注总体的某些特征,如总量、均值、比例等。基于设计推



作者简介:巩红禹


(1977-)


:男 ,辽宁朝阳人,讲师,博士生,研究方向:抽样调查,应用统计。


金勇进


(1953-)


:男,北京人,教授,博士生导师, 研究方向:抽样调查,应用统计。



贺本岚

(1987-)


:女,江西萍乡人,博士生,研究方向:抽样调查,应用统计。



断和基于模型的推断


[1,2,3]


是推断有限总体特征的两种不同途径。


Neyman



1934


)提出的基


于设 计


(基于随机)


推断自从二次世界大战后一直是抽样调查领域研 究的主流方向。


基于设


计推断通常假定总体固定和有限的,


根据样本观测结果推断总体的参数。


调查者根据某种抽


样设计从总体中随机获取样本,


样本中每个样本单元的权数是它包含概率的倒 数。


尽管这种


方法样本遵循了“代表性”准则,但根据


Royall(1971)


所述,


“方案设计的 复杂性、与规模


成比例概率抽样方案的执行复杂性及概率的复杂计算性”


都成为其方法自身的缺点。


除此之


外,当样本量很小时 ,基于设计推断产生的结果也会受人质疑。因此,


Royall


另辟蹊径,


考虑到充分利用总体的辅助信息,


提出了基于模型推 断的方法。


这种方法的思想是假设有限


总体是某个超总体或者某 个概率分布的一次随机实现,


超总体模型构建了目标变量与辅助变


量的关系,


通过样本数据预测非样本数据,


进而获得关于总体 参数的估计。


在特定的超总体


模型下寻找最优估计是理想的情形 ,


实践中很难找到严格服从某一特定分布的观测数据,



是在假定模型下寻找稳健估计。


估计量的稳健性是指,


当模型发生微小变化时,


对估计量的


影响也相对较小。



一直以来,


抽样技术领域中估计量的 稳健性问题始终受到关注,


统计学家从两种途径研


究这类问题,


一类是讨论样本中有代表性异常点情形,


比如

< br>和


Chambers


[4]


和< /p>


Gwet



Rivest


[5]


讨论了样本中有异常点时总量稳健的比率估计


,Kuk


[6]


给出异常点情形下均值的稳健估


计;一类是讨论当模型识别错误时,选择模型下估计量的稳健性问题


[7-10 ]


,本文从后一


角度讨论。



基于模型的比率估计尽管很“简单”


,但在抽样理论中确是为人们所熟悉 ,占有非常重


要的位置。人们习惯用“简单”模型拟合总体,但若总体比较复杂,总体的 真实模型是多项


式模型,


采用比率估计和扩张估计显然有偏的,


此时我们是否应该放弃这两种简单而又重要


的估计采用相应模型 下的最优无偏估计呢?结论并非如此,


因为有时我们并不知道总体的真

< br>实模型形式,正如


Box



19 79


)所说“所有的模型都是错误的但某些是有用的”


,这也正 是


本文力图讨论基于模型的比率估计稳健性的意义所在,


对于满 足平衡条件的样本


(辅助变量


的样本矩等于总体矩)

< p>
,比率估计确是偏倚稳健的,


实现了复杂问题


“简 单化”处理的思想。


比率估计在某个超总体模型下是最优无偏估计。


二.最优无偏估计




U


?


{


1


,


2


,


?

< br>,


N


}


表示容量为


N


的有限总体,


y


k



U


中第


k


个单元的未知观测值,


x


k

1


,


x


k


2


,


?


,


x< /p>


kp


为第


k


个单 元已知的


p


个辅助观测值,


k


?


1


,


2


,


?


,


N

< br>。假定超总体回归模型


M








Y


?


X


β


?


e


































1




其中


X


?


(


x


1


,


?

< p>
,


x


N


)


T



x


T

,


x


k


1


,


?


,


x


kp


)


是已知矩阵,


β

?


(


?


0


,


?


1


,


?< /p>


,


?


p


)


T


是未知的常


k


?< /p>


(


1


量向量,


v ar(


e


)


?


V


?


diag


(


v


1


,


?


,


v


N


)


是对角 矩阵,第


k


个对角元素是已知的非负常量。


辅助向量值


x


k


是已知的。




< p>
















—< /p>









< p>




y


?


(


y


1

,


y


2


,


?


,


y


N


)< /p>


T


视为独立随机向量


Y

< br>?


(


Y


1


,


Y


2


,


?


,


Y


N


)


T


的一个随机样本。



根据某


个抽样



案从总



U


抽取


容量为


n



样本

< p>
s




X



V



新表示



?


X


s

?


?


V


X


?


?


?



V< /p>


?


?


ss


?


?


X


r


?


?



其中


X

< p>
s



n


?


p


矩阵,


X


r



(


N


?

n


)


?


p


矩阵,


V


ss



n


?


n


V


r r


?


?


对角矩阵,

V


rr



(


N


?


n


)


?


(


N


?


n


)


对角矩阵。



?


?


?


)


?


0



为了讨论基于模型推断估计量的优良性 质,引入下面的概念。



如果


E


M


(


?


?

< p>


?


的模型


M

< p>
无偏估计。


E


(


?


?


?


?


)

< p>
2


称为


?


估计量


?


?


的模型


M


均方误差。


那么估计量


?


M


其中


E


M


(


?


)


记为模型


M


下的均值。



超总体模型下总量< /p>


T


?


?


y


i


?


1


N

< p>
i


的一个最优无偏估计(


BLU

< br>)


?


?


是:


?


?


1


T


Y


?


1


T< /p>


X


β


?





?


o


p


t


s


s


r


r

























2




其中



?


?< /p>


(


X


T


V


?


1


X


)

< p>
?


1


X


T


V


?


1


Y





















3



















β


s


ss


s


s


ss


s



?


?


的方差是



?


?


?


)


?


1


T


[


V


?


X


(


X


T


V


?

< br>1


X


)


?


1


X


T


]


1






4





















var(


?


r


rr


r


s


s s


s


r


r


这里


1


T


s



1


r


分别是维数为


n



N


的分量为


1


的行向量。





























当仅有一个辅助变量与目标变量相关时,拟合总体模型人们会 通常考虑多项式模型



















y


i


?


T


?


?


j


?


j


x


i


j


?


?

< br>?


i


v


(


x


i


)


2




















(5)


j


?


0


J


1


J< /p>


j


其中


?


i


~


ind


(


0


,


?


2


)


,


{


?


j


}


J


j


?

< br>0


是未知的参数集,


{


?


j


}


j


?

< p>
0


是示性变量,如果模型中有


x

< br>i



?


j


?


1


,否则,


?

j


?


0


。记多项式模型为


M


(


?


0


,


?


1


,

< br>?


,


?


j


:


v


)


,多项式模型下最优线性无偏


?


(


?


,


?


,


?


,


?


:


v


)


,


比如,将扩张估计模型


y


i


?


?


?


?< /p>


i



?


~


iid


(


0


,


?


2


)


记为


M


(


1


:


1


)



预测


T


i


0


1

j


将比率估计模型


y


i

< p>
?


?


1


x


i


?


?


i


?


i


~


iid


(


0


,


x


i


?


2


)< /p>


记为


M


(


0


,


1


:


x


)


,相应的总量


BLU


估计


?


(


1


:


1


)


,


T


?


(


0


,


1


:


x


)




分别记为


T

< p>
1



X


?


?


x


1


?

x


N


x


1


2


?


x


1


J< /p>


1


?


?


?



V


?


diag


(


v


(


x


1


),


?


,

< p>
v


(


x


N


))




< br>1





2


j


x


N


?


x


N


j


?


?


(


?


,


?


,


?


,


?


:


v


)

< br>?


?


y


?


?


?


?






(6)


T


x


?


0


1< /p>


j


k


j


j


k


s


r


j

< p>
?


0


J


?


的第


j


个分量。








?


是加权最小二乘估计


β


其中


?


j


三.基于平衡的稳健估计



如果选择模型(实际拟合的 模型)是总体的真实模型,相应的估计是最优无偏估计。但


是一旦选择模型偏离总体,< /p>


相应的估计将不满足估计的无偏性和有效性。


为研究基于选择模< /p>


型估计量的优劣,


假定知道总体的真实模型,

需要考虑选择模型对应估计的偏倚和估计的有


效性。实践中通常考虑比率估计,因为 它比较“简单”


。下文为了方便表述,这里将总体的


真实模型记 为


?


,选择模型记为


?


。如果总量


T


?


*

< p>
?


y


U


i


?



?


无偏的,



?


最优无偏估计


T


*


?


对于模型


?


*


是偏倚


-


稳健的 。


那么就说


T


下文遵从由特殊到一般研 究问题的方法逐步探讨这


两种估计的偏倚


-

稳健性问题。




*





假定总体的


?



y


i


?


?


0


?


?


1


x


i


?


?


i


x


i


1


2

< br>,


?


i


~


iid


(


0


,


?


2


)


,


其 对应的估计是回归估计


?


(


1


,


1


:


x


)


。但若


?


为比率估计模型 ,其偏倚是



T


?

(


0


,


1


;


x


)


?


T< /p>


)


?







E


M


(


T


?


y


?


?


x


s


k


s


k

< br>r


k


s


k


U


x


k


?


?


U


(


?


0


?


?


1


x


k


)



?


?


1


x


k

< br>)


?


?


r


(


?


0


?


?


1


x


k


)



?


?


x


(


?


?


x


?


s


0


?

< br>?


0


n


?


r


x


k


?


(


N


?


n


)


?


s


x


k


?


x


s


?


N


?


0


k

< br>(


x


?


x


s


)







x


s



?


0


?


0


时,若前


n


最大的< /p>


x


值入样,估计量将会产生最大的负偏倚。如果

< br>x


s


?


x


,比率


估计在这个模型下是无偏的。如果总体的


?

< p>
*


是比率估计模型,抽取前


n

个最大


x


值样本使


模型方差达到最 小是我们期望的结果,但从这里看出,如果总体的


?


*


是含常数项的一次回


归模型,这种抽样策略却使估计产生最大的负偏倚。



为后面说明问题的方便,这里引入平衡样本的概念。记


s


(


J


)

< p>
为满足下面条件的样本,


对于


j

< br>?


1


,


?


,


J




x


s


(


j


)


?


x


(


j


)





























7




即辅助变量的样本矩等于总体矩,


其中


x< /p>


s


(


j


)


?


n


?


1

< p>
(


?


x


)



x


j


s

i


(


j


)



s


(


J


)< /p>



?


N


?


1


(


?


U

< p>
x


i


j


)



平衡样本。不满足条件(


7


)的样本



,称为非平衡样本。在无法确定总体


?


*


的情形下,通


过获取平衡 样本使得比率估计具备偏倚稳健性是很有必要的。



平衡样本下 ,总体的


?


*



y


i


?


?


0


?


?


1


x


i


?


?


i


x


i


1


2


?


(


1


,

< br>1


:


x


)


是无偏



?


i


~


iid


(


0


,


?


2


)



T


?


(


0


,


1


:


x


)


也是无偏的。二者哪个更有效呢?这需要比较二者的

< br>估计,同时,总量比率估计


T


均方误差

< br>MSE




?

< br>(


0


,


1


:


x


)


,均方误是

< br>


若采用


T


?

< br>(


0


,


1


:


x


)


?


T


)


2


?


var (


?


(


0


,< /p>


1


:


x


)


?


E


(


T

< p>
?


(


0


,


1


:


x


)))


?


[


E


(

T


?


E


(


T


?


(


0


,< /p>


1


:


x


))]< /p>


2


E


M


(


T


T


M































?


N


x


x


(


x


?


x


s


)


2


(

< br>1


?


f


)


r


?


2


?


[


N


?


0


]







8




f


x


s


x


s


?


(


1


,


1


:


x

< br>)


,均方误是



若采用


T


2


2


2


N


x


x


N

< br>(


x


?


x


)


?


2


r


s


?


(


1


,


1


:


x


)


?


T


)


?


(


1


?


f

< br>)








E


M


(


T







9




?


?


2


(


?


1


)


?


1


f


x


s

< br>x


s


n


[


x


s


?


x


s


]


2


比较(


8


)与(


9


)式,若























?


0


2


x


s


2


n


[


x


s


(


?


1


)


?

< br>x


s


?


1


]


?


?


2






















10



< /p>


?


(


0


,


1


:


x


)

< p>
相对于


T


?


(

< p>
1


,


1


:


x


)


更有效。注


< p>
8


)式的值要小于(


9


) 式的值,这意味着有偏估计


T

-


-


-


-


-


-


-


-



本文更新与2021-02-10 16:38,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/630238.html

抽样调查中基于模型的稳健比率估计(83)的相关文章