Upload
agustin-santiago
View
215
Download
0
Embed Size (px)
Citation preview
7/25/2019 Estim Adores Cali Brad Os
1/12
156CAP ITULO 4. APORTACIONES A LA ESTIMACI ON DE PROPORCIONES
4.3. Estimadores de calibracion propuestos
Deville y Sarndal (1992), introducen la teora general de estimadores de
calibracion para totales poblacionales. El objetivo consiste en estimar el to-tal poblacional, extendiendo una idea de calibracion de Lemel (1976), Deville(1988), usada en una poblacion con totales conocidos para modificar los pesosde diseno de muestreo basicos que aparecen en los estimadores de Horvitz-Thompson, por nuevos pesos, tan proximos como sea posible a los pesos dediseno para una metrica dada, que satisfagan una ecuacion de calibracion. Seminimiza la distancia entre los pesos, se hallan los pesos de calibracion y seestima el total usando los pesos calibrados. Theberge (1999), us o la idea decalibracion para estimar varianzas; la formulacion del problema de calibra-cion es mas general que la dada por Deville y Sarndal (1992), ademas de usar
medidas arbitrarias de distancia en la estimacion. Estevao y Sarndal (2000),probaron que las distintas medidas de distancia propuestas en los estimadoresde calibracion producen resultados aproximadamente identicos, por esa razondesarrollaron una aproximacion alternativa, la forma funcional de los pesoscalibrados. Spiegelman, D. et al.(2000), propusieron un estimador eficiente decalibracion para regresion logstica y otros modelos de regresion lineal generali-zados. Kott (2006) definio los pesos de calibracion para satisfacer las ecuacionesde calibracion y dar un estimador bajo el diseno consistente. Una generaliza-cion del procedimiento clasico de calibracion la encontramos en Guggemos, F.,et al.(2010) y se denomina procedimiento de calibracion penalizada.
La tecnica de calibracion fue introducida por Deville and Sarndal, (1992)para estimar totales, pero esta aproximacion se puede utilizar para estimarparametros mas complejos como varianzas poblacionales (Singh, 2001; Singhet al. 1999), funciones de distribucion (Harms and Duchesne, 2006, Rueda etal., 2007a, Martnez et al. 2011a) o cuantiles (Rueda et al., 2007b, Martnez etal. 2011b).
En esta seccion abordaremos la estimacion de calibracion para proporcionesa partir de las ideas iniciales propuestas por Martnez et al. (2010) y usandola forma funcional de los pesos de calibracion.
4.3.1. Estimacion de una proporcion para el dominio
Como es usual consideremos asociado con Aj un solo atributo auxiliar Bjde forma tal que para los elementosj s, los vectores (Aj, Bj) son observadosy se cumple que Bj = 1 si la j-esima unidad posee el atributo B y Bj = 0 encaso contrario. Asumimos conocido el total deB o la proporcionPB a nivel dede dominio, es decir, TBj o PBj .
7/25/2019 Estim Adores Cali Brad Os
2/12
4.3. ESTIMADORES DE CALIBRACION PROPUESTOS 157
La proporcion poblacional del atributo Aen el dominio Ud esta dado por
PAd = 1
Nd jUd Aj (4.141)y si designamos pordj = 1/j, los pesos obtenidos mediante las probabilidadesde inclusion de primer orden (la d con que designamos este peso, no significadominio), entonces el estimador de Horvitz-Thompson sera
PAd = 1Ndjsd
djAj (4.142)
que es identico al dado por (4.6), en el cual no se incorpora la informacionauxiliar disponible en la fase de estimacion de la proporcion de A, a nivelde dominio. Para estimar esta proporcion por el metodo de calibracion, loharemos a partir de la estimacion del total de dominio, toda vez que (4.142) esno lineal. Una forma de incorporar la informacion auxiliar en la estimacion deTAd, consiste en modificar los pesosdj por pesos nuevoswj, usando las tecnicasde calibracion introducidas por Deville y Sarndal (1992).
Siguiendo a Deville y Sarndal (1992) obtenemos un estimador de calibracionpara el total del atributo B de la siguiente forma:
Asumimos que
TBd =jUd
Bj,
se conoce a priori. Dada una muestra s, conocemos Bs y Bsd, los valores delatributo auxiliar para las unidades muestrales y para la submuestra en el do-minio de interes. Deseamos hallar los pesos wj, para j s, tales que
TBd = jsd
wjBj =TBd (4.143)
y los wj s estan proximos a los djs.Como una medida de la distancia entre los wj s y los dj s, usaremos la
distancia Chi-cuadrado y nuestro objetivo es minimizar
=jsd
(wj dj)2
djqj(4.144)
sujeto a la condicion
TBd =jsd
wjBj
donde las qj son constantes positivas conocidas no relacionadas a las dj .
7/25/2019 Estim Adores Cali Brad Os
3/12
158CAP ITULO 4. APORTACIONES A LA ESTIMACI ON DE PROPORCIONES
Usando el metodo de multiplicadores de Lagrange para optimizacion res-tringida obtenemos la expresion
L(wj, dj) = jsd
(wj dj)2
djqj2
jsd
wjBj . (4.145)
Derivando (4.145) con respecto a wj e igualando a cero obtenemos
wj =dj+ djqjBj . (4.146)
Ahora, si multiplicamos (4.146) por Bj y sumamos sobre la submuestra con-seguimos
jsd
wjBj =jsd
djBj+ jsd
djqjB2
j
TBd =TBd+ jsd
djqjBj
dondeB2j =Bj, por definicion de Bj. Entonces resolviendo para se obtiene
= TBd
TBdjsd
djqjBj,
por lo que
TAdw = jsd wjAj = jsd dj+ TBd
TBd
jsddjqjBj djqjBjAjTAdw =
jsd
djAj+jsd
TBd
TBdjsd
djqjBj
djqjBjAj
TAdw =TAd+ (TBdTBd)jsd
djqjBj
jsd
djqjBjAj. (4.147)
El estimador dado por (4.147) tiene la forma de un estimador de diferenciageneralizado, donde
b= jsddjqjBjAj
jsddjqjBjpor lo que su varianza aproximada estara dada por
AV(TAdw) =V(TAd) +b2V(TBd)2bcov(TAd,TBd) (4.148)y su estimador
AV(TAdw) =V(TAd) +b2V(TBd)2bcov(TAd,TBd) (4.149)
7/25/2019 Estim Adores Cali Brad Os
4/12
4.3. ESTIMADORES DE CALIBRACION PROPUESTOS 159
Asumiendo un diseno MAS(N, n) con qj = 1 j U, el estimador dadopor (4.147) se escribe
TAdw =TAd+TABdTBd (TBdTBd), (4.150)dondeTABd =jsdAjBj.Su varianza aproximada sera
AV(TAdw) =N2dV(PAd) +
PABdPBd
2
V(PBd)2
PABdPBd
cov(PAd,PBd)
con P
ABd= 1
Nd jUdAjBj. De forma equivalente podemos escribir
AV(TAdw) =N2d NNd 1fn [PAdQAd+
PABdPBd
2
PBdQBd
2
PABdPBd
d
PAdQAdPBdQBd] (4.151)
y su estimador
AV(TAdw) =N2dn
n 1
1f
nd [PAdQAd+ PABdPBd
2
PBdQBd2
PABdPBddPAdQAdPBdQBd ] (4.152)
donde d, el coeficiente V de Cramer, se estima de la submuestra sd.
Sabemos que TAdw =NdPAdw y como nos interesa estimar la proporcion obte-nemos que
PAdw = 1
NdTAdw (4.153)si Nd es conocido y
PAdw = 1NdTAdw (4.154)si Nd no es conocido, por lo que estamos ante la presencia de un estimador derazon de totales.
7/25/2019 Estim Adores Cali Brad Os
5/12
160CAP ITULO 4. APORTACIONES A LA ESTIMACI ON DE PROPORCIONES
La varianza de (4.153) sera
AV(PAdw) =V[ 1
NdTAdw] = 1
Nd2
V[TAdw]=
N
Nd
2 V(PAd) +b2V(PBd)2bcov(PAd,PBd)
y su estimador
AV(PAdw) = NNd2 V(PAd) +b2V(PBd)2bcov(PAd,PBd) . (4.155)
Para (4.154), toda vez que es una razon de estimadores, su varianza apro-ximada estara dada por
AV[PAdw] = NNd2 V(PAd) +b2V(PBd)2bcov(PAd,PBd) (4.156)
y su estimador
AV[PAdw] =
NNd2 V(PAd) +b2V(PBd)2bcov(PAd,PBd) . (4.157)
Bajo un diseno M AS(N, n) el estimador de la varianza dado por (4.155)se escribe como
AV[PAdw] = N
Nd2 1f
n
Nd1
N1
nd
nd1 [PAdQAd+ PABdPBd
2
PBdQBd2
PABdPBddPAdQAdPBdQBd ]
AV[PAdw] = NNd 1fn ndnd1PAdQAd+
PABdPBd2PBdQBd
2
PABdPBd
dPAdQAdPBdQBd
(4.158)
y el estimador de la varianza dado por (4.157)
AV[PAdw] =1 fnd nn 1 [PAdQAd+PABdPBd
2PBdQBd (4.159)2
PABdPBddPAdQAdPBdQBd ].
7/25/2019 Estim Adores Cali Brad Os
6/12
4.3. ESTIMADORES DE CALIBRACION PROPUESTOS 161
4.3.2. Estimador sintetico de calibracion
Sabemos ya que un estimador sintetico de dominio se obtiene usando un
estimador directo apropiado para un area grande, bajo el supuesto que lasareas pequenas tienen las mismas caractersticas que el area grande. Entoncesel estimador sintetico sera de la forma
TAdw =TA+ (TBTB)js djqjBj
js
djqjBjAj (4.160)
es decir, tiene la forma de un estimador de diferencia generalizado a partir dela muestra s, con b=
js djqjBjAj/
js djqjBj.
La varianza aproximada del estimador es de la forma
AV(TAdw) =V(TA) +b2V(TB)2bCov(TA,TB) (4.161)y un estimador de su varianza
AV(TAdw) =V(TA) +b2V(TB)2bCov(TA,TB). (4.162)Bajo un diseno de muestreo MAS(N, n), con qj = 1, el estimador de su
varianza sera
AV(
TAdw) =N
21 f
n 1
PA
QA+
PAB
PB2PB
QB
2PABPB
PAQAPBQB (4.163)dondePAB =n1js AjBj yes el coeficiente Vde Cramer en la muestra.Los estimadores de la proporcion de dominio y su varianza pueden obtenersesi sabemos queTAdw =NdPAdw, entonces
PAdw =
1
NdTAdw (4.164)
si se asume Nd conocido.La varianza de (4.164) sera
AV(PAdw) =V[ 1NdTAdw] =
1
Nd
2V[TAdw]
=V(PA) +b2V(PB)2bcov(PA,PB)
7/25/2019 Estim Adores Cali Brad Os
7/12
162CAP ITULO 4. APORTACIONES A LA ESTIMACI ON DE PROPORCIONES
y su estimador
AV(
PAdw) =
V(
PA) +
b2
V(
PB)2
b
cov(
PA,
PB). (4.165)
Bajo un disenoMAS(N, n) yqj = 1, el estimador de la varianza dado por(4.165) se escribe como
AV[PAdw] =1 fn 1PAQA+
PABPB2PBQB
2
PABPBPAQAPBQB
(4.166)
donde
PAB =n
1
js AjBj y es el coeficiente Vde Cramer en la muestra.
Al igual que en los casos anteriores, es posible construir un estimador combi-nado de estos estimadores.
4.3.3. Estimacion calibrada para el caso multivariado
Consideremos ahora un atributo A relacionado con p atributos auxiliaresB1, , Bp, el objetivo es hallar el estimador calibrado del total de dominioTAd en presencia de dichos atributos auxiliares, a partir de los resultados deDeville y Sarndal (1992).
Siguiendo el procedimiento usual de calibracion, debemos incorporar la
informacion auxiliar proporcionada por los patributos auxiliares, considerandonuevos pesoswj , sujetos a las siguientes condiciones
TBid=jUd
Bij =jsd
wjBij i= 1, , p.
Sea T
Bid = (TB1d, , TBpd) el vector de totales de cada uno de los p atri-
butos auxiliares, los cuales se asumen conocidos;TBid = (TB1d, ,TBpd) elvector de estimadores de Horvitz-Thompson de los totales para cada uno delos p atributos auxiliares a nivel de dominio, donde la j-esima observaciontendra asociado el vector B
d = (B1j, , Bpj) y el estimador de de H-T del
total para el i-esimo atributo auxiliar sera
TBid= jsd
djBij i= 1, , p.
El estimador calibrado del total sera de la forma
TAdw = jsd
wjAj. (4.167)
7/25/2019 Estim Adores Cali Brad Os
8/12
4.3. ESTIMADORES DE CALIBRACION PROPUESTOS 163
Minimicemos la distancia chi-cuadrado entre los pesos iniciales y los nuevospesos, bajo las condiciones dadas, usando el metodo de multiplicadores deLagrange para optimizacion restringida y los nuevos pesos seran
wj =dj+ (TBidTBid)
jsd
djBjB
j
1 djBj, (4.168)entonces el estimador calibrado con los nuevos pesos sera
TAdw = jsd
djAj+ (TBidTBid)
jsd
djBjB
j
1 jsd
djBjAj
o de forma equivalente
TAdw =TAd+ (TBidTBid)
b (4.169)dondeb = (jsddjBjBj)1jsddjBjAj, Bj es una matriz de dimensionpnd, Aj es un vector de nd 1, la matriz (
jsd
djBjB
j)1 es de dimension
p p y no singular para que el estimador pueda obtenerse.Una expresion para la varianza del estimador sera
AV(TAdw) =V(TAd) +b2i
V(TBid)2bi
cov(TAd,TBid)+2b
i=k
cov(TBid,TBkd) i= 1, , py i=k, (4.170)donde b= (jUddjBjB
j)1jUddjBjAj.Un estimador de la varianza seraAV(TAdw) =V(TAd) +b2
i
V(TBid)2bi
cov(TAd,TBid)+2b
i=k
cov(TBid,TBkd) i= 1, , p y i=k, . (4.171)El objetivo es estimar la proporcion del atributo A relacionado a los B1, , Bp
atributos auxiliares, entonces
PAdw =
TAdw
Nd=
1
Nd TAd+ (TBid
TBid)
b
PAdw =PAd+ (PBidPBid)b (4.172)si Nd es conocido y
PAdw =TAdwNd = 1Nd
TAd+ (TBidTBid)bPAdw = NdNd
PAd+ (PBidPBid)b (4.173)
7/25/2019 Estim Adores Cali Brad Os
9/12
164CAP ITULO 4. APORTACIONES A LA ESTIMACI ON DE PROPORCIONES
si Nd es desconocido.Las expresiones para las varianzas de (4.172) y (4.173) seran
AV(PAdw) =V(PAd)+b2i V(PBid)2bi cov(PAd,PBid)+2bi=k cov(PBid,PBkd),AV(PAdw) =
NdNd2
[V(PAd) +b2i
V(PBid)2b
i
cov(PAd,PBid) + 2bi=k
cov(PBid,PBkd)],respectivamente, y sus estimadores
AV(
PAdw) =
V(
PAd)+
b2
i V(
PBid)2
b
i cov(
PAd,
PBid)+2
b
i=k cov(
PBid,
PBkd),
(4.174)
AV(PAdw) =
NdNd2
[V(PAd) +b2i
V(PBid)2bi
cov(PAd,PBid)+2b
i=k
cov(PBid,PBkd)].(4.175)4.3.4. Estimacion de proporciones a partir de variables
instrumentales
Consideraremos ahora el enfoque propuesto por Estevao y Sarndal (2000),que consiste en modificar el requerimiento de minimizacion de la medida dedistancia en la estimacion de calibracion y adoptar la forma funcional de lospesos de calibracion
wj =dj(1 +Tzj) (4.176)
para algun vector instrumental zj , donde se determina de la restriccion.La estimacion del total poblacional se hace de forma similar a la utilizada
hasta ahora y se obtiene la expresion
Tw =TA+ (TBTB)bz (4.177)dondebz = (d djzjBTj)1d zjAj.Como antes, si Bd = (B1j , , Bpj)
T el vector de atributos auxiliares para laj-esima unidad. La informacion auxiliar consiste del vector de totales TBd =
jUdBj, compuesto de los p totales conocidos
Ud
Bij para i = 1, , p.Adicionalmente definimos un vector instrumental zj = (z1j, , zpj)
T paratodo j s, tal que
7/25/2019 Estim Adores Cali Brad Os
10/12
4.3. ESTIMADORES DE CALIBRACION PROPUESTOS 165
(a) dim(zj) =p = dim(Bj), y
(b) la matriz
s djzjB
Tj, de dimension p p es no singular.
En el presente trabajo estudiaremos la estimacion del total y proporcionesde areas pequenas usando como variables instrumentales zj = (1, Bj) y zj =(Xj, Bj).
Para la estimacion a nivel de dominio debemos hallar los pesos calibradoswd.j que satisfagan las ecuaciones de calibracion
jsd
wd.jzj =jUd
zj =zUd donde zj = (1, Bj)T
o de forma equivalente
jsd
wd.j =Nd y jsd
wd.jBj = jUd
Bj.
Entonces, el estimador de calibracion para el total a nivel de dominio sera
TAdw =TAd+ (TBdTBd)Tbz (4.178)dondebz = (jsddjzjBTd )1jsddjzjAj.
En este caso la variable instrumental zj = Bj, por lo que el problema sereduce al caso univariado que hemos trabajado en el apartado anterior y losestimadores del total y su varianza, de la proporcion y su varianza a nivelde dominio, estaran dadas por (4.150) y (4.152), (4.153) y (4.155) para Ndconocido y (4.154) y (4.157) para Nd desconocido.
Ahora, asumimos que las ecuaciones de calibracion sonjs
wjzj =jU
zj =zU donde zj = (Xj, Bj)T
que pueden ser expresadas comojs
wj =Nd yjs
wjBj =jU
Bj ,
entonces, el estimador calibrado del total sera
TAw =TA+ (TBTB)Tbz, (4.179)dondebz = (js djzjBTj)1js djzjAj , y entonces, el estimador calibrado(4.179) se reduce al estimador sintetico del total de dominio.
Una expresion para la varianza sera
AV(TAw) =N2[V(PA) +b2zV(PB)2bcov(PA,PB)]
7/25/2019 Estim Adores Cali Brad Os
11/12
166CAP ITULO 4. APORTACIONES A LA ESTIMACI ON DE PROPORCIONES
y su estimador
AV(
TAw) =N
2[
V(
PA) +
b2z
V(
PB)2
b
cov(
PA,
PB)]. (4.180)
El estimador de la proporcion a nivel de dominio seraPAw =PAd+ (PBdPBd)bz (4.181)teniendo en cuenta que Nd puede ser conocido o no, en la estimacion dePAd yPBd.
Siguiendo los traba jos de Estevao y Sarndal (2006), Lehtonen, Sarndal y Vei-janen ( 2008) y Kim y Park (2009), podemos usar la variable instrumentalzj = (1,Aj)T, dondeAj se estima por regresion logstica binaria. El estimadordel total a nivel de dominio sera
TAw =TAd+ (TBdTBd)Tbz, (4.182)donde los pesos calibrados deben satisfacer la ecuacion de calibracion
jsd
wd.jzj =jUd
zj =zUd, con zj = (1,Aj)T
y las restricciones de calibracionjsd
wdj =Nd yjsd
wdjAj = jUd
Aj =TAj .Para este caso bse estima por
bz = (A1, ,And)B1
.
..Bnd
1
(A1, ,And)A1
.
..And
.Para hallarAj, asumimos que Aj = Adj |ud Bin(n, PAj) y denotemos porAj =PAj yAj =PAj(1 PAj ), la media y varianza de Aj dadoj, respecti-vamente. La distribucion condicional de Aj pertenece a la familia exponencialnatural, y entonces
PAj = exp{j}
1 + exp{j}, j =Bj + ud, j = 1, , Nd,
que tendra por estimador
PAj = exp{j}1 + exp{j} , j =Bj, j = 1, , Nd,donde se estima por mnimos cuadrados ponderados o por maxima verosi-militud iterativa con Newton-Raphson de la muestra s.
Ahora,PAj =Aj =Aj es la probabilidad de que el individuo j tome elvalor 0 o 1 y estamos en condiciones, ahora, de estimar el total y la proporciona nivel de dominio usando (4.182).
7/25/2019 Estim Adores Cali Brad Os
12/12
Captulo 5
Estudio de simulacion.Aplicacion a datos de dengue
5.1. Descripcion del estudio de simulacion
Descripcion de la poblacion simulada
Con el fin de comprobar el comportamiento real de los estimadores pro-puestos se ha realizado un estudio completo de simulacion. Centramos nuestroestudio en una poblacion simulada que denominamos PopSIM. La poblacionsimulada de tamano N = 30000 esta dividida en 30 dominios (6 de tamano500, 6 de tamano 750, 6 de tamano 1000, 6 de tamano 1250 y 6 de tamano1500) de forma que estos incluyan diversos escenarios en funcion de las propor-ciones poblacionales y el coeficiente V de Cramer entre la variable de interes ylas variables auxiliares. En concreto, las poblaciones correspondientes a cadadominio se generaron de forma que, xi B (N, p), yis B (N, p) son indepen-dientes e yi=xiyis, donde pvara entre
10
41 y 39
41. Ver tabla (5.1).
Descripcion del proceso de simulacion
El procedimiento a seguir para esta poblacion sera realizar 1000 iteracionesdel siguiente proceso:
Seleccionar una muestra aleatoria simple de tamano 900.
Evaluar los estimadores propuestos as como el estimador directo para eldominio de interes considerado y una estimacion de su varianza.
Los resultados de las 1000 iteraciones nos permiten evaluar la eficienciarelativa porcentual (RE) con respecto al estimador directo para el dominio,
167