Estim Adores Cali Brad Os

7/25/2019 Estim Adores Cali Brad Os

1/12

156CAP ITULO 4. APORTACIONES A LA ESTIMACI ON DE PROPORCIONES

4.3. Estimadores de calibracion propuestos

Deville y Sarndal (1992), introducen la teora general de estimadores de

calibracion para totales poblacionales. El objetivo consiste en estimar el to-tal poblacional, extendiendo una idea de calibracion de Lemel (1976), Deville(1988), usada en una poblacion con totales conocidos para modificar los pesosde diseno de muestreo basicos que aparecen en los estimadores de Horvitz-Thompson, por nuevos pesos, tan proximos como sea posible a los pesos dediseno para una metrica dada, que satisfagan una ecuacion de calibracion. Seminimiza la distancia entre los pesos, se hallan los pesos de calibracion y seestima el total usando los pesos calibrados. Theberge (1999), us o la idea decalibracion para estimar varianzas; la formulacion del problema de calibra-cion es mas general que la dada por Deville y Sarndal (1992), ademas de usar

medidas arbitrarias de distancia en la estimacion. Estevao y Sarndal (2000),probaron que las distintas medidas de distancia propuestas en los estimadoresde calibracion producen resultados aproximadamente identicos, por esa razondesarrollaron una aproximacion alternativa, la forma funcional de los pesoscalibrados. Spiegelman, D. et al.(2000), propusieron un estimador eficiente decalibracion para regresion logstica y otros modelos de regresion lineal generali-zados. Kott (2006) definio los pesos de calibracion para satisfacer las ecuacionesde calibracion y dar un estimador bajo el diseno consistente. Una generaliza-cion del procedimiento clasico de calibracion la encontramos en Guggemos, F.,et al.(2010) y se denomina procedimiento de calibracion penalizada.

La tecnica de calibracion fue introducida por Deville and Sarndal, (1992)para estimar totales, pero esta aproximacion se puede utilizar para estimarparametros mas complejos como varianzas poblacionales (Singh, 2001; Singhet al. 1999), funciones de distribucion (Harms and Duchesne, 2006, Rueda etal., 2007a, Martnez et al. 2011a) o cuantiles (Rueda et al., 2007b, Martnez etal. 2011b).

En esta seccion abordaremos la estimacion de calibracion para proporcionesa partir de las ideas iniciales propuestas por Martnez et al. (2010) y usandola forma funcional de los pesos de calibracion.

4.3.1. Estimacion de una proporcion para el dominio

Como es usual consideremos asociado con Aj un solo atributo auxiliar Bjde forma tal que para los elementosj s, los vectores (Aj, Bj) son observadosy se cumple que Bj = 1 si la j-esima unidad posee el atributo B y Bj = 0 encaso contrario. Asumimos conocido el total deB o la proporcionPB a nivel dede dominio, es decir, TBj o PBj .


2/12

4.3. ESTIMADORES DE CALIBRACION PROPUESTOS 157

La proporcion poblacional del atributo Aen el dominio Ud esta dado por

PAd = 1

Nd jUd Aj (4.141)y si designamos pordj = 1/j, los pesos obtenidos mediante las probabilidadesde inclusion de primer orden (la d con que designamos este peso, no significadominio), entonces el estimador de Horvitz-Thompson sera

PAd = 1Ndjsd

djAj (4.142)

que es identico al dado por (4.6), en el cual no se incorpora la informacionauxiliar disponible en la fase de estimacion de la proporcion de A, a nivelde dominio. Para estimar esta proporcion por el metodo de calibracion, loharemos a partir de la estimacion del total de dominio, toda vez que (4.142) esno lineal. Una forma de incorporar la informacion auxiliar en la estimacion deTAd, consiste en modificar los pesosdj por pesos nuevoswj, usando las tecnicasde calibracion introducidas por Deville y Sarndal (1992).

Siguiendo a Deville y Sarndal (1992) obtenemos un estimador de calibracionpara el total del atributo B de la siguiente forma:

Asumimos que

TBd =jUd

Bj,

se conoce a priori. Dada una muestra s, conocemos Bs y Bsd, los valores delatributo auxiliar para las unidades muestrales y para la submuestra en el do-minio de interes. Deseamos hallar los pesos wj, para j s, tales que

TBd = jsd

wjBj =TBd (4.143)

y los wj s estan proximos a los djs.Como una medida de la distancia entre los wj s y los dj s, usaremos la

distancia Chi-cuadrado y nuestro objetivo es minimizar

=jsd

(wj dj)2

djqj(4.144)

sujeto a la condicion

TBd =jsd

wjBj

donde las qj son constantes positivas conocidas no relacionadas a las dj .


3/12


Usando el metodo de multiplicadores de Lagrange para optimizacion res-tringida obtenemos la expresion

L(wj, dj) = jsd

(wj dj)2

djqj2

jsd

wjBj . (4.145)

Derivando (4.145) con respecto a wj e igualando a cero obtenemos

wj =dj+ djqjBj . (4.146)

Ahora, si multiplicamos (4.146) por Bj y sumamos sobre la submuestra con-seguimos

jsd

wjBj =jsd

djBj+ jsd

djqjB2

j

TBd =TBd+ jsd

djqjBj

dondeB2j =Bj, por definicion de Bj. Entonces resolviendo para se obtiene

= TBd

TBdjsd

djqjBj,

por lo que

TAdw = jsd wjAj = jsd dj+ TBd

TBd

jsddjqjBj djqjBjAjTAdw =

jsd

djAj+jsd

TBd

TBdjsd

djqjBj

djqjBjAj

TAdw =TAd+ (TBdTBd)jsd

djqjBj

jsd

djqjBjAj. (4.147)

El estimador dado por (4.147) tiene la forma de un estimador de diferenciageneralizado, donde

b= jsddjqjBjAj

jsddjqjBjpor lo que su varianza aproximada estara dada por

AV(TAdw) =V(TAd) +b2V(TBd)2bcov(TAd,TBd) (4.148)y su estimador

AV(TAdw) =V(TAd) +b2V(TBd)2bcov(TAd,TBd) (4.149)


4/12


Asumiendo un diseno MAS(N, n) con qj = 1 j U, el estimador dadopor (4.147) se escribe

TAdw =TAd+TABdTBd (TBdTBd), (4.150)dondeTABd =jsdAjBj.Su varianza aproximada sera

AV(TAdw) =N2dV(PAd) +

PABdPBd

2

V(PBd)2

PABdPBd

cov(PAd,PBd)

con P

ABd= 1

Nd jUdAjBj. De forma equivalente podemos escribir

AV(TAdw) =N2d NNd 1fn [PAdQAd+

PABdPBd

2

PBdQBd

2

PABdPBd

d

PAdQAdPBdQBd] (4.151)

y su estimador

AV(TAdw) =N2dn

n 1

1f

nd [PAdQAd+ PABdPBd

2

PBdQBd2

PABdPBddPAdQAdPBdQBd ] (4.152)

donde d, el coeficiente V de Cramer, se estima de la submuestra sd.

Sabemos que TAdw =NdPAdw y como nos interesa estimar la proporcion obte-nemos que

PAdw = 1

NdTAdw (4.153)si Nd es conocido y

PAdw = 1NdTAdw (4.154)si Nd no es conocido, por lo que estamos ante la presencia de un estimador derazon de totales.


5/12


La varianza de (4.153) sera

AV(PAdw) =V[ 1

NdTAdw] = 1

Nd2

V[TAdw]=

N

Nd

2 V(PAd) +b2V(PBd)2bcov(PAd,PBd)

y su estimador

AV(PAdw) = NNd2 V(PAd) +b2V(PBd)2bcov(PAd,PBd) . (4.155)

Para (4.154), toda vez que es una razon de estimadores, su varianza apro-ximada estara dada por

AV[PAdw] = NNd2 V(PAd) +b2V(PBd)2bcov(PAd,PBd) (4.156)

y su estimador

AV[PAdw] =

NNd2 V(PAd) +b2V(PBd)2bcov(PAd,PBd) . (4.157)

Bajo un diseno M AS(N, n) el estimador de la varianza dado por (4.155)se escribe como

AV[PAdw] = N

Nd2 1f

n

Nd1

N1

nd

nd1 [PAdQAd+ PABdPBd

2

PBdQBd2

PABdPBddPAdQAdPBdQBd ]

AV[PAdw] = NNd 1fn ndnd1PAdQAd+

PABdPBd2PBdQBd

2

PABdPBd

dPAdQAdPBdQBd

(4.158)

y el estimador de la varianza dado por (4.157)

AV[PAdw] =1 fnd nn 1 [PAdQAd+PABdPBd

2PBdQBd (4.159)2

PABdPBddPAdQAdPBdQBd ].


6/12


4.3.2. Estimador sintetico de calibracion

Sabemos ya que un estimador sintetico de dominio se obtiene usando un

estimador directo apropiado para un area grande, bajo el supuesto que lasareas pequenas tienen las mismas caractersticas que el area grande. Entoncesel estimador sintetico sera de la forma

TAdw =TA+ (TBTB)js djqjBj

js

djqjBjAj (4.160)

es decir, tiene la forma de un estimador de diferencia generalizado a partir dela muestra s, con b=

js djqjBjAj/

js djqjBj.

La varianza aproximada del estimador es de la forma

AV(TAdw) =V(TA) +b2V(TB)2bCov(TA,TB) (4.161)y un estimador de su varianza

AV(TAdw) =V(TA) +b2V(TB)2bCov(TA,TB). (4.162)Bajo un diseno de muestreo MAS(N, n), con qj = 1, el estimador de su

varianza sera

AV(

TAdw) =N

21 f

n 1

PA

QA+

PAB

PB2PB

QB

2PABPB

PAQAPBQB (4.163)dondePAB =n1js AjBj yes el coeficiente Vde Cramer en la muestra.Los estimadores de la proporcion de dominio y su varianza pueden obtenersesi sabemos queTAdw =NdPAdw, entonces

PAdw =

1

NdTAdw (4.164)

si se asume Nd conocido.La varianza de (4.164) sera

AV(PAdw) =V[ 1NdTAdw] =

1

Nd

2V[TAdw]

=V(PA) +b2V(PB)2bcov(PA,PB)


7/12


y su estimador

AV(

PAdw) =

V(

PA) +

b2

V(

PB)2

b

cov(

PA,

PB). (4.165)

Bajo un disenoMAS(N, n) yqj = 1, el estimador de la varianza dado por(4.165) se escribe como

AV[PAdw] =1 fn 1PAQA+

PABPB2PBQB

2

PABPBPAQAPBQB

(4.166)

donde

PAB =n

1

js AjBj y es el coeficiente Vde Cramer en la muestra.

Al igual que en los casos anteriores, es posible construir un estimador combi-nado de estos estimadores.

4.3.3. Estimacion calibrada para el caso multivariado

Consideremos ahora un atributo A relacionado con p atributos auxiliaresB1, , Bp, el objetivo es hallar el estimador calibrado del total de dominioTAd en presencia de dichos atributos auxiliares, a partir de los resultados deDeville y Sarndal (1992).

Siguiendo el procedimiento usual de calibracion, debemos incorporar la

informacion auxiliar proporcionada por los patributos auxiliares, considerandonuevos pesoswj , sujetos a las siguientes condiciones

TBid=jUd

Bij =jsd

wjBij i= 1, , p.

Sea T

Bid = (TB1d, , TBpd) el vector de totales de cada uno de los p atri-

butos auxiliares, los cuales se asumen conocidos;TBid = (TB1d, ,TBpd) elvector de estimadores de Horvitz-Thompson de los totales para cada uno delos p atributos auxiliares a nivel de dominio, donde la j-esima observaciontendra asociado el vector B

d = (B1j, , Bpj) y el estimador de de H-T del

total para el i-esimo atributo auxiliar sera

TBid= jsd

djBij i= 1, , p.

El estimador calibrado del total sera de la forma

TAdw = jsd

wjAj. (4.167)


8/12


Minimicemos la distancia chi-cuadrado entre los pesos iniciales y los nuevospesos, bajo las condiciones dadas, usando el metodo de multiplicadores deLagrange para optimizacion restringida y los nuevos pesos seran

wj =dj+ (TBidTBid)

jsd

djBjB

j

1 djBj, (4.168)entonces el estimador calibrado con los nuevos pesos sera

TAdw = jsd

djAj+ (TBidTBid)

jsd

djBjB

j

1 jsd

djBjAj

o de forma equivalente

TAdw =TAd+ (TBidTBid)

b (4.169)dondeb = (jsddjBjBj)1jsddjBjAj, Bj es una matriz de dimensionpnd, Aj es un vector de nd 1, la matriz (

jsd

djBjB

j)1 es de dimension

p p y no singular para que el estimador pueda obtenerse.Una expresion para la varianza del estimador sera

AV(TAdw) =V(TAd) +b2i

V(TBid)2bi

cov(TAd,TBid)+2b

i=k

cov(TBid,TBkd) i= 1, , py i=k, (4.170)donde b= (jUddjBjB

j)1jUddjBjAj.Un estimador de la varianza seraAV(TAdw) =V(TAd) +b2

i

V(TBid)2bi

cov(TAd,TBid)+2b

i=k

cov(TBid,TBkd) i= 1, , p y i=k, . (4.171)El objetivo es estimar la proporcion del atributo A relacionado a los B1, , Bp

atributos auxiliares, entonces

PAdw =

TAdw

Nd=

1

Nd TAd+ (TBid

TBid)

b

PAdw =PAd+ (PBidPBid)b (4.172)si Nd es conocido y

PAdw =TAdwNd = 1Nd

TAd+ (TBidTBid)bPAdw = NdNd

PAd+ (PBidPBid)b (4.173)


9/12


si Nd es desconocido.Las expresiones para las varianzas de (4.172) y (4.173) seran

AV(PAdw) =V(PAd)+b2i V(PBid)2bi cov(PAd,PBid)+2bi=k cov(PBid,PBkd),AV(PAdw) =

NdNd2

[V(PAd) +b2i

V(PBid)2b

i

cov(PAd,PBid) + 2bi=k

cov(PBid,PBkd)],respectivamente, y sus estimadores

AV(

PAdw) =

V(

PAd)+

b2

i V(

PBid)2

b

i cov(

PAd,

PBid)+2

b

i=k cov(

PBid,

PBkd),

(4.174)

AV(PAdw) =

NdNd2

[V(PAd) +b2i

V(PBid)2bi

cov(PAd,PBid)+2b

i=k

cov(PBid,PBkd)].(4.175)4.3.4. Estimacion de proporciones a partir de variables

instrumentales

Consideraremos ahora el enfoque propuesto por Estevao y Sarndal (2000),que consiste en modificar el requerimiento de minimizacion de la medida dedistancia en la estimacion de calibracion y adoptar la forma funcional de lospesos de calibracion

wj =dj(1 +Tzj) (4.176)

para algun vector instrumental zj , donde se determina de la restriccion.La estimacion del total poblacional se hace de forma similar a la utilizada

hasta ahora y se obtiene la expresion

Tw =TA+ (TBTB)bz (4.177)dondebz = (d djzjBTj)1d zjAj.Como antes, si Bd = (B1j , , Bpj)

T el vector de atributos auxiliares para laj-esima unidad. La informacion auxiliar consiste del vector de totales TBd =

jUdBj, compuesto de los p totales conocidos

Ud

Bij para i = 1, , p.Adicionalmente definimos un vector instrumental zj = (z1j, , zpj)

T paratodo j s, tal que


10/12


(a) dim(zj) =p = dim(Bj), y

(b) la matriz

s djzjB

Tj, de dimension p p es no singular.

En el presente trabajo estudiaremos la estimacion del total y proporcionesde areas pequenas usando como variables instrumentales zj = (1, Bj) y zj =(Xj, Bj).

Para la estimacion a nivel de dominio debemos hallar los pesos calibradoswd.j que satisfagan las ecuaciones de calibracion

jsd

wd.jzj =jUd

zj =zUd donde zj = (1, Bj)T

o de forma equivalente

jsd

wd.j =Nd y jsd

wd.jBj = jUd

Bj.

Entonces, el estimador de calibracion para el total a nivel de dominio sera

TAdw =TAd+ (TBdTBd)Tbz (4.178)dondebz = (jsddjzjBTd )1jsddjzjAj.

En este caso la variable instrumental zj = Bj, por lo que el problema sereduce al caso univariado que hemos trabajado en el apartado anterior y losestimadores del total y su varianza, de la proporcion y su varianza a nivelde dominio, estaran dadas por (4.150) y (4.152), (4.153) y (4.155) para Ndconocido y (4.154) y (4.157) para Nd desconocido.

Ahora, asumimos que las ecuaciones de calibracion sonjs

wjzj =jU

zj =zU donde zj = (Xj, Bj)T

que pueden ser expresadas comojs

wj =Nd yjs

wjBj =jU

Bj ,

entonces, el estimador calibrado del total sera

TAw =TA+ (TBTB)Tbz, (4.179)dondebz = (js djzjBTj)1js djzjAj , y entonces, el estimador calibrado(4.179) se reduce al estimador sintetico del total de dominio.

Una expresion para la varianza sera

AV(TAw) =N2[V(PA) +b2zV(PB)2bcov(PA,PB)]


11/12


y su estimador

AV(

TAw) =N

2[

V(

PA) +

b2z

V(

PB)2

b

cov(

PA,

PB)]. (4.180)

El estimador de la proporcion a nivel de dominio seraPAw =PAd+ (PBdPBd)bz (4.181)teniendo en cuenta que Nd puede ser conocido o no, en la estimacion dePAd yPBd.

Siguiendo los traba jos de Estevao y Sarndal (2006), Lehtonen, Sarndal y Vei-janen ( 2008) y Kim y Park (2009), podemos usar la variable instrumentalzj = (1,Aj)T, dondeAj se estima por regresion logstica binaria. El estimadordel total a nivel de dominio sera

TAw =TAd+ (TBdTBd)Tbz, (4.182)donde los pesos calibrados deben satisfacer la ecuacion de calibracion

jsd

wd.jzj =jUd

zj =zUd, con zj = (1,Aj)T

y las restricciones de calibracionjsd

wdj =Nd yjsd

wdjAj = jUd

Aj =TAj .Para este caso bse estima por

bz = (A1, ,And)B1

.

..Bnd

1

(A1, ,And)A1

.

..And

.Para hallarAj, asumimos que Aj = Adj |ud Bin(n, PAj) y denotemos porAj =PAj yAj =PAj(1 PAj ), la media y varianza de Aj dadoj, respecti-vamente. La distribucion condicional de Aj pertenece a la familia exponencialnatural, y entonces

PAj = exp{j}

1 + exp{j}, j =Bj + ud, j = 1, , Nd,

que tendra por estimador

PAj = exp{j}1 + exp{j} , j =Bj, j = 1, , Nd,donde se estima por mnimos cuadrados ponderados o por maxima verosi-militud iterativa con Newton-Raphson de la muestra s.

Ahora,PAj =Aj =Aj es la probabilidad de que el individuo j tome elvalor 0 o 1 y estamos en condiciones, ahora, de estimar el total y la proporciona nivel de dominio usando (4.182).


12/12

Captulo 5

Estudio de simulacion.Aplicacion a datos de dengue

5.1. Descripcion del estudio de simulacion

Descripcion de la poblacion simulada

Con el fin de comprobar el comportamiento real de los estimadores pro-puestos se ha realizado un estudio completo de simulacion. Centramos nuestroestudio en una poblacion simulada que denominamos PopSIM. La poblacionsimulada de tamano N = 30000 esta dividida en 30 dominios (6 de tamano500, 6 de tamano 750, 6 de tamano 1000, 6 de tamano 1250 y 6 de tamano1500) de forma que estos incluyan diversos escenarios en funcion de las propor-ciones poblacionales y el coeficiente V de Cramer entre la variable de interes ylas variables auxiliares. En concreto, las poblaciones correspondientes a cadadominio se generaron de forma que, xi B (N, p), yis B (N, p) son indepen-dientes e yi=xiyis, donde pvara entre

10

41 y 39

41. Ver tabla (5.1).

Descripcion del proceso de simulacion

El procedimiento a seguir para esta poblacion sera realizar 1000 iteracionesdel siguiente proceso:

Seleccionar una muestra aleatoria simple de tamano 900.

Evaluar los estimadores propuestos as como el estimador directo para eldominio de interes considerado y una estimacion de su varianza.

Los resultados de las 1000 iteraciones nos permiten evaluar la eficienciarelativa porcentual (RE) con respecto al estimador directo para el dominio,

167

Documents

Estim Adores Cali Brad Os