Estim Adores Cali Brad Os

Embed Size (px)

Citation preview

  • 7/25/2019 Estim Adores Cali Brad Os

    1/12

    156CAP ITULO 4. APORTACIONES A LA ESTIMACI ON DE PROPORCIONES

    4.3. Estimadores de calibracion propuestos

    Deville y Sarndal (1992), introducen la teora general de estimadores de

    calibracion para totales poblacionales. El objetivo consiste en estimar el to-tal poblacional, extendiendo una idea de calibracion de Lemel (1976), Deville(1988), usada en una poblacion con totales conocidos para modificar los pesosde diseno de muestreo basicos que aparecen en los estimadores de Horvitz-Thompson, por nuevos pesos, tan proximos como sea posible a los pesos dediseno para una metrica dada, que satisfagan una ecuacion de calibracion. Seminimiza la distancia entre los pesos, se hallan los pesos de calibracion y seestima el total usando los pesos calibrados. Theberge (1999), us o la idea decalibracion para estimar varianzas; la formulacion del problema de calibra-cion es mas general que la dada por Deville y Sarndal (1992), ademas de usar

    medidas arbitrarias de distancia en la estimacion. Estevao y Sarndal (2000),probaron que las distintas medidas de distancia propuestas en los estimadoresde calibracion producen resultados aproximadamente identicos, por esa razondesarrollaron una aproximacion alternativa, la forma funcional de los pesoscalibrados. Spiegelman, D. et al.(2000), propusieron un estimador eficiente decalibracion para regresion logstica y otros modelos de regresion lineal generali-zados. Kott (2006) definio los pesos de calibracion para satisfacer las ecuacionesde calibracion y dar un estimador bajo el diseno consistente. Una generaliza-cion del procedimiento clasico de calibracion la encontramos en Guggemos, F.,et al.(2010) y se denomina procedimiento de calibracion penalizada.

    La tecnica de calibracion fue introducida por Deville and Sarndal, (1992)para estimar totales, pero esta aproximacion se puede utilizar para estimarparametros mas complejos como varianzas poblacionales (Singh, 2001; Singhet al. 1999), funciones de distribucion (Harms and Duchesne, 2006, Rueda etal., 2007a, Martnez et al. 2011a) o cuantiles (Rueda et al., 2007b, Martnez etal. 2011b).

    En esta seccion abordaremos la estimacion de calibracion para proporcionesa partir de las ideas iniciales propuestas por Martnez et al. (2010) y usandola forma funcional de los pesos de calibracion.

    4.3.1. Estimacion de una proporcion para el dominio

    Como es usual consideremos asociado con Aj un solo atributo auxiliar Bjde forma tal que para los elementosj s, los vectores (Aj, Bj) son observadosy se cumple que Bj = 1 si la j-esima unidad posee el atributo B y Bj = 0 encaso contrario. Asumimos conocido el total deB o la proporcionPB a nivel dede dominio, es decir, TBj o PBj .

  • 7/25/2019 Estim Adores Cali Brad Os

    2/12

    4.3. ESTIMADORES DE CALIBRACION PROPUESTOS 157

    La proporcion poblacional del atributo Aen el dominio Ud esta dado por

    PAd = 1

    Nd jUd Aj (4.141)y si designamos pordj = 1/j, los pesos obtenidos mediante las probabilidadesde inclusion de primer orden (la d con que designamos este peso, no significadominio), entonces el estimador de Horvitz-Thompson sera

    PAd = 1Ndjsd

    djAj (4.142)

    que es identico al dado por (4.6), en el cual no se incorpora la informacionauxiliar disponible en la fase de estimacion de la proporcion de A, a nivelde dominio. Para estimar esta proporcion por el metodo de calibracion, loharemos a partir de la estimacion del total de dominio, toda vez que (4.142) esno lineal. Una forma de incorporar la informacion auxiliar en la estimacion deTAd, consiste en modificar los pesosdj por pesos nuevoswj, usando las tecnicasde calibracion introducidas por Deville y Sarndal (1992).

    Siguiendo a Deville y Sarndal (1992) obtenemos un estimador de calibracionpara el total del atributo B de la siguiente forma:

    Asumimos que

    TBd =jUd

    Bj,

    se conoce a priori. Dada una muestra s, conocemos Bs y Bsd, los valores delatributo auxiliar para las unidades muestrales y para la submuestra en el do-minio de interes. Deseamos hallar los pesos wj, para j s, tales que

    TBd = jsd

    wjBj =TBd (4.143)

    y los wj s estan proximos a los djs.Como una medida de la distancia entre los wj s y los dj s, usaremos la

    distancia Chi-cuadrado y nuestro objetivo es minimizar

    =jsd

    (wj dj)2

    djqj(4.144)

    sujeto a la condicion

    TBd =jsd

    wjBj

    donde las qj son constantes positivas conocidas no relacionadas a las dj .

  • 7/25/2019 Estim Adores Cali Brad Os

    3/12

    158CAP ITULO 4. APORTACIONES A LA ESTIMACI ON DE PROPORCIONES

    Usando el metodo de multiplicadores de Lagrange para optimizacion res-tringida obtenemos la expresion

    L(wj, dj) = jsd

    (wj dj)2

    djqj2

    jsd

    wjBj . (4.145)

    Derivando (4.145) con respecto a wj e igualando a cero obtenemos

    wj =dj+ djqjBj . (4.146)

    Ahora, si multiplicamos (4.146) por Bj y sumamos sobre la submuestra con-seguimos

    jsd

    wjBj =jsd

    djBj+ jsd

    djqjB2

    j

    TBd =TBd+ jsd

    djqjBj

    dondeB2j =Bj, por definicion de Bj. Entonces resolviendo para se obtiene

    = TBd

    TBdjsd

    djqjBj,

    por lo que

    TAdw = jsd wjAj = jsd dj+ TBd

    TBd

    jsddjqjBj djqjBjAjTAdw =

    jsd

    djAj+jsd

    TBd

    TBdjsd

    djqjBj

    djqjBjAj

    TAdw =TAd+ (TBdTBd)jsd

    djqjBj

    jsd

    djqjBjAj. (4.147)

    El estimador dado por (4.147) tiene la forma de un estimador de diferenciageneralizado, donde

    b= jsddjqjBjAj

    jsddjqjBjpor lo que su varianza aproximada estara dada por

    AV(TAdw) =V(TAd) +b2V(TBd)2bcov(TAd,TBd) (4.148)y su estimador

    AV(TAdw) =V(TAd) +b2V(TBd)2bcov(TAd,TBd) (4.149)

  • 7/25/2019 Estim Adores Cali Brad Os

    4/12

    4.3. ESTIMADORES DE CALIBRACION PROPUESTOS 159

    Asumiendo un diseno MAS(N, n) con qj = 1 j U, el estimador dadopor (4.147) se escribe

    TAdw =TAd+TABdTBd (TBdTBd), (4.150)dondeTABd =jsdAjBj.Su varianza aproximada sera

    AV(TAdw) =N2dV(PAd) +

    PABdPBd

    2

    V(PBd)2

    PABdPBd

    cov(PAd,PBd)

    con P

    ABd= 1

    Nd jUdAjBj. De forma equivalente podemos escribir

    AV(TAdw) =N2d NNd 1fn [PAdQAd+

    PABdPBd

    2

    PBdQBd

    2

    PABdPBd

    d

    PAdQAdPBdQBd] (4.151)

    y su estimador

    AV(TAdw) =N2dn

    n 1

    1f

    nd [PAdQAd+ PABdPBd

    2

    PBdQBd2

    PABdPBddPAdQAdPBdQBd ] (4.152)

    donde d, el coeficiente V de Cramer, se estima de la submuestra sd.

    Sabemos que TAdw =NdPAdw y como nos interesa estimar la proporcion obte-nemos que

    PAdw = 1

    NdTAdw (4.153)si Nd es conocido y

    PAdw = 1NdTAdw (4.154)si Nd no es conocido, por lo que estamos ante la presencia de un estimador derazon de totales.

  • 7/25/2019 Estim Adores Cali Brad Os

    5/12

    160CAP ITULO 4. APORTACIONES A LA ESTIMACI ON DE PROPORCIONES

    La varianza de (4.153) sera

    AV(PAdw) =V[ 1

    NdTAdw] = 1

    Nd2

    V[TAdw]=

    N

    Nd

    2 V(PAd) +b2V(PBd)2bcov(PAd,PBd)

    y su estimador

    AV(PAdw) = NNd2 V(PAd) +b2V(PBd)2bcov(PAd,PBd) . (4.155)

    Para (4.154), toda vez que es una razon de estimadores, su varianza apro-ximada estara dada por

    AV[PAdw] = NNd2 V(PAd) +b2V(PBd)2bcov(PAd,PBd) (4.156)

    y su estimador

    AV[PAdw] =

    NNd2 V(PAd) +b2V(PBd)2bcov(PAd,PBd) . (4.157)

    Bajo un diseno M AS(N, n) el estimador de la varianza dado por (4.155)se escribe como

    AV[PAdw] = N

    Nd2 1f

    n

    Nd1

    N1

    nd

    nd1 [PAdQAd+ PABdPBd

    2

    PBdQBd2

    PABdPBddPAdQAdPBdQBd ]

    AV[PAdw] = NNd 1fn ndnd1PAdQAd+

    PABdPBd2PBdQBd

    2

    PABdPBd

    dPAdQAdPBdQBd

    (4.158)

    y el estimador de la varianza dado por (4.157)

    AV[PAdw] =1 fnd nn 1 [PAdQAd+PABdPBd

    2PBdQBd (4.159)2

    PABdPBddPAdQAdPBdQBd ].

  • 7/25/2019 Estim Adores Cali Brad Os

    6/12

    4.3. ESTIMADORES DE CALIBRACION PROPUESTOS 161

    4.3.2. Estimador sintetico de calibracion

    Sabemos ya que un estimador sintetico de dominio se obtiene usando un

    estimador directo apropiado para un area grande, bajo el supuesto que lasareas pequenas tienen las mismas caractersticas que el area grande. Entoncesel estimador sintetico sera de la forma

    TAdw =TA+ (TBTB)js djqjBj

    js

    djqjBjAj (4.160)

    es decir, tiene la forma de un estimador de diferencia generalizado a partir dela muestra s, con b=

    js djqjBjAj/

    js djqjBj.

    La varianza aproximada del estimador es de la forma

    AV(TAdw) =V(TA) +b2V(TB)2bCov(TA,TB) (4.161)y un estimador de su varianza

    AV(TAdw) =V(TA) +b2V(TB)2bCov(TA,TB). (4.162)Bajo un diseno de muestreo MAS(N, n), con qj = 1, el estimador de su

    varianza sera

    AV(

    TAdw) =N

    21 f

    n 1

    PA

    QA+

    PAB

    PB2PB

    QB

    2PABPB

    PAQAPBQB (4.163)dondePAB =n1js AjBj yes el coeficiente Vde Cramer en la muestra.Los estimadores de la proporcion de dominio y su varianza pueden obtenersesi sabemos queTAdw =NdPAdw, entonces

    PAdw =

    1

    NdTAdw (4.164)

    si se asume Nd conocido.La varianza de (4.164) sera

    AV(PAdw) =V[ 1NdTAdw] =

    1

    Nd

    2V[TAdw]

    =V(PA) +b2V(PB)2bcov(PA,PB)

  • 7/25/2019 Estim Adores Cali Brad Os

    7/12

    162CAP ITULO 4. APORTACIONES A LA ESTIMACI ON DE PROPORCIONES

    y su estimador

    AV(

    PAdw) =

    V(

    PA) +

    b2

    V(

    PB)2

    b

    cov(

    PA,

    PB). (4.165)

    Bajo un disenoMAS(N, n) yqj = 1, el estimador de la varianza dado por(4.165) se escribe como

    AV[PAdw] =1 fn 1PAQA+

    PABPB2PBQB

    2

    PABPBPAQAPBQB

    (4.166)

    donde

    PAB =n

    1

    js AjBj y es el coeficiente Vde Cramer en la muestra.

    Al igual que en los casos anteriores, es posible construir un estimador combi-nado de estos estimadores.

    4.3.3. Estimacion calibrada para el caso multivariado

    Consideremos ahora un atributo A relacionado con p atributos auxiliaresB1, , Bp, el objetivo es hallar el estimador calibrado del total de dominioTAd en presencia de dichos atributos auxiliares, a partir de los resultados deDeville y Sarndal (1992).

    Siguiendo el procedimiento usual de calibracion, debemos incorporar la

    informacion auxiliar proporcionada por los patributos auxiliares, considerandonuevos pesoswj , sujetos a las siguientes condiciones

    TBid=jUd

    Bij =jsd

    wjBij i= 1, , p.

    Sea T

    Bid = (TB1d, , TBpd) el vector de totales de cada uno de los p atri-

    butos auxiliares, los cuales se asumen conocidos;TBid = (TB1d, ,TBpd) elvector de estimadores de Horvitz-Thompson de los totales para cada uno delos p atributos auxiliares a nivel de dominio, donde la j-esima observaciontendra asociado el vector B

    d = (B1j, , Bpj) y el estimador de de H-T del

    total para el i-esimo atributo auxiliar sera

    TBid= jsd

    djBij i= 1, , p.

    El estimador calibrado del total sera de la forma

    TAdw = jsd

    wjAj. (4.167)

  • 7/25/2019 Estim Adores Cali Brad Os

    8/12

    4.3. ESTIMADORES DE CALIBRACION PROPUESTOS 163

    Minimicemos la distancia chi-cuadrado entre los pesos iniciales y los nuevospesos, bajo las condiciones dadas, usando el metodo de multiplicadores deLagrange para optimizacion restringida y los nuevos pesos seran

    wj =dj+ (TBidTBid)

    jsd

    djBjB

    j

    1 djBj, (4.168)entonces el estimador calibrado con los nuevos pesos sera

    TAdw = jsd

    djAj+ (TBidTBid)

    jsd

    djBjB

    j

    1 jsd

    djBjAj

    o de forma equivalente

    TAdw =TAd+ (TBidTBid)

    b (4.169)dondeb = (jsddjBjBj)1jsddjBjAj, Bj es una matriz de dimensionpnd, Aj es un vector de nd 1, la matriz (

    jsd

    djBjB

    j)1 es de dimension

    p p y no singular para que el estimador pueda obtenerse.Una expresion para la varianza del estimador sera

    AV(TAdw) =V(TAd) +b2i

    V(TBid)2bi

    cov(TAd,TBid)+2b

    i=k

    cov(TBid,TBkd) i= 1, , py i=k, (4.170)donde b= (jUddjBjB

    j)1jUddjBjAj.Un estimador de la varianza seraAV(TAdw) =V(TAd) +b2

    i

    V(TBid)2bi

    cov(TAd,TBid)+2b

    i=k

    cov(TBid,TBkd) i= 1, , p y i=k, . (4.171)El objetivo es estimar la proporcion del atributo A relacionado a los B1, , Bp

    atributos auxiliares, entonces

    PAdw =

    TAdw

    Nd=

    1

    Nd TAd+ (TBid

    TBid)

    b

    PAdw =PAd+ (PBidPBid)b (4.172)si Nd es conocido y

    PAdw =TAdwNd = 1Nd

    TAd+ (TBidTBid)bPAdw = NdNd

    PAd+ (PBidPBid)b (4.173)

  • 7/25/2019 Estim Adores Cali Brad Os

    9/12

    164CAP ITULO 4. APORTACIONES A LA ESTIMACI ON DE PROPORCIONES

    si Nd es desconocido.Las expresiones para las varianzas de (4.172) y (4.173) seran

    AV(PAdw) =V(PAd)+b2i V(PBid)2bi cov(PAd,PBid)+2bi=k cov(PBid,PBkd),AV(PAdw) =

    NdNd2

    [V(PAd) +b2i

    V(PBid)2b

    i

    cov(PAd,PBid) + 2bi=k

    cov(PBid,PBkd)],respectivamente, y sus estimadores

    AV(

    PAdw) =

    V(

    PAd)+

    b2

    i V(

    PBid)2

    b

    i cov(

    PAd,

    PBid)+2

    b

    i=k cov(

    PBid,

    PBkd),

    (4.174)

    AV(PAdw) =

    NdNd2

    [V(PAd) +b2i

    V(PBid)2bi

    cov(PAd,PBid)+2b

    i=k

    cov(PBid,PBkd)].(4.175)4.3.4. Estimacion de proporciones a partir de variables

    instrumentales

    Consideraremos ahora el enfoque propuesto por Estevao y Sarndal (2000),que consiste en modificar el requerimiento de minimizacion de la medida dedistancia en la estimacion de calibracion y adoptar la forma funcional de lospesos de calibracion

    wj =dj(1 +Tzj) (4.176)

    para algun vector instrumental zj , donde se determina de la restriccion.La estimacion del total poblacional se hace de forma similar a la utilizada

    hasta ahora y se obtiene la expresion

    Tw =TA+ (TBTB)bz (4.177)dondebz = (d djzjBTj)1d zjAj.Como antes, si Bd = (B1j , , Bpj)

    T el vector de atributos auxiliares para laj-esima unidad. La informacion auxiliar consiste del vector de totales TBd =

    jUdBj, compuesto de los p totales conocidos

    Ud

    Bij para i = 1, , p.Adicionalmente definimos un vector instrumental zj = (z1j, , zpj)

    T paratodo j s, tal que

  • 7/25/2019 Estim Adores Cali Brad Os

    10/12

    4.3. ESTIMADORES DE CALIBRACION PROPUESTOS 165

    (a) dim(zj) =p = dim(Bj), y

    (b) la matriz

    s djzjB

    Tj, de dimension p p es no singular.

    En el presente trabajo estudiaremos la estimacion del total y proporcionesde areas pequenas usando como variables instrumentales zj = (1, Bj) y zj =(Xj, Bj).

    Para la estimacion a nivel de dominio debemos hallar los pesos calibradoswd.j que satisfagan las ecuaciones de calibracion

    jsd

    wd.jzj =jUd

    zj =zUd donde zj = (1, Bj)T

    o de forma equivalente

    jsd

    wd.j =Nd y jsd

    wd.jBj = jUd

    Bj.

    Entonces, el estimador de calibracion para el total a nivel de dominio sera

    TAdw =TAd+ (TBdTBd)Tbz (4.178)dondebz = (jsddjzjBTd )1jsddjzjAj.

    En este caso la variable instrumental zj = Bj, por lo que el problema sereduce al caso univariado que hemos trabajado en el apartado anterior y losestimadores del total y su varianza, de la proporcion y su varianza a nivelde dominio, estaran dadas por (4.150) y (4.152), (4.153) y (4.155) para Ndconocido y (4.154) y (4.157) para Nd desconocido.

    Ahora, asumimos que las ecuaciones de calibracion sonjs

    wjzj =jU

    zj =zU donde zj = (Xj, Bj)T

    que pueden ser expresadas comojs

    wj =Nd yjs

    wjBj =jU

    Bj ,

    entonces, el estimador calibrado del total sera

    TAw =TA+ (TBTB)Tbz, (4.179)dondebz = (js djzjBTj)1js djzjAj , y entonces, el estimador calibrado(4.179) se reduce al estimador sintetico del total de dominio.

    Una expresion para la varianza sera

    AV(TAw) =N2[V(PA) +b2zV(PB)2bcov(PA,PB)]

  • 7/25/2019 Estim Adores Cali Brad Os

    11/12

    166CAP ITULO 4. APORTACIONES A LA ESTIMACI ON DE PROPORCIONES

    y su estimador

    AV(

    TAw) =N

    2[

    V(

    PA) +

    b2z

    V(

    PB)2

    b

    cov(

    PA,

    PB)]. (4.180)

    El estimador de la proporcion a nivel de dominio seraPAw =PAd+ (PBdPBd)bz (4.181)teniendo en cuenta que Nd puede ser conocido o no, en la estimacion dePAd yPBd.

    Siguiendo los traba jos de Estevao y Sarndal (2006), Lehtonen, Sarndal y Vei-janen ( 2008) y Kim y Park (2009), podemos usar la variable instrumentalzj = (1,Aj)T, dondeAj se estima por regresion logstica binaria. El estimadordel total a nivel de dominio sera

    TAw =TAd+ (TBdTBd)Tbz, (4.182)donde los pesos calibrados deben satisfacer la ecuacion de calibracion

    jsd

    wd.jzj =jUd

    zj =zUd, con zj = (1,Aj)T

    y las restricciones de calibracionjsd

    wdj =Nd yjsd

    wdjAj = jUd

    Aj =TAj .Para este caso bse estima por

    bz = (A1, ,And)B1

    .

    ..Bnd

    1

    (A1, ,And)A1

    .

    ..And

    .Para hallarAj, asumimos que Aj = Adj |ud Bin(n, PAj) y denotemos porAj =PAj yAj =PAj(1 PAj ), la media y varianza de Aj dadoj, respecti-vamente. La distribucion condicional de Aj pertenece a la familia exponencialnatural, y entonces

    PAj = exp{j}

    1 + exp{j}, j =Bj + ud, j = 1, , Nd,

    que tendra por estimador

    PAj = exp{j}1 + exp{j} , j =Bj, j = 1, , Nd,donde se estima por mnimos cuadrados ponderados o por maxima verosi-militud iterativa con Newton-Raphson de la muestra s.

    Ahora,PAj =Aj =Aj es la probabilidad de que el individuo j tome elvalor 0 o 1 y estamos en condiciones, ahora, de estimar el total y la proporciona nivel de dominio usando (4.182).

  • 7/25/2019 Estim Adores Cali Brad Os

    12/12

    Captulo 5

    Estudio de simulacion.Aplicacion a datos de dengue

    5.1. Descripcion del estudio de simulacion

    Descripcion de la poblacion simulada

    Con el fin de comprobar el comportamiento real de los estimadores pro-puestos se ha realizado un estudio completo de simulacion. Centramos nuestroestudio en una poblacion simulada que denominamos PopSIM. La poblacionsimulada de tamano N = 30000 esta dividida en 30 dominios (6 de tamano500, 6 de tamano 750, 6 de tamano 1000, 6 de tamano 1250 y 6 de tamano1500) de forma que estos incluyan diversos escenarios en funcion de las propor-ciones poblacionales y el coeficiente V de Cramer entre la variable de interes ylas variables auxiliares. En concreto, las poblaciones correspondientes a cadadominio se generaron de forma que, xi B (N, p), yis B (N, p) son indepen-dientes e yi=xiyis, donde pvara entre

    10

    41 y 39

    41. Ver tabla (5.1).

    Descripcion del proceso de simulacion

    El procedimiento a seguir para esta poblacion sera realizar 1000 iteracionesdel siguiente proceso:

    Seleccionar una muestra aleatoria simple de tamano 900.

    Evaluar los estimadores propuestos as como el estimador directo para eldominio de interes considerado y una estimacion de su varianza.

    Los resultados de las 1000 iteraciones nos permiten evaluar la eficienciarelativa porcentual (RE) con respecto al estimador directo para el dominio,

    167