Ponderation Et Redressement

Embed Size (px)

Citation preview

  • 8/18/2019 Ponderation Et Redressement

    1/41

    Chapitre 8PONDERATION ET REDRESSEMENT

    PLAN DU CHAPITRE 8

    8.1 INTRODUCTION

    8.2 POIDS DE SONDAGE

    8.3 CALAGE AUX MARGES

    8.3.1 Introduction

    8.3.2 Buts du calage

    8.3.3 Méthodes de calage

    8.4 REDRESSEMENT SUR VARIABLES QUANTITATIVES

    8.4.1 Introduction8.4.2 Un exemple

    8.4.3 Estimation par le quotient (ratio)

    8.4.4 Estimation par la régression

    8.5 REDRESSEMENT SUR VARIABLES QUALITATIVES(post-stratification)

    8.5.1 Introduction

    8.5.2 Notations

    1

  • 8/18/2019 Ponderation Et Redressement

    2/41

    8.5.3 Estimateurs post-stratifiés

    8.5.4 Comparaisons

    8.5.5 Conclusion

    2

  • 8/18/2019 Ponderation Et Redressement

    3/41

    8.1 INTRODUCTION

    • Il est rare que l’on ne dispose pas d’une variable quan-titative ou qualitative  X   dont la valeur/modalité est

    connue pour chacun des individus de la population (va-riable auxiliaire ).

    Ex. :

    - Si on sonde des logements recensés, on connâıt leurnombre de pièces au moment du recensement (sauf exception).

    - Si on sonde des individus à partir d’un fichier électoral,on connâıt leur âge.

    - Si on sonde des entreprises, on connâıt bien souventleur activité principale.

    • Principe fondamental Lorsqu’on dispose d’une information auxiliaire, il faut chercher à l’utiliser   dans le but d’obtenir des estima-teurs plus précis que les estimateurs simples de la moyenneou du total qui apparaissent dans le cadre du sondagePESR ou PISR.

    3

  • 8/18/2019 Ponderation Et Redressement

    4/41

    • L’information auxiliaire peut être utilisée au niveau dela construction de l’échantillon (stratification, tirageproportionnel à un critère de taille, . . . ) ou au niveaude l’expression de l’estimateur (techniques de redresse-ment/calage ).

    Si plusieurs variables auxiliaires sont utilisées, on peutrecourir à une technique mixte dans laquelle certainesvariables servent à améliorer le tirage de l’échantillon,et les autres à améliorer l’estimateur.

    4

  • 8/18/2019 Ponderation Et Redressement

    5/41

    8.2 POIDS DE SONDAGE

    •  L’échantillon sélectionné sert normalement à effectuerune inférence sur la population.

    • Pour ”passer” de l’échantillon à la population, on utiliseun poids attaché à chaque unité de l’échantillon : à chaqueunité i de l’échantillon, on associe un poids  wi.

    •  Le poids le plus simple permettant d’effectuer une esti-

    mation sans biais est le  poids de sondage  correspondant,dans le cas de l’estimation d’un total, à l’inverse de la pro-babilité d’inclusion  pi  de l’unité  i  (estimateur de Horvitz-Thompson) : pour tout  i ∈  U ,

    wi =  1

     pi

    Ces probabilités d’inclusion dépendant du plan de sondageutilisé, les poids de sondage dépendent eux aussi du plande sondage mis en oeuvre.

    5

  • 8/18/2019 Ponderation Et Redressement

    6/41

    8.3 CALAGE AUX MARGES

    8.3.1 Introduction

    • Forme de redressement des estimations

    • Ajuste les poids de sondage de sorte que les estima-tions soient ”caĺees” sur des totaux (ou moyennes)connu(e)s : quel que soit l’échantillon sélectionné, onestime parfaitement ces totaux (moyennes) connu(e)s ;on supprime l’erreur d’échantillonnage dans l’estima-tion des totaux (moyennes) connu(e)s.

    Exemple 

    Population : individus d’une certaine classe d’âges

    Variable d’intérêt : Y 

    Variable auxiliaire :  X ≡  ”sexe” (xi   = 1  si l’individu

    i est un homme,  xi = 0 si l’individu  i est une femme)- Le Recensement Général de la Population fournit laproportion réelle d’hommes et de femmes dans la classed’âges considérée : 48% d’hommes (µX ) et 52% defemmes.

    6

  • 8/18/2019 Ponderation Et Redressement

    7/41

    On tire, par sondage PESR, un échantillon de n = 1000individus afin d’estimer µY . Les poids de sondage sontwi =

      1 pi

    =   1f   =  N 

    n   :

     τ̂ Y    = i∈S  wiyi =   N n i∈S  yi = Nyµ̂Y   =   y

    Cet échantillon permet aussi d’estimer la proportiond’hommes dans la classe d’âges considérée. Supposonsque l’échantillon compte 500 hommes et 500 femmes :

    µ̂X   = x = 1ni∈S 

    xi = 50%   = 48% = µX .

    Le redressement revient à modifier (redresser ) les poidsde sondage (wi → wi;red) de telle sorte que

    µ̂X ;red   =  1

    N i∈S  wi;redxi = 48% = µX (calage sur la moyenne connue  de X )

    τ̂ Y ;red   =i∈S 

    wi;redyi

    µ̂Y ;red   =  τ̂ Y ;red

      =  1

    N i∈S  wi;redyi

    7

  • 8/18/2019 Ponderation Et Redressement

    8/41

    • Idée (”pari”) sous-jacent 

    Si l’estimateur (avec les poids de sondage redressés)fournit la valeur exacte pour un paramètre relatif à une

    variable  X   que l’on sait  bien corrélée  avec la variabled’intérêt  Y , alors il doit logiquement fournir une trèsbonne estimation pour le paramètre d’intérêt inconnurelatif à Y .

    ⇒   Les redressements nécessitent un choix judicieuxde l’information auxiliaire sur laquelle on effectue le

    calage.

    8.3.2 Buts du calage

    – Réduire les différences entre diverses sources d’estima-tions

    – Corriger le sous-dénombrement (ou le sur-dénombrement)

    – Jusqu’à un certain point, corriger la non-réponse totale

    8.3.3 Méthodes de calage

    Le calage aux marges englobe :

    – estimation par quotient

    – estimation par régression– estimation par régression multiple– post-stratification– estimation par ratissage croisé (raking ratio )

    8

  • 8/18/2019 Ponderation Et Redressement

    9/41

    8.4 REDRESSEMENT SUR VARIABLES QUANTITATIVES

    8.4.1 Introduction

    • Considérons le problème de l’estimation de  τ Y , µY , . . . àpartir d’un échantillon aléatoire  S   à partir duquel on cal-cule  τ̂ Y , µ̂Y , . . .

    •   Si on dispose d’une   variable auxiliaire quantitative   X connue, comment l’utiliser avec profit pour estimer τ Y , µY , . . . ?

    Idée : Supposons que l’on connaisse le total de  X   sur lapopulation :

    τ X   =i∈U 

    xi

    (si   N   est connu, il est équivalent de disposer de   µX   =

    τ X /N ).L’échantillon S   à partir duquel on calcule  τ̂ Y , µ̂Y , . . . per-met aussi d’obtenir une estimation  τ̂ X   de τ X ,  µ̂X   de µX .

    L’idée du redressement est de rendre l’estimation de   τ Y ou  µY  plus pŕecise en corrigeant les poids de sondage detelle sorte à assurer la cohérence des données par rapport

    à X , c’est-à-dire en prenant en compte la différence entrela valeur réelle connue de  τ X   et la valeur de l’estimationτ̂ X   obtenue.

    9

  • 8/18/2019 Ponderation Et Redressement

    10/41

    N.B.) L’information sur  X   est utilisée au stade de l’esti-mation (pas au stade de l’échantillonnage).

    •   Plusieurs méthodes peuvent être envisagées ; elles re-posent sur les relations approximatives possibles entre  Y et X   (utilisation de modèles linéaires).

    8.4.2 Un exemple (Tryfos (1996), p.157)

    Supposons qu’une compagnie de marketing cherche à estimer le mon-

    tant total des achats effectués par les hôpitaux d’une région donnée

    pour environ 3 200 produits pharmaceutiques. Il y a 1 158 hôpitaux

    dans la région ; une liste de ces hôpitaux est disponible.

    Concentrons-nous sur un seul produit pharmaceutique (le produit  Y )

    et sur le probl̀eme de l’estimation du montant total (et du montant

    moyen par hôpital) des achats de ce produit sur une période de temps

    donnée (un mois, par exemple).

    La table ci-dessous indique ce qui est connu et ce qui ne l’est pas surla population. On connâıt notamment le nombre de lits dans chaque

    hôpital et donc aussi, par conséquent, le nombre total de lits dans

    l’ensemble des hôpitaux (186 030).

    10

  • 8/18/2019 Ponderation Et Redressement

    11/41

    Population des hôpitaux

    Hôpital No. Nombre de lits Achats du produit  Y 

    i xi   yi  ($000)

    1 675 ?

    2 450 ?...   ...   ...

    N  = 1 158   1 500 ?

    Total   τ X  = 186 030   τ Y  =?

    µX   = 186 030

    1 158   = 160.65   µY  =?

    Il est raisonnable de supposer qu’il existe une relation entre le montant

    Y   des achats du produit   Y   effectués par un hôpital au cours d’unmois et le nombre X  de lits dans cet hôpital : plus grand est l’hôpital(plus il compte de lits), plus il aura tendance à utiliser une grande

    quantité du produit. On suppose donc que  Y   est   approximativement proportionnelle à X   :

    Y  ∼= β X ,

    où β  est une certaine constante inconnue.

    La relation Y  ∼= β X  signifie que, pour tout  i ∈  U ,

    yi ∼= βxi,

    ce qui implique que  τ Y    ∼=   βτ X ,

    µY    ∼=   βµX .

    Puisque τ Y  ∼=  βτ X  et que le total  τ X  de la variable auxiliaire  X   dans

    la population est connu, il suffit, pour estimer   τ Y , de trouver uneestimation  β̂  de β  : on prendra alors

    τ̂ Y  =  β̂τ X    et   µ̂Y  = τ̂ Y N 

      =  β̂ τ X N 

      =  β̂µX 

    11

  • 8/18/2019 Ponderation Et Redressement

    12/41

    Supposons qu’un échantillon aléatoire simple de 3 hôpitaux soit sélectionné

    par tirage PESR, et que cet échantillon consiste en les hôpitaux 1, 2

    et 1 158. Le tableau ci-dessous présente les données relatives à cet

    échantillon :

    Hôpital sélectionné Nombre de lits Achats du produit  Y i xi   yi($000)

    1 675 500

    2 450 350

    1 158 1 500 1 100

    2 625 1 950

    τ Y    ∼=   βτ X    et   µY  ∼= βµX 

    ⇒ β   ∼=  τ Y 

    τ X =

     µY µX 

    On peut dès lors estimer β  par

    β̂ quot = τ̂ Y τ̂ X 

    = µ̂Y µ̂X 

    = y

    x

    où   τ̂ Y ,   τ̂ X ,   µ̂Y ,   µ̂X    sont les estimateurs classiques des totaux etmoyennes-population de Y  et de  X  dans le cas du tirage PESR.

    On a alors

    τ̂ Y ;quot =  β̂ quotτ X    et   µ̂Y ;quot =  β̂ quotµX .

    Dans notre exemple :

    ˆβ quot =

      y

    x  =

     1 950/3

    2 625/3  =

      650

    875  = 0.7428⇒   τ̂ Y ;quot = (0.7428)(186 030) = 138 183 ($000)

    µ̂Y ;quot = 138 183

    1 158   = 119.329 ($000)

    12

  • 8/18/2019 Ponderation Et Redressement

    13/41

    Cette méthode d’estimation de  τ Y   et µY  porte le nom deméthode d’estimation par le quotient (ratio).

    8.4.3 Estimation par le quotient (ratio)

    Supposons que τ X  soit connu et donc, si N  est connu, queµX  soit connu.Plaçons-nous dans le cadre général du tirage PISR.

    (i) Tirage PISR

    a) Hypothèse de base 

    Y  ∼= β X (Y  est approximativement proportionnelle à X )

    τ Y  ∼= βτ X µY  ∼= βµX 

    et donc   β  ∼=  τ Y τ X 

    =  µY µX 

    Puisque  τ X   et  µX   sont connus, il suffit, pour estimer  τ Y et µY , d’estimer β . On prendra alors

    τ̂ Y ;quot =  β̂τ X    et   µ̂Y ;quot =  β̂µX .

    b) Estimation

    • Estimer β  par

    β̂ quot = τ̂ Y τ̂ X 

    13

  • 8/18/2019 Ponderation Et Redressement

    14/41

    où τ̂ Y  et τ̂ X  sont les estimateurs de Horwitz-Thompsonde τ Y   et τ X   :

    τ̂ Y  = i∈S yi

     pi

    et   τ̂ X   = i∈S xi

     pi

    .

    • Cela donne alors

    τ̂ Y ;quot   =  β̂ quot τ X   = τ̂ Y τ̂ X 

    τ X   = τ̂ Y τ X τ̂ X 

    µ̂Y ;quot   =  β̂ quot µX   = τ̂ Y τ̂ X 

    µX   = µ̂Y µX µ̂X 

    (µ̂Y  =  τ̂ Y 

    N   et  µ̂X   =  τ̂ X 

    N  ).

    • Remarques

    - On note que

    τ̂ X ;quot = τ̂ X τ X 

    τ̂ X = τ X 

    (calage  sur le total connu  τ X ) et

    µ̂X ;quot = µ̂X µX µ̂X 

    = µX 

    (calage  sur la moyenne connue µX ).

    - Poids de sondage initiaux : wi =   1 piPoids de sondage après calage/redressement : wi

    τ X τ̂ X 

    14

  • 8/18/2019 Ponderation Et Redressement

    15/41

    On trouve dans la littérature statistique une étude appro-fondie du biais  et de l’écart quadratique moyen  de  τ̂ Y ;quot.

    On y retrouve aussi une étude de la situation dans laquelle

    l’estimateur par le quotient  τ̂ Y ;quot est plus précis que l’es-timateur  τ̂ Y   dans le cadre d’une sélection de l’échantillonpar tirage PESR.

    On montre par exemple que, dans le cas du tirage PESR :

    • B(τ̂ Y ;quot) ∼= τ Y σ2X ;corr

    µ2X 

    −  σX Y ;corr

    µX 

    µY  1−f n

    • B(τ̂ Y ;quot) = 0 si, dans la population, les  xi  et yi(i ∈  U ) sont liés par le modèle

    yi = βxi + ui

    où les  ui   (i  ∈  U ) sont de petites perturbations sans

    rapport avec les xi et de moyenne nulle ( 1N i∈U  ui =0), de telle sorte que  β   =   τ Y /τ X   =   µY /µX   (càd ladroite de régression des moindres carrés de  Y   en  X ,dans la population, passe par l’origine et a une penteégale à β  = τ Y /τ X   = µY /µX ).

    15

  • 8/18/2019 Ponderation Et Redressement

    16/41

    • D’autre part, la droite de régression des moindres carrésde Y   en X , dans la population, a pour équationy = α̃ +  β̃x avec

    β̃  = σX Y 

    σ2X  et   α̃ = µY  −  β̃µX 

    (minimisation du critère des moindres carrés dans lapopulation U ).On montre que

    EQM(τ̂ Y ;quot)  1

    2 ·

     τ Y τ X 

    = 1

    2 ·

     µY µX 

    ,

    ce qui revient encore à la condition

    α̃ <

     µY 

    2(pente suffisamment forte et ordonnée à l’origine suf-fisamment petite).

    N.B.) En pratique, pour vérifier si ces conditions sontsatisfaites, on utilise la droite de régression définie à

    partir de l’échantillon  S .

    16

  • 8/18/2019 Ponderation Et Redressement

    17/41

    Remarque 1

    • Lorsqu’ils disposent de la taille totale  N  de la popula-tion mais pas nécessairement de variable auxiliaire  X ,

    les praticiens utilisent aussi assez souvent l’estimateurpar le ratio   τ Y ;quot = τ̂ Y  N  N où

    τ̂ Y  = i∈S yi

     pi

    et N  = i∈S 1

     pi

    .

    • Cet estimateur permet un calage sur la taille  N   de lapopulation.En effet, si  Y  est la variable indiquant l’appartenanceà la population U   :

    yi = 1   si i ∈ U 0   sinon   ,on a

    τ Y  =i∈U 

    1 = N    et  τ Y ;quot = N   N  

    N = N.

    17

  • 8/18/2019 Ponderation Et Redressement

    18/41

    • Si l’échantillonnage est à probabilités égales  et de taille fixe  (même selon un plan complexe),

    i∈U  pi = n ⇔ Np = n ⇔ p =

      nN   = f 

    ⇒ N  = i∈S  N n   = n ·   N n   = N ⇒ τ Y  =  τ Y ;quot  càd que l’estimateur de Horwitz-Thompsonde τ Y   est déjà calé sur la taille de la population

    • L’intérêt de l’estimateur par le ratio assurant le calagesur N  est qu’il permet d’estimer des structures de po-

    pulation selon les modalités d’une variable qualitative(proportions) de façon à ce que la somme des propor-tions estimées fasse 1.

    Supposons que U   soit partitionnée en  H  classesU 1, U 2, . . . , U  H  selon les modalités d’une variable qua-litative (sexe, profession, tranche d’âges, . . . ).

    Les tailles  N 1, N 2, . . . , N  H  de ces classes sont incon-nues.

    On désire estimer, pour tout  h ∈ {1, . . . , H  }, la pro-portion  πh   =   N h/N   d’individus de la population quiappartiennent à la classe  U h. Observons que

    H h=1

    N h = N    etH 

    h=1

    πh = 1.

    18

  • 8/18/2019 Ponderation Et Redressement

    19/41

    En utilisant une variable indicatrice de l’appartenanceà  U h, l’approche de Horwitz-Thompson fournit l’esti-mateur non biaisé suivant :

     N h = i∈S 

    I [i ∈ U h

    ]

     pi = i∈S ∩U h

    1

     pi

    ⇒   π̂h = N h

    On aH 

    h=1

     N h = H h=1

    i∈S ∩U h

    1 pi

    = i∈S 

    1 pi

    = N ⇒

    H h=1

    π̂h = N 

    N   = 1 .

    Une solution à ce problème consiste à prendre  N h;quot = N h N  N et donc

      πh;quot =

      N h;quot

    N   =

     N h

     N .

    Dans ce cas, on a bienH 

    h=1

      N h;quot =  N  N H 

    h=1

     N h =  N  N  N  = N 19

  • 8/18/2019 Ponderation Et Redressement

    20/41

    etH 

    h=1

      πh;quot =

      1

     N 

    H h=1

     N h =

     N  

    N = 1 .

    20

  • 8/18/2019 Ponderation Et Redressement

    21/41

    Remarque 2 : Estimation par le produit 

    Un estimateur alternatif à  τ̂ Y ;quot a été proposé lorsque τ X est connu :

    τ̂ Y ;prod = τ̂ Y τ̂ X τ X 

    De même, si on connâıt  µX   :

    µ̂Y ;prod = µ̂Y µ̂X µX 

    On montre que, dans le cas du tirage PESR,

    • B(µ̂Y ;prod) =  σX Y ;corr

    µX 

    1−f n

    • EQM(µ̂Y ;prod) 

  • 8/18/2019 Ponderation Et Redressement

    22/41

    (ii) Tirage stratifié

    a)  Introduction

    • H   strates relativement homogènes

    1   . . . h . . . H  N 1   . . . N  h   . . . N  H    →   N 

    µY ;1   . . . µY ;h   . . . µY ;H   →   µY 

    µX ;1   . . . µX ;h   . . . µX ;H   →   µX PESR   ↓ ↓ ↓

    n1   . . . nh   . . . nH    →   n

    f 1   . . . f  h   . . . f  H 

    µ̂Y ;1   . . .   µ̂Y ;h   . . .   µ̂Y ;H 

    µ̂X ;1   . . .   µ̂X ;h   . . .   µ̂X ;H 

    • Deux situations possibles :1) Situation 1 : µX  est connu pour U 

    2) Situation 2 : µX ;h  est connu, pour tout  h = 1, . . . , H  

    22

  • 8/18/2019 Ponderation Et Redressement

    23/41

    b) Dans la situation 1

    Hypothèse de base :

    Y  ∼= β X 

    (Y  est approximativement proportionnelle à X  et la constantede proportionnalité est la même dans toutes les strates)

    Etape 1 : estimation de  β  par  β̂ quot =  µ̂Y µ̂X 

    où

    µ̂Y  =

    H h=1

    N hN 

      µ̂Y ;h =

    H h=1

    N hN 

      yh

    µ̂X   =H 

    h=1

    N hN 

      µ̂X ;h =H 

    h=1

    N hN 

      xh

    Etape 2 : estimation (redressée) de µY  par

    µ̂(1)Y ;quot =

     β̂ quot µX   = µ̂Y µX µ̂X 

    Remarques :

    •  µ̂(1)X ;quot = µX  (calage sur la moyenne connue µX )

    • B(µ̂(1)Y ;quot) = 0 si les droites de régression des moindres

    carŕes de   Y   en   X   ont, dans chaque srate, la mêmepente β  = µY /µX  et passent par l’origine.

    23

  • 8/18/2019 Ponderation Et Redressement

    24/41

    c) Dans la situation 2 

    Hypothèse de base : Dans chaque strate U h (h ∈ {1, . . . , H  }),

    Y  ∼= β hX 

    (Y   est approximativement proportionnelle à   X , mais laconstante de proportionnalité varie d’une strate à l’autre)

    Etape 1 : Pour tout  h  = 1, . . . , H  , estimation de  β h  par

    β̂ h;quot =  µ̂Y ;hµ̂X ;h

    où

    µ̂Y ;h = yh   et   µ̂X ;h = xh

    Etape 2 : Pour tout  h = 1, . . . , H  , estimation (redressée)de µY ;h  par

    µ̂Y ;h;quot =  β̂ h;quot µX ;h = µ̂Y ;hµX ;h

    µ̂X ;hEtape 3 : estimation de  µY  par

    µ̂(2)Y ;quot =

    H h=1

    N hN 

      µ̂Y ;h;quot

    Remarques :• Pour tout h  = 1, . . . , H   :  µ̂X ;h;quot = µX ;h (calage sur

    la moyenne connue µX ;h)

    24

  • 8/18/2019 Ponderation Et Redressement

    25/41

    µ̂(2)X ;quot   =

    h=1N hN 

      µ̂X ;h;quot

    =H 

    h=1

    N hN 

      µX ;h = µX 

    (calage sur la moyenne connue  µX )

    • B(µ̂(2)Y ;quot) = 0   si   B(µ̂Y ;h;quot) = 0   pour tout   h   =

    1, . . . , H  , c’est-à-dire si les droites de régression desmoindres carrés de Y  en X  dans chaque strate passentpar l’origine (et sont dès lors de pente β h = µY ;h/µX ;h).

    25

  • 8/18/2019 Ponderation Et Redressement

    26/41

    d) Comparaison des situations 1 et 2 

    • Dans la situation 1, on peut se contenter de connâıtrela moyenne globale µX .

    Par contre, dans la situation 2, il faut connâıtre  µX ;hpour tout h = 1, . . . , H  .

    • Les deux estimateurs  µ̂(1)Y ;quot   et  µ̂

    (2)Y ;quot   sont concur-

    rents. On peut montrer que

    - si l’échantillon est de petite taille   n, le biais est

    souvent plus faible avec  µ̂(1)Y ;quot ;

    - quelle que soit la taille   n   de l’échantillon, l’EQM

    de  µ̂(2)Y ;quot  est généralement plus faible que celle de

    µ̂(1)Y ;quot.

    26

  • 8/18/2019 Ponderation Et Redressement

    27/41

    8.4.4 Estimation par la régression

    Il existe des situations où la variable d’intérêt  Y   est ap-proximativement liée linéairement à une variable auxiliaireconnue X , mais Y  ne tend pas vers zéro lorsque X  devientnul (Y  n’est donc plus simplement proportionnelle à X ).Dans ce cas, il semble raisonnable de supposer que

    Y  ∼= α + β X 

    càd

    yi ∼= α + βxi   pour tout i ∈ U .

    On a alors

    τ Y   =i∈U 

    yi ∼=i∈U 

    (α + βxi)

    =   Nα + β i∈U  xi = Nα + βτ X et

    µY  = τ Y N 

    ∼= α + β  τ X N 

      = α + βµX 

    Puisque τ X   et µX  sont connus, il suffit, pour estimer τ Y  etµY , d’estimer  α  et  β  dans les relations ci-dessus sur base

    des n paires d’observations (xi, yi) de l’échantillon.

    ⇒ Estimation par la régression

    27

  • 8/18/2019 Ponderation Et Redressement

    28/41

    Le principe de l’estimation par la régression peut être aisémentgénéralisé au cas où

    Y  ∼= α + β 1X 1 + . . . + β J X J 

    où X 1, . . . , X J   sont J  variables auxiliaires connues.

    28

  • 8/18/2019 Ponderation Et Redressement

    29/41

    8.5 REDRESSEMENT SUR VARIABLES QUALITATIVES

    (post-stratification)

    Considérons une situation dans laquelle un échantillon aléatoirestratifié serait souhaitable, mais les unités statistiques nepeuvent être assignées aux différentes strates qu’une foisl’́echantillon prélevé.

    Exemple

    Considérons une enquête des ménages d’une ville en vued’estimer le montant moyen des dépenses ménagères an-nuelles pour des réparations ou améliorations de l’habi-tat (maison). Puisque l’on peut s’attendre à ce que cesdépenses soient corŕeĺees à l’âge de la ŕesidence du ménage,il serait souhaitable de pouvoir stratifier les résidences dela ville en différents groupes d’âges.

    Nous supposerons ici qu’il y a une seule résidence parménage et un seul ménage par résidence.

    On dispose d’une liste de toutes les résidences de la ville,indiquant l’adresse exacte - mais pas l’âge - de chaquerésidence. Il est donc impossible, sur base de cette liste,

    de prélever un échantillon aléatoire de résidences stratifiésuivant l’âge.

    29

  • 8/18/2019 Ponderation Et Redressement

    30/41

    Par contre, il est possible, à partir de certains fichiers re-latifs aux impôts sur la propríeté prélevés par l’état, dedéterminer le nombre de résidences de la ville dans différentsgroupes d’âges. On connâıt donc la taille des différent(e)sstrates/groupes d’âges, mais on ne peut pas classer a priori les résidences de la ville dans ces différentes strates.

    Dans cette situation, il sera possible de sélectionner unéchantillon aléatoire simple (par tirage PESR) de résidenceset donc de ménages, de déterminer ensuite pour chaque

    ménage sélectionné l’âge de sa résidence, de classifier ainsia posteriori   les résidences sélectionnées dans les différentsgroupes d’âges et de calculer enfin l’estimateur post-stratifié du montant moyen auquel on s’intéresse.

    30

  • 8/18/2019 Ponderation Et Redressement

    31/41

    8.5.1 Introduction

    • Variable d’intérêt : Y 

    • Echantillon PESR de taille  n : S 

    • Estimation de µY  ou τ Y   :

    µ̂Y  =  1

    n

    i∈S yi = y   et   τ̂ Y  = Ny

    • Prise en compte  a posteriori  d’une partition de U   en H strates d’effectifs N 1, . . . , N  H  connus

    •  Peut-on améliorer l’estimation de  µY   et  τ Y   en utilisantcette information ?

    31

  • 8/18/2019 Ponderation Et Redressement

    32/41

    8.5.2 Notations

    a) Population

    •   U  = U 1 ∪ . . . ∪ U H et   U h ∩ U l = ∅ pour tout h = l ∈ {1, . . . , H  }

    •   τ Y ;h =

    i∈U hyi   et   µY ;h =

      τ Y ;hN h

    •   σ2Y ;h;corr =  1N h−1

    i∈U h

    (yi − µY ;h)2

    •   τ Y  = H h=1 τ Y ;h   et   µY  = H h=1 N hN   µY ;h =   τ Y N b) Echantillon

    •   S (h) = S  ∩ U h :partie de S   incluse dans la strate h (h = 1, . . . , H  )

    •   nh =   effectif de S (h) :cet effectif est aĺeatoire ! !

    •   yh =  1nh

    i∈S (h)

    yi

    •   s2Y ;h;corr =  1nh−1

    i∈S (h)

    (yi − yh)2

    32

  • 8/18/2019 Ponderation Et Redressement

    33/41

    8.5.3 Estimateurs post-stratifiés

    a) Estimation de τ Y   et µY 

    • Estimateur  :

    τ̂ Y ;post   =H 

    h=1

    N hyh

    µ̂Y ;post   =  τ̂ Y ;post

    N   =

    h=1N hN 

      yh

    Remarques :

    1) L’estimateur post-stratifié est calculé exactement de lamême façon que l’estimateur stratifiéMAIS les observations résultent d’un échantillonnagesimple , et non pas stratifié.

    2) Les poids  N h/N   sont supposés connus pour tout  h =1, . . . , H  

    3) La post-stratification est une méthode de calage sur leseffectifs N h. En effet,

     soit  X k, la variable indicatrice de l’appartenance àla strate k   :

    xk,i  =

    1  si l’individu i ∈ strate k0   sinon

    33

  • 8/18/2019 Ponderation Et Redressement

    34/41

     τ X k  =

    i∈U  xk,i  = N k  : paramètre connu

     τ̂ X k;post =H 

    h=1 N hxk,h

    où  xk,h  est la moyenne arithmétique de la variable

    X k parmi les individus appartenant au sous-échantillon(post-strate) S (h)  :

    xk,h  =

    1   si k = h0   si k = h

    Dès lors,

    τ̂ X k;post = h=k

    N h · 0 + N k = N k = τ X k   .

    4) La post-stratification est moins exigeante en informa-tion auxiliaire que la stratification, car le sondeur n’apas besoin de connâıtre l’information auxiliaire pour

    chaque individu de la population, mais seulement unrésumé de cette information au travers des effectifs to-taux N h, h = 1, . . . , H  .

    • Caractère aĺeatoire de  τ̂ Y ;post : 2 niveaux d’aléas :

    Niveau 1 : {n1, . . . , nH }

    Niveau 2 : unités sélectionnées appartenant à la strateh : {S (1), . . . , S  (H )}

    34

  • 8/18/2019 Ponderation Et Redressement

    35/41

    • Espérance mathématique de  τ̂ Y ;post  :

    On montre queE(τ̂ Y ;post) = τ Y 

    →  τ̂ Y ;post  est un estimateur non biaisé de τ Y 

    • Variance de  τ̂ Y ;post :

    cf. littérature statistique

    • Exemple (suite)

    Un EAS de 1 200 ŕesidences/ménages a ét́e sélectionné àpartir de la liste des 45 000 résidences de la ville. Deux desquestions du questionnaire étaient formulées comme suit :

    5. Quand votre résidence a-t-elle été construite ?

    5.a Il y a moins de 5 ans.

    5.b Il y a entre 5 et 10 ans.5.c Il y a plus de 10 ans.

    17. A combien s’́el̀event vos dépenses ménagères de l’annéepassée pour des réparations ou améliorations/aménagementsde votre résidence ? $—

    Le tableau ci-dessous résume l’information utile. Les nombresdans la 2ème colonne proviennent de fichiers relatifs auximpôts sur la propríeté.

    35

  • 8/18/2019 Ponderation Et Redressement

    36/41

    Population des résidences Echantillon des résidences/

    Age de la Nombre de ménages

    résidence résidences, N h   N h/N nh   yh   s2Y ;h   s

    2Y ;h;corr

    Moins de 5 ans 5 000 0.111 140 350 610 614Entre 5 et 10 ans 15 000 0.333 420 675 750 752

    Plus de 10 ans 25 000 0.556 640 920 940 941

    45 000 1 1 200

    L’estimation post-stratifiée du montant moyen des dépensesannuelles des ménages pour des réparations ou aménagementsde leur résidence est

    µ̂Y ;post   = (0.111) 350 + (0.333) 675 + (0.556) 920

    = $ 775.14

    36

  • 8/18/2019 Ponderation Et Redressement

    37/41

    • Autre exemple 

    Considérons une enquête sur le revenu mensuel, où ondécide de post-stratifier sur une variable ”tranche d’âges”.

    Le choix d’une telle variable auxiliaire est lié à la fortecorrélation qui existe de manière évidente entre l’âge et lerevenu.

    On tire l’échantillon par sondage PESR et on va consul-ter le Recensement pour obtenir la répartition  N h/N   sui-vante :

     50 ansN h/N    20% 35% 30% 15%

    Dans l’échantillon, les effectifs sont tels que la répartitionnh/n est la suivante :

     50 ansnh/n   15% 30% 30% 25%

    yh   900 1 350 2 250 1 800

    Si non ne redresse pas sur l’âge, alors on estime le revenumensuel moyen dans la population par

    y   =H 

    h=1nhn

     yh

    = (0.15)900 + (0.30)1 350 + (0.30)2 250 + (0.25)1 800

    = 1 665 Euros

    37

  • 8/18/2019 Ponderation Et Redressement

    38/41

    Si on redresse selon la tranche d’âges, alors on estime lerevenu mensuel moyen dans la population par

    µ̂Y ;post   =

    h=1N h

    N  yh

    = (0.20)900 + (0.35)1 350 + (0.30)2 250 + (0.15)1 800

    = 1 597.5 Euros

    En l’absence de post-stratification, le revenu mensuel moyenaurait donc ét́e estimé à un montant plus élevé. En effet, onconstate que, sous l’effet du ”hasard”, l’échantillon com-prend ”trop” de personnes de plus de 50 ans. Or,celles-ciont un revenu mensuel moyen relativement élevé, et leur”sur-représentation” tire la moyenne générale vers des va-leurs trop élevées.

    Les deux estimateurs sont   sans biais , mais l’estimateurpost-stratifié est plus précis .

    38

  • 8/18/2019 Ponderation Et Redressement

    39/41

    8.5.4 Comparaisons

    a) Comparaison avec PESR

    • Si N  est grand :

    Var(µ̂Y ) − Var(µ̂Y ;post) =

    1 − f 

    n

      H h=1

    N hN 

     (µY ;h − µY )2

    1 − f 

    nN    H 

    h=1 1 −

     N hN 

    σ2Y ;h;corr

    La différence Var(µ̂Y ) − Var(µ̂Y ;post) est positive et d’au-tant plus grande que les moyennes µY ;h  sont dispersées etque les σ2Y ;h;corr sont faibles.

    Toutefois, la différence entre les 2 variances est petitelorsque l’échantillon est de grande taille. Ceci s’explique

    par le fait que, lorsque la taille  n de l’échantillon aléatoiresimple à partir duquel est calculé l’estimateur post-stratifiéest grande, on peut s’attendre à ce que la proportion des in-dividus sélectionnés qui appartiennent à une certaine strateU h soit approximativement égale à la proportion d’individusde la population qui appartiennent à cette strate, c’est-à-

    dire nhn

    ∼= N h

    N  .

    39

  • 8/18/2019 Ponderation Et Redressement

    40/41

  • 8/18/2019 Ponderation Et Redressement

    41/41

    8.5.5 Conclusion

    Si le hasard ne nous a pas fait sélectionner un échantilloncomprenant des individus trop particuliers, les expressionsdes poids de sondage avant et après redressement devraientdonner lieu à des valeurs numériques voisines.

    Les praticiens ont parfois tendance à éprouver une certainedéception lorsque la phase de redressement ne modifie quetrès peu leurs estimations. Cette attitude est quelque peuillogique car une telle constatation est plutôt de bon au-gure et tend à prouver que l’échantillon tiré a une bonnecomposition.

    Par ailleurs, ils peuvent avoir tendance, après avoir réaliséun nombre important d’enquêtes pour lesquelles le redres-

    sement ne modifiait rien ou presque rien, à accorder uneconfiance excessive à l’échantillonnage et à ne plus enga-ger du tout de procédure de redressement. Il va sans direque cette attitude est particulièrement dangereuse, car ilest nécessaire de maintenir une veille critique vis-à-vis deséventuels caprices du hasard.