1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique...

Preview:

Citation preview

1

Équipe chargée du projet sur l’ÉR-RDAPS Division de la recherche et de l’innovation

statistiqueStatistique Canada, Ottawa

(Pour présentation à l’Atelier du GTIMT du FMMT, le17 oct. 2007, à Vancouver, C.-B.)

Estimations régionales par Statistique Canada

Produit : BUPF 1.0 (Best Unbiased Prediction via Filtering)

2

Projet : ÉR-RDAPS (Évaluation régionale dans le cadre de

la R et D axée sur les produits statistiques)

Équipe : Avi Singh (chef de projet)François VerretClaude NadeauPin Yuan

Remerciements : Fonds global de financement de la recherche, Dir. de

la méth, Div. de la statis. du travail, GTIMT du FMMT

3

Aperçu

1. ÉR : Introduction

2. ÉR : Description visuelle

3. BUPF : Description

4. Application du BUPF à l’Enquête sur la population active (EPA)

5. Démonstration du BUPF (échantillons d’instantanés d’écran)

6. Mot de la fin et travaux à venir

4

1. ÉR : Introduction

Les évaluations directes des petites régions (ou domaines) ne sont pas fiables; p. ex., pour les provinces, les estimations annuelles tirées de l’EPA concernant les gestionnaires du secteur de la fabrication et des services publics (code de profession à trois caractères A39) ne sont pas fiables. Dans ce cas, les provinces pourraient être considérées comme de petites régions.

Besoins de données : Estimations provinciales de l’emploi par code de profession à trois caractères

5

Tableau 1 – Total mensuel des personnes employées (A39)(Moyenne annuelle tirée de l’EPA de 2003)

Prov.

Taille de la

population

Taille de l’échantill

on

Estimation directe

É-T CV en %

TNL 429 298 3 978 670 177 26,4

ÎPE 109 886 2 769 233 55 23,5

NE 758 549 5 858 1 532 292 19,0

NB 607 565 5 624 1 275 218 17,1

Qc 6 059 655 18 234 25 273 2 204 8,7

ONT. 9 766 566 30 373 42 447 3 178 7,5

MAN. 876 396 7 117 3 023 432 14,3

SASK. 744 431 7 295 1 963 339 17,3

ALB. 2 467 412 10 317 7 643 1 098 14,4

CB 3 346 181 9 636 8 676 1 228 14,2

Canada 25 165 939 101 201 92 734 4 260 4,6

6

1. ÉR : Introduction …suite

Besoin de plus d’échantillons pour obtenir des estimations plus fiables

Solution de remplacement rentable – utiliser un modèle comme le modèle commun de la moyenne; p.ex., la proportion de personnes employées dans la catégorie A39 est commune à toutes les provinces

La qualité des estimations dépend de la validité du modèle.

7

1. ÉR : Introduction …suite

Le modèle fournit une estimation indirecte (ou synthétique) au niveau de la région.

Pour le modèle commun de la moyenne, multipliez le total national par la proportion de la population provinciale pour obtenir l’estimation indirecte, p. ex. pour TNL

1,7 % fois 92 734 = 1 582

8

Tableau 2 Estimations directes et indirectes (selon un modèle très simplifié) concernant les A39 (Moyenne

annuelle tirée de l’EPA de 2003)

Prov.

Portion de la

population

Taille de

l’échan-tillon

Estima-tion

directeÉR 

Estima-tion

indirecte

Taille de

l’échan-tillon

TNL 1,7 % 3 978 670 1 582 101 201

ÎPE 0,4 % 2 769 233   405 101 201

NE 3,0 % 5 858 1 532 2 795 101 201

NB 2,4 % 5 624 1 275   2 239 101 201

Qc 24,1 % 18 234 25 273 22 329 101 201

ONT. 38,8 % 30 373 42 447   35 989 101 201

MAN. 3,5 % 7 117 3 023 3 229 101 201

SASK. 3,0 % 7 295 1 963   2 743 101 201

ALB 9,8 % 10 317 7 643 9 092 101 201

BC 13.3% 9 636 8 676   12 330 101 201

Canada 100,0 % 101 201 92 734   92 734 101 201

9

1. ÉR : Introduction …suite

La combinaison de deux estimations (directes et indirectes) peut fournir une estimation raisonnable ayant une précision adéquate selon le niveau d’estimation appliqué à la petite région.

L’estimation directe n’est pas précise, mais elle n’est pas gauchie, tandis que l’estimation indirecte est habituellement précise, mais peut être gauchie.

10

1. ÉR : Introduction …suite

L’ÉR combine les estimations directes et indirectes de façon optimale :

ÉR pour une région d = (facteur de retrait pour d) x (estimation directe pour d) +

(1- facteur de retrait pour d) x (estimation indirecte

pour d)

Si le facteur de retrait est de 10 %, alors on utilise

10 % de l’estimation directe et 90 % de l’estimation indirecte pour l’ÉR. S’il est de 50 %, alors les deux estimations, directe et indirecte, contribuent de façon égale à l’ÉR.

11

1. ÉR : Introduction …suite

La taille relative du facteur de retrait dépend de la variabilité de l’erreur de modélisation (dans l’estimation indirecte) et de celle de l’erreur d’échantillonnage (dans l’estimation directe).

Pour l’ÉR, la taille d’échantillon efficace est supérieure à celle que l’on utilise pour l’estimation directe.

12

1 : ÉR : Introduction (Exigences de la modélisation)

Aux fins de la modélisation, on a besoin d’estimations directes provenant d’autres petites régions (appelées données indirectes), c.-à-d. pour obtenir une estimation pour la région d’intérêt.

Pour une modélisation adéquate, on a besoin de suffisamment de petites régions. On subdivise les provinces en sous-régions provinciales :• En régions économiques (RE) ou RE selon l’âge et le sexe plutôt

que par province, bien que le niveau d’intérêt soit celui de la province.

13

1 : ÉR : Introduction (Exigences de la modélisation)

Il est avantageux d’avoir une source d’information auxiliaire (administrative / recensement); pour toutes les régions, on a besoin de totaux réels pour la population au niveau d’estimation de la région.

L’utilisation d’une source auxiliaire peut améliorer la modélisation faite à l’aide de données indirectes.

14

1. ÉR : Introduction (Exigences de la modélisation…suite)

Exemples d’information auxiliaire pour l’application de l’EPA

Sources administratives• Nombre de demandes de prestations d’assurance-emploi au

niveau de la région

• Nombre de personnes ayant un revenu d’emploi

Projections démographiques fondées sur le recensement de la population• Dénombrements par sous-population

15

1. ÉR : Introduction (Exigences de la modélisation)

Le facteur de prédiction du modèle, qui est basé sur des données indirectes et des données auxiliaires, fournit une estimation indirecte pour la région d’intérêt.

Le modèle peut être aussi simple que le modèle commun de la moyenne, qui n’utilise aucune donnée auxiliaire ou qui ne peut pas être avancé.

16

1. ÉR : Introduction (Exigences de la modélisation)

Toutes les estimations indirectes sont gauchies, mais le gauchissement peut être faible si le modèle est bon.

La combinaison d’estimations directes avec des estimations indirectes produit des estimations plus précises que les seules estimations directes ou indirectes.

L’étalonnage (lorsque la somme de toutes les estimations pour les petites régions comprises dans un sous-groupe de régions est égale à l’estimation directe du sous-groupe) aide à réduire le gauchissement du modèle.

17

1. ÉR : Introduction (Préoccupations des utilisateurs)

Les besoins de données détaillées au niveau de la région peuvent varier d’un utilisateur à l’autre.

Cependant, on ne peut pas aller jusqu’à un niveau très bas pour deux raisons : la précision des ÉR ne sera peut-être pas suffisante, et on ne disposera peut-être pas de données auxiliaires.

Les préoccupations au sujet du gauchissement sont dues à l’utilisation d’estimations indirectes servant à emprunter de l’information; les modèles ne sont peut-être ne pas être parfaits, mais un modèle choisi avec soin peut être utile.

La méthodologie de l’ÉR fait appel à un compromis entre le gauchissement et la précision.

18

1. ÉR : Introduction (Préoccupations des utilisateurs…

suite)

On peut procéder périodiquement à une validation externe de l’ÉR à l’aide du recensement.

Il y a aussi la validation par la connaissance de la région locale.

Préoccupations liées à la confidentialité (ceci ne pose peut-être pas de problème, parce que plus la région est petite, plus l’erreur dans l’ÉR est grande; protection intégrée).

19

2. ÉR : Description visuelle

• Cependant, avec le modèle ÉR habituel, le total global n’est pas préservé!

Province RE selon l’âge et le sexe

Avant l’ÉR

(niveau de la région selon l’âge

et le sexe)

Apres l’ÉR (niveau de la région selon l’âge et le sexe)

Après l’ÉR (niveau prov.)

TNL

ÎPE

ALB.

CB

Canada Bon! Bon? Bon?

Pour l’emploi dans A39

20

2. ÉR : Description visuelle...suite

• L’étalonnage garantit que le total demeure le même après la modélisation.

Province RE par âge et sexe Avant l’ÉR (niveau de la région selon l’âge et le sexe)

Après l’ÉR (niveau de la région selon l’âge et le sexe)

Après l’ÉR (niveau prov.)

TNL

ÎPE

ALB.

CB

Canada Bon! Bon! Bon!

Pour l’emploi dans A39

21

3. BUPF : Description

Le produit d’ÉR de STC est basé sur l’identification des besoins des clients (p. ex. : sur l’atelier sur l’ÉR de fév. 2005, voir www.flmm-lmi.org pour le compte rendu)

Caractéristiques principales

• Système logiciel à base de menus

• La conception de l’échantillonnage est entièrement prise en considération

• Auto-étalonnage servant à la protection contre les pannes du modèle

• Regroupement de régions servant à inclure celles qui font l’objet d’aucune ou de peu d’observations dans le processus de modélisation

• Diagnostic approfondi du modèle et évaluation des estimations Les logiciels existants (tels que SAS PROC MIXED, MLwiN,

WinBUGS) ne sont pas satisfaisants

22

3. BUPF 1.0 : Description

Partie I : Préparation des données

Partie II : Préparation de la modélisation

Partie III : Sélection et diagnostic du modèle

Partie IV : Estimation et évaluation régionales

Partie V : Tableau récapitulatif

23

4. Application de BUPF à l’EPA

Les résultats empiriques présentés ici ne sont pas encore finaux.

Le produit comprend deux composantes principales

• Composante de modélisation (pour accroître la taille d’échantillon efficace)

• Composante d’estimation (combiner les estimations directes et indirectes)

24

4. Application de BUPF à l’EPA…suite

Modèle : Estimation directe pour la région d = Valeur réelle + erreur

d’échantillonnage

Valeur réelle = facteur de prédiction + erreur du modèle

Facteur de prédiction = x1β1+ x2β2+…; donne des estimations indirectes ou synthétiques.

Variables X considérées : nombre de revenus signalés, nbre de prestataires d’AE, dénombrements selon l’âge-sexe, etc., toutes ces variables au niveau des petites régions

25

Tableau 3 Nombre total de personnes employées (A39) selon les estimations directes, indirectes et l’ÉR

(Moyenne annuelle tirée de l’EPA de 2003 )

Prov.

Estimations directes ÉR

Estimations Indirectes

ÉR - DirDir.Estima-

tionCV

Estima-tion

CV du mod.

RRMSE du mod.

Estima-tion

CV du mod.

RRMSE du mod.

TN 670 0,264 579 0,144 603 0,229 -0,136

ÎPE 233 0,235 207 0,168 187 0,179 -0,111

NE 1 532 0,19 1 417 0,105 1 450 0,177 -0,075

NB 1 275 0,171 1 112 0,1 1 083 0,168 -0,128

Qc 25 273 0,087 24 962 0,056 25 381 0,081 -0,012

ONT. 42 447 0,075 44 355 0,063 46 255 0,081 0,045

MAN. 3 023 0,143 2 348 0,082 2 251 0,129 -0,223

SASK. 1 963 0,173 1 766 0,091 1 753 0,164 -0,100

ALB. 7 643 0,144 7 276 0,078 7 292 0,134 -0,048

CB 8 676 0,142 8 712 0,094 8 792 0,129 0,004

Cana-da 92 734 0,046 92 734 0,046 95 047 0,073 0,000

26

5. Démonstration du produit d’ÉR de STC

Démonstration du produit BUPF 1.0 Démonstration du produit BUPF 1.0

28

Partie I : Préparation des données

29

Partie II : Préparation de la modélisation

30

Partie II : Préparation de la modélisation

31

Partie III : Sélection et diagnostic du modèle

32

Partie III : Sélection et diagnostic du modèle

34

Partie IV : Estimation et évaluation régionales

35

6. Mot de la fin et travaux à venir

Le produit BUPF offre plusieurs caractéristiques uniques pour l’ÉR, notamment l’auto-étalonnage, le regroupement de domaines pour les domaines non échantillonnés et un diagnostic approfondi.

L’interface graphique (GUI) pour le produit est aussi utile qu’une liste de vérification systématique ou un analyste virtuel pour une production efficace; elle est également utile pour la formation et la démonstration du produit.

36

6. Mot de la fin et travaux à venir

Terminer la version bêta du modèle BUPF 1.0; la version actuelle est seulement en alpha ou un prototype et ne convient pas à la production.

Planifier une étude de validation grâce aux Recensement de 2006.

37

Pour plus d’information, prière de communiquer avec

avi.singh@statcan.ca

Thank you…Merci

38

Annexe

39

3. BUPF 1.0 : Description

Partie I : Préparation des données• M1 : Spécification des données

• M2 : Spécification des tâches• La définition des domaines servant à la modélisation des

petites régions (domaines de MPR) est très importantes

• Les estimations directes, dénombrements de population et données auxiliaires doivent être disponibles à ce niveau

• Le nombre de domaine de MPR devrait être suffisamment élevé pour une modélisation appropriée

• Ici, les domaines MPR = RE(73) selon l’âge(4) et selon le sexe(2)

40

3. BUPF 1.0 : Description

Partie II : Préparation de la modélisation• M3 : Contraintes de l’étalonnage & modèle de base

• L’auto-étalonnage est important pour se protéger contre les pannes du modèle, car ce dernier n’est pas parfait

• Option : Sans la C.-B., ensemble de la C.-B., régions de la C.-B.

• M4 : Regroupement de domaines

• Solution de rechange améliorée par rapport au fait de laisser à l’extérieur du modèle les domaines de MPR dont la taille d’échantillon est petite.

• M5 : Lissage de la variance

41

3. BUPF 1.0 : Description

Partie III : Sélection et diagnostic du modèle• M6 : Sélection du modèle

• Procédures standard de sélection ascendante et descendante

• M7 : Composante variance

• Nécessaire pour trouver le facteur de retrait approprié pour passer des estimations indirectes aux estimations directes

• M8 : Séquence d’innovation

• Permet de diagnostiquer le modèle à l’aide de tests d’erreur standard pour données indépendantes et à distribution identique N(0,1)

• M9 : Diagnostic du modèle

• Représentations graphiques résiduelles, diagrammes quantile-quantile, valeur moyenne quadratique, test du khi carré pour la détermination de la surdispersion et de la pertinence du modèle…

42

3. BUPF 1.0 : Description

Partie IV : Estimation et évaluation régionales

• M10 : Estimation régionale

• M11 : Évaluation des estimations

• Vérifier les différences relatives entre les estimations directes et l’ÉR

• Autres mesures

SAE (direct) (1 )(indirect)

(indirect) [(direct) (indirect) ]

: shrinkage factord

d d d d d

d d d d

43

3. BUPF 1.0 : Description

Partie V : Tableau récapitulatif• M12 : Résumé général

• Conception de l’échantillonnage et sources de données (Partie I)

• Diagnostic des données d’entrée (Partie II)

• Diagnostic de la modélisation (Partie III)

• Diagnostic des données de sortie (Partie IV)

Recommended