41
1 Équipe chargée du projet sur l’ÉR-RDAPS Division de la recherche et de l’innovation statistique Statistique Canada, Ottawa (Pour présentation à l’Atelier du GTIMT du FMMT, le17 oct. 2007, à Vancouver, C.-B.) Estimations régionales par Statistique Canada Produit : BUPF 1.0 (Best Unbiased Prediction via Filtering)

1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

Embed Size (px)

Citation preview

Page 1: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

1

Équipe chargée du projet sur l’ÉR-RDAPS Division de la recherche et de l’innovation

statistiqueStatistique Canada, Ottawa

(Pour présentation à l’Atelier du GTIMT du FMMT, le17 oct. 2007, à Vancouver, C.-B.)

Estimations régionales par Statistique Canada

Produit : BUPF 1.0 (Best Unbiased Prediction via Filtering)

Page 2: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

2

Projet : ÉR-RDAPS (Évaluation régionale dans le cadre de

la R et D axée sur les produits statistiques)

Équipe : Avi Singh (chef de projet)François VerretClaude NadeauPin Yuan

Remerciements : Fonds global de financement de la recherche, Dir. de

la méth, Div. de la statis. du travail, GTIMT du FMMT

Page 3: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

3

Aperçu

1. ÉR : Introduction

2. ÉR : Description visuelle

3. BUPF : Description

4. Application du BUPF à l’Enquête sur la population active (EPA)

5. Démonstration du BUPF (échantillons d’instantanés d’écran)

6. Mot de la fin et travaux à venir

Page 4: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

4

1. ÉR : Introduction

Les évaluations directes des petites régions (ou domaines) ne sont pas fiables; p. ex., pour les provinces, les estimations annuelles tirées de l’EPA concernant les gestionnaires du secteur de la fabrication et des services publics (code de profession à trois caractères A39) ne sont pas fiables. Dans ce cas, les provinces pourraient être considérées comme de petites régions.

Besoins de données : Estimations provinciales de l’emploi par code de profession à trois caractères

Page 5: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

5

Tableau 1 – Total mensuel des personnes employées (A39)(Moyenne annuelle tirée de l’EPA de 2003)

Prov.

Taille de la

population

Taille de l’échantill

on

Estimation directe

É-T CV en %

TNL 429 298 3 978 670 177 26,4

ÎPE 109 886 2 769 233 55 23,5

NE 758 549 5 858 1 532 292 19,0

NB 607 565 5 624 1 275 218 17,1

Qc 6 059 655 18 234 25 273 2 204 8,7

ONT. 9 766 566 30 373 42 447 3 178 7,5

MAN. 876 396 7 117 3 023 432 14,3

SASK. 744 431 7 295 1 963 339 17,3

ALB. 2 467 412 10 317 7 643 1 098 14,4

CB 3 346 181 9 636 8 676 1 228 14,2

Canada 25 165 939 101 201 92 734 4 260 4,6

Page 6: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

6

1. ÉR : Introduction …suite

Besoin de plus d’échantillons pour obtenir des estimations plus fiables

Solution de remplacement rentable – utiliser un modèle comme le modèle commun de la moyenne; p.ex., la proportion de personnes employées dans la catégorie A39 est commune à toutes les provinces

La qualité des estimations dépend de la validité du modèle.

Page 7: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

7

1. ÉR : Introduction …suite

Le modèle fournit une estimation indirecte (ou synthétique) au niveau de la région.

Pour le modèle commun de la moyenne, multipliez le total national par la proportion de la population provinciale pour obtenir l’estimation indirecte, p. ex. pour TNL

1,7 % fois 92 734 = 1 582

Page 8: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

8

Tableau 2 Estimations directes et indirectes (selon un modèle très simplifié) concernant les A39 (Moyenne

annuelle tirée de l’EPA de 2003)

Prov.

Portion de la

population

Taille de

l’échan-tillon

Estima-tion

directeÉR 

Estima-tion

indirecte

Taille de

l’échan-tillon

TNL 1,7 % 3 978 670 1 582 101 201

ÎPE 0,4 % 2 769 233   405 101 201

NE 3,0 % 5 858 1 532 2 795 101 201

NB 2,4 % 5 624 1 275   2 239 101 201

Qc 24,1 % 18 234 25 273 22 329 101 201

ONT. 38,8 % 30 373 42 447   35 989 101 201

MAN. 3,5 % 7 117 3 023 3 229 101 201

SASK. 3,0 % 7 295 1 963   2 743 101 201

ALB 9,8 % 10 317 7 643 9 092 101 201

BC 13.3% 9 636 8 676   12 330 101 201

Canada 100,0 % 101 201 92 734   92 734 101 201

Page 9: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

9

1. ÉR : Introduction …suite

La combinaison de deux estimations (directes et indirectes) peut fournir une estimation raisonnable ayant une précision adéquate selon le niveau d’estimation appliqué à la petite région.

L’estimation directe n’est pas précise, mais elle n’est pas gauchie, tandis que l’estimation indirecte est habituellement précise, mais peut être gauchie.

Page 10: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

10

1. ÉR : Introduction …suite

L’ÉR combine les estimations directes et indirectes de façon optimale :

ÉR pour une région d = (facteur de retrait pour d) x (estimation directe pour d) +

(1- facteur de retrait pour d) x (estimation indirecte

pour d)

Si le facteur de retrait est de 10 %, alors on utilise

10 % de l’estimation directe et 90 % de l’estimation indirecte pour l’ÉR. S’il est de 50 %, alors les deux estimations, directe et indirecte, contribuent de façon égale à l’ÉR.

Page 11: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

11

1. ÉR : Introduction …suite

La taille relative du facteur de retrait dépend de la variabilité de l’erreur de modélisation (dans l’estimation indirecte) et de celle de l’erreur d’échantillonnage (dans l’estimation directe).

Pour l’ÉR, la taille d’échantillon efficace est supérieure à celle que l’on utilise pour l’estimation directe.

Page 12: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

12

1 : ÉR : Introduction (Exigences de la modélisation)

Aux fins de la modélisation, on a besoin d’estimations directes provenant d’autres petites régions (appelées données indirectes), c.-à-d. pour obtenir une estimation pour la région d’intérêt.

Pour une modélisation adéquate, on a besoin de suffisamment de petites régions. On subdivise les provinces en sous-régions provinciales :• En régions économiques (RE) ou RE selon l’âge et le sexe plutôt

que par province, bien que le niveau d’intérêt soit celui de la province.

Page 13: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

13

1 : ÉR : Introduction (Exigences de la modélisation)

Il est avantageux d’avoir une source d’information auxiliaire (administrative / recensement); pour toutes les régions, on a besoin de totaux réels pour la population au niveau d’estimation de la région.

L’utilisation d’une source auxiliaire peut améliorer la modélisation faite à l’aide de données indirectes.

Page 14: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

14

1. ÉR : Introduction (Exigences de la modélisation…suite)

Exemples d’information auxiliaire pour l’application de l’EPA

Sources administratives• Nombre de demandes de prestations d’assurance-emploi au

niveau de la région

• Nombre de personnes ayant un revenu d’emploi

Projections démographiques fondées sur le recensement de la population• Dénombrements par sous-population

Page 15: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

15

1. ÉR : Introduction (Exigences de la modélisation)

Le facteur de prédiction du modèle, qui est basé sur des données indirectes et des données auxiliaires, fournit une estimation indirecte pour la région d’intérêt.

Le modèle peut être aussi simple que le modèle commun de la moyenne, qui n’utilise aucune donnée auxiliaire ou qui ne peut pas être avancé.

Page 16: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

16

1. ÉR : Introduction (Exigences de la modélisation)

Toutes les estimations indirectes sont gauchies, mais le gauchissement peut être faible si le modèle est bon.

La combinaison d’estimations directes avec des estimations indirectes produit des estimations plus précises que les seules estimations directes ou indirectes.

L’étalonnage (lorsque la somme de toutes les estimations pour les petites régions comprises dans un sous-groupe de régions est égale à l’estimation directe du sous-groupe) aide à réduire le gauchissement du modèle.

Page 17: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

17

1. ÉR : Introduction (Préoccupations des utilisateurs)

Les besoins de données détaillées au niveau de la région peuvent varier d’un utilisateur à l’autre.

Cependant, on ne peut pas aller jusqu’à un niveau très bas pour deux raisons : la précision des ÉR ne sera peut-être pas suffisante, et on ne disposera peut-être pas de données auxiliaires.

Les préoccupations au sujet du gauchissement sont dues à l’utilisation d’estimations indirectes servant à emprunter de l’information; les modèles ne sont peut-être ne pas être parfaits, mais un modèle choisi avec soin peut être utile.

La méthodologie de l’ÉR fait appel à un compromis entre le gauchissement et la précision.

Page 18: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

18

1. ÉR : Introduction (Préoccupations des utilisateurs…

suite)

On peut procéder périodiquement à une validation externe de l’ÉR à l’aide du recensement.

Il y a aussi la validation par la connaissance de la région locale.

Préoccupations liées à la confidentialité (ceci ne pose peut-être pas de problème, parce que plus la région est petite, plus l’erreur dans l’ÉR est grande; protection intégrée).

Page 19: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

19

2. ÉR : Description visuelle

• Cependant, avec le modèle ÉR habituel, le total global n’est pas préservé!

Province RE selon l’âge et le sexe

Avant l’ÉR

(niveau de la région selon l’âge

et le sexe)

Apres l’ÉR (niveau de la région selon l’âge et le sexe)

Après l’ÉR (niveau prov.)

TNL

ÎPE

ALB.

CB

Canada Bon! Bon? Bon?

Pour l’emploi dans A39

Page 20: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

20

2. ÉR : Description visuelle...suite

• L’étalonnage garantit que le total demeure le même après la modélisation.

Province RE par âge et sexe Avant l’ÉR (niveau de la région selon l’âge et le sexe)

Après l’ÉR (niveau de la région selon l’âge et le sexe)

Après l’ÉR (niveau prov.)

TNL

ÎPE

ALB.

CB

Canada Bon! Bon! Bon!

Pour l’emploi dans A39

Page 21: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

21

3. BUPF : Description

Le produit d’ÉR de STC est basé sur l’identification des besoins des clients (p. ex. : sur l’atelier sur l’ÉR de fév. 2005, voir www.flmm-lmi.org pour le compte rendu)

Caractéristiques principales

• Système logiciel à base de menus

• La conception de l’échantillonnage est entièrement prise en considération

• Auto-étalonnage servant à la protection contre les pannes du modèle

• Regroupement de régions servant à inclure celles qui font l’objet d’aucune ou de peu d’observations dans le processus de modélisation

• Diagnostic approfondi du modèle et évaluation des estimations Les logiciels existants (tels que SAS PROC MIXED, MLwiN,

WinBUGS) ne sont pas satisfaisants

Page 22: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

22

3. BUPF 1.0 : Description

Partie I : Préparation des données

Partie II : Préparation de la modélisation

Partie III : Sélection et diagnostic du modèle

Partie IV : Estimation et évaluation régionales

Partie V : Tableau récapitulatif

Page 23: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

23

4. Application de BUPF à l’EPA

Les résultats empiriques présentés ici ne sont pas encore finaux.

Le produit comprend deux composantes principales

• Composante de modélisation (pour accroître la taille d’échantillon efficace)

• Composante d’estimation (combiner les estimations directes et indirectes)

Page 24: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

24

4. Application de BUPF à l’EPA…suite

Modèle : Estimation directe pour la région d = Valeur réelle + erreur

d’échantillonnage

Valeur réelle = facteur de prédiction + erreur du modèle

Facteur de prédiction = x1β1+ x2β2+…; donne des estimations indirectes ou synthétiques.

Variables X considérées : nombre de revenus signalés, nbre de prestataires d’AE, dénombrements selon l’âge-sexe, etc., toutes ces variables au niveau des petites régions

Page 25: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

25

Tableau 3 Nombre total de personnes employées (A39) selon les estimations directes, indirectes et l’ÉR

(Moyenne annuelle tirée de l’EPA de 2003 )

Prov.

Estimations directes ÉR

Estimations Indirectes

ÉR - DirDir.Estima-

tionCV

Estima-tion

CV du mod.

RRMSE du mod.

Estima-tion

CV du mod.

RRMSE du mod.

TN 670 0,264 579 0,144 603 0,229 -0,136

ÎPE 233 0,235 207 0,168 187 0,179 -0,111

NE 1 532 0,19 1 417 0,105 1 450 0,177 -0,075

NB 1 275 0,171 1 112 0,1 1 083 0,168 -0,128

Qc 25 273 0,087 24 962 0,056 25 381 0,081 -0,012

ONT. 42 447 0,075 44 355 0,063 46 255 0,081 0,045

MAN. 3 023 0,143 2 348 0,082 2 251 0,129 -0,223

SASK. 1 963 0,173 1 766 0,091 1 753 0,164 -0,100

ALB. 7 643 0,144 7 276 0,078 7 292 0,134 -0,048

CB 8 676 0,142 8 712 0,094 8 792 0,129 0,004

Cana-da 92 734 0,046 92 734 0,046 95 047 0,073 0,000

Page 26: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

26

5. Démonstration du produit d’ÉR de STC

Démonstration du produit BUPF 1.0 Démonstration du produit BUPF 1.0

Page 27: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

28

Partie I : Préparation des données

Page 28: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

29

Partie II : Préparation de la modélisation

Page 29: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

30

Partie II : Préparation de la modélisation

Page 30: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

31

Partie III : Sélection et diagnostic du modèle

Page 31: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

32

Partie III : Sélection et diagnostic du modèle

Page 32: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

34

Partie IV : Estimation et évaluation régionales

Page 33: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

35

6. Mot de la fin et travaux à venir

Le produit BUPF offre plusieurs caractéristiques uniques pour l’ÉR, notamment l’auto-étalonnage, le regroupement de domaines pour les domaines non échantillonnés et un diagnostic approfondi.

L’interface graphique (GUI) pour le produit est aussi utile qu’une liste de vérification systématique ou un analyste virtuel pour une production efficace; elle est également utile pour la formation et la démonstration du produit.

Page 34: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

36

6. Mot de la fin et travaux à venir

Terminer la version bêta du modèle BUPF 1.0; la version actuelle est seulement en alpha ou un prototype et ne convient pas à la production.

Planifier une étude de validation grâce aux Recensement de 2006.

Page 35: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

37

Pour plus d’information, prière de communiquer avec

[email protected]

Thank you…Merci

Page 36: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

38

Annexe

Page 37: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

39

3. BUPF 1.0 : Description

Partie I : Préparation des données• M1 : Spécification des données

• M2 : Spécification des tâches• La définition des domaines servant à la modélisation des

petites régions (domaines de MPR) est très importantes

• Les estimations directes, dénombrements de population et données auxiliaires doivent être disponibles à ce niveau

• Le nombre de domaine de MPR devrait être suffisamment élevé pour une modélisation appropriée

• Ici, les domaines MPR = RE(73) selon l’âge(4) et selon le sexe(2)

Page 38: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

40

3. BUPF 1.0 : Description

Partie II : Préparation de la modélisation• M3 : Contraintes de l’étalonnage & modèle de base

• L’auto-étalonnage est important pour se protéger contre les pannes du modèle, car ce dernier n’est pas parfait

• Option : Sans la C.-B., ensemble de la C.-B., régions de la C.-B.

• M4 : Regroupement de domaines

• Solution de rechange améliorée par rapport au fait de laisser à l’extérieur du modèle les domaines de MPR dont la taille d’échantillon est petite.

• M5 : Lissage de la variance

Page 39: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

41

3. BUPF 1.0 : Description

Partie III : Sélection et diagnostic du modèle• M6 : Sélection du modèle

• Procédures standard de sélection ascendante et descendante

• M7 : Composante variance

• Nécessaire pour trouver le facteur de retrait approprié pour passer des estimations indirectes aux estimations directes

• M8 : Séquence d’innovation

• Permet de diagnostiquer le modèle à l’aide de tests d’erreur standard pour données indépendantes et à distribution identique N(0,1)

• M9 : Diagnostic du modèle

• Représentations graphiques résiduelles, diagrammes quantile-quantile, valeur moyenne quadratique, test du khi carré pour la détermination de la surdispersion et de la pertinence du modèle…

Page 40: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

42

3. BUPF 1.0 : Description

Partie IV : Estimation et évaluation régionales

• M10 : Estimation régionale

• M11 : Évaluation des estimations

• Vérifier les différences relatives entre les estimations directes et l’ÉR

• Autres mesures

SAE (direct) (1 )(indirect)

(indirect) [(direct) (indirect) ]

: shrinkage factord

d d d d d

d d d d

Page 41: 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique Statistique Canada, Ottawa (Pour présentation à lAtelier

43

3. BUPF 1.0 : Description

Partie V : Tableau récapitulatif• M12 : Résumé général

• Conception de l’échantillonnage et sources de données (Partie I)

• Diagnostic des données d’entrée (Partie II)

• Diagnostic de la modélisation (Partie III)

• Diagnostic des données de sortie (Partie IV)