23
Programme de recherche et développement en méthodologie : réalisations N o 12-206-X au catalogue ISSN 1705-0812 Programme de recherche et développement en méthodologie : réalisations en 2013-2014

Programme de recherche et développement en méthodologie

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Programme de recherche et développement en méthodologie

Programme de recherche et développement en méthodologie : réalisations

No 12-206-X au catalogue ISSN 1705-0812

Programme de recherche et développement en méthodologie : réalisations en 2013-2014

Page 2: Programme de recherche et développement en méthodologie

Signes conventionnels dans les tableauxLes signes conventionnels suivants sont employés dans les publications de Statistique Canada :

. indisponible pour toute période de référence .. indisponible pour une période de référence précise ... n’ayant pas lieu de figurer 0 zéro absolu ou valeur arrondie à zéro 0s valeur arrondie à 0 (zéro) là où il y a une distinction importante entre le zéro absolu et la valeur arrondie p provisoire r révisé x confidentiel en vertu des dispositions de la Loi sur la statistique E à utiliser avec prudence F trop peu fiable pour être publié * valeur significativement différente de l’estimation pour la catégorie de référence (p<0,05)

Comment obtenir d’autres renseignementsPour toute demande de renseignements au sujet de ce produit ou sur l’ensemble des données et des services de Statistique Canada, visiter notre site Web à www.statcan.gc.ca. Vous pouvez également communiquer avec nous par : Courriel à [email protected] Téléphone entre 8 h 30 et 16 h 30 du lundi au vendredi aux numéros suivants :

• Service de renseignements statistiques 1-800-263-1136 • Service national d’appareils de télécommunications pour les malentendants 1-800-363-7629 • Télécopieur 1-514-283-9350

Programme des services de dépôt

• Service de renseignements 1-800-635-7943 • Télécopieur 1-800-565-7757

Publication autorisée par le ministre responsable de Statistique Canada

© Ministre de l’Industrie, 2014

Tous droits réservés. L’utilisation de la présente publication est assujettie aux modalités de l’entente de licence ouverte de Statistique Canada.

Une version HTML est aussi disponible.

This publication is also available in English.

Note de reconnaissanceLe succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population du Canada, les entreprises, les administrations et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques exactes et actuelles.

Normes de service à la clientèleStatistique Canada s’engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s’est doté de normes de service à la clientèle que les employés observent. Pour obtenir une copie de ces normes de service, veuillez communiquer avec Statistique Canada au numéro sans frais 1-800-263-1136. Les normes de service sont aussi publiées sur le site www.statcan.gc.ca sous « Contactez-nous » > « Normes de service à la clientèle ».

Page 3: Programme de recherche et développement en méthodologie

Programme de recherche et développement en méthodologie :réalisations en 2013-2014Le présent rapport fait la synthèse des réalisations de 2013-2014 du Programme de recherche et développement en méthodologie (PRDM), parrainépar la Direction de la méthodologie de Statistique Canada. Ce programme englobe les activités de recherche et de développement qui ont trait à desméthodes statistiques susceptibles d’être appliquées à grande échelle aux programmes d’enquête de l’organisme; ce sont des activités qui, autrement,ne seraient pas entreprises dans le cadre des services de méthodologie offerts à ces programmes d’enquête. En outre, dans le but de promouvoirl’utilisation des résultats des travaux de recherche et de développement, le PRDM comprend des activités de soutien aux clients pour la mise enapplication de travaux de développement antérieurs fructueux. Des renseignements supplémentaires sur les projets décrits peuvent être obtenus auprèsdes personnes-ressources mentionnées. Pour en savoir davantage sur le PRDM dans son ensemble, communiquez avec :

Mike Hidiroglou (613-951-0251, [email protected]).

Statistique Canada, numéro 12-206-X au catalogue 3

Page 4: Programme de recherche et développement en méthodologie

Projets de recherche

Recherche, développement et consultation à la DRIS (Division de la recherche et de l’innovation en statistiqu)La Division de la recherche et de l’innovation en statistique (DRIS) a été créée au sein de la Direction de la méthodologie le 21 juin 2006. La DRIS(Division de la recherche et de l’innovation en statistique) est responsable de la recherche, de l’élaboration et de la promotion de techniques nouvelleset novatrices en méthodologie statistique, ainsi que de la surveillance et de l’encadrement de l’adoption de ces techniques en vue d’appuyer lesprogrammes statistiques de Statistique Canada. Son mandat comprend aussi l’offre d’un leadership technique, de conseils et d’un encadrement auxemployés des autres secteurs du Programme de recherche et développement en méthodologie. Ce soutien prend la forme de conseils sur lesproblèmes méthodologiques que posent les projets en cours ou l’élaboration de nouveaux projets. La DRIS (Division de la recherche et de l’innovationen statistique) travaille aussi de concert avec d’autres employés à des projets de recherche parrainés par le programme de recherche et développementen méthodologie (PRDM).

En 2013-2014, la DRIS (Division de la recherche et de l’innovation en statistique) a participé à de nombreux projets de recherche, de développement etde consultation. La contribution de ses employés a été importante, notamment en ce qui touche l’estimation, l’estimation sur petits domaines et lestechniques applicables aux séries chronologiques. Des renseignements détaillés sur les progrès accomplis sont présentés dans la description dessujets de recherche, plus loin dans le présent rapport.

Mike Hidiroglou, Victor Estevao et Yong You ont terminé les spécifications requises pour le développement du logiciel d’estimation sur petits domaines(EPD) selon les méthodes hiérarchiques bayésiennes (HB). Ensuite, deux nouvelles méthodes d’estimation HB, soit un modèle logarithmique du sous-dénombrement du recensement sans appariement et un modèle logarithmique linéaire (avec variances connues), ont été programmées et mises àl’essai conformément à ces spécifications. Ces procédures ont été ajoutées à l’ensemble des procédures liées au prototype d’estimation sur petitsdomaines conçu par la DRIS (Division de la recherche et de l’innovation en statistique). Nous avons mis à jour la documentation sur l’estimation surpetits domaines en y ajoutant la méthodologie propre à ces deux nouvelles méthodes HB, et en préparant un nouveau guide de l’utilisateur avec desexemples.

François Laflamme a poursuivi son travail de collecte de données dans plusieurs domaines, notamment : i. L’utilisation d’un plan de collecte dynamiquedans les enquêtes interview téléphonique assistée par ordinateur (ITAO); ii. Le suivi des enquêtes à l’aide du questionnaire électronique (QE) dans lecontexte de la collecte multimodale; iii. L’élaboration d’un nouveau tableau de bord résumant les progrès et le rendement de l’enquête à l’aided’indicateurs clés répartis en différentes catégories (par exemple bureau régional, taux de réponse, temps système du budget, temps système écoulé,

pourcentage du temps système du budget écoulé); iv. La réalisation d’une analyse à l’aide du Registre des adresses afin de mesurer l’incidence del’utilisation de la nouvelle base de sondage sur les taux de réponse à l’ESG27IS (Enquête sociale générale Identité sociale, 2013 Enquête principale) età l’ESG-DBP (Enquête sociale générale – Don, bénévolat et participation). Des présentations ont été faites lors de conférences et devant divers

Statistique Canada, numéro 12-206-X au catalogue 4

Page 5: Programme de recherche et développement en méthodologie

comités : plusieurs articles ont été écrits et présentés sur les résultats de la recherche.

Takis Merkouris a effectué des travaux relatifs à l’estimation sous plusieurs angles, y compris : i. L’estimation linéaire optimale dans l’échantillonnage àdeux phases. Dans ce projet, une méthode d’estimation de l’efficacité optimale a été élaborée, incluant l’utilisation d’un calage en une seule étape pourla première phase et des poids d’échantillonnage pour la deuxième phase. ii. L’intégration de données. Une procédure de calage visant à « intégrer »efficacement des données dans plusieurs fichiers a été élaborée. iii. L’estimation par régression pseudo-optimale. L’objectif de ce projet est de trouverune solution de rechange pratique pour effectuer l’estimation par régression optimale non dépistable, grâce à une procédure plus efficace que l’habituelcalage par régression généralisée. Ce travail est réalisé en collaboration avec Mike Hidiroglou.

Susana Rubin-Bleuer a participé à plusieurs projets de consultation et de recherche liés à l’estimation sur petits domaines (EPD), notamment entravaillant à une étude de faisabilité sur la production des 212 estimations sur petits domaines nécessaires au Système de comptabilité nationale avecles données de l’enquête Recherche et développement dans l’industrie canadienne. Dans le cadre de cette étude, Susana a élaboré et mis en œuvreune méthode de suppression des valeurs aberrantes dans l’EPD (estimation sur petits domaines), et elle a ensuite utilisé le système d’EPD (estimationsur petits domaines) pour produire les estimations. Susana a préparé et donné un cours intensif d’une journée sur l’estimation sur petits domaines afind’aider les méthodologistes d’enquête à comprendre les enjeux de base de l’EPD ( estimation sur petits domaines) et de leur apprendre commentappliquer l’EPD (estimation sur petits domaines) dans leurs milieux de travail respectifs. En outre, Susana a travaillé sur un modèle transversal et deséries chronologiques pour les enquêtes-entreprises (voir la section Estimation sur petits domaines) et, avec des coauteurs, sur les extensions del’estimateur des pseudo-EBLUP avec application à l’Enquête sur l’emploi, la rémunération et les heures de travail (EERH) et l’estimateur de variancepositif pour le modèle de Fay-Herriot au niveau du domaine.

Harold Mantel et Mike Hidiroglou ont élaboré des idées en vue d’utiliser l’échantillonnage à une phase dans l’Enquête sur la population active. Ils ontmis de l’avant des propositions touchant des plans d’échantillonnage à une phase qui corrigeraient les problèmes d’efficacité sans perturber lesestimations des variations.

Jean-François Beaumont a participé à plusieurs projets de recherche. Il a notamment étudié, avec des coauteurs, un estimateur de variance simplifiépour l’échantillonnage à deux phases, et il a élaboré une méthode d’estimation de Winsor. Cette dernière peut être considérée comme une façon demettre en œuvre l'estimateur de Beaumont, Haziza et Ruiz-Gazen (2013), qui permet de limiter l'incidence des valeurs influentes. De plus, Jean-François a collaboré à deux projets sur le bootstrap, à un projet sur la pondération des répondants tardifs (voir la section Échantillonnage et estimation),ainsi qu'à un projet sur l’utilisation d’une procédure adaptative pour la détermination de l’ordre de priorité des appels (voir la section Collecte desdonnées).

Benoit Quenneville (2013) a mis au point une procédure d'estimation de la variance des séries désaisonnalisées produites par X-12-ARIMA. Cettevariance est à la fois fondée sur le modèle (elle tient compte des processus de X-12-ARIMA) et sur le plan de sondage (elle intègre l'aspect del'échantillonnage des séries).

En plus de participer aux activités de recherche menées par le Programme de recherche et développement en méthodologie (PRDM) à titre de chefs deprojet et de chercheurs, les employés de la DRIS (Division de la recherche et de l’innovation en statistique) ont pris part aux activités suivantes :

Le personnel a donné des conseils aux membres d’autres divisions de méthodologie concernant les questions techniques suivantes :Mike et son équipe ont continué de fournir des conseils sur l’échantillonnage et les procédures d’estimation utilisées pour les enquêtes-entreprises annuelles. Ces conseils ont été donnés lors des réunions habituelles du comité directeur du Programme intégré de la statistiquedes entreprises (PISE) ainsi qu’à l’occasion des réunions du comité technique sur les enquêtes-entreprises.PISE : Des consultations (J.-F. Beaumont) ont eu lieu sur la façon d’utiliser SEVANI et G-EST pour le PISE. Un court document a été rédigéau sujet de l’estimation de la variance d’échantillonnage avec un échantillon à deux phases lorsque l’imputation est utilisée pour combler lesvaleurs manquantes.Enquête sur la santé dans les collectivités canadiennes (ESCC)/Enquêtes sur la santé : Le personnel de la DRIS (Division de la recherche etde l’innovation en statistique) a été consulté sur la façon de traiter le plan d’échantillonnage dans la réalisation d’analyses complexes.Nombreuses consultations ou important soutien méthodologique (François Laflamme) offerts à la haute direction du secteur 7, auxgestionnaires de projets de la Division de la planification et de la gestion de la collecte (DPGC) (qui exigeaient une attention immédiate), àdes projets ministériels spéciaux importants (SICO) et aux méthodologistes/sujets touchant la recherche sur les paradonnées (par exemplele projet pilote du questionnaire électronique de l’Enquête sur la population active (EPA)) ou l’analyse de la collecte de données (de 4 à5 demandes de consultation par mois en moyenne).Victor Estevao et Yong You ont été consultés par une délégation du bureau central de statistique de la Chine sur l’estimation sur petitsdomaines. Des conseils et plusieurs présentations ont été offerts à la délégation, notamment une démonstration du prototype d’EPD(estimation sur petits domaines) conçu par la DRIS (Division de la recherche et de l’innovation en statistique). Une copie du prototype a étéremise à la délégation afin qu’elle puisse faire des essais avec ses propres ensembles de données.Jean-François Beaumont (ainsi que Christian Nadeau, Johanne Tremblay et Wisner Jocelyn) a été consulté par une délégation du bureaucentral de statistique de la Chine sur l’utilisation des données fiscales à des fins de calage.Jean-Francois Beaumont a donné des conseils sur le bootstrap généralisé pour l’ESCC et les enquêtes postcensitaires.Harold Mantel a été consulté sur la façon de traiter le plan d’échantillonnage dans la réalisation d’analyses complexes dans l’ESCC et lesenquêtes sur la santé.Harold Mantel a coopéré avec les membres des autres divisions de méthodologie sur la meilleure façon de générer les intervalles deconfiance pour les proportions. Cette coopération s’est conclue par un document qui résume les méthodes et les évaluations empiriquesainsi que les comparaisons relevées dans la littérature, et qui examine la pertinence des méthodes pouvant être utilisées avec les données

d’enquêtes complexes. On a recommandé d’utiliser provisoirement la méthode du bootstrap fondée sur un percentile, si possible, et uneméthode de Clopper-Pearson modifiée lorsque la proportion observée est de 0 ou 1.Mike Hidiroglou et Victor Estevao ont collaboré avec Christian Nambeu (Recensement et Division des enquêtes-ménages) afin d’ajuster leschiffres du Recensement de 2011 avec les résultats de la contre-vérification des dossiers. Ils ont utilisé le prototype de l’EPD (estimation surpetits domaines) pour produire les ajustements requis.

La DRIS (Division de la recherche et de l’innovation en statistique) a participé à trois présentations au Comité consultatif des méthodesstatistiques :

Statistique Canada, numéro 12-206-X au catalogue 5

Page 6: Programme de recherche et développement en méthodologie

En avril 2013, Mike Hidiroglou et Victor Estevao ont présenté une procédure à trois phases pour traiter la non-réponse à l’aide du suivi. Cetarticle a été réalisé dans le but de traiter la non-réponse dans l’Enquête nationale auprès des ménages.En novembre 2013, François Laflamme a présenté une procédure uniforme pour l’utilisation du cadre sur le plan de collecte adaptatif dansles enquêtes multimodales.Jean-Francois Beaumont, Cynthia Bocci et Mike Hidiroglou ont étudié certaines procédures de pondération pour les répondants tardifs. Cetarticle a été réalisé dans le but de traiter les répondants tardifs à l’Enquête nationale auprès des ménages. Il a été présenté au Comitéconsultatif des méthodes statistiques au début de mai 2014.

La DRIS (Division de la recherche et de l’innovation en statistique) a consulté les membres du Comité des méthodes et des normes, ainsi quecertains autres gestionnaires de Statistique Canada, afin d’établir les priorités du programme de recherche.Les employés ont poursuivi leurs activités au sein de divers comités de la Direction de la méthodologie, notamment le Comité de l’apprentissage etdu perfectionnement et le Comité de l’informatique. En particulier, ils ont participé activement à la recherche et à la discussion des articles du mois.Mike Hidiroglou a été membre du Census Scientific Advisory Committee (CSAC) à l’automne 2013 et au printemps 2014.Jean-François Beaumont a fait deux présentations sur l’analyse des données d’enquête à l’aide du bootstrap. La première à l’occasion de laconférence italienne sur la méthodologie d’enquête, à Milan, et la seconde au Joint Statistical Meeting à Montréal.Susana Rubin-Bleuer a présenté une communication sollicitée sur la méthodologie de microstrates pour contrôler le chevauchement deséchantillons à la conférence annuelle de la Société statistique du Canada, en 2013.Jean-François Beaumont a coprésenté deux ateliers à la Conférence de l’Institut international de statistique (IIS) à Hong Kong. Le premier atelierportait sur les méthodes utilisées pour les enquêtes-entreprises tandis que le second traitait de la vérification et de l’imputation des donnéesd’enquête.La DRIS (Division de la recherche et de l’innovation en statistique) a continué de soutenir activement la revue Techniques d’enquête. MikeHidiroglou en est le rédacteur en chef depuis janvier 2010. Cinq employés de la DRIS (Division de la recherche et de l’innovation en statistique)contribuent à la revue, un à titre de rédacteur associé et trois autres à titre de rédacteurs adjoints.Jean-François Beaumont est le président du Comité scientifique du Symposium de 2014. Un programme provisoire a été préparé.Mike Hidiroglou et Jean-François Beaumont sont les cosignataires d’un article sur les contributions de Statistique Canada aux méthodesd’enquête, qui a été publié dans un livre de Chapman & Hall sous la direction de J.F. Lawless.Les employés ont rédigé ou corédigé plusieurs articles qui sont cités à la fin du présent rapport (DOCUMENTS DE RECHERCHE PARRAINÉSPAR LE PRDM).

Pour obtenir de plus amples renseignements, veuillez communiquer avec : Mike Hidiroglou (613 951-0251, [email protected]).

Vérification et imputationLes principaux objectifs de la recherche sur la vérification et l’imputation sont les suivants : i) élaborer de nouvelles méthodes en vue de résoudre lesenjeux associés aux programmes statistiques; ii) comparer les méthodes existantes sur le plan théorique ou empirique; et iii) développer des outilsinformatiques qui permettront d’utiliser les meilleures méthodes dans les programmes statistiques. Deux projets ont été réalisés pendant l’exercicefinancier. Le premier consistait à améliorer un outil informatique pour la détection des valeurs aberrantes. Le second projet portait sur l’estimation de lavariance de rééchantillonnage lorsque les valeurs manquantes sont entrées par imputation avec la méthode du plus proche voisin.

1. Outil de comparaison de différentes méthodes de détection de valeurs aberrantes

Au cours de la dernière année, nous avons poursuivi des discussions sur les développements possibles de notre outil de comparaison de méthodes dedétection de valeurs aberrantes et avons continué d’offrir du soutien aux utilisateurs. Entre autres, nous avons discuté de l’adaptation de l’outil pour lesbesoins de l’Indice des prix à la consommation (IPC) dans lequel on souhaite cibler les données les plus influentes sur les poids de panier. On adéterminé plusieurs méthodes qui pourraient être utiles à l’IPC. On souhaite également détecter les valeurs aberrantes dans les séries temporelles. Parconséquent, on prévoit dans un proche avenir développer une méthode de détection utilisant les séries chronologiques. Le développement se feraconjointement avec la section des séries chronologiques. En plus de l’IPC, d’autres utilisateurs à Statistique Canada ont montré de l’intérêt pour unetelle méthode. On débutera avec une méthode générique et on améliorera la méthode selon la rétroaction des utilisateurs. On a aussi développé laméthode ‘estimation M généralisée’ afin de comparer les résultats avec la méthode ‘estimation M’ déjà disponible avec l’outil. Par ailleurs, une nouvellefonction graphique est en test pour la méthode de l’estimation M.

De plus, nous avons présenté l’outil aux personnes responsables de l’enquête sur les voyages internationaux où on est surtout intéressé à la méthode‘Sigma-Gap’. On prévoit également faire des présentations pour deux autres enquêtes. On a aussi effectué une mise à jour du guide de référencerapide, mais elle n’est disponible qu’en français pour le moment.

Finalement, l’agence statistique de Nouvelle-Zélande a montré de l’intérêt pour notre outil de détection de valeurs aberrantes et une licence leur a étéenvoyée.

2. Calcul de la variance due à la non-réponse avec l’utilisation de méthodes de ré échantillonnage

Le but de cette recherche était de proposer une méthode de bootstrap pour estimer la variance due à la non-réponse d’un estimateur imputé du totallorsque les données manquantes sont imputées par la méthode d’imputation par le plus proche voisin (IPPV).

L’IPPV est une méthode d’imputation non paramétrique, car la forme du modèle d’imputation n’est pas explicitement détaillée. Cette caractéristique del’IPPV est très intéressante au moment de l’imputation, car cette méthode est plus robuste à une mauvaise spécification du modèle contrairement à uneméthode d’imputation comme l’imputation par la régression pour laquelle les deux premiers moments (moyenne et variance) doivent être spécifiéscorrectement. Par contre, l’IPPV complexifie l’estimation de la variance et il faut très souvent faire des hypothèses additionnelles pour arriver à uneestimation de variance valide.

Nous avons proposé d’utiliser le bootstrap pour estimer la variance afin d’éviter toute hypothèse additionnelle. Le cadre d’inférence utilisé pourl’estimation de la variance est basé sur le modèle d’imputation (par exemple Särndal, 1992). Des répliques bootstrap de la taille de l’échantillon initial

Statistique Canada, numéro 12-206-X au catalogue 6

Page 7: Programme de recherche et développement en méthodologie

sont sélectionnées à partir de l’échantillon de répondants. Dans chacune des répliques, l’erreur due à la non-réponse est estimée. L’estimation bootstrapde la variance peut ensuite être calculée. La méthode proposée a tendance à surestimer la variance due à la non-réponse. Nous tentons d’identifier lacause du problème afin d’y apporter une solution.

Les résultats de cette recherche pourraient être utilisés dans de nombreuses enquêtes menées à Statistique Canada, comme le programme desentreprises non-incorporées (T1), qui utilisent l’imputation par le plus proche voisin pour imputer les valeurs manquantes.

Pour obtenir de plus amples renseignements, veuillez communiquer avec : Jean-François Beaumont (613 951-1479, [email protected]).

Bibliographie

Särndal, C.-E. (1992). Méthodes pour estimer la précision des estimations d’une enquête ayant fait l’objet d’une imputation. Techniques d’enquête, 18,2, 257-268.

Échantillonnage et estimationLe présent rapport d’avancement regroupe les quatre projets de recherche touchant l’échantillonnage et l’estimation :

1. Méthode bootstrap généralisée pour plans à trois phases2. Pondération des répondants tardifs dans le suivi d'un sous-échantillon de non-répondants3. Calage incomplet (ou Calage avec un total de contrôle estimé)4. Estimation de variances et contrôle de divulgation avec la méthode du bootstrap

1. Méthode bootstrap généralisée pour plans à trois phasesL’objectif de cette recherche est le développement d’une méthode bootstrap d’estimation de la variance pour l’Enquête auprès des peuples autochtones(EAPA) de 2012. L’échantillon de personnes de l’EAPA provient d’un plan de sondage à trois phases. Les deux premières phases correspondent àl’échantillon de ménages de l’Enquête nationale auprès des ménages (ENM). La deuxième phase de l’ENM (Enquête nationale auprès des ménages)est due au sous-échantillonnage des non-répondants pour le suivi de la non-réponse. L’échantillonnage aléatoire simple sans remise est utilisé àchaque phase. Il n’existe présentement aucune application de la méthode bootstrap pour un tel plan de sondage. Nous avons donc développé uneextension du bootstrap généralisé de Langlet, Beaumont et Lavallée (2008) pour un plan à deux phases. Cette méthode s’inspire elle-même de laméthodologie de Beaumont et Patak (2012) pour les plans à une phase.

La méthode considérée nécessite le calcul des probabilités d’inclusion simples et conjointes à chacune des phases. Compte tenu de la non-réponse àl’ENM (Enquête nationale auprès des ménages) au sous-échantillon des non-répondants, on a considéré l’ENM (Enquête nationale auprès desménages) comme étant un plan à trois phases. Des probabilités d’inclusion ont été calculées pour chacune des trois phases et ces probabilités ont étécombinées pour obtenir des probabilités d’inclusion représentant les trois phases combinées. En ajoutant l’échantillonnage de l’EAPA comme unedeuxième phase, on peut alors utiliser le bootstrap généralisé pour plans à deux phases.

Un prototype (macro SAS) pour le calcul des poids bootstrap initiaux a été créé et des poids bootstraps finaux ont été produits. Le prototype pourraitêtre utilisé pour n’importe quelle enquête similaire qui a un plan à trois phases ou moins comme, par exemple, les enquêtes post-ENM (Enquêtenationale auprès des ménages). En fait, la méthode a aussi été utilisée pour l’enquête canadienne sur l’incapacité (ECI). La méthode pourrait égalementêtre utilisée sur l’ENM (Enquête nationale auprès des ménages) elle-même.

On a aussi établi l’impossibilité de toujours pouvoir trouver des poids bootstrap positifs tout en satisfaisant les contraintes sur les deux premiersmoments.

On a trouvé une façon d’éliminer la dépendance de l’ajustement de deuxième phase de celui de première phase. Ceci permet d’éviter les poidsbootstrap extrêmes et pourrait être utilisé lors d’une prochaine enquête post censitaire.

Dans le cadre de l’EAPA et de l’ECI, tous les ajustements de pondération ont été appliqués aux poids bootstrap initiaux pour obtenir des poids bootstrapfinaux tenant compte de tous les ajustements aux poids de sondage. En particulier, les facteurs d’ajustement aléatoire de 1re phase (ENM) associés àla méthode du bootstrap généralisé à deux phases ont servi à calculer des totaux de contrôle variables (estimations de l’ENM (Enquête nationale auprèsdes ménages)) lors de la poststratification.

La méthode a été documentée dans la partie portant sur l’estimation de la variance du rapport méthodologique de l’EAPA. Le projet de recherche estmaintenant terminé.

2. Pondération des répondants tardifs dans le suivi d’un sous-échantillon de non-répondants

La non-réponse est fréquente dans les enquêtes et mène, en principe, à des estimations présentant un biais. Un moyen utile de contrôler le biais dû à lanon-réponse consiste à effectuer un suivi auprès d’un sous-échantillon aléatoire de non-répondants après une certaine période pendant la collecte desdonnées. Le biais dû à la non-réponse peut être éliminé grâce à une stratégie de pondération appropriée, en supposant que toutes les unitéssélectionnées dans le sous-échantillon répondent. On procède parfois à la sélection d’un sous-échantillon de non-répondants, car cette pratique peutêtre moins coûteuse que le suivi auprès de tous les non-répondants.

Toutefois, dans la pratique, on ne peut complètement éliminer le biais dû à la non-réponse, car il est peu probable que toutes les unités sélectionnéesdans le sous-échantillon donnent une réponse. Cependant, il est possible de traiter la non-réponse dans le sous-échantillon de suivi en utilisant destechniques normalisées telles que la pondération de la non-réponse ou l’imputation.

Ce projet vise à mettre l’accent sur un enjeu de pondération délicat qui résulte des réponses tardives. Les répondants tardifs sont ceux qui répondentfinalement à l’enquête, mais après la sélection du sous-échantillon. Il est donc possible que ces répondants tardifs aient été sélectionnés dansl’échantillon de suivi. Nous élaborons et étudions des stratégies de pondération pour la non-réponse qui pourraient permettre de traiter les répondants

Statistique Canada, numéro 12-206-X au catalogue 7

Page 8: Programme de recherche et développement en méthodologie

tardifs autrement qu’en les éliminant.

Nous avons élaboré deux méthodes de pondération qui produisent des estimateurs cohérents des totaux pourvu que l’on trouve des estimateurscohérents des probabilités inconnues d’être un répondant tardif. La théorie a été élaborée et consignée. Nous avons effectué une étude de simulationpour évaluer ces deux approches. Nous avons en outre préparé un résumé de deux pages et un document d’information de 10 pages requis pour leComité consultatif des méthodes statistiques (CCMS).

3. Calage incomplet (ou Calage avec un total de contrôle estimé)

Singh et Raghunath (2011) ont proposé un estimateur motivé par un modèle de régression dont l’un des totaux, en l’occurrence la taille de la populationétait estimée en utilisant les poids de sondage de l’enquête. Sous certaines conditions, cet estimateur peut être plus efficace qu’un estimateur parrégression qui utilise le vrai total. Nous avons comparé cet estimateur dans le cas précis de deux variables auxiliaires (la variable constante et unevariable indépendante) aux estimateurs par la régression linéaire simple; l’estimateur par le ratio et deux estimateurs optimaux (le premier utilisantuniquement la variable indépendante et le second utilisant les deux variables).

Une étude par simulation a été réalisée en utilisant différents plans de sondage (taille fixe et taille aléatoire) : le plan de Midzuno (Midzuno, 1952), leplan de Sampford et le plan de Poisson. Elle a montré que selon le plan de sondage, l’estimateur étudié pouvait mieux performer que les estimateurscompétiteurs. De plus, notamment dans le plan de Midzuno, la performance de l’estimateur optimal utilisant les deux variables auxiliaires était en deçàdes attentes : l’estimateur était très instable. Par ailleurs, sous le plan de Poisson, l’estimateur étudié par Singh et Raghunath (2011) performaitbeaucoup moins bien que les autres estimateurs.

Durant la période en cours, nous avons fait deux présentations : la première au symposium international de 2013 et la seconde au congrès annuel de laSociété statistique du Canada (SSC) 2013. Actuellement, nous considérons la rédaction d’un article qui sera soumise dans une revue scientifique.

4. Estimation de variances et contrôle de divulgation avec la méthode du bootstrapUn grand nombre d’enquêtes auprès des ménages utilisent la méthode du bootstrap afin d’estimer la variance des estimations produites à partir de leursdonnées d’enquêtes. La méthode Rao-Wu-Yue (1992) est typiquement utilisée pour répliquer le processus d’échantillonnage dans la génération despoids bootstrap. Cette méthode Rao-Wu-Yue mène à la création d’ensembles de poids bootstrap permettant naturellement de dériver les variables duplan de sondage sous-jacentes à la création des poids bootstrap, ce qui cause des problèmes à la diffusion de ces poids. En effet, de tels poidsbootstrap ne peuvent accompagner les fichiers de microdonnées à grande diffusion, puisque les caractéristiques de plan de sondage peuvent êtreretracées via les poids bootstrap.

Le but du projet est d’examiner différentes méthodes de variances bootstrap selon trois critères dans l’espoir qu’une de celles-ci produise desestimations de variances de qualité, tout en protégeant l’information du plan de sondage. Les trois critères sont :

1. Produire une estimation de qualité de la vraie variance;2. Performer même dans les cas où la fraction de sondage est élevée;3. Protéger la divulgation des variables sous-jacentes au plan de sondage.

L’analyse des quatre méthodes d’estimation de variance bootstrap a été complétée du point de vue de l’exactitude des différentes méthodes à estimer lavraie variance. Depuis le rapport semestriel précédent, les résultats d’estimations de variances pour de petits domaines ont été analysés. Les résultatscomplets ont été présentés au Comité technique de la Division des méthodes d'enquêtes auprès des ménages (DMEM) en novembre 2013.

Une autre étape du projet consiste à appliquer les méthodes reçues aux données d’enquêtes existantes. Ainsi, la méthode généralisée est à être miseen place dans le contexte de l’Enquête sur la santé dans les collectivités canadiennes. Cette enquête utilise déjà la méthode de Rao-Wu-Yue, et arécemment testé la méthode de Poisson. Ces méthodes seront comparées en termes d’exactitude, puis en termes de capacité à contrôler la divulgationd’information confidentielle (plus spécifiquement l’information du plan de sondage).

La documentation des résultats et certaines recommandations seront incorporées au rapport du projet de recherche.

Une proposition de recherche a été soumise et fait un peu suite à l’idée couverte par ce projet, c’est-à-dire de produire des poids bootstrap ne dévoilantpas d’information confidentielle. Il s’agit d’explorer la méthode suggérée par Kim et Wu (2013) et voir si cette méthode respecte les critères recherchéset si la confidentialité des informations (reliées au plan de sondage) est respectée. La proposition a été retenue et le travail commencera durant l’annéefiscale 2014-15.

Pour plus de renseignements, s’adresser à François Brisebois (613 951-5338, [email protected]).

Bibliographie

Kim, J.K., et Wu, C. (2013). Estimation parcimonieuse et efficace de la variance par ré échantillonnage pour les enquêtes complexes. Techniquesd’enquête, 39, 1, 105-137.

Midzuno, H. (1952). On the sampling system with probability proportional to sum of size. Annals of the institute of statistical Mathematics, 3, 99-107.

Singh, S., et Raghunath, A. (2011). On Calibration of design weights. METRON International.

Estimation sur petits domainesL’estimation sur petits domaines est plus pertinente aujourd’hui en raison de la hausse des coûts de la collecte de données, de la croissance de lademande de statistiques fiables pour les petits domaines et de la nécessité de réduire le fardeau de réponse. Les estimateurs directs s’appliquant à undomaine utilisent seulement les données provenant de l’échantillon dans ce domaine et leur précision n’est pas suffisante pour les petits domaines,parce que la taille de l’échantillon est petite. Par ailleurs, les estimateurs indirects (estimateurs sur petits domaines) empruntent des données à des

Statistique Canada, numéro 12-206-X au catalogue 8

Page 9: Programme de recherche et développement en méthodologie

domaines apparentés afin d’accroître la taille effective de l’échantillon. Des données sont empruntées aux autres domaines en s’appuyant sur une séried’hypothèses ou « modèle », puis les estimations sont produites en se basant sur ce modèle. Nos principaux objectifs de recherche sont d’aider àrépondre aux questions suivantes : 1) Existe-t-il une méthode d’estimation sur petits domaines (EPD) qui fournit des estimations de qualité suffisantepour la publication? Pouvons-nous fournir une mesure de la qualité fondée sur le plan de sondage (fondée sur les propriétés d’échantillonnage)?2) Pouvons-nous mettre cette méthode en œuvre dans un environnement de production (coûts de développement et coûts opérationnels, actualité,réputation de l’organisme par rapport à la demande des clients, fardeau de réponse, coûts de collecte)? 3) Comment les résultats du projet et lesquestions qu’il soulève aideront-ils Statistique Canada à élaborer une stratégie de production d’estimations fondées sur un modèle? Durant la périodevisée par le présent rapport, nous avons fait progresser les travaux et présenté des articles relatifs aux dix projets qui suivent, avec application auxenquêtes sociales et aux enquêtes-entreprises.

Extensions de l’estimateur des pseudo-EBLUP avec application à l’Enquête sur l’emploi, la rémunération et les heures detravail (EERH)

Nous avons comparé divers estimateurs sur petits domaines transversaux en vue d’une application éventuelle à l’EERH (Enquête sur l’emploi, larémunération et les heures de travail). En plus des extensions de l’estimateur des pseudo-EBLUP nécessaires à l’application à l’EERH (Enquête surl’emploi, la rémunération et les heures de travail), nous avons ajouté l’estimateur des EBLUP à la comparaison et aux graphiques utilisés afin demontrer que l’estimateur de l’erreur quadratique moyenne (EQM) fondée sur un modèle des divers estimateurs des EBLUP sous-estime l’EQM (erreurquadratique moyenne) fondée sur le plan de sondage. Nous avons terminé l’analyse des résultats et les avons intégrés à l’atelier sur l’estimation surpetits domaines qui s’est déroulé à Statistique Canada le 15 octobre 2013.

Un estimateur de variance positif pour le modèle d’estimation sur petits domaines Fay-HerriotL’estimateur fondé sur le meilleur prédicteur linéaire empirique (EBLUP), obtenu par ajustement du modèle de Fay-Herriot (1979), est une moyennepondérée de l’estimateur direct d’après les données d’enquête et de l’estimateur hybride régression-synthétique. Les poids dépendent de la variancedes effets de domaine aléatoires. Les méthodes classiques d’estimation de la variance produisent souvent des estimations négatives, dont on fixe lavaleur à zéro, et l’estimateur EBLUP devient un estimateur hybride régression-synthétique. Cependant, la plupart des praticiens hésitent à utiliser desestimateurs synthétiques pour les moyennes de petit domaine, puisque ces estimateurs ne tiennent pas compte de l’information fondée sur l’enquête etprésentent souvent un biais important. Ce problème a donné le jour à une série de méthodes d’estimation de la variance qui produisent toujours desestimations positives. Nous proposons l’estimateur de variance MIX, qui est non seulement positif, mais dont le biais possède aussi un taux deconvergence plus rapide que les autres estimateurs de variance positifs. En 2013-2014, nous avons étudié les propriétés théoriques et empiriques desestimateurs de variance de Li et Lahiri (2011) et de Yoshimori et Lahiri (2013), et nous les avons comparées avec l’estimateur de variance MIX (encollaboration avec Yong You).

Estimation sur petits domaines pour l’enquête sur la RDIC

L’enquête sur la Recherche et développement dans l’industrie canadienne (RDIC) utilise des données administratives et un échantillon de 2 000« entreprises » ou entités de collecte. Nous avons besoin de l’enquête sur la RDIC pour produire un fichier de microdonnées entièrement imputées ainsique des estimations sur les 212 groupes de la classification des industries de l’Amérique du Nord pour le Système de comptabilité nationale(SCN). Dans le PISE, les objectifs actuels et la taille de l’échantillon de la RDIC ne le permettent pas. Nous avons mené une étude de faisabilité sur laproduction d’estimations sur 212 petits domaines à l’aide des techniques d’estimation sur petits domaines. Nous avons étudié une variété de modèles etutilisé le système d’estimation sur petits domaines pour produire des estimations. Nous avons rédigé un rapport décrivant la méthodologie et expliquantles résultats.

Estimation sur petits domaines avec des modèles au niveau des unités en présence d’un plan de sondage informatifL’objectif du projet est de développer et d’étudier une méthode simple d’estimation pour de petits domaines qui se base sur des modèles au niveau desunités et qui produit des estimations fiables quand le plan de sondage est informatif. La méthode consiste à ajouter comme variable explicative aumodèle des variables du plan de sondage telles que le poids de sondage ou la mesure de taille lorsqu’on a affaire à un plan de sondage avec

probabilités de sélection proportionnelles à la taille.

Des simulations ont montré que l’ajustement du modèle augmenté permettait des gains de précision importants dans les estimations ponctuelles sousdes plans informatifs, tant du point de vue du biais que de l’erreur quadratique moyenne. Un article a été soumis à la revue Techniques d’enquête à lafin de l’année fiscale 2011-2012 et a été accepté conditionnellement à des révisions. Pendant l’année fiscale en cours, des simulations supplémentairesont été menées. L’article a été révisé et soumis de nouveau (Verret, Rao et Hidiroglou, 2014).

Ce projet comblera des lacunes de l’estimation pour de petites régions à l’aide de modèles au niveau des unités dues à l’hypothèse très forte que leplan de sondage n’est pas informatif. En effet, dans le contexte de l’estimation directe on ne fait pas cette hypothèse pour éviter des biais importants.

Estimation pour de petits domaines au recensement et à l’Enquête nationale auprès des ménages

Ce projet vise à appliquer des méthodes d’estimation pour de petits domaines dans le cadre du Recensement de la population de 2011 et de l’Enquêtenationale auprès des ménages (ENM) de 2011. D’une part, depuis plusieurs cycles du recensement l’estimation pour de petits domaines est utiliséepour estimer la sous-couverture par groupe d’âge des personnes vivant dans des réserves indiennes et des personnes d’identité autochtone. Dans lecadre de ce projet de recherche, le système d’estimation pour de petites régions de la DRIS (Division de la recherche et de l’innovation en statistique) aété utilisé pour estimer la sous-couverture en 2011 (Nambeu et Hidiroglou 2013).

D’autre part, avant de se pencher sur l’estimation pour de petits domaines avec les données de l’ENM (Enquête nationale auprès des ménages) on atenté d’ajuster des modèles au niveau des unités aux données du questionnaire long de 2006. Le but était d’obtenir des estimations plus précises destotaux de revenu par aire de diffusion et par secteur de recensement. Plusieurs défis se sont posés lors de l’ajustement des modèles d’estimation pourde petits domaines. Par exemple, il est difficile de tenir compte de la structure en grappes des données dans la définition de l’unité à l’étude et des

Statistique Canada, numéro 12-206-X au catalogue 9

Page 10: Programme de recherche et développement en méthodologie

variables explicatives du modèle. Malgré ces difficultés l’estimation pour petits domaines a donné des gains en précision appréciables par rapport auxestimateurs directs classiques.

Pour obtenir de plus amples renseignements, veuillez communiquer avec : Susana Rubin-Bleuer (613 951-6941, [email protected]).

BibliographieFay, R.E., et Herriot, R.A. (1979). Estimation of income from small places: An application of James-Stein procedures to census data. Journal of theAmerican Statistical Association, 74, 269-277.

Li, H., et Lahiri, P. (2011). An adjusted maximum likelihood method for solving small area estimation problems. Journal of Multivariate Analysis, 101, 882-892.

Yoshimori, M., et Lahiri, P. (2013). A new adjusted maximum likelihood method for the Fay-Herriot small Area model. Sera publié dans le Journal ofMultivariate Analysis.

Recherche sur l’analyse des données (RAD)Les ressources affectées à la recherche sur l’analyse des données sont utilisées pour mener des travaux de recherche sur des problèmes deméthodologie liés à l’analyse courante qui ont été relevés par les analystes et les méthodologistes; elles sont également consacrées à des travaux derecherche sur des problèmes qui devraient avoir une importance stratégique dans un avenir prévisible. Les personnes qui mènent cette rechercheacquièrent aussi de l’expérience en transfert de connaissances en publiant des articles techniques et en donnant des séminaires, des exposés et descours.

Analyse de l’acide désoxyribonucléique (ADN) aux fins d’enquêtesL’objectif principal de ce projet de recherche était de se préparer à répondre aux enjeux touchant l’analyse de l’ADN recueillie dans le cadre desenquêtes complexes. Statistique Canada recueille désormais l’ADN des répondants à l’Enquête canadienne sur les mesures de la santé (ECMS). Dansle cadre de cette enquête, nous avons commencé à recueillir des échantillons d’ADN auprès de participants consentants âgés de 20 ans et plus. Leséchantillons d’ADN sont congelés et conservés anonymement afin de protéger la confidentialité des participants. La biobanque contient des échantillonsd’ADN provenant d’environ 6 500 participants âgés d’au moins 20 ans. Pour obtenir de plus amples renseignements sur la biobanque, consultez lehttp://www.statcan.gc.ca/fra/enquete/menages/5071g. La disponibilité de ces échantillons biologiques offre de nouvelles occasions et de nouvelles voiesà explorer. Ces données génétiques peuvent servir à mettre en corrélation des traits génétiques associés à des problèmes de santé avec certainesvilles et régions, à déterminer les régions où certains types de services de santé seront très ou peu utilisés et à établir des liens entre des facteursdémographiques et socio-économiques et certains traits génétiques, en plus d’être utiles dans les modèles de microsimulation élaborés par StatistiqueCanada. Une bonne connaissance des techniques d’analyse de l’ADN est essentielle pour analyser ce nouveau type de données, car il faudra adapterces techniques aux analyses fondées sur le plan de sondage.

Afin de poursuivre la recherche sur l’analyse de l’ADN dans le cas des échantillons complexes, nous avons tout d’abord examiné les méthodesclassiques appliquées à l’épigénétique. Cet examen contribue à orienter davantage la recherche sur les méthodes d’analyse de l’ADN fondées sur leplan de sondage. Il est possible que le lecteur s’interroge sur le lien qui existe entre les analyses épigénétiques et les méthodes d’enquête quiintéressent Statistique Canada. Il faut comprendre que les méthodes d’analyse mentionnées ci-dessus ne sont que des techniques d’exploration dedonnées et que les données d’expression génique ne sont qu’un exemple de mégadonnées. L’analyse des mégadonnées est un volet dont l’importances’accroît à mesure que l’on recueille de plus en plus de données numériques qui offrent une mine d’information susceptible de modifier les méthodes decollecte et d’analyse des données utilisées par les organismes statistiques. La conversion à des enquêtes en ligne signifie que chaque questionnairepeut servir à recueillir une pléthore de paradonnées qui, une fois explorées, pourraient révéler de l’information susceptible d’aider à améliorer lesprocessus de collecte de façon à obtenir des données plus complètes et exactes. De plus, certaines ou toutes les méthodes appliquées à l’analyse desdonnées de microréseaux peuvent être appliquées à d’autres types d’analyses de mégadonnées.

Étendre l’analyse classique de l’ADN aux enquêtes complexes

Toutes les analyses d’ADN sont des analyses classiques. Cette recherche vise à examiner les enjeux touchant ce type d’analyse avec les données del’enquête. La combinaison de la superpopulation à deux phases et du modèle fondé sur le plan de sondage à deux phases (de Susana Rubin-Bleuer)semble être une option intéressante pour traiter certains enjeux touchant l’analyse des données épigénétiques.

Sujets sélectionnés dans les méthodes fondées sur le plan de sondage pour l’analyse des données d’enquête : l’analysede données bayésiennes pour les enquêtes complexesChaque année, on détermine certains sujets touchant les méthodes d’analyse des données d’enquêtes fondées sur le plan de sondage, mais ces sujetssont tous de trop faible portée pour devenir un projet unique. Cependant, chacun de ces sujets a une incidence sur les conseils présentés par le centrede ressources en analyse de données (CRAD) quant aux méthodes appropriées pour analyser les données d’enquête.

Cette recherche vise à examiner les méthodes d’analyse bayésiennes et à les comparer aux méthodes classiques et fondées sur le plan de sondage àl’aide de diverses sources de données. Statistique Canada n’utilise pas les méthodes bayésiennes pour analyser les données d’enquête. En général,nous utilisons les méthodes fréquentistes. Dans ce travail, on décrit d’abord les deux différentes approches statistiques à l’égard de l’inférence. Ensuite,on examine les différentes façons d’appliquer les méthodes d’analyse bayésiennes aux données d’enquête qui sont décrites dans la littérature.

Les méthodes bayésiennes peuvent être utiles pour réaliser l’analyse de données administratives ou de mégadonnées.

Toutefois, il existe peu de connaissances spécialisées sur ces méthodes, qui suscitent peu d’intérêt, alors que l’on accorde beaucoup de temps etd’importance à l’estimation fondée sur le plan de sondage et à l’analyse des enquêtes complexes. En outre, on trouve peu de documentation offrant une

Statistique Canada, numéro 12-206-X au catalogue 10

Page 11: Programme de recherche et développement en méthodologie

comparaison entre ces méthodes et leur utilité dans l’analyse de différentes données, notamment les données des enquêtes administratives oucomplexes.

For further information, contact: Karla Fox (613 951-4624, [email protected]).

Collecte de donnéesLa recherche en collecte a comme objectif de faire avancer les connaissances afin de pouvoir mettre en place des processus de collecte plus efficacesen termes de coût et de qualité.

Les projets de recherche en collecte couvrent 3 aspects principaux : 3 projets reliés à améliorer les véhicules de collecte; 1) l’établissement de lignesdirectrices pour le développement des questionnaires électroniques; 2) le développement d’une approche innovatrice au moyen de la théorie desgraphes pour analyser la complexité des questionnaires afin de potentiellement réduire le fardeau de réponse et faciliter le traitement post-collecte; et 3)le développement un instrument de mesure approprié afin de réduire l’erreur de réponse potentielle pour la collecte par procuration en tenant compte dumode de collecte. 3 projets visant à développer des mesures d’atténuation pour répondre au risque corporatif no 6 : 1) Revue des méthodes dedépistage afin de les améliorer; 2) l’évaluation de l’impact potentiel des incitatifs dans les enquêtes ménages; et 3)le développement d’un cadre detravail théorique pour la priorisation des suivis lors de la collecte des nouvelles stratégies de collecte. Finalement un projet relié à définir et évaluer leseffets des modes de collecte sur la qualité avec le développement d’un cadre mathématique afin d’évaluer les effets de mode.

Principes directeurs à l’égard des questionnaires électroniques

À mesure que le nombre d’enquêtes qui adoptent le questionnaire électronique augmente, les exigences relatives aux données et aux fonctionnalitésconnexes propres aux enquêtes continuent d’augmenter et d’évoluer. L’un des objectifs permanents du projet est de résumer et de consigner lesconnaissances acquises jusqu’à présent et de cerner les enjeux à examiner de manière plus approfondie en ce qui a trait à la conception desquestionnaires électroniques.

Le Comité des normes relatives aux questionnaires électroniques (CNQE) a repris ses activités en mai 2013. Le Centre de ressources en conception dequestionnaires (CRCQ) participe à ce comité interdisciplinaire et interdivisionnaire de façon hebdomadaire. En outre, nous avons entrepris la rédactiond’un document de recherche sur les méthodes présentement utilisées pour faire l’essai préliminaire des questionnaires électroniques.

Le CRCQ (Centre de ressources en conception de questionnaires) continue de participer directement à l’élaboration et à la mise en œuvre desstratégies d’essais de convivialité et d’interviews cognitives pour les enquêtes-entreprises et les enquêtes sociales qui adoptent l’environnement desquestionnaires électroniques. Les résultats de ces essais auprès des utilisateurs finaux aident à prendre les décisions à l’égard de la conception et dudéveloppement des applications de QE (questionnaires électroniques) nouvelles et existantes. Ces efforts ont pour objectif d’améliorer la qualité desdonnées en réduisant les erreurs de mesure possibles et le fardeau de réponse.

Puisque le projet des questionnaires électroniques n’est pas terminé, nous continuerons de résumer et de consigner les connaissances acquises dansle cadre des expériences de collecte de données en ligne de Statistique Canada, et de comparer ces résultats avec le travail de conception et derecherche réalisé par d’autres intervenants.

Approches de la théorie des graphes dans la conception des questionnairesL’objectif de la recherche consiste à automatiser et à comprendre les approches de la théorie des graphes dans la conception et l’élaboration desquestionnaires. Dans des recherches antérieures, Şchiopu-Kratina a montré que la théorie des graphes peut réussir à expliquer la complexité d’unquestionnaire. De plus, il a été montré qu’on pouvait utiliser cette méthode pour simplifier un questionnaire. Les travaux visent à étendre cette rechercheaux enjeux touchant l’automatisation de la méthode de calcul des scores de complexité et les méthodes de simplification des graphes. En plus de lafaisabilité de l’automatisation, on étudie l’utilité des indicateurs de la qualité du fardeau de réponse à l’aide des mesures de la complexité des graphes.On a travaillé à l’élimination de la double comptabilisation dans le score de complexité, mais aussi à l’élaboration, à l’aide de l’outil de conception desquestionnaires, d’un questionnaire d’essai qui aiderait à évaluer la faisabilité de l’automatisation. Des travaux sont présentement réalisés sur desapproches informatiques appropriées à l’automatisation et à la complexité. Des présentations ont été faites et des discussions ont eu lieu avec l’équiperesponsable de l’outil de conception des questionnaires afin de contribuer à l’automatisation de cette approche.

Les travaux futurs porteront sur la compréhension de la répartition générale des scores de complexité à Statistique Canada, mais aussi sur quelquesétudes de cas; et nous continuerons à explorer des options logicielles pour l’automatisation des graphes. Les applications de cette recherche peuventservir à réduire les coûts ou à améliorer la qualité des données. Cette approche pourrait éventuellement produire un indicateur utile du fardeau deréponse. Elle pourrait également aider à la conception des questionnaires, aux essais, à la vérification et à l’imputation, ainsi qu’à l’analyse.

Comprendre les réponses par personne interposéeL’objectif de cette recherche est de comprendre les facteurs associés à la qualité de la réponse par personne interposée dans le contexte des enquêtes-ménages. Sans comprendre les facteurs psychologiques, contextuels et structurels qui sous-tendent la qualité de la réponse par personne interposée,nous serions probablement incapables de comprendre quelles seraient les circonstances et les stratégies de collecte qui aideraient à obtenir desréponses par personne interposée de grande qualité.

En plus de la communication présentée au Symposium qui a eu lieu à l’automne, un financement supplémentaire a été alloué à la réalisation derecherches supplémentaires en collaboration avec un psychologue cognitif. Une analyse de l’environnement a été effectuée. Parmi les nombreuxarticles offerts dans la littérature, 29 ont été sélectionnés et utilisés dans le modèle conceptuel pilote. Les facteurs établis dans l’étude ont servi à définirun cadre théorique pilote de la réponse par personne interposée.

Les facteurs proposés dans la littérature comme étant liés à la qualité de la réponse par personne interposée ont été regroupés par catégories,caractéristiques, opérationnalisations et résultats. La littérature examinée propose cinq grandes catégories de caractéristiques liées à la qualité de la

Statistique Canada, numéro 12-206-X au catalogue 11

Page 12: Programme de recherche et développement en méthodologie

réponse, notamment :

le répondant ciblé (c.-à-d. la personne dont on veut obtenir des réponses);la personne interposée (c.-à-d. la personne qui donne l’information);la relation entre le répondant ciblé et la personne interposée (par exemple s’ils sont très proches);la question (par exemple le caractère délicat des questions);le contexte (par exemple dans quelle mesure la situation encourage des réponses socialement souhaitables).

Le cadre fournit un point de départ à l’élaboration d’un instrument qui améliore la qualité globale de la réponse, assure une bonne corrélation avec lesautodéclarations et produit un biais limité. On peut l’utiliser pour établir les caractéristiques à mesurer dans les cas où on tient compte des réponses parpersonne interposée et que l’on veut définir l’adaptation des données à leur utilisation dans les réponses finales.

Les travaux futurs devraient inclure un examen documentaire de la littérature qui permettra d’achever le cadre. Il est possible que l’on effectue dessessions de tests cognitifs dans le cadre d’une véritable enquête menée auprès d’un échantillon plus large de participants ayant différents types derelation et de participants éprouvant des problèmes de santé chroniques.

En outre, il serait possible de réaliser un certain nombre d’analyses des données secondaires avec les données existantes. Enfin, une approchereposant sur un cadre de domaines théorique pour l’élaboration des interventions pourrait être conçue afin d’améliorer les réponses à l’enquête. Lesrésultats pourraient servir à la collecte de données d’enquête et aider à comprendre la qualité potentielle des réponses par personne interposée.

L’utilisation d’incitatifs dans les enquêtes ménages

Ce projet de recherche poursuit le projet sur les taux de réponse financé en 2012-2013 par le Secrétariat de la qualité qui a permis de faire une revue dela littérature sur l’utilisation des incitatifs.

Une revue de littérature a été entamée pendant la période. Les résultats ont été discutés lors d’une présentation au Comité technique des enquêtesauprès des ménages et ont été utilisés par le groupe de travail sur les incitatifs de Statistique Canada pour leur présentation au Comité des politiques.Plusieurs nouveaux articles pertinents ont été retracés et compléteront la revue de littérature et des pratiques internationales.

Procédure de collecte de données adaptative pour la détermination de l’ordre de priorité des appels

Ce projet de recherche avait pour objectif de proposer une procédure de collecte de données adaptative pour déterminer l’ordre de priorité des appelsdans le contexte des enquêtes avec interview téléphonique assistée par ordinateur. La procédure est adaptative en ce sens que l’effort consacré à uneunité échantillonnée peut varier d’une unité à l’autre et peut aussi varier pendant la collecte des données. L’objectif d’une procédure adaptative esthabituellement d’accroître la qualité pour un coût donné ou de réduire le coût pour un niveau de qualité donné. Le critère de qualité qui est souventconsidéré dans la littérature spécialisée est le biais de non-réponse d’un estimateur qui n’est pas corrigé pour la non-réponse. Bien que la réduction dubiais de non-réponse demeure un objectif souhaitable, ce critère n’est pas utile, car le biais que l’on peut éliminer à l’étape de la collecte des donnéesd’une enquête grâce à une procédure de collecte adaptative peut également être éliminé à l’étape de l’estimation grâce à des ajustements de poids pour

la non-réponse appropriés. À la place, nous avons conçu et évalué, dans le cadre d’une étude de simulation, une procédure de détermination de l’ordrede priorité des appels qui tente de minimiser la variance de la non-réponse d’un estimateur ajusté pour la non-réponse en fonction d’une contraintebudgétaire générale.

Pendant le dernier exercice, nous avons soumis un article de recherche à une revue à des fins de publication, et avons reçu des rapportsencourageants du rédacteur en chef adjoint et des examinateurs. Ainsi, nous avons effectué quelques simulations exploratoires supplémentaires etrédigé des réponses à ces rapports. Une version révisée de l’article a été soumise.

Extension à une compréhension mathématique de l’effet du mode d’enquêteLes travaux antérieurs réalisés par Statistique Canada sur les effets du mode d’enquête ont permis d’établir un cadre pour les facteurs qui définissentl’effet du mode d’enquête et de cerner les facteurs qui sont touchés par les modifications apportées au mode d’enquête. L’objectif de ce projet derecherche était de concevoir un outil de simulation qui aiderait à comprendre l’incidence des changements apportés au mode, au plan et à la collecte surl’estimation.

La simulation a été créée en SAS et consignée dans un rapport. Elle reposait sur des approches de conception similaires à celles qui sont utilisées dansl’Enquête sociale générale (ESG). D’anciens et de nouveaux plans d’échantillonnage ont été couplés théoriquement à un modèle de superpopulation àl’aide de différents mécanismes, ainsi qu’à des hypothèses sur la superpopulation; la simulation créait des populations d’intérêt finies.

On a tenu compte des différences entre les lignes téléphoniques résidentielles et cellulaires pour créer une base de sondage synthétique des ménageset de l’accès aux ménages. La population comporte plusieurs paramètres estimés que l’on peut modifier pour constater l’incidence des hypothèses deplanification sur une seule estimation par catégorie. Des renseignements détaillés sur la conception de la simulation sont présentés plus loin dans leprésent rapport.

Il est facile de modifier la simulation pour l’adapter à d’autres études, et les paramètres peuvent être utilisés dans la simulation de collecte de Modgen.

Centre de ressources sur le contrôle de la divulgationDans le cadre de son mandat, le Centre de ressources sur le contrôle de la divulgation (CRCD) fournit aux programmes de Statistique Canada desconseils et un soutien concernant les méthodes d’évaluation et de contrôle du risque de divulgation. Il partage également de l’information et des conseilssur les pratiques de contrôle de la divulgation avec d’autres ministères et organismes. Un soutien continu relativement aux méthodes de contrôle de ladivulgation est également offert aux programmes des centres de données de Statistique Canada. La majeure partie du soutien prend la forme d’uneaide à l’application et à l’interprétation des règles de contrôle de la divulgation ayant trait aux fonds des centres de données, y compris les données

Statistique Canada, numéro 12-206-X au catalogue 12

Page 13: Programme de recherche et développement en méthodologie

d’enquête, les données de recensement, les données administratives et les données couplées.

De l’information et des conseils ont aussi été fournis à l’interne et au Secrétariat du Conseil du Trésor du Canada, à l’Office of Statistics and Informationdu gouvernement de l’Alberta et à l’Institut de la statistique du Québec. Le CRCD (Centre de ressources sur le contrôle de la divulgation) a égalementréalisé une révision technique pour le livre Anonymizing Health Data – Case Studies and Methods to Get You Started (El Emam et Arbuckle, 2013).

Élaboration de règles de contrôle de la divulgation pour les données administrativesLe projet vise au développement de règles pour le contrôle de la divulgation de données administratives personnelles sous formes agrégées (tableauxet résultats analytiques). Nous avons divisé les types de données administratives en 2 groupes, type A (santé, justice, éducation,…) et type B (donnéesfiscales) afin de pouvoir mieux adapter les règles aux besoins et défis propres à chacun. On vise la diffusion de données administratives contrôlée parl’agence (avec notre système GTAB) plutôt que la diffusion par le programme d’Accès direct en temps réel (ADTR). Différentes approches ont étéétudiées et discutées (suppression, Barnardisation, méthode des scores, permutation de données, méthodes de bruit, etc.). Notre approche tente depréserver l’acquis (règles déjà en place pour ADTR (Accès direct en temps réel) et GTAB). De façon générale, l’approche est post-tabulaire (traitementsur les sorties).

On a élaboré une nouvelle approche pour les proportions (pourcentages) avec un indicateur de qualité, développé une règle pour les centiles, évaluédes options pour un rajout de suppressions primaires à l’arrondissement contrôlé des comptes, développé des règles de contrôle de la divulgation pourdes totaux, effectué le calcul théorique et la détermination empirique de l’impact exact de nos grilles d’arrondissements sur les données originales, etcréé un « compagnon » GTAB qui procède à l’analyse du tableau à la sortie, calcule un score et informe l’utilisateur au moyen d’une échelle, demessages variés (par exemple, présence d’un grand nombre de petites cellules, de cellules pleines, etc.) du niveau de risque de divulgation et proposedes solutions manuelles et automatisées. Le compagnon est également un outil d’apprentissage et de conscientisation des divers problèmes reliés aucontrôle de la divulgation. Les approches ont été présentées au client interne et des spécifications de système ont été préparées.

Stratégies pour le traitement des données tabulaires à l’aide du logiciel G-ConfidLe système G-Confid de Statistique Canada utilise la suppression de cellules pour protéger les valeurs des cellules confidentielles dans les tableaux dedonnées quantitatives. Les utilisateurs aimeraient qu’il traite certaines situations particulières, notamment les données d’enquête pondérées, les valeursnégatives et les renonciations. Les renonciations sont utilisées lorsqu’un organisme statistique, dans le but de diffuser une plus grande quantité dedonnées, demande à certains grands répondants la permission de dévoiler des renseignements qui pourraient divulguer leur valeur. Nous avons élaborédes approches susceptibles d’aider à relever ces défis et à combler d’autres besoins à l’aide de G-Confid. Ces approches ont été présentées lors desJoint Statistical Meetings de 2013 (Tambay et Fillion, 2013). Elles pourraient être appliquées à d’autres programmes de suppression de cellules.

Perturbation des données afin de réduire la suppression des cellulesDans le cas des données quantitatives tabulaires (par exemple données agrégées des ventes par industrie et province), le projet de recherche permetd’explorer des solutions de rechange à la suppression complémentaire des cellules, notamment l’ajout de bruit à la fois dans les microdonnées et lesdonnées agrégées, ainsi que des méthodes permettant de maintenir les totaux de marge des tableaux et de réduire les effets généraux du bruit sur lescellules non confidentielles. L’utilisation de ces méthodes de rechange a été étudiée à l’aide d’une variété de scénarios de suppression primaire, ycompris des cas comportant une seule cellule confidentielle et des cas comportant une province complètement confidentielle. Enfin, le projet vise àexaminer les avantages et les inconvénients de chaque technique, et à formuler des recommandations sur la pertinence de leur utilisation dans descirconstances différentes. Les résultats seront documentés au cours du prochain exercice.

Pour obtenir de plus amples renseignements, veuillez communiquer avec : Jean-Louis Tambay (613 951-6959, [email protected]).

BibliographieEl Emam, K., et Arbuckle, L. (2013). Anonymizing Health Data – Case Studies and Methods to Get You Started. O’Reilly Media, Inc., Sebastopol, CA.

Recherche sur le couplage d’enregistrementsLe couplage d’enregistrements rassemble des données provenant de fichiers différents. Cet important outil dans l’exploitation des donnéesadministratives peut également servir à d’autres fins, notamment la création d’une base de sondage ou la collecte de données. La recherche était axéesur le couplage d’enregistrements précis et couvrait trois volets. Le premier volet consistait en l’exploration de nouvelles méthodes de couplaged’enregistrements, y compris la méthode de covariance spectrale et l’utilisation de nouveaux modèles statistiques pour les données couplées. Ledeuxième volet portait sur la mesure des erreurs de couplage et sur les critères objectifs permettant de déterminer l’adaptation des données couplées àleur utilisation. Ce volet englobait l’utilisation de nouveaux modèles et l’élaboration d’indicateurs de la qualité globale, de mesures et de lignesdirectrices. Le troisième volet se rapportait à l’élaboration d’une approche générale pour le couplage d’enregistrements, y compris des solutionsdéterministes telles que MixMatch.

Segmentation en unités spectrales des noms en vue d’une mise en grappe ethnolinguistique avec application au couplaged’enregistrements probabilisteNous avons discuté du rendement de la méthode de covariance spectrale et de ses applications à titre de stratégie de regroupement (Dasylva, 2013).Les applications pratiques à grande échelle sont actuellement limitées par des questions pratiques telles que le nombre relativement important degrappes produites par la méthode spectrale et ses exigences de traitement trop élevées.

Prototype de couplage d’enregistrements déterministe

Statistique Canada, numéro 12-206-X au catalogue 13

Page 14: Programme de recherche et développement en méthodologie

MixMatch v5.1 est une solution de couplage d enregistrements déterministe avec une base de clients existante. Elle a été transférée avec succès enSAS, et de nouvelles fonctionnalités ont été ajoutées, notamment des rapports tabulaires sur le rendement du couplage (Lachance, 2014). En outre, dela documentation s’y rattachant a été élaborée, y compris un dictionnaire de données et un manuel de l’utilisateur.

Méthodes non paramétriques pour le couplage d’enregistrements probabilisteLe couplage d’enregistrements probabiliste exact rassemble des enregistrements tirés d’un ou de plusieurs ensembles de données, qui proviennent desmêmes personnes, en calculant explicitement la probabilité que les paires d’enregistrements sélectionnées soient des paires couplées contenant desenregistrements reliés ou des paires non couplées. Il faut estimer la répartition des paires d’enregistrements à partir d’un échantillon et classer lespaires sélectionnées dans la catégorie des paires couplées ou des paires non couplées, conformément à la règle de décision optimale de Fellegi-Sunter. Dans les applications pratiques, le couplage probabiliste exact repose principalement sur des modèles paramétriques tels que le modèle originalde Fellegi-Sunter d’indépendance conditionnelle, un modèle qui ne tient pas compte des corrélations. De nouveaux modèles statistiques ont étéproposés pour le couplage d’enregistrements (Dasylva, 2014). Ces modèles permettent de réaliser des interactions et comprennent des modèles nonparamétriques, c’est-à-dire des modèles où la structure de la corrélation entre les variables du couplage peut être arbitraire. Les propriétés théoriquesdes modèles proposés ont été étudiées, notamment l’importante question de leur identifiabilité (Fienberg, 2007). Des algorithmes d’espérance-maximisation (EM) ont été proposés pour en faire l’estimation. Les nouveaux modèles permettent d’estimer avec précision les erreurs de couplage; unecondition essentielle à l’analyse précise des données couplées. Ils sont évalués et comparés aux modèles précédents par des simulations, par exempleaux modèles log-linéaires en classes latentes avec interactions (Thibaudeau, 1993).

Indicateurs de qualité pour les données couplées

Des indicateurs de qualité détaillés, des mesures, des lignes directrices ainsi que des pratiques exemplaires ont été établis pour les données coupléeset les différentes étapes du processus de couplage, déterministe ou probabiliste (Dasylva and Haddou, 2014). Ces directives sont utiles non seulementpour maximiser la qualité du couplage, mais aussi pour évaluer l’adaptation des données couplées à leur utilisation et l’incidence du couplaged’enregistrements sur les autres étapes de l’enquête, y compris l’estimation et l’analyse. Elles complètent les lignes directrices actuelles et les listes devérification du couplage d’enregistrements, notamment celles que l’on trouve dans le document Lignes directrices concernant la qualité de StatistiqueCanada.

Pour obtenir de plus amples renseignements, veuillez communiquer avec : Abel Dasylva (613 951-7618, [email protected]).

Bibliographie

Abeysundera, M., Field, C. et Gu, H. (2012). Phylogenetic analysis of multiple genes using spectral methods. Mol. Biol. Evol., 29(2), 579-597.

Fellegi, I.P., et Sunter, A.B. (1969). A theory for record linkage. Journal of the American Statistical Association, 64(328), 1183-1210.

Fienberg, S., Rinaldo, A., Hersh P. et Zhou, Y. (2007). Maximum likelihood estimation in latent class models for contingency table data. Rapport,disponible au http://www.ml.cmu.edu/research/dap-papers/yizhou-kdd.pdf.

Thibaudeau, Y. (1993). Le pouvoir discriminant des structures de dépendance dans le couplage d’enregistrements. Techniques d’enquête, 19, 1, 35-43.

Statistique Canada, numéro 12-206-X au catalogue 14

Page 15: Programme de recherche et développement en méthodologie

Activités de soutien

Séries chronologiquesLa recherche sur les séries chronologiques a pour objectif de maintenir un haut niveau de compétence et d’offrir les consultations nécessaires dans cedomaine, de concevoir et de mettre à jour des outils en vue d’appliquer des solutions aux problèmes que posent les séries chronologiques dans dessituations réelles, ainsi que d’étudier les problèmes courants pour lesquels il n’existe aucune solution connue ou acceptable.

Les projets se répartissent en sept sous-catégories :

Consultation concernant les séries chronologiques (y compris l’élaboration de cours)Traitement et désaisonnalisation des séries chronologiquesSoutien du logiciel G-Series (étalonnage et réconciliation)CalendarisationModélisation et prévisionEstimation de la tendanceAutres projets de recherche et du développement (R-D) sur les séries chronologiques

ConsultationDans le cadre de son mandat, le Centre de recherche et d’analyse en séries chronologiques (CRASC) a offert des consultations en réponse auxdemandes de divers clients. Les sujets les plus fréquemment abordés durant la période visée par le rapport demeurent la modélisation, la prévision etl’utilisation d’outils de désaisonnalisation aux fins de la validation et de l’assurance de la qualité des données.

Les membres du CRASC (Centre de recherche et d’analyse en séries chronologique) continuent de participer à divers groupes d’analyse et de diffusiontels que le forum des analystes du Quotidien et le nouveau forum sur la désaisonnalisation et les signaux économiques. Un examen détaillé desméthodes directes et indirectes a été présenté au forum sur la désaisonnalisation et les signaux économiques. De plus, les membres du CRASC(Centre de recherche et d’analyse en séries chronologique) ont rencontré divers visiteurs internationaux afin de discuter des enjeux touchant les sérieschronologiques, et ils ont examiné des articles pour des revues externes.

On a préparé un document offrant un aperçu de la désaisonnalisation à l’intention des non-spécialistes (Fortier et Gellatly, 2014).

Traitement et désaisonnalisation des séries chronologiques

Ce projet vise à surveiller les activités de haut niveau liées au soutien et au développement d’un système de traitement des séries chronologiques. Ladésaisonnalisation est effectuée à l'aide de X-12-ARIMA (pour l’analyse et le développement ou la production) ou de Proc X12 de SAS (pour la

Statistique Canada, numéro 12-206-X au catalogue 15

Page 16: Programme de recherche et développement en méthodologie

production).

Le système de traitement des séries chronologiques a été mis à jour afin d’améliorer la robustesse de la plate-forme d’installation, d’inclure davantagede critères diagnostiques sur les risques de valeurs aberrantes saisonnières et extrêmes, et d’accroître la souplesse du module d’attribution de noms.D’autres petits ajustements et améliorations mineures ont également été apportés et documentés dans les rapports mensuels.

Les nouvelles lignes directrices sur la sélection des options de désaisonnalisation dans le contexte des exercices de déflation ont fait l’objet d’essaissupplémentaires et se sont avérées valides.

Diverses approches novatrices ayant pour but de traiter la situation économique instable ont été illustrées et consignées par Matthews, Ferland, Pataket Fortier (2013). Cet article fournit des exemples récents de désaisonnalisation qui ont donné des résultats intéressants à l’extérieur du cadre desoptions habituelles.

En réponse aux enjeux liés à l’apparente augmentation de la volatilité d’indicateurs importants, tels que l’Enquête sur la population active, diversesmesures de lissage ont été calculées et présentées pour l’Enquête sur la population active (Le Petit et Fortier, 2014).

Soutien du logiciel G-Series (étalonnage et réconciliation)L’étalonnage s’entend des techniques utilisées pour s’assurer de la cohérence entre les données des séries chronologiques d’une variable ciblemesurée à diverses fréquences, par exemple, infra-annuellement et annuellement. La réconciliation est une méthode utilisée pour imposer descontraintes d’agrégation simultanées aux tableaux de séries chronologiques, de sorte que les sommes des « cellules » des séries soient égales aux« totaux de marge » de la série appropriée. Nous élaborons des procédures SAS afin de mettre en œuvre les solutions d’étalonnage et de réconciliationdans le logiciel généralisé G-Series.

Un soutien à la récente version G-Series 1.04.001 a été fourni, au besoin. Des plans ont été adoptés afin que la prochaine version du système soitconçue en 2014-2016. L’objectif est d’ajouter une nouvelle procédure ou solution d’équilibrage à l’ensemble des procédures disponibles dans G-Series.La procédure d’équilibrage conviendra à la fois aux contraintes linéaires généralisées et aux contraintes de non-négativité. Il sera alors possible detraiter des règles de rapprochement plus complexes et de faciliter la calendarisation avec l’étalonnage. Une revue de la littérature sur les progrès à venirest en cours d’élaboration. L’accent sera mis sur l’approche du Bureau of Economic Analysis et sur les expériences de Statistics Netherlands.

CalendarisationCette sous-catégorie englobe les travaux de soutien et de développement de méthodes de calendarisation tant sous l’angle de l’étalonnage que destechniques les plus récentes d’interpolation par splines. Les récentes expériences ont été présentées à Statists Netherlands et à l’atelier ESSnet AdminData (Fortier, 2013). De plus, des exemples illustratifs de Quenneville, Picard et Fortier (2013) ont été présentés au Joint Statistical Meeting 2013.

Le lien entre les différentes méthodes (y compris la relation entre les modèles du filtre Hodrick Prescott, les splines et les modèles d'espaces d’états) ontété définis de manière plus détaillée (Picard, 2014).

Le module d’étalonnage du système de traitement des séries chronologiques a été adapté pour effectuer la calendarisation.

Estimation de la tendance

Un nouveau projet a été lancé afin d’étudier la possibilité de réintroduire des lignes de tendance dans nos publications officielles (particulièrement dansLe Quotidien). Diverses méthodes ont été examinées, en commençant par la revue de la littérature, puis en réalisant une étude de simulation avec unensemble réduit de méthodes. Les résultats, qui encouragent l’utilisation d’une ligne de tendance-cycle obtenue avec une variante de Dagum et Luarti(2009) dans nos graphiques publiés, ont été présentés à divers comités internes (Fortier, Picard et Matthews, 2013). Des approches en matière depublication seront mises à l’essai l’an prochain dans le cadre de groupes de discussion formés de nos lecteurs.

Autres projets de R-D sur les séries chronologiquesDans cette catégorie, le sous-projet le plus important est la création d’un intervalle de confiance relatif aux données désaisonnalisées. Bien que denombreuses approches aient été examinées par le passé, elles n’ont jamais été utilisées pour la production de statistiques officielles, ou ne l’ont été querarement. L’approche prometteuse étudiée à l’heure actuelle consiste à utiliser des modèles d’espaces d’états pour imiter le lisseur de long termereprésentant l’algorithme X-11, avec une extension permettant de tenir compte d’une composante d’erreur d’échantillonnage. Les idées fondamentaleset leurs liens avec la littérature existante ont été résumés par Quenneville (2013).

Pour obtenir de plus amples renseignements, veuillez communiquer avec : Susie Fortier (613 951-4751, [email protected]).

BibliographieDagum, E.B., et Luati, A. (2009). A cascade linear filter to reduce revisions and false turning points for real time trend-cycle estimation. EconometricReviews, 28, 1-3, 40-59.

Centre de ressources en couplage d’enregistrementsLes objectifs du Centre de ressources en couplage d’enregistrements (CRCE) consistent à offrir des services de consultations aux utilisateurs interneset externes des méthodes de couplage d’enregistrements, y compris des recommandations concernant les logiciels et les méthodes à utiliser et destravaux concertés sur les applications de couplage d’enregistrements. Nous avons pour mandat d’évaluer diverses méthodes de couplaged’enregistrements et divers progiciels de couplage d’enregistrements et, au besoin, de développer des prototypes de logiciel intégrant des méthodesnon offertes dans les progiciels existants. Nous facilitons aussi la diffusion de l’information concernant les méthodes, les logiciels et les applications decouplage d’enregistrements aux personnes intéressées à l’intérieur et à l’extérieur de Statistique Canada.

Statistique Canada, numéro 12-206-X au catalogue 16

Page 17: Programme de recherche et développement en méthodologie

ConsultationNous avons continué à offrir, au besoin, des conseils sur les projets de couplages d’enregistrements en réponse aux demandes des utilisateurs interneset externes. De plus, nous avons offert un soutien à l’équipe de développement du système G-Coup, notamment en participant aux réunions du groupede travail sur le couplage d’enregistrements de la Division de l’ingénierie des systèmes (DIS) de la Méthodologie, et aux réunions du groupe desutilisateurs du couplage d’enregistrements. L’équipe a aidé à résoudre certains problèmes avec la version 3.0 de G-Coup. En outre, nous avons appuyéle travail de la direction sur le couplage d’enregistrements à titre de ressource sur G-Coup, et mis à jour l’inventaire des couplages réalisés à ladirection. Nous avons offert un soutien au couplage d’enregistrements portant sur les données sur la santé et les données sur la justice, et nous avonsaidé à attirer l’attention de la Division de la statistique de la santé et de l’équipe G-Coup de la DIS sur les problèmes rendement de G-Coup et demigration entre le SGCE et G-Coup. Nous avons travaillé sur les couplages de l’Environnement de couplage d’enregistrements du domainesocial (ECEDS) et utilisé les couplages pour mettre à l’essai sur le terrain les caractéristiques de G-Coup 3.0 et élaborer des approches plussystématiques et ayant un meilleur fondement théorique pour définir et ajuster les couplages d’enregistrements.

Technique d’ajustement pour les enregistrements non couplés

Nous avons travaillé à l’élaboration d’une technique d’ajustement fondée sur la repondération pour corriger le problème des enregistrements noncouplés. Les enregistrements non couplés sont produits par des paires d’enregistrements manquantes et appartenant à une même unité. Une étudeempirique a été réalisée entre l’ESCC 3.1 et la Base de données sur les congés des patients (BDCP) de 2001-2009. De plus, nous avons commencé àélaborer une méthode pour corriger l’erreur associée aux couplages incorrects dans le cas de la régression logistique. Les couplages incorrects sontproduits par l’acceptation erronée des faux couplages. Une étude empirique sera effectuée entre l’Enquête sur la santé dans les collectivitéscanadiennes (ESCC) 4.1 et la BDCP de 2001-2009.

Pour obtenir de plus amples renseignements, veuillez communiquer avec : Abdelnasser Saidi (613 951-0328, [email protected]).

Activités de soutien du centre de ressources en analyse de données (CRAD)Le Centre de ressources en analyse de données (CRAD) est le centre interne de ressources en analyse de données de Statistique Canada dont lemandat est de proposer et de fournir de bonnes méthodes et de bons outils pour l’analyse de tous les types de données. Le CRAD (centre deressources en analyse de données) offre des services aux employés (analystes et méthodologistes) de Statistique Canada, aux analystes des Centresde données de recherche et, à l’occasion, aux chercheurs et aux clients externes. Le Centre étudie des problèmes méthodologiques qui ont étéremarqués par les analystes, les méthodologistes ou les clients externes. Le Centre participe au transfert et à l’échange de connaissances etd’expérience grâce à l’examen et à la publication de documents techniques et en donnant des séminaires, des présentations et des cours. Cette année,nous offrons également un soutien administratif à la DMEE pour l’aider à gérer les consultations sur les méthodes d’enquête fournies par Claude Girard.

Le Centre a participé à de nombreuses consultations auprès d’analystes internes, d’analystes externes et de méthodologistes. Au sein de StatistiqueCanada, nous avons consulté le personnel des divisions suivantes : Tourisme et Centre de la statistique de l’éducation; Statistique de la santé; Analysesociale; Analyse économique; Analyse de la santé; Investissement, science et technologie; et Prix à la consommation. Ces consultations variées ontpermis d’aborder différents sujets, notamment l’utilisation des poids dans l’étude d’une cohorte couplée, l’incidence du couplage sur l’analyse, commentréaliser une étude d’évaluation de l’incidence, comment évaluer la multicolinéarité dans une régression, les tests de Hosmer et Lemeshow, lesajustements de Satterthwaite, STATA et les enjeux liés à la régression par étapes.

En plus de nos consultations analytiques internes, nous avons mené des consultations externes auprès d’analystes d’Action Cancer Ontario, de laCommission canadienne de sûreté nucléaire, des chercheurs de l’Université Queen’s et de l’Agence de la santé publique du Canada. Ces consultationsont porté sur la comparaison des estimateurs, la compréhension de l’échantillonnage fondé sur le plan de sondage, la qualité des données, l’estimationbayésienne sur petits domaines (confidentialité), l’utilisation des poids dans l’estimation par paires ainsi que les ajustements de Satterthwaite.

Par ailleurs, les méthodologistes ont continué de faire partie de notre clientèle. Nous avons mené des consultations auprès de Méthodes d’enquêtesauprès des entreprises, Méthodes d’enquêtes auprès des ménages et Méthodes d’enquêtes sociales. Ces consultations ont englobé des questionsrelatives à l’analyse du score de propension dans les études des effets du mode d’enquête, la conception et l’analyse des études des effets du mode,les ajustements de Satterthwaite, la régression logistique, la comparaison des proportions dans les domaines, les modèles linéaires hiérarchiques, lacomparaison de différents estimateurs pondérés, l’analyse d’événements rares (cas classique), l’analyse de la régression par étapes, les études desimulation de la variance avec bootstrap dans un échantillonnage à plusieurs phases, l’entropie, la non-réponse et la régression logistique, lesestimations avec bootstrap, le SUDAAN, et la régression de Poisson.

En outre, nous avons examiné des articles techniques pour la Division de la recherche et de l’innovation en statistique et la Division de la coopérationinternationale, et avons soumis des commentaires écrits à leur sujet. Ces deux articles portaient sur des enjeux touchant les événements rares. Nousavons examiné deux articles techniques, l’un portant sur le bootstrap et l’autre sur l’estimation de la variance sous la linéarisation. Nous avons aussi

examiné deux rapports de l’initiative de projets d’analyse (IPA) qui avaient été achevés au cours de l’exercice précédent.

Deux cours d’une demi-journée ont été offerts pendant le nouvel atelier sur l’interprétation des données. Un cours sur les méthodes de collecte àl’intention des méthodologistes a été élaboré. Nous avons étudié plusieurs nouvelles stratégies de communication, telles que les vidéos explicatives(pour les clients des Centres de données de recherche), qui pourraient être un outil utile pour répondre aux questions les plus fréquemment posées parle personnel. Nous avons commencé la réorganisation des ressources déjà enregistrées sur nos lecteurs afin d’en faciliter la récupération et ladistribution.

Pour obtenir de plus amples renseignements, veuillez communiquer avec : Karla Fox (613 951-4624, [email protected]).

Statistique Canada, numéro 12-206-X au catalogue 17

Page 18: Programme de recherche et développement en méthodologie

Systèmes généralisésL’objectif principal de ces projets de recherche est d’explorer de nouvelles méthodes qui, selon nous, ont de bonnes chances d’être incluses dans l’undes systèmes généralisés. Les activités de recherche peuvent englober un examen des ouvrages publiés, la construction et la mise à l’essai deprototypes et la comparaison du rendement et des fonctionnalités de différentes méthodes. Cette année, les travaux ont porté sur le contrôle de ladivulgation et le codage automatisé.

Contrôle de la divulgation : fonction de score et méthode séquentielleÀ l’occasion, il arrive que la macro de suppression de G-Confid soit incapable de trouver une solution. Dans ce cas, la macro arrête immédiatement letraitement et envoie un message d’erreur à l’utilisateur. Nous avons analysé une fonction de score ainsi qu’une méthode séquentielle dans le but desubdiviser le problème de suppression en éléments plus petits afin de pouvoir trouver une solution.

La méthode actuelle (séparé en plusieurs tables le problème initial) permet de garder le lien entre les dimensions et permet de tenir compte de lastructure hiérarchique. Cependant, l’application directe de l’approche Hitas peut amener à des solutions infaisables. Donc, certaines modifications ontdû être apportées. Étant donné que nous ne pouvons pas appliquer le patron de suppression d’une table à l’autre (pour les cellules dites publiables),plusieurs rondes sont nécessaires pour aboutir à un patron de suppression final. Ce changement de stratégie peut amener, à l’occasion, desdivulgations exactes et/ou des protections inachevées. Afin d’éviter ces problèmes, nous avons regardé les deux options suivantes :

Option C

1. Suppression pour chaque table2. Suppression de toutes les tables ensemble en tenant compte des suppressions faites en (A)

Option D

1. Suppression pour chaque table2. Validation de toutes les tables ensemble avec audit pour vérifier s’il y a des divulgations exactes ou des protections inachevées pour les données

sensibles3. Suppression en tenant compte des résultats de (B), c.-à-d. seulement pour les cellules sensibles n’ayant pas une bonne protection.

L’option D donne un temps d’exécution moins élevé ou pareil que l’option C, dépendant du problème à résoudre. Pour des problèmes très complexes,ces deux options ne peuvent être utilisées, car la suppression/validation n’aboutit pas en ramenant toutes les tables ensemble.

Trois autres approches ont donc été envisagées :

1. Suppression pour chaque table, mais en ajoutant de façon itérative les contraintes associées aux cellules supprimées provenant des autres tables.Cette méthode permet d’avoir un patron de suppression final sans divulgation exacte. Cependant, plusieurs itérations sont nécessaires, ce quipeut entraîner un temps d’exécution 2 à 3 fois plus élevé que le problème initial.

2. La méthode Hypercube consiste à vérifier toutes les combinaisons possibles de cellules définissant les sommets d’un cube qui permettre d’assurerla protection des cellules sensibles. L’approche permet d’éviter l’utilisation d’un système optimisation programmation linéaire (PL).

3. Prendre en considération de combien chaque combinaison de cellules a bougé dans une table afin d’utiliser cette information dans une autre tablepour la même combinaison de cellules.

Les approches 2 et 3 seront évaluées au cours de la prochaine année fiscale. Un document décrivant les différentes approches analysées et lesrésultats obtenus sera aussi produit.

Contrôle de la divulgation : données pondéréesLe système actuel de G-Confid, qui est cohérent avec les méthodes utilisées dans le monde entier pour calculer la sensibilité d’une cellule, n’intègre pasl’information fournie par le poids de sondage. Intuitivement, à mesure que le poids d’une entreprise particulière augmente, la probabilité qu’elle soitsélectionnée pour l’enquête diminue. Par conséquent, toutes les méthodes doivent veiller à ce que les contributions des entreprises ayant un poids plusélevé (c.-à-d. les unités à tirage partiel) réduisent la mesure de la sensibilité de la cellule.

Dans la pratique actuelle, on encourage les utilisateurs de G-Confid à considérer une entreprise dont le poids de sondage est supérieur à 3 comme uncontributeur anonyme. Cependant, on applique toujours sa contribution non pondérée. Les travaux effectués au cours du dernier exercice ont permisd’établir un ensemble de solutions de rechange, notamment : (1) utiliser la contribution pondérée des entreprises anonymes dans le calcul de la mesurede la sensibilité; (2) répartir la contribution d’une entreprise au-delà de l’autoreprésentation, (wi-1)yi, afin de réduire la mesure de la sensibilité; (3)répartir la contribution uniquement si le poids se situe entre 1 et 3, et réduire ensuite la mesure de la sensibilité en utilisant la totalité de la contribution si

le poids de sondage dépasse 3; et (4) créer une population synthétique dans laquelle chaque unité a une valeur correspondant à une moyennepondérée (Gagné). Pour cette dernière option, un prototype de macro SAS a été conçu pour calculer la sensibilité pondérée. Puisque les donnéesincluent uniquement les contributions non négatives et qu’il n’y a aucune renonciation, plusieurs arguments solides appuyant chacune de ces optionsplutôt que le statu quo ont été établis. Des recherches supplémentaires sur l’utilisation des poids de sondage sont requises dans les situationscomportant des valeurs négatives ou des renonciations.

Contrôle de la divulgation : renonciations

Certains répondants aux enquêtes-entreprises ont signé des ententes, appelées renonciations, qui permettent à Statistique Canada de publier leursdonnées même si elles sont confidentielles. Dans le cas des tableaux de données, les renonciations permettent de publier des cellules qui, autrement,seraient supprimées. Cependant, il faut assurer la protection des données confidentielles des autres répondants dans les cellules publiées. Des progrèsconsidérables réalisés pendant l’exercice ont démontré qu’il était possible d’utiliser efficacement les renonciations. L’approche propose de vérifier si desrenonciations existent pour les entreprises dominantes qui contribuent à une cellule considérée sensible. La solution, un ensemble de procédures SASet d’étapes de données, a été élaborée et mise à l’essai avec l’ensemble de données d’un client de G-Confid à Statistique Canada. Les recherches

Statistique Canada, numéro 12-206-X au catalogue 18

Page 19: Programme de recherche et développement en méthodologie

futures viseront à trouver une solution plus générale. Deux possibilités sont envisagées : (1) fixer la contribution à zéro (Tambay et Fillion) et (2) réduirela contribution pour égaler la contribution la plus élevée suivante pour laquelle aucune renonciation n’existe. Dans le cadre de futurs travaux, nousévaluerons les avantages et les faiblesses de ces propositions et nous vérifierons leur applicabilité à l’aide d’ensembles de données réalistes.

Contrôle de la divulgation : valeurs négativesG-Confid est conçu pour calculer uniquement la sensibilité des cellules à l’aide des valeurs non négatives, malgré le fait que certaines variableséconomiques (par exemple les transferts, les pertes) comprennent des valeurs négatives. En outre, une entreprise peut être dominante dans une celluleen contribuant à une « forte » valeur négative. Dans le cadre de la pratique actuelle, on utilise des valeurs absolues pour mesurer la sensibilité. Cetteméthode heuristique est préconisée dans le monde entier depuis de nombreuses années (voir par exemple Willenborg et de Waal, 2001). Au cours del’exercice, nous avons proposé une nouvelle méthode qui fournit une solide base théorique pour évaluer les variables ayant des valeurs négatives(Gagné). Après avoir examiné deux documents internes ainsi que des articles publiés par les chercheurs de l’extérieur, un document de discussion a étérédigé afin de décrire les forces et les faiblesses des méthodes envisagées pour traiter les valeurs négatives (Wright). Un sous-ensemble des méthodesa été jugé supérieur aux autres méthodes. Les recherches à venir devraient mettre à l’essai chaque méthode jugée supérieure à l’aide d’ensembles dedonnées réalistes. Il faut poursuivre le travail visant à déterminer l’approche optimale en présence de renonciations et en relation avec l’utilisation despoids de sondage.

Contrôle de la divulgation : arrondissement contrôlé additif

Actuellement, dans G-Confid, la suppression des cellules vise uniquement à empêcher la divulgation de données confidentielles. Une autre méthodeconsiste à arrondir certaines valeurs. Un prototype d’arrondissement contrôlé additif a été conçu par Statistique Canada et utilisé dans plusieursenquêtes sociales. Toutefois, la méthode devrait être intégrée à G-Confid afin que la fonctionnalité puisse être utilisée et prise en charge dansl’ensemble de Statistique Canada.

Plusieurs méthodes et choix d’implantations ont été testés, la méthode et son implémentation la plus appropriée a été choisie sur des bases de vitessed’exécution, de taille maximale et qualité des résultats.

L’approche générale reste essentiellement la même que celle employée par l’ACROUND mais certains aspects ont été améliorés alors que d’autres ontété simplifiées. La nouvelle méthode a été implantée dans une macro SAS, ses résultats ont été testés et son interface documentée. Le prototype ainsiobtenu est donc tout à fait fonctionnel et peut être utilisé.

De ce travail, des spécifications techniques ont été produites et communiquées à la Division de l'ingénierie des systèmes (DIS) pour l’implantation d’unmodule dans G-Confid.

Codage automatisé

Dans le système de codification généralisé G-Code, la méthode par défaut d’appariement par mot est fondée sur l’algorithme de Hellerman. Cetteannée, des activités de programmation ont été réalisées pour inclure une méthode d’appariement par chaîne ou par expression basée sur l’algorithmede Levenshtein. Nous avons présenté des spécifications détaillées et réalisé des essais approfondis. Le logiciel devrait être disponible en juillet 2014.Des lignes directrices seront rédigées pour aider les utilisateurs de G-Code à déterminer comment utiliser ces deux méthodes le plus efficacementpossible. Jusqu’à présent, les essais réalisés montrent que les deux méthodes se complètent, et que l’appariement par chaîne est plus efficace lorsqueles chaînes sont courtes, notamment dans le codage des noms de ville ou de pays.

La méthodologie de la méthode de Levenshtein a été consignée afin d’être incluse dans la documentation à l’appui de G-Code.

Un cours sur le codage automatisé a été préparé et une formation pilote a été présentée en français en mars 2013. De nombreuses améliorations ontété apportées au contenu du cours après ce premier essai, et le matériel a ensuite été traduit. Le cours a été donné en anglais en septembre 2013. Ilsera offert à plusieurs reprises dans le futur.

Des services de soutien ont été fournis aux nombreux clients de G-Code tant au sein de Statistique Canada qu’à l’externe.

Pour obtenir de plus amples renseignements, veuillez communiquer avec : Laurie Reedman (613 951-7301, [email protected]).

Bibliographie

Willenborg, L., et de Waal, T. (2001). Elements of Statistical Disclosure Control. Springer.

Assurance de la qualitéDe la formation sur la méthodologie de contrôle de la qualité et ses applications est offerte aux méthodologistes ainsi qu’aux non-méthodologistes. Uneformation et des conseils sur les mesures et les pratiques relatives au contrôle et à l’assurance de la qualité sont offerts à Statistique Canada ainsi qu’àl’extérieur de l’organisme.

Formation statistique en contrôle de la qualité et consultation

La formation sur la méthodologie du contrôle de la qualité a été offerte à quatre reprises au cours de l’exercice. De nombreux participants à la formationont demandé que l’on étende le contenu du cours en y ajoutant la gestion de la qualité au sens large. Nous répondrons à ces attentes l’annéeprochaine. De l’information sur les processus de contrôle de la qualité dans les enquêtes auprès des ménages a été fournie à la Division de lacoopération internationale pour une de ses missions en Chine. Un module sur l’assurance de la qualité a été présenté dans le Cours de base sur lesenquêtes, en français et en anglais.

Statistique Canada, numéro 12-206-X au catalogue 19

Page 20: Programme de recherche et développement en méthodologie

Données administrativesStatistique Canada étudie des moyens d’exploiter les données provenant de sources administratives. L’objectif de ce projet est d’établir un cadred’évaluation de la qualité des données administratives qui sera utilisé dans le processus décisionnel touchant l’acquisition des données. Ce projet a étécofinancé par le fonds de la recherche en méthodologie, le Secrétariat de la qualité et le Secrétariat des données administratives. Le projet comportaittrois parties.

La première partie du projet était la revue de la littérature. Nous avons examiné des documents de plusieurs autres organismes de statistique nationaux.Les similitudes et les principales caractéristiques ont été relevées. Nous nous sommes inspirés de ces sources pour élaborer la base pour notre proprecadre d’évaluation.

La deuxième partie du projet était la validation du concept. Afin d’évaluer la qualité de ses fichiers de données, le Manitoba Centre for Health Policy aélaboré un ensemble d’indicateurs de qualité ainsi que les programmes SAS qui les produisent. Nous avons commencé à analyser ces méthodes etoutils pour en connaître le fonctionnement et relever les techniques qui pourraient être utiles à notre propre cadre d’évaluation.

L’indicateur VIMA (valide, invalide, manquant, aberrant) utilisé par le Centre for Health Policy a été mis à l’essai sur un certain nombre de variables dufichier T1 de 2011 et les résultats ont été documentés. Son calcul est spécifique à chacune des variables évaluées et sa mise en œuvre nécessite unebonne connaissance de ces variables. L’indicateur VIMA est jugé pertinent et sera inclus dans les outils du cadre d’évaluation de la qualité des donnéesadministratives élaborés dans la partie 3 du projet d’indicateurs de qualité des données administratives.

La troisième partie du projet est l’élaboration d’un cadre d’évaluation qui comportera trois volets. Un de ces volets sera un document dans lequel nousdécrirons les deux autres volets. Nous avons préparé une version préliminaire détaillant les trois étapes de l’évaluation : la découverte, l’exploration etl’acquisition. Le deuxième volet sera la production d’un modèle. Au moment d’examiner un ensemble de données administratives particulières, legestionnaire de programme utilisera ce modèle pour évaluer objectivement cet ensemble de données à l’aide de critères prédéfinis touchant desaspects tels que les concepts et les définitions des variables, la fréquence et la rapidité prévues pour la réception du fichier, ainsi que son format. Letroisième volet portera sur la rédaction de directives sur la façon de valider les variables et le contenu de l’ensemble de données après la réception dufichier.

Les connaissances acquises pendant les deux premières parties de ce projet ont été utilisées pour élaborer un modèle de prototype. Nous avons fournile prototype à plusieurs gestionnaires de programme afin de recueillir leurs commentaires. Nous avons ensuite apporté des modifications. La versionfinale du modèle sera disponible à l’automne 2014.

Nous avons utilisé les programmes SAS du Manitoba Centre for Health Policy pour déterminer les validations qui pourraient convenir aux fichiersadministratifs envisagés par Statistique Canada. Nous avons appliqué une stratégie de validation similaire aux fichiers de données administratives quel’on utilise déjà (données 2011 T1). Au cours de la prochaine étape, nous généraliserons l’utilisation de ces validations dans les pratiquesrecommandées et nous formulerons des lignes directrices sur l’évaluation.

Pour obtenir de plus amples renseignements, veuillez communiquer avec : Laurie Reedman (613 951-7301, [email protected]).

Formation statistiqueLe Comité de la formation statistique (CFS) coordonne l’élaboration et l’exécution de 27 cours offerts à intervalles réguliers sur les méthodes d’enquête,la théorie et la pratique de l’échantillonnage, la conception de questionnaires, les méthodes applicables aux séries chronologiques et les méthodesstatistiques d’analyse des données. Pendant l’exercice 2013-2014, 33 séances de cours réguliers (96 jours de formation) ont été données en françaisou en anglais. Veuillez noter que le nombre total de jours de formation a augmenté de 39 % par rapport à 2012-2013 (69 jours de formation).

La série de cours continue de s’allonger, notamment avec l’ajout des cours suivants, qui ont été offerts pour la première fois en 2013-2014 :

0460 : Introduction aux méthodes de collecte des données selon le modèle de l’erreur d’enquête totale; 0494 : Introduction à l’analyse des données d’enquêtes répétées; 04381 : Méthodes de contrôle de la divulgation pour les données tabulaires à l’aide de G-Confid.

Nous préparons présentement de nouveaux cours sur les valeurs aberrantes et l’exploration des données.

Pour obtenir de plus amples renseignements, veuillez communiquer avec : François Gagnon (613 951-1463, [email protected]).

Symposium 2013Le Symposium international de 2013 sur les questions de méthodologie de Statistique Canada s’est déroulé du 16 au 18 octobre 2013 au Centre descongrès d’Ottawa. Ce symposium s’intitulait « Produire des estimations fiables à partir de bases imparfaites ». Tous les membres de la communautéstatistique y ont été conviés, qu’ils proviennent d’organismes de recherche privés, gouvernementaux ou universitaires, et notamment ceux quis’intéressent aux enjeux méthodologiques qui découlent de l’utilisation de bases imparfaites. En tout, il a eu 264 participants de la Méthodologie, 15 deStatistique Canada hors Méthodologie et 137 de l’extérieur de Statistique Canada.

Le discours d’ouverture a été donné par Olivier Sautory de l’Institut national de la statistique et des études économiques (INSEE) (France) et le PrixWaksberg a été décerné à Ken Brewer. Le Comité scientifique a élaboré un programme contenant plus de 60 présentations provenant d’une douzainede pays. Les présentations ont touché les sujets suivants : bases multiples; méthodes de collecte de données; échantillonnage à deux phases;modélisation et estimation; plans alternatifs; utilisation de données administratives pour la création de bases de sondage et l’estimation; alternatives auxrecensements; sondage indirect/adaptatif; enquêtes par le web; défis avec les bases de sondage imparfaites; enquêtes auprès de populations difficiles

Statistique Canada, numéro 12-206-X au catalogue 20

Page 21: Programme de recherche et développement en méthodologie

à rejoindre; développement de bases de sondage pour les recensements et les grandes enquêtes.

Le Comité de logistique s’est occupé de tâches telles que la traduction, les installations et l’audiovisuel. De son côté, le Comité de registrariat s’estoccupé des inscriptions. On prévoit publier le Recueil du Symposium à l’été 2014.

Pour plus de renseignements, contactez : Pierre Lavallée (613 951-2892, [email protected]).

Revue techniques d’enquêteTechniques d’enquête est une revue internationale où sont publiés des articles dans les deux langues officielles sur les divers aspects des méthodesstatistiques qui intéressent les organismes statistiques. Le comité de rédaction compte des chefs de file de renommée mondiale du domaine desméthodes d’enquête issus des secteurs public, universitaire et privé. Il s’agit de l’une des rares revues scientifiques de premier plan à l’échelle mondialequi traite de la méthodologie des statistiques officielles. On peut consulter cette revue à l’adresse suivante : http://www.statcan.gc.ca/pub/12-001-x/index-fra.htm.

Cette année a été une année importante pour la revue, car la publication est passée d’une version imprimée et PDF à une version électroniqueseulement. Techniques d’enquête est maintenant offerte gratuitement en ligne en format PDF et en version HTML entièrement accessible. Le caractèrescientifique de la revue et la grande quantité de formules mathématiques présentes dans son contenu ont ajouté des difficultés à la production d’uneversion HTML accessible.

La version PDF du numéro de juin 2013, Techniques d’enquête (TE) 39-1, a été publiée le 28 juin 2012. Ce numéro contient neuf articles.

Le numéro de décembre 2013, SM 39-2, a été publié le 15 janvier 2014. Il renferme neuf articles, dont le treizième de la série d’articles annuels sollicitésen l’honneur de Joseph Waksberg. Ken Brewer est le lauréat du prix Waksberg 2013.

En 2013, la revue a reçu 73 propositions d’articles soumises par divers auteurs.

Pour obtenir de plus amples renseignements, veuillez communiquer avec : Susie Fortier (613 951-4751, [email protected]).

Statistique Canada, numéro 12-206-X au catalogue 21

Page 22: Programme de recherche et développement en méthodologie

Documents de recherche parrainés par le Programme derecherche et développement en méthodologieAbeysundera, M. (2013). Epigenetics: A review of the literature. Document interne, Statistique Canada.

Beaumont, J.-F. (2014). The Analysis of Survey Data Using the Bootstrap. Dans Contributions to Sampling Statistics, (Éds., F. Mecatti et coll.), SpringerInternational Publishing, Suisse (a paraître).

Beaumont, J.-F., Béliveau, A. et Haziza, D. (2014). Clarifying some aspects of variance estimation in two-phase sampling. Scandinavian Journal ofStatistics (soumis).

Beaumont, J.-F., Bocci, C. et Hidiroglou, M. (2014). On weighting late respondents when a follow-up subsample of nonrespondents is taken. Articleprésenté au Comité consultatif des méthodes statistiques, Statistique Canada, mai 2014, Ottawa.

Beaumont, J.-F., Fortier, S., Gambino, J., Hidiroglou, M. et Lavallée, P. (2014). Some of Statistics Canada’s Contributions to Survey Methodology. DansStatistics in Action, A Canadian Outlook, (Éd., J.F. Lawless), Chapitre 2, The Statistical Society of Canada, Chapman & Hall.

Beaumont, J.-F., Haziza, D. et Bocci, C. (2014). An Adaptive Data Collection Procedure for Call Prioritization. Journal of Official Statistics (en révision).

Beaumont, J.-F., Haziza, D. et Ruiz-Gazen, A. (2013). A unified approach to robust estimation in finite population sampling. Biometrika, 100, 555-569.

Bocci, C., Beaumont, J-F. et Hidiroglou, M.A. (2014). On weighting late respondents when a follow-up subsample of nonrespondents is taken.Présentation fait au Comité consultatif des méthodes statistiques en mai 2014.

Dasylva, A. (2013). Applying the Spectral Covariance (SC) Method to Probabilistic Record Linkage. Rapport interne, Oct. 2013.

Dasylva, A. (2014). Reducing the Structure of Statistical Models for Probabilistic Record Linkage. Rapport interne, soumis au JSM, mai 2014.

Dasylva, A., et Haddou M. (2014). Quality Guidelines for Record Linkage, Estimation and Analysis with Linked Data at Statistics Canada. Rapportinterne, mai 2014.

Estevao, V., Hidiroglou, M.A. et You, Y. (2014). Small Area Estimation for the area level model with hierarchical Bayes estimation. Spécificationméthodologie. Document interne, Statistique Canada.

Favre-Martinoz, C., Haziza, D. et Beaumont, J.-F. (2014). Une méthode de détermination du seuil pour la winsorisation avec application à l’estimationpour des domaines. Techniques d’enquête (soumis).

Fortier, S. (2013). Benchmarking methods for calendarisation. Présenté à l’ESSnet Admin Data workshop, Estonie, mai 2013.

Fortier, S., et Gellatly, G. (2014). Behind the Data: Frequently Asked Questions about Seasonally Adjusted Data, dans Economic Insights. StatistiqueCanada, No 11-626-X au catalogue, accepté pour publication.

Fortier, S., Picard, F. et Matthews, S. (2013). Trend estimates for sub-annual surveys. Présenté à Statistique Canada au Comité des méthodes et desnormes, octobre 2013.

Fox, K., et Brehaut, J. (2014). Understanding proxy responses: A pilot cognitive test of factors potentially related to proxy quality. Document interne,Statistique Canada.

Gagné, C. (2013). Sur la sensibilité des données pouvant contenir des valeurs négatives. Document interne, Statistique Canada.

Statistique Canada, numéro 12-206-X au catalogue 22

Page 23: Programme de recherche et développement en méthodologie

Gagné, C. (2013). Usage des poids pour déterminer la sensibilité. Document interne, Statistique Canada.

Haddou, M. (2014). Bootstrap Variance Estimation Specifications—Aboriginal Peoples Survey. Document interne, mars 2014.

Hidiroglou, M.A., et Nambeu, C.O. (2013). Calage avec total de contrôle estimé. Assemblée annuelle de la SSC, mai 2013. Recueil de la Section desméthodes d’enquête.

Hidiroglou, M.A., et Nambeu, C.O. (2013). Calage avec total de calage estimé. Recueil : Symposium 2013, Produire des estimations fiables à partir debases imparfaites.

Lachance, M. (2014). MixMatch 1.0 for SAS User Guide May 2014.

Laflamme, F. (2013). Responsive Collection Design (RCD) Framework for Multi-Mode Surveys. International Nonresponse Workshop (Londres,Royaume-Uni) et au Comité des méthodes et des normes.

Laflamme, F. (2013). Using Paradata to Manage Responsive Collection Design. Advances in Adaptive and Responsive Survey Design, Heerlen, Pays-Bas.

Le Petit, C., et Fortier, S. (2014). The Labour Force Survey - Trend Analysis in a Volatile Labour Market. Présenté à la Toronto Association of BusinessEconomists meeting, Toronto, février 2014.

Mach, L. (2014). Bayesian Methods with Survey Data. Document interne, Statistique Canada.

Mantel, H. (2013). Confidence Intervals Small Proportions Estimated from Complex Surveys (Ébauche). Division de la recherche et de l’innovation enstatistique.

Mantel, H., et Hidiroglou, M. (2014). Options for a One-Stage Design for the Canadian Labour Force Survey. Rapport technique, Division de larecherche et de l’innovation en statistique.

Matthews, S., Ferland, M. Patak, Z. et Fortier, S. (2013). Seasonal adjustment in volatile economic situations: Statistics Canada’s experience.Proceedings of the Business and Economic Section of the American Statistical Association, Montréal.

Merkouris, T. (2014). An efficient estimation method for matrix survey sampling. Accepté pour la publication Techniques d’enquête.

Millville, M.-H., Abeysundera, M. and Fox, K. (2014). Evaluation of the Effect of a Change of Sampling Frame in Estimated Statistics through SimulationsTechnical Report. Document interne, Statistique Canada.

Moussa, S., et Fox, K. (2014). L’utilisation de la réponse par procuration et les modes de collecte mixtes. Recueil : Symposium 2013, Produire desestimations fiables à partir de bases imparfaites.

Nambeu, C.O., et Hidiroglou, M. (2013). Programme des estimations de la population et utilisation du système d’estimation pour petits domaines.Document interne de Statistique Canada.

Picard, F. (2014). Relationship between Hodrick Prescott filter, spline and SSM models. Document de travail en développement.

Quenneville, B. (2013). Estimating Variance in X-12-ARIMA. Papier soumis à la revue Techniques d’enquête.

Quenneville, B., Picard, F. et Fortier, S. (2013). State Space Models for Temporal Distribution and Benchmarking. Présenté à la Joint Statistical Meetingof the American Statistical Association, Montréal.

Rivière, P., et Rubin-Bleuer, S. (2013). Microstrata. Recueil de la Section de méthodes d’enquête, conférence annuelle de la Société Statistique duCanada 2013, Ottawa.

Rubin-Bleuer, S., Godbout, S. et Jang, L. (2014). The Pseudo-EBLUP estimator for a weighted average with an application to the Canadian Survey ofEmployment, Payrolls and Hours. SRID-2014-001E.

Rubin-Bleuer, S., et Jang, L. (2013). Workshop on Small area Estimation. Livret de Statistique Canada avec des acétates.

Rubin-Bleuer, S., Julien, P.O. et Pelletier, E. (2014). Feasibility study on small area estimation for RDCI. DMEE interne et rapport DRIS, mars 2014.

Saidi, A. (2014). Overview of record linkage at Statistics Canada. Présentation fait au Comité consultatif des méthodes statistiques en mai 2014.

Schiopu-Kratina, I., Fillion, J.-M., Mach, L. et Reiss, P.T. (2014). Maximizing the conditional overlap in business surveys. Journal of Statistical Planningand Inference, 98-115.

Tambay, J.-L., et Fillion, J.-M. (2013). Strategies for Processing Tabular Data Using the G-Confid Cell Suppression Software.Présenté au Joint StatisticalMeetings 2013, Montréal, 4 au 8 août 2013.

Verret, F., Rao, J.N.K. et Hidiroglou, M.A. (2014). Model-based small area estimation under informative sampling.Papier soumis à la revue Techniqued’enquête.

Wright, P. (2014). Options pour traiter les valeurs négatives. Document interne Statistique Canada.

Xu, C., Chen, J. et Mantel, H. (2013). Critère d’information bayésien fondé sur la pseudo-vraisemblance pour la sélection de variables dans les donnéesd’enquête. Techniques d’enquête, 39, 2, 333-354.

You, Y. (2014). Small area estimation using unmatched spatial models with application in the Canadian Community Health Survey. Documents de travailde la Direction de la méthodologie, SRID-2014-02E, Statistique Canada, Ottawa, Canada.

You, Y., Rao, J.N.K. et Hidiroglou, M. (2013). De la performance des estimateurs sur petits domaines autocalés sous le modèle au niveau du domainede Fay-Herriot. Techniques d’enquête, 39, 1, 243-255.

Statistique Canada, numéro 12-206-X au catalogue 23