393

actes des journées de méthodologie statistique

Embed Size (px)

Citation preview

Page 1: actes des journées de méthodologie statistique
Page 2: actes des journées de méthodologie statistique

INSEE MÉTHODES N° 56-57- 58

ACTES DES JOURNÉES DE MÉTHODOLOGIE

STATISTIQUE

15 et 16 décembre 1993

/

r

• • •

- • - '>"

_ - •"'"' - 4:7

1:1 INSEE

Page 3: actes des journées de méthodologie statistique
Page 4: actes des journées de méthodologie statistique

ACTES DES JOURNÉES DE MÉTHODOLOGIE

STATISTIQUE

15 et 16 décembre 1993

Page 5: actes des journées de méthodologie statistique

RÉPUBLIQUE FRANÇAISE INSTITUT NATIONAL DE LA STATISTIQUE ET DES ÉTUDES ÉCONOMIQUES

Direction Générale 18, boulevard Adolphe-Pinard - 75675 Paris cedex 14

Directeur de la publication : Paul Champsaur Rédactrice en chef : Michèle Garo Correcteur : Jean-Pierre Moreau Maquettistes : Mireille Brunet, Régine Burlando, Patrick Lapierre de Mélinville

Page 6: actes des journées de méthodologie statistique

SOMMAIRE

INTRODUCTION (Jean-Claude Deville - Insee) 5

SYNTHÈSE DES INTERVENTIONS (Benoît Riandey - Ined) 9

SESSION 1 : ANALYSE DES DONNÉES

Lanalyse des données avec SAS V6 (Olivier Sautory - Insee) 15

Les changements de composition socioprofessionnelle des communes entre 1982 et 1990 (Nicole Tabard - Insee) 31

Représentation cartographique et élaboration de typologies (Philippe Louchart - Institut d'Aménagement et d'Urbanisme de la Région Ile-de-France (IAURIF)) 43

SESSION 2 : CORRECTIONS POUR LA NON-RÉPONSE

Non-réponse : principes et méthodes (Jean-Claude Deville, Françoise Dupont - Insee) 53

Étude des non-réponses dans l'enquête emploi (Louis Meuric - Insee) 71

SESSION 3 : DONNÉES DE SURVIE

Estimation d'un modèle de sortie de chômage à destinations multiples (Chantal Cases, Stéfan Lollivier - Insee) 97

Limpact des dispositifs d'emploi sur le devenir des jeunes chômeurs ; une évaluation économétrique sur données longitudinales (Liliane Bonnal - CRESEP, Université d'Orléans ; Denis Fougère - CNRS et CREST Paris ; Anne Sérandon - CEJEE, Université des Sciences sociales de Toulouse) 109

Actes des journées de méthodologie statistique 3

Page 7: actes des journées de méthodologie statistique

SESSION 4 : CONTRÔLE ET QUALITÉ DES DONNÉES

Premières réflexions et analyses sur les méthodes de traitement des données dans les enquêtes annuelles d'entreprises (Dominique Bonnans, Emmanuel Raulin - Insee) 139

Nettoyage de données dans le cas de fichiers d'entreprises Recherche de la cohérence transversale (Elizabeth Kremp - Banque de France, Observatoire des entreprises) 161

Les écarts d'estimation de la population active française Au recensement de mars 1990 et à l'enquête annuelle sur l'emploi de janvier 1990: d'où viennent les divergences ? (Dominique Rouault - lnsee) 201

Les outils de la qualité d'une enquête - Conception de questionnaires et d'outils de saisie (Francis Tsai - lnsee) 227

SESSION 5 : TRAITEMENT DES SÉRIES TEMPORELLES

ALIEN : un outil pour modéliser la rédaction de diagnostics économiques (Jean-Louis Roos - Insee) 251

Moyennes mobiles centrées et non centrées Construction et comparaison (Michel Grun-Rehomme - IUT Niort et Dominique Ladiray - lnsee) 271

Un cadre de référence pour corriger les effets de court terme : l'exemple des CJO (Vincent Maillard - lnsee) 305

CONFÉRENCES SPÉCIALES

Analyse statistique des réponses aux questions ouvertes (Ludovic Lebart - École nationale supérieure des Télécommunications) 331

Pondération et estimation dans les enquêtes - entreprises (Michel Hidiroglou, Erik Sârndal et D.A. Binder - Statistique Canada) 359

4 Insee Méthodes n° 56-57-58

Page 8: actes des journées de méthodologie statistique

INTRODUCTION Jean-Claude DEVILLE

Chef de la Division des méthodes statistiques et des sondages

INSEE

Les troisièmes "Journées de méthodologie statistique", organisées par la Division "méthodes statistiques et sondages" et l'Ecole nationale de la statistique et de l'admi-nistration économique (ENSAE) de l'INSEE, se sont déroulées dans les locaux de l'ENSAE les 15 et 16 décembre 1993. L'assistance a été d'environ 330 personnes au total. De ce lait, cette manifestation constitue la plus grosse réunion de statisticiens en France (à l'exception des Journées de l'Association pour la statistique et ses utilisa-tions (ASU), mais elles en sont à leur 26e édition). Jean-Claude DEVILLE (INSEE) nous fait part du fondement des Journées de métho-dologie statistique et de la place qu'elles tiennent dans la statistique. Benoît RIANDEY (Institut national des études démographiques -INED-) rend compte des avancées méthodologiques qui y ont été présentées.

Rappelons les objectifs et l'histoire de cette manifestation. L'idée remonte à 1990 : elle reprend le concept de la réunion scientifique annuelle, telle qu'elle existe depuis assez longtemps aux États-Unis sous l'égide du Bureau of the Census et depuis quelques années à Statistique Canada. Bien entendu, il a fallu adapter la formule à nos besoins nationaux et à nos spécificités.

Un peu d'histoire

L'une de ces réalités est la suivante : il existe dans les structures régionales (Directions régionales de l'INSEE en particulier), dans les services statistiques des ministères et administrations, une grande quantité de statisticiens généralistes qui ont peu d'occa-sions institutionnelles de se rencontrer, de parler et d'entendre parler "métier". Il leur est demandé, d'autre part, d'être de bons techniciens sans qu'ils aient la possibilité de se tenir au courant des développements de leur discipline. Les colloques et congrès nationaux sont orientés soit vers des domaines d'applications (sociologie du travail, démographie, etc.), soit vers la théorie de type universitaire (Journées de l'ASU) dont les liens avec l'activité quotidienne ne sont pas toujours aisés à saisir. L'idée est alors venue de réunir, sur deux jours, des statisticiens de l'INSEE et du système public pour

Introduction 5

Page 9: actes des journées de méthodologie statistique

parler d'échantillonnage, de redressements d'enquête, d'indices, de non-réponse, de précision des données.

La seconde idée, (plus difficile et pas encore réellement concrétisée), était de donner une visibilité aux travaux méthodologiques.

Le système de publications de l'INSEE, et plus généralement des publications statisti-ques en France, ne laisse, en effet, pratiquement aucune place aux questions générales de construction des données. Les textes qui en traitent sont relégués soit au stade d'encadrés (Economie et statistique), soit au stade d'un chapitre elliptique et peu mis en valeur (INSEE Résultats), soit dévolus à la série INSEE Méthodes, à condition qu' ils représentent un certain volume et qu'ils soient consacrés à une opération particulière (indice de la production industrielle, recensement, etc.). La publication dans Annales d'économie et de statistique ne s'envisage que pour des articles à dominante économé-trique ou à vocation statistique très générale tournée vers l'analyse plus que vers la construction des données.

Il est par ailleurs extrêmement difficile de pousser un auteur potentiel à écrire un simple document de travail ; les arguments sont toujours les mêmes : manque de temps (c'est-à-dire priorités situées ailleurs), manque de retombées symboliques pour ce genre d'efforts. Or l'INSEE ne serait pas ce qu'il est si un tel gisement n'existait pas.

Troisième idée, enfin : demander à des collègues étrangers de présenter l'état de leurs réflexions sur un problème particulier et de nous faire part de leurs remar-ques sur les travaux de l'INSEE. De ce point de vue, la francophonie est donc une nécessité, d'où l'invitation systématique aux Journées de collègues canadiens ; leur participation étant d'autant plus appréciée que Statistique Canada est un peu la Mecque des instituts nationaux de statistique. C'est sur ces principes qu'avaient été lancées les premières Journées en mars 1991. Sur les mêmes principes, les secondes Journées furent organisées en juin 1992. Le nombre des participants atteignit 220 personnes. L'impres-sion était qu'une tradition s'était créée, que l'événement était attendu. Il est apparu alors indispensable de mettre en place en 1993 une nouvelle édition de ces Journées dont le succès a déjà été évoqué.

Sensibiliser à l'existence de corps de méthodes

Le programme des Journées comporte 5 sessions. Chacune d'elles est centrée sur un thème : échantillonnage, méthodologie des indices, régression logistique, par exemple. Les communications peuvent traiter d'aspects généraux ou d'applications. Quand un sujet semble relativement nouveau pour le public, une session comporte un exposé général d' introduction aux méthodes (exemple : les modèles de durées) et deux exposés

6 Insee méthodes n° 56-57-58

Page 10: actes des journées de méthodologie statistique

d'application à des domaines si possible différents (typiquement, une application aux statistiques de population, une application aux statistiques d'entreprise).

En plus des communications groupées en sessions, des conférences spéciales de 45 minutes sont réservées à certains invités (étrangers essentiellement).

Ce rythme est celui des congrès internationaux et surprend parfois les auditeurs... et certains conférenciers. Le but n'est jamais de discuter de façon approfondie un pro-blème particulier. II est plus de sensibiliser à l'existence de corps de méthodes dans certains domaines choisis (un par session). Les participants reçoivent un support écrit qui leur donne accès à une bibliographie. Comme dans toutes les rencontres scientifi-ques, l'ensemble des exposés ne peuvent être suivis de bout en bout par tout un chacun. Mais chacun peut y trouver la possibilité de se former, ou de compléter sa formation, voire d'y trouver des idées innovantes.

Quels statisticiens et quelle statistique ?

À l'origine, les Journées de méthodologie statistique avaient l'ambition modeste de présenter des travaux réalisés à l'INSEE à un public "inséen", régional en particulier. Il est vite apparu que le public intéressé était à l'évidence beaucoup plus large : ensemble du système statistique, services statistiques des ministères, organismes pu-blics, semi-publics, et même, à certaines conditions, sociétés d'études et de sondage privées.

Si l'on cherche à comprendre quel est le public des Journées de méthodologie statisti-que, on peut tenter de le caractériser comme toutes personnes ayant à élaborer des données statistiques à partir d'une "mission" définie contractuellement (service public ou contrat privé). Cette définition implique les activités suivantes :

. définition des concepts statistiques répondant à la demande (indicateurs statistiques, indices, nomenclatures par exemple)

. mise au point de concepts opérationnels liés à ces concepts statistiques : questionnaires et questionnements, techniques de mesure, passerelles entre concepts administratifs et concepts statistiques

. problèmes liés au recueil de l'information : recensements, sondages, traitement de données administratives

. problèmes d'estimation : choix de pondérations, traitement de la non-réponse et des erreurs de mesure, estimation pour de petits domaines

. estimation de précision des données

Introduction 7

Page 11: actes des journées de méthodologie statistique

. analyse et présentation des données, (y compris dans le cadre de modèles incluant des hypothèses aléatoires).

Ce champ d'activité recouvre, au fond, ce que l'on appelle "Official Statistics" dans les pays anglo-saxons et nordiques. Il faut y voir une activité particulière des statisti-ciens, au même titre que la statistique bio-médicale (bien développée et comprise en France dans les milieux universitaires), la statistique actuarielle, la statistique appliquée à l'industrie (plan d'expérience, contrôle des fabrications,...) ou même la statistique appliquée à l'économie. La caractéristique de cette activité est le traitement de grosses opérations nécessitant la mise en oeuvre de moyens très importants.

Les Journées de méthodologie statistique ont révélé que cette discipline existe, qu'elle a ses méthodes et qu'elle a son public. Celui-ci est largement aussi nombreux hors INSEE qu'au sein de l'Institut. Plus de la moitié des inscrits, cette année, (et malgré une prospection incomplète) a pour origine le système statistique public ou para-public hors INSEE (même si beaucoup des participants de cette catégorie appartiennent à des corps de fonctionnaires INSEE). Pour le reste, un bon tiers (60 environ) vient des Directions régionales de l'INSEE, contre une bonne centaine de participants en poste à la Direction générale.

Le succès des Journées s'explique, finalement, facilement : la "statistique officielle" existe bien, en France, autant qu'à l'étranger, en tant que discipline. Elle nécessite une animation : les Journées de méthodologie statistique en sont la réunion scientifique périodique. Il est facile d'imaginer ce qui manque : une structure associative, des publications, des structures de formation et de recherche dans les universités. Tout cela devrait déboucher sur une publication plus systématique de travaux, dans des formes plus accessibles que celles que l'on connaît actuellement.

8 Insee méthodes n° 56-57-58

Page 12: actes des journées de méthodologie statistique

SYNTHÈSE DES INTERVENTIONS Benoît RIANDEY,

Conseiller scientifique INED

Les troisièmes Journées de méthodologie statistique (JAIS) ont à nouveau permis un échange sur des avancées méthodologiques variées et concrètes, comme l'analyse statistique des questions ouvertes ou l'analyse des données sous SAS-V5. L'analyse socio-économique des communes et des quartiers avec ses outils typologiques et cartographiques devrait faciliter les travaux (sans doute trop rares) des démographes au niveau local. L'absence de registres de population incite en effet à la création d'outils statistiques permettant une stratification géographique fine.

Au cours d'un exposé stimulant, J. TOURIGNY (Statistique Canada) a présenté les méthodes de codification automatique du recensement canadien. Sa répétition quin-quennale repose, en effet, sur un investissement méthodologique ininterrompu : à trois ans du recensement de 1996, des recherches sont entreprises en vue de surmonter au recensement de 2001 les difficultés de codification automatique de la profession et de l'activité économique. La procédure mise au point pour 1996 traite des autres questions ouvertes en particulier la religion, l'origine ethnique et la langue parlée. Les fichiers complets du recensement existent huit mois après la collecte, mais dès celle-ci menée, deux enquêtes auprès des personnes âgées et des handicapés démarrent sur un échan-tillon d'aires dont les bulletins individuels sont traités manuellement dès leur retour. L'efficacité du système de codification impressionne d'autant plus qu'il comprend des tests de contrôle de qualité non soumis à la subjectivité humaine et des coûts de fonctionnement très réduits.

L'exposé de D. ROUAULT (INSEE-DG, Division "enquêtes et études démographi-ques") apportait une contribution à l'évaluation du recensement français sur les thèmes de l'emploi et du chômage' tandis que E. RAULIN (INSEE-DG, Division "harmoni-sation des enquêtes auprès des entreprises et des établissements") et E. KREMP (Banque de France) présentaient les méthodes de l'INSEE et de la Banque de France en vue de rendre plus efficace l'apurement des données des enquêtes auprès des entreprises. Celles-ci butent, en effet, sur les difficiles problèmes des points aberrants, des individus prépondérants dans leur branche, des décès et éclosions d'entreprises bien peu conformes aux lois de la démographie générale. Ces deux institutions partagent le souci de retourner une information individualisée auprès des entreprises enquêtées permettant de comparer leur situation à celle de leur branche.

1. Voir Population n' 6, 1993.

Synthèse des interventions 9

Page 13: actes des journées de méthodologie statistique

Ce type de préoccupation rehausse l'intérêt des trois exposés traitant des données temporelles. Le système expert ALIEN interprète les séries chronologiques qu'on lui soumet et propose un commentaire rédigé selon les indications stylistiques fournies. Les autres exposés apportent une synthèse théorique et pratique sur le lissage des extrémités de séries par moyenne mobile généralisée et, grâce à une procédure SAS, permettent une correction du nombre de jours ouvrables en préalable à celle des variations saisonnières.

Tous ces outils permettraient-ils aux économistes de la conjoncture de ne plus se tromper dans leurs prévisions? La table ronde, très animée, traitant de ce sujet invitait à en douter : les mutations économiques ne dévalorisent-elles pas. au fur et à mesure, l'e périence acquise par les prévisionnistes? Les démographes aussi préfèrent la modestie en matière de prévision et le clivage entre modèles auto-régressifs VAR et modé:es économiques structurels trouverait bien son pendant dans notre discipline.

La conférence de C.E. SARNDAL traitait du système généralisé d'es:.m.,.:ion de Statistique Canada. Appliqué aux enquêtes d'entreprises, il permet des ematons localisées immédiates grâce à la disponibilité en ligne de variables ,de S.:. un jeu d'estimations performant. Soulignons l'hommage rendu aux invitants: C.E.SAR:K D \L a mentican,: !c recours à CALMAR par Statistique Canada dès lors 'eut compai érénts critères d'optimisation du redressement (cf. exposé de 0.:_ 1:TORY .auxecè.JMSJe 199IY.

Préciss.‘ment. J-C. DEVILLL a prescmè une stratégie - tr:iel:i.• ou 101:11e„ puis F, r,-)1.- PON 1'

des u.-:éMo,1 des so '-gcs a donne une cie de cesinC:hodcs e: .1 compare les fondements des tecr.n .

en une ou jeu ..ge direct distribution, sant ieformation ooici sondagc cor:-ecticri

liOn-rerCrIS:.'. MUS

à la 1:T.-DG. 'Division

Page 14: actes des journées de méthodologie statistique

individuelle ou résulte-t-elle d'une sélection interne à une population hétérogène de chômeurs? La perception d'une allocation et les diverses politiques de l'emploi modi-fient-elles les probabilités de trouver un emploi stable ou temporaire?

En clôture de ces journées, P. CHAMPSAUR, Directeur général de l'INSEE, a souligné l'importance de la demande de formation méthodologique que révèlent les 350 inscrits à ces journées et a félicité J-C. DEVILLE et son équipe pour la réponse apportée à cette demande. Nous partageons bien son sentiment.

Synthèse des interventions 11

Page 15: actes des journées de méthodologie statistique
Page 16: actes des journées de méthodologie statistique

Session 1

Analyse des données

Page 17: actes des journées de méthodologie statistique
Page 18: actes des journées de méthodologie statistique

L'ANALYSE DES DONNÉES AVEC SAS V6 Olivier Sautory

1. L'offre SAS

Le module statistique du logiciel SAS (SAS/STAT) contient un certain nombre de procédures permettant de pratiquer de l'analyse des données "à la française".

1.1. Les procédures d'analyse factorielle

1.1.1. La procédure PRINCOMP

PRINCOMP réalise une analyse en composantes principales (ACP). La procédure édite les valeurs propres, les vecteurs propres, et les composantes principales, i.e. les coordonnées des individus sur les axes principaux. La procédure ne calcule pas d'aides à l'interprétation, et n'édite aucune information sur les variables.

PRINCOMP peut créer deux tables SAS :

- une table contenant les résultats de l'analyse : moyennes et écarts-types des varia-bles, matrice des corrélations, valeurs propres et vecteurs propres ;

- une table contenant, outre les données de la table en entrée, les valeurs des compo-santes principales.

1.1.2. La procédure FACTOR

Comme PRINCOMP, FACTOR permet d'effectuer des ACP, mais elle calcule de plus les corrélations entre les variables et les composantes principales.

FACTOR offie également la possibilité à l'utilisateur averti de réaliser des analyses factorielles au sens anglo-saxon du terme. Dans les ouvrages anglo-saxons — et dans SAS —, l'analyse factorielle désigne une méthode proposée par Spearman (1904) dans un contexte psychométrique, et présentant certaines analogies avec l'ACP ; elle s'en distingue par une modélisation a priori des effets des variables (les "facteurs communs" et les "facteurs spécifiques", qui sont... inobservables) ainsi que par les "rotations" que

L'analyse des données avec SAS V6 15

Page 19: actes des journées de méthodologie statistique

l'on peut opérer sur les axes factoriels. Ces techniques sont peu utilisées par les statisticiens français.

FACTOR peut créer deux tables SAS :

- une table contenant les résultats de l'analyse : moyennes et écarts-types des varia-bles, matrice des corrélations, valeurs propres et vecteurs propres, corrélations entre variables et composantes principales... ;

une table contenant, outre les données de la table en entrée, les valeurs des compo-santes principales.

1.1.3. La procédure CORRESP

La procédure CORRESP permet de réaliser une analyse factorielle des correspondances (AFC) ou une analyse des correspondances multiples (ACM)... au sens français du terme : l'analyse des correspondances est une "popular data analysis method in France and Japan qui trouve donc dans cette procédure, introduite dans la version 6 du logiciel, un moyen de conquérir des terres plus ou moins inconnues.

Contrairement aux deux procédures précédentes, CORRESP peut traiter des points supplémentaires (individus, variables, modalités, selon les cas), et édite des aides à l'interprétation.

Dans le cas d'une AFC (analyse de la liaison entre deux variables qualitatives A et B), les données en entrée de la procédure peuvent se présenter sous l'une des formes suivantes :

tableau individus x variables, i.e. table SAS où les lignes ("observations" dans le langage SAS) sont les individus, et les colonnes ("variables" dans le langage SAS) sont les variables A et B : c'est la procédure qui construit le tableau de contingence croisant A et B qui sera soumis à l'analyse ;

- tableau de contingence, ou tableau croisé, i.e. table SAS où les lignes sont les modalités de la variable A, les colonnes les modalités de la variable B ;

- table SAS créée en sortie d'une PROC FREQ.

Note : dans les versions SAS antérieures, la procédure CORRESP ("procédure utilisa-teur" écrite, et disponible, à l'INSEE) n'acceptait les données en entrée que sous la forme d'un tableau de contingence.

1. (SAS/STAT User'guide, volume 1, page 616).

16 lnsee Méthodes n° 56-57-58

Page 20: actes des journées de méthodologie statistique

Dans le cas d'une ACM (analyse des liaisons entre M variables qualitatives A, B, C...), les données en entrée de la procédure peuvent se présenter sous l'une des formes suivantes :

tableau individus x variables, i.e. table SAS où les lignes sont les individus, et les colonnes sont les variables A, B, C... : c'est la procédure qui construit le tableau de Burt croisant A, B, C... qui sera soumis à l'analyse (à noter que, dans ce cas, la procédure ne donne aucun résultat concernant les individus). On peut également demander à la procédure de construire le tableau disjonctif complet, et d'analyser ce tableau, ce qui permet d'obtenir les résultats relatifs aux individus ;

- tableau disjonctif complet, i.e. table SAS où les lignes sont les individus, et les colonnes sont les modalités des variables qualitatives Al A2... B I B2... Cl C2... (tableau de 1 et de 0) ;

- tableau de Burt, i.e. table SAS où les lignes sont les modalités des variables qualitatives, et les colonnes également.

Note : dans les versions SAS antérieures, la procédure CORRESP (INSEE) n'acceptait les données en entrée que sous la forme d'un tableau disjonctif complet.

La procédure édite les valeurs propres, les coordonnées des points, les contributions aux inerties des axes (CTR), les qualités de représentation des points sur les axes (CO2 et QLT), des indices indiquant les points expliquant le mieux l'inertie des axes (BEST) ; elle édite également, à la demande, les tableaux des effectifs théoriques sous l'hypo-thèse d'indépendance, des écarts à l'indépendance, des contributions au chi-deux du tableau.

CORRESP peut créer deux tables SAS :

- une table contenant le tableau de données analysé (tableau de contingence, tableau disjonctif complet ou tableau de Burt), les tableaux des profils-lignes et des profils-colonnes, les tableaux des écarts à l'indépendance, des contributions au chi-deux ;

- une table contenant les résultats de l'analyse : valeurs propres, coordonnées, aides à l'interprétation.

Pour une présentation détaillée de la procédure CORRESP, on peut se reporter au document cité en référence [5].

L'analyse des données avec SAS V6 17

Page 21: actes des journées de méthodologie statistique

1.2. Les procédures de classification

1.2.1. La procédure CLUSTER

CLUS IER effectue une classification ascendante hiérarchique (CAH), à partir d'un tableau observations x variables, ou bien d'un tableau de distances. Pas moins de 11 stratégies d'agrégation ( = modes de calcul des "distances" entre classes) sont propo-sées, parmi lesquelles on trouve :

- la méthode de WARD, ou minimisation de la variance intra-classe de la partition ;

- la méthode CENTROID, ou distance entre les centres de gravité des classes ;

- la méthode SINGLE linkage, ou minimum des distances entre les points des classes ;

- la méthode COMPLE1E linkage, ou maximum des distances entre les points des classes ;

- la méthode AVERAGE linkage, ou moyenne des distances entre les points des classes;

- la méthode DENSITY linkage, fondée sur une estimation non paramétrique de densité de probabilité

La procédure édite un "historique" du processus de classification, i.e. des informations sur les dernières agrégations : les classes jointes, l'effectif des classes, les distances entre classes, divers indicateurs statistiques dépendant de la méthode choisie.

La procédure peut créer une table qui peut être utilisée en entrée de la procédure TREE (voir § 1.2.4.).

1.2.2. La procédure FASTCLUS

FASTCLUS réalise une classification non hiérarchique, i.e. construit une partition en un nombre de classes fixé a priori, selon la méthode des centres mobiles. L'utilisation de cette procédure, plutôt que CLUSTER, est recommandée lorsque l'on travaille sur un grand nombre d'observations (par exemple de l'ordre de plusieurs dizaines de milliers, ou plus), car FASTCLUS est dans un tel cas beaucoup plus rapide.

La procédure édite une description rapide des classes obtenues : effectif, distance maximale entre un point de la classe et son centre, distance entre le centre de la classe et le centre le plus proche, moyenne et écart-type de chaque variable dans la classe...

18 Insee Méthodes n° 56-57-58

Page 22: actes des journées de méthodologie statistique

FASTCLUS peut créer deux tables SAS :

- une table donnant des informations pour chaque classe de la partition (du genre de celles qui sont éditées) ;

- une table analogue à la table en entrée de la procédure, enrichie de deux variables :

• une variable donnant le numéro de la classe à laquelle appartient l'observa-tion ;

• une variable donnant la distance entre l'observation et le centre de la classe.

1.2.3. La procédure VARCLUS

VARCLUS réalise une classification (hiérarchique ou non hiérarchique) sur un ensem-ble de variables : chaque classe de variables est représentée par une variable synthéti-que (la variable "moyenne" ou la lère composante principale), et les classes sont choisies de façon à maximiser la somme des parts de variance expliquées par ces variables synthétiques.

VARCLUS peut créer deux tables SAS :

- une table contenant des statistiques relatives aux différentes classes ;

- une table pouvant être utilisée en entrée de la procédure TREE (dans le cas où on a réalisé une classification hiérarchique).

1.2.4. La procédure TREE

TREE permet de tracer l'arbre de classification, ou dendrogramme, représentant les résultats d'une classification ascendante hiérarchique : elle utilise la table créée par la procédure CLUSTER (dans le cas d'une CAH sur individus) ou par la procédure VARCLUS (dans le cas d'une CAH sur variables). L'arbre produit par SAS est un arbre américain : assez différent des arbres français, il peut dans un premier temps surprendre quelque peu l'utilisateur familiarisé avec les logiciels d'analyse des données français. Mais avec un peu d'habitude, et de recul s , on s'y adapte.

Cette procédure permet également de créer une table SAS dans laquelle, à chaque observation de l'ensemble soumis à la classification, est attribué le numéro de la classe

1. En effet, cet arbre se visualise bien "en négatif', en s'éloignant du listing d'une distance de l'ordre de 50 cm...

L'analyse des données avec SAS V6 19

Page 23: actes des journées de méthodologie statistique

à laquelle elle appartient, pour une partition en un nombre de classes choisi par l'utilisateur.

1.3. Les procédures d'analyse discriminante

1.3.1. La procédure DISCRIM

DISCRIM réalise une analyse discriminante (sur variables numériques), avec un nombre de classes quelconque. Elle permet la mise en oeuvre de méthodes :

- paramétriques (hypothèse de normalité des distributions des variables explicatives) :

• méthode linéaire ;

• méthode quadratique ;

-- non paramétriques :

• méthode du noyau (estimation locale de densité) ;

• méthode des plus proches voisins.

La procédure évalue la méthode utilisée par des estimations des taux d'erreur de classement. Elle peut également effectuer une analyse canonique discriminante (comme CANDISC).

La procédure peut créer plusieurs tables SAS :

- une table contenant, outre les données de la table en entrée, les probabilités a posteriori d'affectation dans chaque classe, ou l'estimation de densité de chaque classe (selon la méthode utilisée), ainsi que la classe d'affectation ;

- une table contenant les résultats de la discrimination : différentes statistiques, fonctions discriminantes, etc.

1.3.2. La procédure STEPDISC

S l'EPDISC réalise une sélection de variables numériques en vue d'une analyse discri-minante, par une méthode pas à pas :

- ascendante ;

20 Insee Méthodes n° 56-57-58

Page 24: actes des journées de méthodologie statistique

- ascendante avec "remise en cause", i.e. avec possibilité de "sortir" une variable précédemment entrée (méthode "stepwise") ;

- descendante.

Le critère utilisé pour entrer, ou sortir, une variable, est le niveau de signification d'un test F d'une analyse de covariance, qui permet de juger de l'intérêt de sélectionner, ou de maintenir, une variable.

1.3.3. La procédure CANDISC

CANDISC réalise une analyse canonique discriminante, i.e. une analyse factorielle discriminante (au sens utilisé dans les ouvrages d'analyse des données français).

La procédure peut créer deux tables SAS :

- une table contenant les résultats de l'analyse : statistiques des variables dans les classes, composantes des variables canoniques (ou variables discriminantes)... ;

une table contenant, outre les données de la table en entrée, les valeurs des variables discriminantes, ce qui permet de représenter, à l'aide d'une procédure PLOT, les observations dans les "plans discriminants".

1.4. Commentaires

L'offre SAS en analyse des données est donc assez importante. Si elle est relativement complète dans le domaine de l'analyse discriminante, elle laisse néanmoins sur sa faim l'utilisateur habitué à utiliser les logiciels d'analyse des données français, tels que ADDAD, SPAD, STAT-ITCF... En effet, les procédures SAS ne fournissent pas les aides à l'interprétation familières aux statisticiens français, ni les graphiques de plans factoriels. Il faut toutefois souligner que ces procédures peuvent être utilement com-plétées grâce à l'utilisation de procédures usuelles de SAS, telles que MEANS, FREQ... pour les aides à l'interprétation d'une classification, PLOT (en version 6.07) pour les graphiques.

Plusieurs voies ont été utilisées pour enrichir l'offre en analyse des données au sein de l'univers SAS.

1. Sauf CORRESP, mais sous une forme un peu lourde.

L'analyse des données avec SAS V6 21

Page 25: actes des journées de méthodologie statistique

1.4.1. Les procédures-utilisateurs

Jusqu'à la version 5 du logiciel, un utilisateur un peu expérimenté pouvait assez aisément écrire des procédures spécifiques adaptées à des méthodes statistiques non prises en compte par le logiciel. Ainsi, l'INSEE avait écrit au début des années 80 des procédures de noms (significatifs) PRINCIP, CORRESP, GRAPHE, CAH, qui présen-taient les résultats de ces différentes méthodes (à peu près) comme dans les logiciels d'analyse des données. Le passage à la version 6 de SAS a rendu malheureusement caduques ces procédures, qui devaient être intégralement réécrites à l'aide de l'outil SAS/TOOLKIT, dont la disponibilité n'est que récente. Si diverses raisons ont conduit l'institut à ne pas envisager la reconversion de ces procédures, il n'en reste pas moins que la possibilité d'écrire en SAS des procédures d'analyse des données à la française existe ; toutefois, à notre connaissance, personne ne s'est encore engagé dans cette voie.

1.4.2. Les macros-SAS

Le langage macro de SAS permet d'"habiller" les procédures d'analyse des données disponibles dans SAS, par des enchaînements d' étapes DATAet de procédures, de façon à compléter ces procédures, en termes de statistiques calculées et en termes de présentation des résultats. Cette possibilité a été utilisée depuis longtemps par de nombreux statisticiens. Une macro-SAS offre l'avantage d'être, en principe, à peu près indépendante de la version SAS utilisée, et à peu près portable sur tout système. En revanche, un programme écrit en macro-langage n'est pas toujours optimum quant au temps de calcul.

C'est cette voie qui a été choisie par les statisticiens de l'INSEE : un certain nombre de macros ont été écrites en 1993, et sont présentées au § 2.

1.4.3. Les interfaces avec les logiciels

Le module SAS/TOOLKIT permet de réaliser l'interfaçage entre SAS et un autre logiciel, l'objectif étant d' accéder aux programmes d'un logiciel plus complet que SAS, tout en restant dans l'univers SAS, en particulier en travaillant directement sur des tables SAS. Des interfaces ont été écrites entre SAS et ADDAD, et entre SAS et SPAD, et sont présentées au § 3.

22 Insee Méthodes n° 56-57-58

Page 26: actes des journées de méthodologie statistique

2. Les macros-SAS de l'INSEE

2.1. Les macros d'analyse factorielle

2.1.1. La macro ACP

La macro SAS ACP réalise une analyse en composantes principales "à la française" : elle utilise la procédure SAS PRINCOMP, mais les résultats sont édités sous la forme classique rencontrée dans les principaux logiciels d'analyse des données français (en particulier la macro édite des aides à l'interprétation). De plus, cette macro permet d'introduire des "points supplémentaires", qu'il s'agisse d'individus ou de variables.

Cette macro permet de définir des barycentres d'individus, et produit des tests de significativité sur ces barycentres.

Les résultats de l'analyse peuvent être stockés dans une table SAS, et réutilisés par la suite par une autre procédure, ou par la macro PLOTACP.

2.1.2. La macro AIDEAFC

La macro SAS AIDEAFC édite les aides à l'interprétation des résultats d'une analyse factorielle des correspondances (AFC) sous la forme classique rencontrée dans les principaux logiciels français d'analyse des données.

Cette macro n'effectue pas une AFC : elle doit être précédée d'une procédure CORRESP. La macro utilise la table-OUTC créée par cette procédure, et qui contient les résultats de l'AFC. On peut demander les aides à l'interprétation pour les d premiers axes (au plus), où d est le paramètre spécifié dans l'option DIMENS de la PROC CORRESP.

2.1.3. La macro AIDEACM

La macro SAS AIDEACM édite les aides à l'interprétation des résultats d'une analyse des correspondances multiples (ACM) sous la forme classique rencontrée dans les principaux logiciels français d'analyse des données. En particulier, elle calcule des valeurs-tests qui permettent de juger de la significativité des modalités supplémentaires.

Cette macro n'effectue pas une ACM : elle doit être précédée d'une procédure CORRESP. La macro utilise la table-OUTC créée par cette procédure, et qui contient

L'analyse des données avec SAS V6 23

Page 27: actes des journées de méthodologie statistique

les résultats de l'ACM. On peut demander les aides à l'interprétation pour les d premiers axes (au plus), où d est le paramètre spécifié dans l'option DIMENS de la PROC CORRESP.

2.1.4. La macro PLOTACP

La macro SAS PLOTACP produit des représentations graphiques associées à une analyse en composantes principales réalisée à partir de la macro ACP. Elle utilise la procédure SAS PLOT. Les graphiques peuvent représenter les individus actifs, les individus supplémentaires (y compris les barycentres d'individus), les variables actives, les variables supplémentaires, et les "axes unitaires", i.e. les projections des axes de départ de l'espace des individus (axes représentant les variables actives de l'analyse) sur le plan factoriel considéré.

Cette macro utilise la table en sortie créée par une macro ACE

2.1.5. La macro PLOTCOR

La macro SAS PLOTCOR produit des représentations graphiques associées à une analyse factorielle des correspondances (AFC) ou à une analyse des correspondances multiples (ACM) réalisée à partir de la procédure CORRESP. Elle utilise la procédure SAS PLOT.

Dans le cadre d'une AFC, les graphiques peuvent représenter les modalités-lignes actives, les modalités-lignes supplémentaires, les modalités-colonnes actives et les modalités-colonnes supplémentaires sur le plan factoriel considéré.

Dans le cadre d'une ACM, les graphiques peuvent représenter les individus actifs, les individus supplémentaires, les modalités actives et les modalités supplémentaires sur le plan factoriel considéré.

2.2. Les macros de classification ascendante hiérarchique

2.2.1. La macro CA UM

La macro SAS CAHNLTM réalise une classification ascendante hiérarchique, à l'aide des procédures CLUSTER et TREE de SAS, sur les tableaux du type : individus (en lignes) X variables numériques (en colonnes).

24 Insee Méthodes n° 56-57-58

Page 28: actes des journées de méthodologie statistique

La macro réalise une classification sur les individus. Les variables peuvent être réduites (i.e. divisées par leurs écart-types) ou non. On peut utiliser comme stratégie d'agréga-tion la méthode de WARD (maximisation de l'inertie interclasse du nuage des indivi-dus), ou toute autre méthode proposée dans la procédure CLUSTER.

La macro édite le tableau des noeuds issu de la classification, et à la demande l'arbre de classification. Les résultats de la classification sont stockés dans une table SAS, et peuvent être réutilisés par la suite par les macros PARTNUM, DESNUM..., si l'on souhaite réaliser et analyser une partition de l'ensemble des individus.

2.2.2. La macro CAHQUAL

La macro SAS CAHQUAL permet de réaliser une classification ascendante hiérarchi-que, à l'aide des procédures CLUSTER et TREE de SAS, sur les types de tableaux suivants :

- tableau de contingence ;

- tableaux de contingence juxtaposés ;

- tableau disjonctif complet.

La macro réalise une classification sur les observations (i.e. les lignes du tableau). La distance utilisée pour mesurer les proximités entre les observations est la distance du chi-deux. On peut utiliser comme stratégie d'agrégation la méthode de WARD (fondée sur la décomposition de l'inertie du nuage des individus), ou toute autre méthode proposée dans la procédure CLUSTER.

La macro édite le tableau des noeuds issu de la classification, et à la demande l'arbre de classification. Les résultats de la classification sont stockés dans une table SAS, et peuvent être réutilisés par la suite par les macros PARTQUAL, DESQUAL..., si l'on souhaite réaliser et analyser une partition de l'ensemble des observations.

2.2.3. La macro PARTNUM

La macro SAS PARTNUM permet de réaliser une partition d'un ensemble d'individus à partir des résultats d'une classification ascendante hiérarchique effectuée à l'aide de la macro CAHNUM (i.e. sur un tableau individus x variables numériques).

Elle édite des aides à l'interprétation de la partition : décomposition de l'inertie, des distances entre les centres des classes et l'origine, des distances entre les centres des

L'analyse des données avec SAS V6 25

Page 29: actes des journées de méthodologie statistique

classes... Elle permet également d'obtenir la composition des classes, et la description des classes à l'aide des variables numériques analysées.

Cette macro doit être précédée de l'appel de la macro CAHNUM. Elle utilise la table-TABN créée par CAHNUM, qui contient les résultats de la classification.

2.2.4. La macro PARTQUAL

La macro SAS PARTQUAL permet de réaliser une partition à partir des résultats d'une classification ascendante hiérarchique effectuée à l'aide de la macro CAHQUAL sur un tableau de contingence, sur des tableaux de contingence juxtaposés, ou sur un tableau disjonctif complet. Dans les deux premiers cas, les unités partitionnées sont les modalités de la variable qualitative définissant les lignes du tableau ; dans le dernier cas, les unités partitionnées sont les individus.

La macro édite des aides à l'interprétation de la partition : décomposition de l'inertie, des distances entre les centres des classes et l'origine, des distances entre les centres des classes... Elle permet également d'obtenir la composition des classes, et la descrip-tion des classes à l'aide des modalités de la (des) variable (s) analysée (s).

Cette macro doit être précédée de l'appel de la macro CAHQUAL. Elle utilise la table-TABN créée par CAHQUAL, qui contient les résultats de la classification.

2.2.5. La macro DESNUM

La macro SAS DESNUM permet de décrire la partition d'un ensemble d'observations à l'aide d' une ou plusieurs variables numériques "explicatives". Elle opère sur une table SAS contenant (au moins) :

- une "variable de classe" : cette variable (numérique ou caractère) à p modalités définit une partition de la population en p classes, une classe étant constituée par l'ensemble des observations prenant une même modalité ;

- les variables numériques explicatives.

La macro édite un tableau donnant les moyennes et les écarts-types des variables dans chaque classe, ainsi que des tests statistiques permettant de caractériser les classes de la partition par ces variables.

Note : la macro DESNUM produit le même type de sorties que celles de la macro PARTNUM lorsque le paramètre DESC de PARTNUM vaut OUI. Cette macro peut

26 lnsee Méthodes n° 56-57-58

Page 30: actes des journées de méthodologie statistique

donc être utilisée comme aide à la description d'une partition lorsque l'on désire l'expliquer avec des variables "supplémentaires" n'ayant pas pris part à la classification.

2.2.6. La macro DESQUAL

La macro SAS DESQUAL permet de décrire la partition d'un ensemble d'observations à l'aide d'une ou plusieurs variables qualitatives "explicatives". Elle opère sur une table SAS contenant (au moins) :

une "variable de classe" : cette variable (numérique ou caractère) à p modalités définit une partition de la population en p classes, une classe étant constituée par l'ensemble des observations prenant une même modalité ;

pour chaque variable qualitative ) à q modalités, q variables numériques représentant les q modalités.

La macro édite les tableaux de contingence croisant la variable de classe avec chaque variables qualitative, ainsi que des tableaux et des tests statistiques permettant de caractériser les classes de la partition par les modalités des variables explicatives.

Note : La macro DESQUAL produit le même type de sorties que celles de la macro PARTQUAL lorsque le paramètre DESC de PARTQUAL vaut OUI. Cette macro peut donc être utilisée comme aide à la description d'une partition lorsque l'on désire l'expliquer avec des variables "supplémentaires" n'ayant pas pris part à la classification.

Les descriptions complètes de ces macros sont données dans les documents [2] et [3] cités en référence.

3. Les interfaces entre SAS et des logiciels d'analyse des données

3.1. L'interface SPAD• N — SAS

Le logiciel SPAD•N2 est un logiciel spécialisé dans le traitement d'enquêtes. Orienté vers les techniques d'analyse de données, l'accent y est mis sur les aides à l'interpré-tation et la complémentarité entre les approches analyse factorielle et classification.

1. La variable qualitative peut ne pas être une variable SAS de la table. 2. SPADN est une marque déposée du Centre International de Statistique et d'Informatique Appliquées

L'analyse des données avec SAS V6 27

Page 31: actes des journées de méthodologie statistique

La réalisation d'une interface entre SPAD•N et SAS est une co-production CISIA, CNRS Strasbourg, EDF Etudes et Recherches, INRETS et INSEE (voir la référence [1]). Cette interface, la procédure SPADN, permet d'accéder à un' sous-ensemble du logiciel SPAD•N, à travers un certain nombre d'enchaînements. Un enchaînement est composé d' une analyse et de programmes permettant d'affiner les résultats de l' analyse.

Les enchaînements proposés actuellement sont les suivants :

ANACORMU analyse des correspondances multiples, avec description des axes, graphiques factoriels, classification sur coordonnées factorielles

ANACORBI analyse des correspondances binaires (AFC), avec description de axes, graphiques factoriels, classification sur coordonnées factorielles

ANACOPRI analyse en composantes principales, avec description des axes, graphiques factoriels, classification sur coordonnées factorielles

ANADEMOD description des modalités d'une variable qualitative

ANADESCO description d'une variable continue

ANADIS2E recherche exploratoire de modèles pour une analyse discriminante linéaire à 2 groupes

ANADIS2G analyse discriminante linéaire à 2 groupes et scoring.

ANATYTRA analyse typologique de trajectoires.

Les résultats des différentes analyses peuvent être sauvegardés dans des tables SAS ; les fichiers de sortie de SPAD•N sont également disponibles pour être repris par d'autres logiciels pouvant les récupérer.

3.2. L'interface ADDAD-SAS

Le logiciel ADDAD1 est un ensemble de programmes d'analyse des données écrits en Fortran, incluant des programmes d'aides à l'interprétation, couvrant les domaines suivants :

1. Association pour le Développement et la Diffusion de l'Analyse de Données

28 Insee Méthodes n° 56-57-58

Page 32: actes des journées de méthodologie statistique

- analyse factorielle :

• analyse factorielle des correspondances ;

• analyse en composantes principales ;

• analyse des correspondances par sous-tableaux.

- classification :

• classification ascendante hiérarchique ;

• classification non hiérarchique (nuées dynamiques, boules optimisées) ;

- régression (linéaire, par voisinage) ;

- analyse discriminante linéaire.

Ces programmes sont écrits de façon modulaire : la réalisation d'une analyse (CAH par exemple), nécessite l'enchaînement de plusieurs programmes.

L'interface ADDAD-SAS "permet d'évoluer dans le monde SAS en profitant des avantages des programmes ADDAD" [4]. Cette interface, la procédure ADDADSAS, permet d'utiliser les programmes ADDAD sur des tables SAS, et de créer éventuelle-ment de nouvelles tables.

L'analyse des données avec SAS V6 29

Page 33: actes des journées de méthodologie statistique

BIBLIOGRAPHIE

[1] AUGENDRE, H. et LADIRAY, D. (1993). SAS et l'analyse des donriées "à la française": une interface entre SAS et SPAD• N. Actes du Club SAS 93, Toulouse, 13-15 octobre 1993.

[2] ISNARD, M. et SAUTORY, 0. (1993). Les macros SAS d'analyse factorielle. Docu-ment de travail de la Direction des statistiques démographiques et sociales, n° F 9303 Insee.

[3] ISNARD, M. et SAUTORY, 0. (1993). Les macros SAS de classification ascendante hiérarchique. Documentation provisoire. Document de travail de la Direction des statistiques démographiques et sociales Insee.

[4] LEBEAUX, M.-0. (1993). Pourquoi un interface entre ADDAD et SAS? Intégration avec SAS/TOOLKIT. Actes des XXVèmes journées de Statistique, Vannes, 24-28 mai 1993.

[5] SAUTORY, 0. (1993). La procédure CORRESP (version SAS 6.07). Document de travail de la Direction des statistiques démographiques et sociales, n° F 9116 (3ème version) Insee.

30 L'analyse des données avec SAS V6

Page 34: actes des journées de méthodologie statistique

Les changements de composition socioprofessionnelle des communes

entre 1982 et 19901 Nicole Tabard

L'objectif de ce travail est de faire apparaître les principales transformations des profils socioprofessionnels des communes entre 1982 et 1990, et de localiser ces types de transformation par rapport à la situation initiale des communes, celle de 1982.

Les principales lignes de force socio-économiques structurant le territoire à un moment donné sont connues. La division hiérarchique de l'espace, les oppositions territoriales entre industrie et artisanat, entre activités techniques et tertiaires sont les traits domi-nants depuis deux décennies. Ces traits se retrouvent-ils sur le plan dynamique 9 La division hiérarchique de l'espace s'est-elle renforcée ou atténuée ? Comment les processus de désindustrialisation et de tertiarisation, d'essor du salariat qualifié, ont-ils pris forme sur le territoire '?

Problèmes et démarche

Le problème principal est celui de la fragilité des données. On est amené à comparer deux recensements, pour des unités géographiques fines. Le bruit - au sens de la théorie de l'information - est important : les aléas qui affectent chacune des deux observations sont susceptibles de se cumuler. D'ordinaire, l'analyse des transformations socio-pro-fessionnelles résulte de l'exploitation d'une question : le lieu de résidence au recense-ment précédent. Si l'information est fiable puisque tirée d'un corpus unique, elle n'est pas pertinente pour l'objet traité ici : on ne connaît pas la position professionnelle initiale des individus. Or la mobilité socioprofessionnelle est importante, et qui plus est, elle est liée à la mobilité spatiale. Notre objet est de décrire les transformations d'un système d'unités spatiales, et non un ensemble d'itinéraires individuels.

(1) Cette intervention est tirée d'un travail réalisé en collaboration avec A. Chenu et publié A. Chenu et N. Tabard (1993), 'Les transformations socioprofessionnelles du territoire français, 1982-1990", Population, 6, 1993, 1735-1770

Les changements de composition socioprofessionnelle 31

Page 35: actes des journées de méthodologie statistique

D'où la nécessité d'opérer un découpage territorial relativement grossier, en 4500 unités géographiques élémentaires dont la composition socioprofessionnelle peut être connue pour 1982 et pour 1990. Ces unités sont des communes (dé 5000 habitants au moins) ou des cantons (regroupant des communes de moins de 5000 habitants ; les analyses concernant les zones rurales demeureront relativement sommaires). Paris, Lyon et Marseille sont subdivisées en arrondissements.

La nomenclature socioprofessionnelle est elle-même agrégée en 16 rubriques d'actifs (tableau 1). Elle résulte de regroupements opérés, en fonction de considérations de taille statistique et de corrélation spatiale, à partir du niveau détaillé (32 postes d'actifs, dont 28 non agricoles) de la nomenclature INSEE des catégories socioprofessionnelles.

Les catégories retenues ont un poids très inégal, variant de 1.3 %, pour les chefs d'entreprise d'au moins 10 salariés à 18 %, pour les ouvriers qualifiés du travail artisanal, ce qui justifiera, après analyse, des regroupements entre les catégories d'évolution semblable (voir tableau 2 plus loin). L'augmentation des effectifs de 1982 à 1990 est maximum pour les ingénieurs, pour les chefs d'entreprises d'au moins 10 salariés, et pour l'ensemble formé des professions libérales, des cadres de la fonction publique, des professions scientifiques et des professions de la communication, des arts et des spectacles, ensemble de catégories réunies pour cette étude. A l'opposé diminuent rapidement les ouvriers non qualifiés, en particulier ceux de la grande industrie.

Le champ est celui des hommes actifs personnes de référence des ménages non agricoles, classés à leur lieu de résidence Cette sélection répond à une exigence d'homogénéité quant aux facteurs expliquant les variations observées. L'évolution du ,poids des retraités ou des jeunes inactifs, les transformations du monde agricole, les changements dans la division du travail entre hommes et femmes ont été laissés de côté. Ces thèmes ne sont pas pour autant secondaires à nos yeux, mais ils impliquent chacun un dédoublement de l'analyse : la distribution spatiale des inactifs ne relève pas principalement d'une logique d'emploi ; le rapport au territoire de l'agriculture, grosse utilisatrice d'espace, est très spécifique ; les professions féminines et masculines n'ont ni le même contenu, ni la même répartition spatiale et il serait illusoire de repérer des changements interprétables de cette répartition à partir d'une agrégation des deux sexes. .0n s'intéresse aux personnes de référence plutôt qu'à la population active, parce que cette dernière inclut davantage de jeunes actifs dont les caractéristiques professionnelles sont encore très instables'. Enfin le choix d'une observation au lieu de résidence est plus propre à faire ressortir les distances spatiales entre les milieux sociaux, alors que le lieu de travail réunit en un même espace des catégories différentes.

(2) On notera les différences importantes dans la répartition, en 1982 et 1990, de l'ensemble des actifs non agricoles des deux sexes et celles des hommes personnes de référence étudiés ici : près d'un invididu sur (rois est employé, contre un homme personne de référence sur 10. Les proportions sont inversées pour ce qui est des ouvriers de l'industrie et, è l'opposé de l'échelle sociale, pour ce qui est des chefs d'entreprise, des professions libérales et des cadres. •

32 Ins'ee Méthodes n° 56-57-58

Page 36: actes des journées de méthodologie statistique

Tableau 1: Les catégories socioprofessionnelles étudiées : Distribution en 1982 et 1990 et variation entre les deux dates

Population active, les deux sexes ,--

% en %en eflectirs Wil 1982 19911 199(1/1982

en eli a li en 7.

I loinincs p. sonnes de 1 é [Ci..

l8i en I lai. en el le. ils ilis

1982 I 19911 I 990/1902 e 1 d on ri.

21 - Ai tisans 4,2 3.6 9.1 I 87.8 6.1 I 5,6 94,5 91,4 22 - Commerçants 3.7 99,8 91.11 08 9,7 107.0 98.6 7) Chef, dienneprise d'au mollis Il) salariés 0,6 0.8 131.9 120,3 1,0 1.7 137.1 120.11 71 -Irluestrers 1118001es, cadres de la fonce ion publique,

'made scions midi:nid-tapies. iiiiitt,i011S du l'information. des aria et des spectacles 4,5 5,7 139,9 127.5 5.7 0,9 124,8 120,6

37 - iidrninisiratifs et C0111111C1C1:1. d'a. eprise 2,6 7.2 1:47,9 127,9 19,4 115,4 38 - Ingénitors 1.8 2,6 156.9 147,0 1,3 147,7 142,8 42 - Instine.11s. professions intermédiaires de le santé

naval! social, professions iitler,iIditliiex de la l'onction publillue 8.1 111,8 1131.6 109,1 105.6

46 - Proressions iniermédiaires adminisuatives et commerciales iles enireprises 4,7 5,9 139.9 127,5 5.2 0,1 121.5 117.5

47 - ireclinieiens 3.2 3,2 112,4 1112,5 5,2 100,0 102.5 48 - Aunis ale inaiirise 2,7 100.7 91,8 4,9 98.7 954 52 - Employés civils el aga,rrrs de service da le foneilon

publique, ludiciels id milliaires, employé, administratifs di t:m.1,0,e 21.6 20.3 103,0 93,9 10,2 8,9 90,2 87,2

55 -- Employés de ...crue, iiiirsonnels dus 7crviees directs aux pari icolicrs 7,6 9,2 132.2 120,5 2,0 2,3 110,6 112.7

62 - Ou, iers qualifiés de type industriel 7,5 7,0 102.3 93.3 11,5 10,9 98,4 95,1 63 - Ouvriers qualiriés de type :100:anal, de la

inaindention, chauffeurs 11,6 11.2 105.7 96,3 17,3 18,0 107.5 1039 67.- 00V11C1S 11011 qualiliés de lypc 11,0 9.1 90.0 82.8 10.1 7 .6 80.7 77,5 68 Ouvriers mon quidifids de Type errire,ra 4,7 .10 92,5 84,7 67,0 511,1

Ensemble 100,0 100,0 109,7 100,0 100,0 100,0 107,5 1110,0

Champ : actifs rani agricoles ayant ou non tin emploi .X009,9 INSEE, recensa:m.0s de la population 1982 et 1990 (1/41

Les changements de composition socioprofessionnelle 33

Page 37: actes des journées de méthodologie statistique

Les techniques d'analyse des données, ici l'analyse des correspondances, s'imposent pour une démarche heuristique : faire apparaître des logiques. En outre, les données s'y prêtent : informations nombreuses, mais mesures (écarts entre deux dates) imprécises. Mesurées sur les 4400 unités géographiques, les différences d'effectifs par profession sont relativement faibles3. Tandis que les valeurs extrêmes, positives ou négatives peuvent atteindre l'ordre de plusieurs centaines. La relation entre les écarts et les poids initiaux est étroite, ce qui justifie d'opérer sur des rapports de profils.

Mais la variabilité aléatoire demeure forte, en particulier pour les professions qui ont initialement un poids faible dans une commune. Pour réduire ce bruit, on a constitué des classes de rapports de poids pour chaque profession. Pour ne retenir finalement que deux modalités pour chacune des 16 professions, prenant, dans chaque unité géographique, les valeurs 0 ou 1, selon que le rapport du poids de la catégorie en 1990 à celui de 1982, est ou non inférieur à la médiane observée pour l'ensemble des communes / cantons. Cette méthode évite les comparaisons entre des mesures quantitatives, fragiles, comme l'impo-serait l'usage de techniques telles que l'analyse en composante principale.

Les analyses ne se sont avérées robustes qu'une fois écartées les unités de faibles effectifs : moins de 500 hommes actifs non agricoles personnes de référence - ces unités regroupent surtout des communes rurales et de très petites unités urbaines, espace qui se trouve donc sous-représenté dans les résultats de cette partie. Le sous-ensemble retenu compte 1253 unités géographiques, totalisant les deux tiers de la population totale. Dans l'analyse, chaque unité est pondérée par le nombre de ménages qui y résident.

I. Les principales formes de la dynamique socio-spatiale

Le graphique 1 en donne un résumé (un seul point figure par profession) : les catégories socioprofessionnelles proches sur ce graphique sont celles qui varient de la même façon, qui augmentent en proportion, ou diminuent dans les mêmes aires. Ainsi les catégories de la production ont le même voisinage, des professions techniques qualifiées aux ouvriers de l'industrie (partie droite du graphique). Elles s'opposent aux professions tertiaires et artisanales, y compris les ouvriers dits du travail artisanal (partie gauche). Mais on lit aussi une proximité entre les catégories aisées : les chefs d'entreprise d'au moins 10 salariés, les professions libérales et professions scientifiques, les ingénieurs et les cadres d'entreprises (partie supérieure), qui s'opposent dans leur ensemble aux travailleurs de l'industrie (en bas du graphique).

3 Les écarts positifs les plus forts concernent les ingénieurs : pour 50 % des unités géographiques, ils oscillent entre 0 et 9. A l'opposé les différences négatives les plus importantes concernent les ouvriers non qualifiés du travail industriel, oscillant entre + 1 et - 16 pour 50 % des unités géographiques.

34 Insee Méthodes n° 56-57-58

Page 38: actes des journées de méthodologie statistique

Graphique 1 - Similitude des catégories socioprofessionnelles en fonction des variations de leur poids entre 1982 et 1990

Axe 2 10,2%

210 Artisans

Chefs d'entreprises Sas moins 10 salariés e 23

310 Professions libérales, - professeurs - professions scientifiques - cadres des arls-spectacles

22 e Commerçants 42 0 Professions intermédiaires :

enseignement, travail social et administration

38 e Ingénieurs

Cadres administratifs et e commerciaux entreprise

Axe 1 10,9%

Employés de la fonction publique et e administratifs d'entreprise

Ouvriers non qualifiés 68 0 du travail artisanal

55 0 Employés de commerce et personnels des services directs aux particuliers

Professions intermédiaires 460 administratives et commerciales

d'entreprise 48 0 Contremaîtres

47 e Techniciens Ouvriers qualifiés Ouvriers non qualifiés e 67

de type artisanal e 63 de l'industrie

Ouvriers qualifiés 62 e de (industrie

INED rr osa

Deux tendances opposées : un renforcement du monde de la haute technologie et de la grande firme...

Ce monde réunit trois groupes situés à des niveaux hiérarchiques différents :

Les ouvriers (le l'industrie, qualifiés ou non, forment un premier groupe, nettement distinct des autres catégories techniques.

Les classes moyennes techniques, techniciens et contremaîtres, et les membres des autres professions intermédiaires des entreprises, bien que ces derniers aient des fonctions commerciales et administratives.

Les changements de composition socioprofessionnelle 35

Page 39: actes des journées de méthodologie statistique

L'augmentation des ingénieurs eva de pair avec celle des cadrent les cadres d'entreprise. Ce troisième groupe caractérise la croissance technologique.

Il y a donc une similitude, sur le plan de l'évolution, entre des catégories qualifiées de la production industrielle et les cadres et les intermédiaires d'entreprise aux fonctions adminis-tratives ou commerciales. La tendance qui réunit l'ensemble de ces catégories manifeste un renforcement du monde de la haute technologie et de la grande firme dans certaines zones.

...situé à l'opposé du développement des services urbains d'accompagnement

Sur la partie gauche du graphique 1 se regroupent des catégories relevant des activités de prestation de services :

Les fonctions de services peu qualifiées : les employés, qu'il s'agisse des employés de l'administration publique ou privée ou des employés des services et du commerce et les ouvriers du travail artisanal, surtout les moins qualifiés. La frontière entre employés et ouvriers du travail artisanal est floue (Chenu, 1990). En ce qui concerne les hommes, l'une ou l'autre catégorie rassemble des emplois particulièrement peu qualifiés, pro-bablement instables, en tout état de cause, ceux situés au plus bas de l'échelle des salaires.

Les ouvriers qualifiés du travail artisanal ; ils se situent à mi-chemin entre ce groupe et celui des ouvriers de l'industrie.

Les classes moyennes tertiaires : les commerçants et les professions intermédiaires de l'enseignement, du travail social et de la fonction publique. A cet ensemble se joignent, en premier examen, les artisans. Ces derniers présentent également une similitude d'évolution avec les catégories peu qualifiées, employés et ouvriers non qualifiés du travail artisanal.

Enfin l'enrichissement tertiaire ou directionnel est représenté par deux catégories qui ont une similitude d'évolution significative : les chefs d'entreprise d'au moins 10 salariés, et les catégories suivantes, regroupées dans cette étude : professions libérales, cadres de l'enseignement et de la recherche, cadres de l'administration et enfin professions des arts, des spectacles et de la communication.

Ces quatre groupes réunissent les services publics, l'artisanat et les services directs aux particuliers, proximité signe d'une similitude quant aux formes de développement de ces activités et à la localisation de leur croissance ou de leur déclin.

La première opposition du graphique I ne se réduit pas à une opposition industrialisa-tion-tertiarisation : elle exprime plutôt une polarisation entre des activités (industrielles,

36 Insee Méthodes n° 56-57-58

Page 40: actes des journées de méthodologie statistique

mais aussi commerciales et de recherche) plutôt orientées vers de vastes marchés, et (les services de proximité qui sont l'accompagnement nécessaire de la présence locale d'une certaine concentration (le population.

Une concentration accrue des catégories aisées

Les parties du territoire connaissant un fort accroissement de la part des chefs d'entre-prise, professions libérales, cadres et ingénieurs se regroupent nettement dans la partie supérieure du graphique 1. Nous appellerons embourgeoisement la tendance qui les affecte. La tendance opposée est composite et ne saurait s'analyser comme un simple mouvement d'appauvrissement. Les territoires qui, sans s'enrichir, résistent à la désin-dustrialisation (en bas à droite) ne se confondent pas avec ceux qui, sans s'enrichir non plus, connaissent un accroissement de la part des professions tertiaires ou artisanales peu qualifiées (en bas à gauche).

La plupart des communes qui se caractérisent par un fort développement du poids des catégories aisées appartiennent à l'agglomération parisienne. Une désindustrialisation marquée fait se regrouper des communes populaires de la banlieue parisienne et des villes telles que Dunkerque et Le Havre, Reims et Charleville-Mézières. Le dévelop-pement des salariés peu qualifiés concerne notamment des villes du nord de la France - Saint-Quentin, Calais, Amiens. Roubaix. La croissance technologique touche Rennes, Quimper, Montpellier, Antibes, et de plus grandes villes comme Toulouse et Strasbourg.

Sept groupes professionnels pertinents pour résumer ces transformations.

Le résumé des transformations socioprofessionnelles du territoire présenté précédem-ment est robuste. Il permet de former des groupes socioprofessionnels pertinents du point de vue de l'évolution entre 1982 et 1990, groupes d'effectifs suffisants pour que des coefficients de corrélation aient un sens. Le tableau 2 résume ainsi, d'une façon différente, les transformations qui viennent d'être mises en évidence, par les coeffi-

Tableau 2 - Coefficients de corrélation entre les rapports des poids des grands groupes socioprofessionnels 1990/1982

Chefs d'entreprise professions libérales, cadres du public Cadres d'entreprise, ingénieurs Artisans, commerçants, professions intermédiaires éducation, santé Techniciens, maîtrise Employés, ONQ de type artisanal Ouvriers de type industriel Ouvriers sualifiés de type artisanal

1,000 n.s.

0,065" - 0,123—

n.s. - 0,243–* - 0,076–

1,000

- 0,159— 0,104—

- 0,216— - 0,143*– - 0,130—

1,000 - 0,375— 0,077**

-0,270" - 0126—

1,000 - 0,167*– 0,111—

n.s.

1,000 - 0,170—

0 063* 1,000 0 061' 1,000

Champ : ensemble du territoire métropolitain Transformations logistiques

Les changements de composition socioprofessionnelle 37

Page 41: actes des journées de méthodologie statistique

cients de corrélation entre les rapports 1990/1982 des proportions4 des sept grands groupes professionnels5.

L'opposition dominante entre les évolutions concernant d'une part, l'artisanat et les classes moyennes tertiaires et d'autre part, les classes moyennes techniques, se traduit par le coefficient négatif maximum entre ces deux groupes au tableau 2, - 0.38. Tandis que les ingénieurs et cadres d'entreprise ont une évolution relativement proche de celle des professions intermédiaires d'entreprise, des techniciens et des contremaîtres, + 0.10.

Les voisinages entre catégories socioprofessionnelles connaissant, dans les mêmes zones géographiques, des évolutions similaires ne correspondent ni aux grands groupes socioprofessionnels usuels ni aux grands secteurs d'activité. Les ouvriers de type artisanal sont beaucoup plus proches des employés que des ouvriers de type industriel. Les ingénieurs et cadres d'entreprise se distinguent nettement de leurs homologues du public, et de même les professions intermédiaires du secteur privé et semi-public sont très éloignées de celles de la fonction publique.

Ces premiers résultats constituent donc une invitation à se déprendre de quelques oppositions familières - ouvriers/employés/cadres, industrie/tertiaire - qui risquent de faire partiellement écran à la perception des changements sociaux en cours.

2. Structure et dynamique socioprofessionnelles, deux formes du territoire non homothétiques

Il y a une similitude entre les proximités entre catégories socioprofessionnelles présen-tées au graphique 1 qui sont fonction de leurs transformations entre 1982. t 1990, et celles présentées au graphique 2 qui sont fonction de leurs poids une année donnée, 1982. Et cependant il n'y a pas homologie entre les zones techniques et celles se technicisant, entre les zones tertiaires et celles se tertiarisant...

Le graphique 2 est construit sur les mêmes bases que précédemment : même nomen-clature socioprofessionnelle et même découpage géographique. Mais il s'agit d'une analyse de la répartition en 1982 des catégories socioprofessionnelles selon le lieu de résidence, commune ou canton, analyse statique.

(4) On utilise pour ce calcul la transformation logistique, voir annexe I . (5) Afin de présenter des résultats exhaustifs, un découpage territorial plus large a été adopté pouce tableau. Les cantons et communes présentant des effectifs faibles ont été regroupés en leur arrondissement. Des 4500 unités géographiques initiales, on passe à 2000. Le seuil d'au moins 500 hommes personnes de référence est appliqué. à ce nouveau découpage. éliminant une faible partie, 6 % de la population totale. (6) trois premiers facteurs se détachent significativement, représentant 29 % et 74 % de l'information dans les analyses dynamique et statistique respectivement.

38 Insee Méthodes n° 56-57-58

Page 42: actes des journées de méthodologie statistique

On notera la différence entre les deux résumés : le plan "statique" résume 63 % de l'information ; à ce niveau d'agrégation des données d'un même recensement, la part du bruit est faible. Le plan "dynamique" n'en résume que 21 %6. Cet écart rend compte de ce que les corrélations entre les groupes sociaux concernant les évolutions sont plus ténues que celles concernant les positions. Mais il intègre aussi l'importance de la variabilité affectant des mesures provenant de deux recensements.

Graphique 2 - Morphologie socioprofessionnelle du territoire en 1982

Aasi 1 47,7 % Cadres administratifs

et commerciaux d'entreprise

Professions libérales - professions scientifiques - professeurs - prof. arts-spectacles- communication

Chefs entreprises d'au moins 10 salariés

ingénieurs

Employés de commerce

- personnels services aux particuliers

Professions intermédiaires administratives et

commerciales d'entreprise

Commerçants

Techniciens Employés foi. publique et d'entrepris

Prof. intermédiaires -enseiviement - travail social - fonction publique

Axa 2 15,7 %

Artisans

Ouvriers non (qualifiés , de type artisanal Ouvners qualifiés

de type artisanal

Contremaltres

Ouvriers qualifiés de type industriel

Ouvriers mxi qualifiés

de type industriel INED 25423 -

Les changements de composition socioprofessionnelle 39

Page 43: actes des journées de méthodologie statistique

i Axe 2

italique rappel du sens 'des transformations

— 0,5

c, Croissance de la pan des anisons

COMMUNES A ACTI VITE TECHNIQUE EN 1982

Croissance de la pan des chefs d'entreprise, professions libérales

COMMUNES AISEES EN 1982

Croissance de la pan dj des cadres d'entreprise

Croissance de la pan cz, des ingénieurs

Pb- -0,5 5 0,5 Axe

Croissance de la pan C, des employés

Croissance de la pan odes ouvriers

du travail artisanal

COMMUNES -INDUSTRIELLES EN 1982

-0,5

Croissance de la pan Croissance de la pan des techniciens

des ouvriers de l'industrie et contremaitres Si

COMMUNES A ACTIVITE TERTIAIRE / ARTISANALE EN 1982

INFO 15593

40 Insee Méthodes n° 56-57-58

Deux ensembles de questions se posent à ce stade : à quelle morphologie socioprofes-sionnelle, en 1982, correspondent les tendances mises en évidence précédemment (les communes qui se sont enrichies étaient-elles riches ou pauvres ?) ; réciproquement : quelle a été l'évolution des différents types socioprofessionnels de communes (les communes les plus pauvres en 1982 se sont-elles enrichies, ou encore appauvries, les plus techniciennes se sont-elles technicisées davantage ?).

Les techniques d'analyse multidimensionnelle fournissent une méthode pour apprécier, de façon à la fois synthétique et statistiquement robuste, les relations entre structure et dynamique. Ainsi l'analyse statique permet-elle un classement des communes selon leur caractère plus ouvrier ou plus bourgeois : aux proximités entre les catégories socioprofessionnelles analysées (graphique 2), correspondent celles, duales, des unités géographiques ; leur abscisse sur le premier axe les ordonne des plus ouvrières (valeurs négatives) aux plus bourgeoises (valeurs positives), fournissant une mesure réductrice mais fiable de la richesse des communes. Le second axe les ordonne, des plus tertiaires-artisanales aux plus technico-industrielles. Les communes sont regroupées en fonction des valeurs de ces deux indicateurs. Le graphique 3 présente la position de ces groupes dans l'analyse des transformations socioprofessionnelles. Il se lit en superpo-sition au graphique 1 et répond au premier type de question.

Graphique 3 - Projection des indicateurs de situation en 1982 sur l'analyse des transformations 1982-1990

Page 44: actes des journées de méthodologie statistique

Axe 1 A COMMUNES BOURGEOISES

0,4

Embourgeoisement

COMMUNES DES SERVICES

AUX PERSONNES

0,2

Technicisation 0.1

COMMUNES A ACTIVITES TECHNIQUES

-0,3 -0,2 -0,1 0,1 0,2 0,3 Axe 2

Maintien des ouvriers

de l'industrie

Développement de l'artisanat.

des services publics et personnels

-0,2 COMMUNES D'OUVRIERS

DE L'INDUSTRIE 4ED

25693

Réciproquement, pour cerner les tendances affectant une morphologie socioprofession-nelle initiale donnée, on opère un classement des communes en fonction de leurs coordonnées dans l'analyse des transformations (graphique duale du graphique 1) : le premier axe est un indicateur de technicisation, le second, un indicateur d'enrichisse-ment. La projection de ces deux indicateurs sur le plan d'inertie résumant la structure socio-économique du territoire en 1982 est présentée au graphique 4 qui se lit en superposition au graphique 2.

Graphique 4 - Projection des indicateurs de transformations socioprofes-sionnelles de 1982 à 1990 sur le plan résumant la morphologie 1982

L'embourgeoisement est un phénomène propre aux communes aisées. D'une part la croissance extrême du poids des chefs d'entreprise et des cadres, concerne les commu-nes qui déjà en 1982 étaient les plus bourgeoises (graphique 3). Réciproquement les communes les plus huppées en 1982 se caractérisent par la croissance maximum des catégories aisées, tout spécialement celle des chefs d'entreprise et des professions libérales (graphique 4).

Parmi les classes moyennes, prédomine une tendance à l'homogénéisation du territoire.

Une tertiarisation des zones à dominante technique : les communes qui voient augmen-ter la part des professions artisanales, du commerce, des services publics et aux

Les changements de composition socioprofessionnelle 41

Page 45: actes des journées de méthodologie statistique

personnes, comptaient parmi les plus techniques en 1982 (graphique 3). La réciproque n'est pas aussi nette : les communes où dominaient en 1982 les activités techniques et de gestion des entreprises (à droite sur le graphique 4), se caractérisent à la fois, par un renforcement du poids de l'artisanat et des services aux personnes, et par un certain enrichissement.

Une technicisation des zones à dominante tertiaire : les communes qui voient croître les catégories moyennes techniques, techniciens et contremaîtres, et les professions intermédiaires de gestion des entreprises, comptaient parmi les plus tertiaires et artisa-nales en 1982 (graphique 3) ; réciproquement, la plus forte technicisation concerne les communes initialement bien dotées en professions tertiaires - plus spécialement en commerçants, employés des services aux personnes et professions intermédiaires de la santé et de l'éducation - et non celles dotées en techniciens (graphique 4).

Une substitution s'opère, dans les communes populaires, entre le travail artisanal et le travail industriel. Etant donnée la forte diminution des emplois industriels, cette tendance comporte probablement des changements de catégorie au niveau des individus eux-mêmes. Toujours est-il que c'est dans les communes ouvrières que les employés diminuent le moins, accentuant cet effet d'homogénéisation entre les professions du commerce, des services et de l'artisanat, et le travail industriel. Plus précisément, les communes qui se sont renforcées en ouvriers du travail artisanal - surtout non qualifiés - et en employés des services aux personnes, comptaient, sans ambiguïté, parmi les plus industrielles en 1982 (graphique 3). Ceci ne concerne pas toutes les communes initialement industrielles. Celles-ci se caractérisent par deux tendances : un renforce-ment (ou une moindre diminution) des professions tertiaires et artisanales peu qualifiées - le plus souvent synonyme d'appauvrissement - et une résistance à la désindustrialisa-tion (graphique 4).

En conclusion : la petite minorité des localités les plus bourgeoises s'est fortement embourgeoisée, tandis qu'aucune tendance nette ne se dégageait quant à l'évolution du "standing" social de la masse des autres localités. Les espaces les plus "technicisés", comptant une forte proportion d'ingénieurs, de techniciens, de cadres d'entreprise, ont vu la part de ces catégories diminuer, tandis qu' inversement cette part progressait dans les espaces orientés vers l'artisanat, le commerce, les services aux personnes. Renfor-cement des spécificités des espaces réservés aux élites sociales, affaiblissement des différences entre espaces à vocation technique et espaces de services d'accompagne-ment, on peut, par métaphore, résumer ces deux tendances en une phrase : la division sociale "verticale" entre les communes françaises s'est accrue, la division "horizontale" s'est atténuée.

42 lnsee Méthodes n° 56-57-58

Page 46: actes des journées de méthodologie statistique

REPRÉSENTATION CARTOGRAPHIQUE ET ÉLABORATION DE TYPOLOGIES

Philippe LOUCHART Institut d'Aménagement et d'Urbanisme de la Région Ile-de-France

(IA URIF)

L'analyse des résultats du recensement de 1990 a donné lieu, en Ile-de-France, à une collaboration approfondie entre la direction régionale d'Ile-de-France de l'INSEE et l'Institut d'aménagement et d'urbanisme de la région Ile-de-France. Celle-ci s'est concrétisée par la publication des deux tomes de l'Atlas des Franciliens'.

Le tome I, paru à l'automne 1991, s'attachait, à travers 32 articles et 94 cartes, à présenter les évolutions révélées par les premiers résultats du recensement de 1990, c'est-à-dire le dénombrement de la population et des logements.

Le tome II, paru au début de l'année 1993, a permis de tracer un portrait détaillé de la région capitale à partir de l'analyse et de la cartographie des données communales issues du dépouillement exhaustif et du sondage au quart du recensement de 1990.

Ce second tome, plus volumineux (65 articles et 175 cartes), est surtout plus riche en informations. Cette richesse d'information nous a conduit à faire preuve d'un peu d'imagination pour cartographier celle-ci sans trop la simplifier, en particulier, lorsque pour certaines variables, il a été décidé de représenter l'ensemble de leurs modalités sur une seule carte : logements selon le nombre de pièces, ménages selon le nombre de personnes, actifs selon leur catégorie socioprofessionnelle, personnes seules dans l'ensemble des ménages selon l'état matrimonial, étrangers clans la population selon leur nationalité, ...(voir graphiques ci-après).

Pour ce faire, les techniques classiques de classification automatique ont été utilisées, mais d'une façon pas très classique. Il s'agissait en effet de produire une représentation cartographique des données analysées, avec les contraintes de lisibilité que cela implique, et non d'élaborer une véritable typologie des communes franciliennes. En outre, l'ensemble des 1300 communes d'Ile-de-France devait être représentées, et non les plus peuplées uniquement.

I. IAURIF-INSEE, Atlas des Franciliens, Tome I : Population et logements, 80 pages, 94 cartes couleurs, Paris 1991 ; Tome 11 : Age, emploi, modes de vie ..., 160 pages, 175 cartes couleurs, Paris, 1992.

Représentation cartographique et élaboration 43

Page 47: actes des journées de méthodologie statistique

Algériens

Autres africains Autres CEE Marocains Autres Asiatiques

Tunisiens

En % 3,5

3 Portugais

2,5

1,5

0,5

Quelques exemples de variables ayant fait l'objet d'une représentation cartographique "unique"

En % 30

25

20

15

10

5

1 2

3

4 5 0

Nombre de pièces

Source : IAURIF, décembre 1993

44 Insee Méthodes n° 56-57-58

Page 48: actes des journées de méthodologie statistique

Après un bref rappel des principales méthodes de discrétisation utilisées pour cartogra-phier des variables quantitatives, la démarche suivie et les règles adoptées pour élaborer ces cartes "en typologie" sont présentées, tout comme les cartes obtenues.

Le résultat est assez instructif : alors qu'aucune contrainte de contiguïté spatiale n'a été intégrée explicitement lors de l'élaboration de ces "typologies", la représentation cartographique montre une très forte spécialisation de l'espace, variable, mais pas toujours, selon la nature de l'information traitée.

1. Discrétisation de variables quantitatives : p--'_ c'pes et limites

La principale difficulté que soulève la représentation cartographique d'une seule variable, quantitative et continue, comme la proportion d'actifs entre 20 et 24 ans, tient dans le choix des seuils.

De très nombreuses "formules" ont été proposées pour "découper" un ensemble de n valeurs en m classes, mais il n'existe pratiquement jamais de solution unique au problème du choix des seuils. Toutes donnent, en général, des résultats différents, et la partition retenue dépend, en fait, d'un nombre élevé de paramètres qui très souvent changent d'une carte à l'autre : l'allure générale de la distribution qu'il faut décrire, le but recherché par la représentation cartographique, le public visé, l'échelle retenue, la nécessité éventuelle de représenter, sur une même page, la même variable à différentes dates, etc ...2

Mais, une fois les seuils choisis, si la variable comporte un nombre élevé de modalités, et qu'une seule d'entre elles est cartographiée, le résultat obtenu risque d'être relative-ment "pauvre". La variable "catégorie socioprofessionnelle", par exemple, comprend un nombre élevé de modalités.

Cartographier les seuls ouvriers permettra, certes, de distinguer aisément les secteurs où la proportion d'ouvriers est élevée, de ceux où cette proportion est faible. En revanche, ceci ne permettra pas, lorsque cette proportion est faible, de savoir si c'est en raison d'une proportion élevée d'agriculteurs, d'employés, ou encore de cadres supé-rieurs. En ce sens, la représentation obtenue est "pauvre", puisque seule une partie de l'information a été cartographiée.

2. Sur ce sujet, voir, par exemple, la synthèse réalisée par : CAUVIN Colette, REYMOND Henri et Abdelaziz SERRADJ, "Discrétisation et représentation cartographique", Montpellier, GIP RECLUS, coll. Reclus modes d'emploi, 1987, 116 pages.

Représentation cartographique et élaboration 45

Page 49: actes des journées de méthodologie statistique

Il est vrai que la visualisation des différentes modalités d'une variable sur une seule carte nuit à sa lisibilité. Pour cette raison, la solution retenue généralement consiste à présenter plusieurs cartes séparées : une pour chaque modalité. Leur juxtaposition est ensuite supposée restituer l'information complète. Ce n'est pas la solution qui a été retenue, pour différentes raisons, liées essentiellement à des problèmes d'échelle, de dimension de la page et, au final, de lisibilité. En deçà d'une certaine échelle, il devient en effet impossible de distinguer les 1.300 communes qui composent l'Ile-de-France.

II est encore plus difficile de repérer la même commune sur plusieurs cartes de petit format. Il est, en outre, pratiquement impossible de reconstituer, mentalement, la répartition des actifs d'une commune donnée par catégorie socioprofessionnelle, par exemple, à partir de plusieurs cartes juxtaposées : l'une sur les agriculteurs, l'autre sur les commerçants ou artisans, une autre encore sur les ouvriers, etc.

Pour ces différentes raisons, la solution retenue a été de réaliser une seule carte, de "grand format", en recourant à des techniques d'analyse un peu plus complexes (techniques de classification automatique), mais dont le but est toujours le même : simplifier la réalité pour en produire une représentation cartographique lisible qui reste la plus informative possible.

L'objectif poursuivi est de "typer" les communes d'Ile-de-France, en les regroupant dès qu'elles présentent des similitudes. Il s'agit, par exemple, de regrouper les commu-nes qui ont une répartition identique, ou voisine, des logements selon le nombre de pièces, des ménages selon le nombre de personnes qui les composent, des actifs selon leur catégorie socioprofessionnelle, etc.

2. Classification automatique et cartographie

Les techniques de classification automatique ont ici été utilisées pour produire une représentation cartographique des données analysées, et non pour élaborer une véritable typologie des communes franciliennes. Cet objectif a introduit une contrainte forte : celle de limiter, a priori, le nombre de groupes de communes à une quinzaine, au maximum, pour que les cartes restent "lisibles". Cet objectif explique aussi la démarche en deux étapes qui, systématiquement, a été adoptée pour élaborer les cartes en typologie présentées dans l'Atlas des Franciliens.

Lors de la première étape, les communes de moins de 2.000 habitants ou de moins de 200 résidences principales, dans lesquelles vivent moins de 5% des Franciliens, ont été exclues de l'analyse, soit entre 470 et 790 communes sur les 1.300 que comptent l'Ile-de-France. Ont aussi été exclues, parmi les communes restantes, toutes celles qui comptaient des effectifs trop faibles, compte tenu de la variable étudiée, pour faire l'objet d'une analyse très détaillée.

46 Insee Méthodes n° 56-57-58

Page 50: actes des journées de méthodologie statistique

PROCESSUS DE SEGMENTATION DU FICHIER

EX : LOGEMENTS SELON LE NOMBRE DE PIÈCES

En fait, c'est sur un sous-ensemble de 200 à 800 communes, parmi les plus peuplées, qu'ont été appliquées, de façon systématique, les techniques d'analyse factorielle et de classification hiérarchique ascendante3, selon une démarche itérative qui s'inspire de celle utilisée pour réaliser la "typologie socioprofessionnelle de l'Ile-de-France" 4.

A la première étape, les communes retenues sont réparties en deux groupes, de taille variable, mais très "opposées" au regard des variables étudiées. Dans l'exemple reproduit dans le schéma ci-dessus, la première segmentation oppose 711 communes où dominent la proportion de grands logements (68% des logements comptent 4 pièces ou plus), à 122 communes où ce sont les petits logements qui sont la dominante (68% des logements comptent 1, 2 ou 3 pièces). A la seconde étape, les mêmes techniques sont de nouveau appliquées à chacun de ces deux sous-ensembles de communes,

3. Les programmes suivants du logiciel d'analyse des données ADDAD ont été utilisées en chaîne, leurs fichiers paramètres étant générés automatiquement par des programmes FORTRAN ad hoc :

ANCORR (analyse factorielle des correspondances) CAHVOR (classification ascendante hiérarchique selon la maximisation du moment centré d'ordre deux d'une partition, utilisant la méthode des voisins réductibles). IMPCAH (Représentation d'une classification hiérarchique) CLACAH (Stockage de partitions à partir des paramètres d'une hiérarchie)

4. BESSY, N. TABARD : Typologie socioprofessionnelle de I'lle-de-France", Insee, Direction régionale de Paris, 1990, 81 pages.

Représentation cartographique et élaboration 47

Page 51: actes des journées de méthodologie statistique

e CONSOLIDATION

SOUS-ENSEMBLE SECONDAIRE 1 bis

RÉSULTAT FINAL

conduisant à une partition en quatre groupes de l'ensemble initial de communes, et ainsi de suite, jusqu'à obtenir 32 groupes différents.

Ainsi, parmi les 122 communes où les petits logements dominent, par exemple, la seconde étape permet de faire un tri entre 25 communes où la proportion de studios et de deux pièces avoisine 60% et 97 communes où le parc de logements est un peu plus grand (22% de deux pièces, 31% de 3 pièces et 22% de 4 pièces). Quant à celles où la proportion de grands logements est élevée, la seconde étape entraîne, par exemple, une distinction entre 234 communes qui comptent à peu près autant de 3 pièces, de 4 pièces que de 5 pièces ou plus (entre 26% et 29%), et 477 communes où près de la moitié des logements comptent 5 pièces ou plus ; et ainsi de suite.

A chaque étape, de nouvelles oppositions, de moins en moins prononcées, sont mises en évidence. A l'issue du processus, les 200 à 800 communes de départs sont ventilées en un maximum de 32 groupes différents qui, bien sûr, ne peuvent être représentés sur une seule carte.

Souvent, le nombre de groupes réellement différents est inférieur à 32 car, très tôt dans le processus de segmentation, certains sous-ensembles ne comportent plus qu'un nombre très restreint de communes ou ne diffèrent plus que de façon marginale. Il arrive aussi qu'un ou plusieurs de ces 32 groupes comportent un nombre très élevé de communes. Ce ou ces groupes sont alors de nouveau segmentés jusqu'à ce que les différences mises en évidence deviennent minimes.

A l'issue de cette phase, le nombre de groupes différents obtenus, s'il est inférieur à 32 est, en revanche, toujours supérieur à la quinzaine, nombre maximum de groupes qui peuvent être représentés, et identifiés, sur une même carte, fût-elle de grand format. Il faut donc opérer des choix.

48 Insee Méthodes n° 56-57-58

Page 52: actes des journées de méthodologie statistique

Pour ce faire, trois principaux critères ont été utilisés : le nombre de communes dans chaque groupe, la population concernée et, bien sûr, la plus ou moins grande proximité entre chaque groupe, mesurée par la distance du chi-deux.

Une fois ces choix effectués, la seconde étape consiste à affecter chaque commune d' Ile-de-France, y compris celles qui ont été exclues de l'analyse initiale, à un groupe, et un seul, parmi les dix à quinze qui ont été retenus. Pour ce faire, on calcule, pour chaque commune, la "distance" entre le profil de la commune et le profil moyen de chacun des groupes retenus. Le même calcul est aussi effectué par rapport au profil moyen des communes exclues lors de la première étape, celles-ci pouvant présenter des caractéristiques différentes de celles mises en évidence à l'issue de la première étape.

Chaque commune est ensuite affectée au groupe dont elle est la plus proche, au sens de la distance du chi-deux. Lorsque toutes les communes ont été classées, le "profil-type" de chaque groupe est recalculé en faisant la moyenne des profils communaux, autrement dit en accordant la même importance à chaque commune, qu'elle compte 1.000 habitants ou, au contraire, 250.000 (l'ensemble de la démarche est résumé dans le schéma ci-contre).

Ces profils font l'objet d'une représentation graphique sous chaque carte en typologie, et servent de légende. La population totale des communes qui font partie de chaque groupe figure aussi sur ces graphiques, ceci afin de pondérer l'impression visuelle, parfois trompeuse, que peut laisser une lecture rapide des cartes.

Parfois, par souci de simplification et de fiabilité statistique, toutes les communes, dont l'effectif analysé était inférieur à un seuil donné, ont été regroupées ensemble ; par exemple, toutes les communes qui comptent moins de 20 étrangers, ou encore toutes celles dont la proportion de ménages d'une personne est inférieure à deux fois la moyenne régionale. L'objectif poursuivi est toujours le même : rendre compte de la diversité des situations communales, d'autant plus finement que les populations con-cernées sont nombreuses et les écarts observés, significatifs.

Bien sûr, le nombre de groupes ayant été, a priori, limité à une quinzaine, l'écart est, certes minimum, entre le profil d'une commune donnée et le profil du groupe auquel elle a été rattachée, mais cet écart peut être assez élevé. Qui plus est, l'écart avec un autre groupe peut s'avérer à peine plus fort. Faute de place, il n'a pas été possible d'indiquer, pour chaque commune, l'écart moyen avec chacun des groupes. Les lecteurs, qui ne s'intéresseront qu'à une ou deux des 1.300 communes franciliennes cartographiées, sont donc invités à vérifier la plus ou moins grande proximité de ces communes avec le profil moyen du groupe auquel elles ont été rattachées.

Représentation cartographique et élaboration 49

Page 53: actes des journées de méthodologie statistique
Page 54: actes des journées de méthodologie statistique

Session 2

Corrections pour la non-réponse

Page 55: actes des journées de méthodologie statistique
Page 56: actes des journées de méthodologie statistique

NON-RÉPONSE : PRINCIPES ET MÉTHODES

Jean-Claude Devine, Françoise Dupont

1 - Nature et ampleur de la non-réponse

1.1 - Classification des non-réponses

Toutes les enquêtes, que ce soit auprès des ménages ou des entreprises, sont soumises au phénomène de non-réponse. Celui-ci se manifeste de deux façons :

- la non-réponse totale (unit nonresponse in english) où aucune des variables d'intérêt n'est collectée. En général, on n'a pas recueilli de questionnaire et on ne dispose pour l'unité en question que de données issues de la base de sondage ou collectées par l'enquêteur sans contact avec l'unité enquêtée ;

la non-réponse partielle, ou donnée manquante (item nonresponse) où certaines variables d'intérêt seulement manquent dans un questionnaire.

Les raisons suivantes sont généralement invoquées pour expliquer la non-réponse totale :

- unité non contactée (absence, adresse ou "coordonnées" mauvaises, autres raisons) ;

- refus ;

- abandon en cours de collecte ;

- incapacité ;

- défauts du processus de production (perte ou vol de documents, documents inex-ploitables) ;

- négligence du répondant (enquêtes postales surtout).

Non-réponse : principes et méthodes 53

Page 57: actes des journées de méthodologie statistique

U

s-r

XI... Xk YI Y2 Y3 Y4 YS Y6 défaut de couverture

de la base de sondage

non réponse partielle

^ <ffeele,k,:keteeesMeeee.,,

non-réponse totale

Hors champ

Pour la non-réponse partielle on peut ajouter les causes suivantes :

- incompréhension où impossibilité de répondre à la question ;

- refus ;

- négligence de l'enquêteur ;

- invalidation d'une réponse (par exemple pour incohérence).

Cette classification est bien sûr aussi incomplète qu'arbitraire et nous n' insisterons pas dessus. On se gardera bien, toutefois, de confondre la non-réponse totale avec le concept d'unité hors champ. Dans les enquêtes auprès des ménages, on échantillonne des logements pour atteindre des résidences principales, lieu où, par définition, on peut trouver des ménages. Une résidence secondaire ou un logement vacant est une unité hors champ et pas une non-réponse.

De même, quand un questionnaire prévoit une modalité "ne sait pas" ou "sans opinion", cela ne constitue pas une non-réponse. La figure ci-dessous résume cette discussion.

54 Insee Méthodes n° 56-57-58

Page 58: actes des journées de méthodologie statistique

Tableau 1 - Non-réponse de l'enquête sur l'emploi de 1992

1992 Logements Nombre de % acceptés % refus

°/. ALD, impossibles

à joindre Échantillon spécial Échantillon aérolaire - dont : - Communes rurales - Unités urbaines de moins

de 20 000 habitants - Unités urbaines de 20 000

à moins de 200 000 habitants - Unités urbaines de 200 000

habitants ou plus (sauf agglomération parisienne)

- Agglomération parisienne Ensemble

2 749 72 112

18 672

11 643

15 028

14 752

12 017 74 861

91,9 92,9

95,8

94,7

93,2

92,1

87,5 92,9

2,4 2,2

1,6

1,8

2,2

2,2

3,8 2,3

5,7 4,9

2,6

3,5

4,6

5,7

8,7 4,8

Tableau 2 - Non-réponse à diverses enquêtes sur les conditions de vie

Enquête Non

Contacté (%)

Contacté + Refus

(%)

Accepté

(%)

Total

(%)

Loyers et charges (Janvier 1989) 6,5 4,5 89 100

Conjoncture (mai 1989) 7,6 8,3 84,1 100

Consommation Alimentaire

(1991) 7,5 8,6

83,9 100 complet

77 abandon

7,0 100

Emploi du temps (1985-1986) 7,5 8

84,5 100 complet

77 abandon

7,5

Budget de Famille (1989) 8,3 12,5

79,4 100 complet

67,8 abandon

11,6 Logement (1984) 5 7 88 100

Actifs Financiers (1986) 7 14 79 100

Situations défavorisées (1986-1987) 6 8

86 100 complet

83 abandon

3

Loisirs (1987-1988) 6 7

87 100 complet

86 abandon

1

Biens durables (1988) 6,5 6, 10

83,1 100 complet

82 abandon

1,5

Non-réponse : principes et méthodes 55

Page 59: actes des journées de méthodologie statistique

1.2 - Ampleur du problème

Dans les enquêtes auprès des ménages, la proportion de non-réponses totale varie de 7 % environ à l'enquête emploi jusqu'à 30 % pour des enquêtes complexes, impliquant par exemple l'usage d'un carnet de compte et plusieurs visites (enquêtes sur les budgets de famille en particulier). Si on particularise certaines catégories, ces taux peuvent atteindre des valeurs encore plus grandes (ménage de 1 personne, vivant à Paris, cadre supérieur). Les tableaux I et 2 tirés de [PA] et de [EE], donnent une idée des ordres de grandeur.

Pour ce qui concerne les enquêtes auprès des entreprises, il est plus difficile de se faire une idée. Ces enquêtes sont en effet réalisées le plus généralement par voie postale. On a du mal alors à distinguer les unités hors champ (disparues) des non-réponses : une entreprise peut ne plus exister ou ne pas répondre. On arrive toutefois à des niveaux assez comparables, à ce qu'on observe dans les enquêtes de population : 10 à 15 % selon les secteurs ou les tranches de taille dans les enquêtes annuelles d'entreprise (EAE), 8 % dans les enquêtes trimestrielles sur les stocks. Ces enquêtes ont un statut obligatoire ; à l'opposé l'enquête mensuelle complémentaire sur les services atteint environ 40 % de non-réponses, chiffre vraisemblablement encore moins élevé que dans les enquêtes qualitatives de conjoncture.

2 - Quelques principes

Des chiffres d'une telle ampleur ne peuvent pas laisser indifférent, et deux principes doivent guider le responsable d'enquête qui veut parer aux méfaits de la non-réponse.

Premier principe : Faire en sorte d'avoir le moins possible de non-réponse.

Il existe tout un ensemble de techniques et de méthodes pour limiter le phénomène. Elles sont l'objet d'expérimentations et de chiffrages dont on ne parlera pas dans cet exposé. Nous nous contenterons d'examiner quelques possibilités :

- pratique de lettre-avis avant enquête ;

- plan de sondage adapté (permettant de limiter les déplacements et favorisant les repérages ; plan surreprésentant les catégories mal répondantes, etc.) ;

- pratique systématique des rappels ;

- utilisation de techniques d'enquête appropriées (face à face, CAPI, CATI,...) ;

56 Insee Méthodes n° 56-57-58

Page 60: actes des journées de méthodologie statistique

- choix judicieux des enquêteurs (exemple : des femmes pour des enquêtes sur la contraception) ;

- formation rigoureuse des enquêteurs ;

conception du questionnaire et formulation des questions ;

incitatifs (cadeaux, récompenses, explications, éventuellement menaces liées à l'obligation de répondre).

Second principe : Bien être conscient, qu'en dépit du premier principe, la non-réponse fait partie de l'enquête et est inévitable.

D'où le corrollaire :

On doit établir une stratégie de correction des défauts liés à la non-réponse dès la conception de l'enquête. En particulier :

"Ne rien faire c'est faire quelque chose".

Supposons par exemple qu'on veuille estimer l'effectif d'un groupe. On ne peut pas appliquer aux répondants des pondérations issues directement du plan de sondage : l'estimation qui en résulterait serait sous-estimée, en première approximation, du taux moyen de non-réponse. Au minimum on se sent obligé de multiplier ce résultat par l'inverse de ce taux. Si on le fait (ce qui est déjà une décision !), on fait l'hypothèse implicite que les non-répondants sont tirés au hasard dans l'échantillon. Le caractère simpliste de cette hypothèse saute aux yeux et, généralement, on voit bien, pour le moins, que diverses parties de la population sondée ont des comportements de réponse différents.

De façon analogue, on doit prévoir la collecte de données qui faciliteront l'analyse et la correction des non-réponses. Ceci peut, en particulier, se traduire par des consignes aux enquêteurs signalant l'importance du recueil de données relatives à l'environne-ment de l'unité enquêtée.

On en arrive à une autre conséquence du second principe :

On doit procéder à une analyse statistique poussée de la non-réponse de façon à bien la décrire. Ceci permet, si tout se passe bien, de comprendre certains facteurs qui déterminent le phénomène. On est alors amené à modéliser le mécanisme de réponse. Le modèle est une formulation/formalisation des hypothèses que suscite l'analyse descriptive. La modélisation du mécanisme de réponse a pour but unique de corriger les données pour compenser certains effets indésirables.

Non-réponse : principes et méthodes 57

Page 61: actes des journées de méthodologie statistique

Elle doit éviter un autre écueil qui est la complexification abusive : les modèles de réponses trop complexes deviennent incontrôlables et peuvent engendrer des estima-tions de paramètres qui conduisent à des corrections instables: Ont peut parfois introduire plus d'imprécision qu'on en corrige. Il faut veiller à faire simple : le modèle n'est pas destiné à refléter la vérité des choses ; le but n'est pas d'estimer parfaitement des paramètres mais d'apporter une correction honorable pour l'analyse des données de l'enquête en atténuant des imperfections évidentes.

Dernier principe, plus difficile à appliquer : une fois mise au point une stratégie de correction pour non-réponse, on doit essayer d'évaluer son impact sur la précision des analyses issues de l'enquête. Si les biais sont, par nature, difficiles à évaluer, on doit essayer, pour le moins, de chiffrer la part de variance induite par la correction pour non-réponse. Nous n'insisterons pas non plus sur ce point dans cette communication.

3 - Possibilités d'action

3.1 - À quoi veut-on arriver ?

Le but formel de la correction pour non-réponse est d'obtenir un fichier "rectangulaire", organisé en individus et variables, utilisable à toutes fins statistiques : tabulations, analyses descriptives de données, calculs d'indicateurs résumés ou d'indices, ajuste-ment de modèles paramètriques, tests d'hypothèse, estimation de variance.

Si on voit les choses de façon qualitative, la non-réponse doit être considérée comme une modalité admissible au même titre que d'autres. Supposons qu'on pose par exemple, une question sur l'appartenance religieuse dans une enquête. On peut utiliser la réponse à cette question comme cofacteur, comme critère de ventilation d' une analyse statistique. La modalité "non réponse" doit alors, en général, être utilisée au même titre qu'une réponse positive. Même si une modalité "sans religion" est prévue, on ne sait pas si l'absence de réponse doit être interprétée comme un signe d'absence de religion, de rattachement à un groupe majoritaire, ou, au contraire, d'appartenance à un groupe plus confidentiel et peu affiché.

En revanche, si on voit les choses sous un aspect quantitatif, le problème change de nature : comment estimer le nombre ou la proportion de personnes qui se réclament par exemple de la religion catholique ? On ne peut pas aisément ventiler les non-répondants au prorata des déclarations positives ni les affecter allègrement au groupe majoritaire. On se trouve alors devant deux possibilités méthodologiques.

La première consiste à remplacer la non-réponse par une valeur plausible. On impute une valeur à une question non répondue et on parlera de technique d'imputation. L'autre

58 Insee Méthodes n° 56-57-58

Page 62: actes des journées de méthodologie statistique

optique consiste à ne s'intéresser qu'à la population des répondants et à jouer sur les pondérations accordées aux unités pour compenser la non-réponse et faire des extrapo-lations. On parlera de technique de repondération (les anglo-saxons utilise volontiers le terme de quasi randomisation pour rappeler que la non-réponse peut être vue comme une forme non contrôlée d'échantillonnage).

3.2 - Principes généraux des techniques d'imputation

Nous ne parlerons plus dans ce papier ni dans cette session des techniques d'imputa-tions, aussi allons-nous leur dire au revoir (et à bientôt !) en indiquant quelques axes de réflexions :

- l'idée derrière toute imputation est celle d'un modèle de prévision de la ou des variables manquantes à partir de variables présentes ;

- explicitement ou implicitement donc, on base une imputation sur une estimation de la loi de probabilité suivie par la (ou les) variable (s) à imputer en fonction de cofacteurs observés ;

selon le cas on peut baser l'imputation sur la valeur prédite en espérance (imputation par la moyenne de classe, par ratio, par régression...) où sur une valeur aléatoire dans la loi estimée (souvent implicitement). A cette catégorie peuvent être rattachée les imputations par donneur (hot-deck en français) selon des techniques multiples.

3.3 - Choix entre imputation et repondération

Supposons que l'enquête ne porte que sur une seule variable d'intérêt. C'est rare mais ça se rencontre : certaines enquêtes de conjoncture auprès des entreprises vérifient à peu près ce critère ; il en va de même du sondage servant à élaborer l'indice du coût de la construction. La différence entre non-réponse totale et non-réponse partielle n'a pas de sens et le critère de choix entre imputation et repondération se ramène à la limitation de l'erreur quadratique moyenne (biais carré + variance). Les méthodes de correction par imputation ont généralement des défauts génants : une imputation par espérance change les distributions des variables (accumulation sur la moyenne pour parler vite). À l'opposé les méthodes aléatoires par donneur créent en supplément de variance artificiel lié au tirage aléatoire du donneur. On préférera donc généralement appliquer une méthode par repondération.

S'il y a plusieurs variables d'intérêt des difficultés apparaissent : chaque variable possède son propre ensemble de répondants, cumul de la non-réponse totale et de la

Non-réponse : principes et méthodes 59

Page 63: actes des journées de méthodologie statistique

non-réponse spécifique aux questions permettent d'élaborer cette variable. Une optique de repondération conduit donc à un système de poids par variable. Cette condition est déjà lourde à admettre mais fait naître de nouvelles difficultés.

Dès qu'une statistique utilise plusieurs variables, on s'aperçoit qu'une pondération spécifique à cet ensemble de variables doit être utilisée, et que, de ce fait, on n'est généralement pas assuré de la cohérence entre deux statistiques. Par exemple l'estima-tion du total d'un tableau peut cesser d'être la somme des estimations des totaux de ses cases.

En prafique, donc, on utilisera la repondération pour la correction de la non-ré-ponse totale et on corrigera la non-réponse par item, si nécessaire, par des imputations.

4- Théorie sommaire de la repondération

4.1 - Mécanisme de réponse et modèle de réponse

Commençons par formaliser le "mécanisme de réponse". Le plan de sondage initial est décrit comme une loi de probabilité sur l'ensemble de tous les échantillons possibles. Cette loi tient compte d'une information auxiliaire contenue dans la base de sondage et décrite par zu -= fzk pour k dans Ul où zu est le vecteur des informations contenues dans la base de sondage. Le plan est donc décrit par les nombres p (s ; z u).

L'échantillon de répondants, r, est issu d'un mécanisme inconnu décrit par une loi de probabilité conditionnelle q (rls;xu ,y u ) où xuest un ensemble de variables présentes dans la population (et pouvant contenir celles qui figurent dans les z) et yu la (ou les) variable (s) d'intérêt. C'est la présence de cette variable qui pose des problèmes épineux. En effet, si nous cherchons à mesurer y k et que le fait que l'unité k réponde dépend explicitement de la valeur de y k, on sent bien que les choses ne vont pas être simples.

Nous dirons, dans le cadre de ce papier, qu'un mécanisme de réponse est ignorable (on prononce en général iguenorabeul le mais ça n'a rien d'obligatoire) si on a les propriétés suivantes :

- yk peut être mis sous la forme fk (xK, Ek) où fk est une fonction connue et ou une variable nouvelle telle que la transformation (xk , y d --> (x k , Ek) soit régulière (biunivoque en particulier).

60 Insee Méthodes n° 56-57-58

Page 64: actes des journées de méthodologie statistique

- le mécanisme de réponse ne dépend pas de Ek :

q (ris ; xu , yu)=q (ris ; xu , f u(xu , eu)) =q (ris ; xu).

Autrement dit le mécanisme de réponse ne dépend des yu que par ce que les xu en "expliquent". Autrement dit encore si on interprète la relation entre y et x comme un modèle probabiliste (par exemple de régression de y sur x), les réponses et les "résidus"

Ek sont indépendants conditionnellement à x.

Toute la "philosophie" de la correction pour non-réponse (ignorable) consiste à décou-vrir et à utiliser des variables x telles qu'on puisse considérer comme indépendantes réponses et variables d'intérêt.

4.2 - Non-réponse et enquête en deux phases

Si le mécanisme de réponse (ignorable) est entièrement connu (en particulier xu est connu), l'enquête avec non-réponse peut être considérée comme une enquête en deux phases :

- phase 1 : tirage de l'échantillon s par la loip (s ;zu) dans la population U ;

- phase 2 : tirage de l'échantillon r de répondants dans l'échantillon s par la loi q (ris ;xu)

On peut alors appliquer la théorie de ce type d'enquête ([COCHRAN], [SSW]) qui conduit aux estimateurs dits par expansion.

Le mécanisme de réponse étant supposé connu, on est capable de calculer la probabilité d'inclusion conditionnelle (probabilité de réponse si on est dans s) :

Pk = E q (ris) r k

L'estimateur par expansion du total d'une variable y sera alors égal à :

Y = E Yk /Tck Pk

Non-réponse : principes et méthodes 61

Page 65: actes des journées de méthodologie statistique

où ILk est la probabilité d'inclusion dans l'échantillon s. On voit que l'espérance A

conditionnelle E (Y I s ) yk/ltk n'est autre que l'estimatçur de HORVITZ-

THOMPSON qu'on obtiendrait si on observait y sur tout l'échantillon s. Ce condition- s

nement permet aussi de décomposer la variance de Y en un terme dû à la première phase du sondage et un terme dû à la seconde :

A Var ( Y ) = = Var p

+ E p Var lv Ink I s\ 1.‘ p

s

r

On peut alors, si on connaît les probabilités d'inclusion doubles Pki = Pr (k et le ri s) et un estimateur de variance de l'échantillon s, former un estimateur de la variance de A Y (voire par exemple [SS] ou [SSW]).

En conclusion, si le mécanisme est ignorable et que nous le connaissons, le problème A

de la correction pour non-réponse est résolu : on utilise l'estimateur Y et donc on repondère les observations en mulpliant les poids de sondage I ln k par les poids de deuxième phase 1 I Pk.

4.3 - Modèles de réponse

Le problème est que nous ne connaissons qu'imparfaitement le mécanisme de réponse. Nous avons à choisir les variables x qui le déterminent et à modéliser la façon dont elles le font. En général nous ne serons pas capables (et nous n'aurons pas besoin !) de formaliser ce modèle dans tous ses détails. Nous commencerons par y introduire des paramètres mis dans un vecteur p. Ensuite nous nous contenterons de donner une forme analytique aux probabilités Pk en fonction du vecteur xk. On notera la restriction de nos ambitions par rapport à une explicitation d'un plan q (ri s). On écrira donc :

Pk = Pk (X k; 13)'

Pour que ce modèle soit identifiable il faudra bien entendu que la dimension des vecteurs xk soit supérieure ou égale à celle du vecteur p. En pratique c'est l'égalité qui sera de règle.

Le modèle le plus simple est celui des groupes homogènes de réponses : xk est un vecteur dont toutes les coordonnées sont nulles sauf une qui vaut un, indiquant l'appartenance de k à une catégorie ("le groupe homogène"). Le modèle postule que la probabilité de réponse dépend de la catégorie et est la même pour chaque individu de cette catégorie ; il contient donc un paramètre par groupe de réponse.

62 lnsee Méthodes n° 56-57-58

Page 66: actes des journées de méthodologie statistique

Bien que très utilisé, ce type de modèle est souvent avantageusement remplacé par des modèles linéaires généralisés où on pose Pk = P (3). On peut utiliser

un modèle linéaire : Pk =1- x'k 13. Comme xk est généralement un vecteur de nombres positifs, cette formulation permet d'avoir (3 composé de nombres positifs. De plus P k est généralement voisin de 1 de sorte que cette formulation permet d'avoir des (3 proches de zéro ;

- le modèle log-linéaire-1 Pk = exp ( - x'k (3) ;

le modèle log-linéaire-0 Pk = 1 - exp ( - p ;

- le modèle Logit : Pk = exp ( - x'k (3) / (1 + exp ( - x'k p ).

Nous verrons dans l'exposé suivant que certains autres modèles dérivés s'introduisent assez naturellement.

4.4 - Techniques d'estimation et but de l'enquête

La question est maintenant de savoir comment estimer les paramètres du modèle. Dans

A A

ce problème, on ne doit pas oublier que ce sont les Pk -=Pk (Vk ; ) qui nous importent A A

plutôt que les Q , et que même, on est indifférent, à la limite, aux valeurs de P k si l'estimateur "estimé" :

A A A Y ( ) =

hc k r

est de bonne qualité.

Ici encore nous allons avoir des principes.

4.4.1 - Premier principe

Toute procédure d'estimation raisonnable doit nous fournir un estimateur tel que 5 = 5 - p ait une variance de l'ordre de 1/n où n est la taille de l'échantillon s. D'autre part, les probabilités de réponses sont des quantités finies, insensibles, en particulier, à la taille de l'échantillon s sur lequel elles opèrent. La taille m de l'échantillon de répondants est donc telle que 1/m sera considéré comme un ordre de grandeur (probabiliste) équivalent à lin. On remarque qu'il en va de même de la taille n-m

Non-réponse : principes et méthodes 63

Page 67: actes des journées de méthodologie statistique

de l' échantillon de non-répondants (échantillon 0). La conséquence de ces considéra-tions peut se formuler sous forme de principe :

La technique d'estimation choisie n'a que peu d'influence sur l'es-timation des variables d'intérêt du sondage.

On peut en effet remarquer que :

= _ 5 _ yk P. P 13 ) r nk P

2k

reste

Dans cette égalité fek ([3) est le vecteur des dérivés partielles de P k (s) par rapport aux

coordonnées de f3 et "Reste" est une quantité dont l'ordre en probabilité est inférieur

Yk Pe k (13) 1 L'expression — Â peut être vue comme l'estimateur (con-, nk Pk( ) Pk(r3 )

ditionnel à s) d'une certaine quantité finie U. La variance de  est en 1/m de sorte que  —A est en probabilité de l'ordre de 1/gym = 1/fin. On peut donc affirmer que (si le

A A A

modèle est vrai), Y ( [3 ) est une approximation de faible biais de Y ([3) . Si celui-ci est en lin, son carré sera négligeable devant la variance. On aura donc :

Var (Ÿ ) ) - )) Var [(e _ [3) (Â - Ail = 0 (1/ n2 )

A A A A

car ( b - b) = 0 (1/Un) et (Â — A) = 0P( 1/.1-n). Les estimateurs Y ( ) et Y ([3) auront

donc la même valeur à des termes en 11n2 près.

4.4.2 - Un autre principe On ne change plus un estimateur qui gagne

La précision de l'estimation de ( R ) est indifférente dès lors qu'on applique une méthode convergente en 11-1/2 . On est donc en droit de chercher d'autres règles que celle de l'efficacité asymptotique de la statistique inférentielle classique.

64 Insee Méthodes n° 56-57-58

Page 68: actes des journées de méthodologie statistique

Pk - Pk

(2 bis)

Commençons par un bilan de l'information nécessaire à l'estimation de p. Nous avons besoin de connaître, sur l'échantillon s, les cofacteurs xk et la variable de réponse Rk = 1 ou O selon que l' unité répond ou pas. Nous devons aussi, bien sûr, connaître la fonction de réponse Pk (X k ; 13). On doit, de plus, mettre en oeuvre un principe d'estimation qui requiert éventuellement une information supplémentaire.

4.4.2.1 - Optique ckissique

Remplis de respect pour les canons de la statistique classique, on peut vouloir utiliser la méthode du maximum de vraisemblance. Plus ou moins implicitement on admet alors que les Rk sont des variables indépendantes et donc que l'échantillonnage de deuxième phase est POISSONIEN.

La maximisation de la vraisemblance conduit à une système d'équations dites du score :

y P. k y k (1) P k 1 — Pk

qu'on peut aussi écrire sous la forme :

y P. k _ P. k (2) Pk (1- Pk) l- Px

Dans le cas d'un modèle linéaire généralisé où Pk = P (x' k [3.) ces équations s'écrivent (avec p dérivée de P) :

E x

Pk k

k

On pourrait trouver d'autres équations en appliquant d'autres principes de minimisation de l'écart entre les données et le modèle : moindre carrés, ou chi-2 minimum par exemple. Toutes nous conduisent à des équations estimantes qui ressemblent à (1) ou (2) et qui ne s'avèrent "parlantes" que dans des cas particuliers. Nous préfererons baser l'estimation sur des principes plus robustes et plus faciles à manipuler basés sur les équations estimantes elles-mêmes.

Non-réponse : principes et méthodes 65

Page 69: actes des journées de méthodologie statistique

4.4.2.2 - Principes des moments

Considérons une variable Zk , de même dimension que xk , est observée sur s tout entier.

On peut, sous le modèle, calculer l'espérance de E Zk Rk et l'égaler à la valeur s

observée. Ceci conduit aux équations estimantes :

E Zk pk = E Zk (3) s

L'équation (2bis) peut-être vue comme une équation aux moments pour

Pk Zk = X . Les Zk seront parfaitement définies si p/P (1-P) est une k pk pk)

constante c'est-à-dire si la fonction donnant la probabilité de réponse est le Logit. C'est le seul cas simple où les équations de score s'identifient à des équations de moment.

4.4.2.3 - Optiques "calage"

Le principe des moments est encore très imprégné d'une idée d'ajustement et d'esti-mation de paramètres. Gardons les mêmes hypothèses : Zk connu sur s. En l'absence

A de non-réponse — c'est le cas pour la variable Z — , on dispose d'un estimateur Z du total de Z qu'on pense être idéal compte tenu de l'information dont on dispose :

= Zk Wk avec Wk =

si on se sert de l'estimateur de HORWITZ-THOMPSON.

En situation de non-réponse, on utilisera un estimateur "deux fois dilaté" :

Z = ZWg k k k r

avec gk = 1/Pk

66 Insee Méthodes n° 56-57-58

Page 70: actes des journées de méthodologie statistique

A A A A

On aura, en général, Z Z . Si l'estimateur Z a été convenablement choisi, il est A A A

vraisemblable que Z aura une variance plus grande que celle de Z . Si, en particulier, la variable Z a un bon pouvoir explicatif sur y et qu'on l'ait choisie pour améliorer par régression l'estimation de y, il est naturel de ne pas vouloir changer l'estimateur , ne

A pas vouloir "changer l'estimateur Z qui gagne". Si on pose v k = W k Zk , ceci conduit aux équations estimantes (avec H = 1/P) :

Ey, = V k Hk (x k ," 13) (4)

Si la fonction Pk = P (x' k 13) est liée à un modèle linéaire généralisé on aura avec H = 1/P

= Evk H(x'kE3 ) ( 4 bis) s r

Ces équations sont typiquement des équations de calage ([D.S] et [DSS]) dans le cas où x k = Zk et ou les poids Wk sont tous égaux. C'est pourquoi on peut appeler les équations (4bis ) équations de calage.

Si nous revenons aux équations (2) ou ( 2bis ) nous voyons que les équations du score se ramènent à des équations de calage dans le cas où p /(1 — P) est une constante c'est-à-dire dans le cas du modèle log-linéaire-0 : P (x' k l3) = 1 - exp ( - x k f3 ).

_ y Pek s P k

P(1—P)

Pour un modèle log-linéaire I ces équations seraient celles d'un calage de l'échantillon de non-répondants.

Remarque 2 : Dans le cas d'un modèle !agit le principe de calage conduit aux équations :

Ivk (1-Fexp(ik f3 )) = vk r s

vk exp (

Remarque 1 : Les équations ( 2 ) peuvent aussi s'écrire :

soit

r

Non-réponse : principes et méthodes 67

Page 71: actes des journées de méthodologie statistique

C'est donc, pratiquement, une variante du raking-ratio.

Remarque 3 : Le principe de calage présente un avantage assez extraordinaire : les variables x k n'ont pas besoin d'être connues sur s pour que l'estimation soit possible et on a le choix des v k sur s. Ceci fonctionne même dans des cas élémentaires. Supposons un modèle à groupes homogènes de réponse, disons par catégories sociales (CS). Celles-ci sont observées sur r, mais pas sur s. Sur s on ne tonnait que le type de quartier, certes lié à la CS mais différent. Le principe de calage permet d'estimer les probabilités de réponse, ce que ne permettent ni le principe de vraisemblance ni le principe des moments.

5 - Conclusions provisoires

L'élaboration d'un modèle de réponse pour repondération demande une analyse pous-sée du mécanisme de réponse. Celle-ci doit conduire à la spécification d'un modèle de réponse. Néanmoins on doit se garder de complications trop grandes. La façon d'estimer les paramètres du modèle influe peu sur la qualité les estimations finales. De ce fait, on recommande d'utiliser un critère de calage basé sur des équations estimantes ayant un sens concret évident.

68 Insee Méthodes n° 56-57-58

Page 72: actes des journées de méthodologie statistique

BIBLIOGRAPHIE

[PA] : Pascal ARDILLY (1993) : Les Techniques de Sondage —Technip

[EE] : INSEE (1993) : Résultats détaillés de l'enquête sur l'emploi de 1992.

[COCHRAN] : Willian COCHRAN (1977) : Sampling Techniques, Third edition, W1LEY

[SSW] : Carl Erik SÂRNDAL, Bengt SWENSSON, Jan WRETMAN (1992) : Model Assited Survey Sampling, Springer.

[SSW] : Carl Erik SÂRNDAL, Bengt SWENSSON (1987) : A General View of Estimation for Two-Phases of Selection with Application to Two-Phase Sampling and Non-res-ponse, International Statistical Review- Vol 55, pp : 279-294.

[DS] : Jean-Claude DEVILLE, Carl Erik SÂRNDAL, (1992) : Calibration Estimators in Survey Sampling, JASA, Vol 87 pp : 376-382.

[DS] : Jean-Claude DEVILLE, Carl Erik SÂRNDAL, Olivier SAUTORY (1992) : Generalized Raking Procedures in Survey Sampling, JASA, Vol 88, pp : 1013-1020.

Non-réponse : principes et méthodes 69

Page 73: actes des journées de méthodologie statistique
Page 74: actes des journées de méthodologie statistique

ÉTUDE DES NON-RÉPONSES DANS L'ENQUÊTE EMPLOI

Louis Meuric

Cette note présente les méthodes de redressement et de calage actuellement utilisées dans l'enquête emploi, méthodes qui résolvent en partie les problèmes de biais et de précision dans l'enquête. Elle propose par ailleurs une solution complémentaire fondée sur l'utilisation des données du recensement, afin d'améliorer redressement et calage. Elle donne les étapes de l'étude nécessaire pour valider cette solution alternative, et détaille les conclusions de l'étude des non-réponses.

Problématique : éliminer le biais dû aux non-réponses, améliorer la précision de l'enquête emploi

Présentation des enquêtes emploi

L'enquête emploi est une enquête auprès des ménages, avec comme but d'analyser chaque année en mars la structure de la population active. Emploi, sous-emploi et chômage selon les critères du Bureau International du Travail (BIT). catégorie socio-professionnelle, diplôme, secteur d'activité, temps de travail, salaire et statut corres-pondant à l'emploi, conditions de recherche d'emploi pour les chômeurs sont autant d'éléments qui permettent de mieux comprendre les mécanismes régissant le marché du travail.

L'échantillon de l'enquête est renouvelé par tiers tous les ans. Depuis 1992, un nouvel échantillon est mis en place progressivement, de sorte qu'en 1994, l'enquête emploi présentera les caractéristiques suivantes :

— 80 000 résidences principales, abritant des ménages ordinaires (au sens du recensement) ;

— 75 000 ménages répondants ;

Étude des non-réponses dans l'enquête emploi 71

Page 75: actes des journées de méthodologie statistique

— 150 000 adultes de 15 ans et plus qui représentent le champ total de l'enquête, soit l'ensemble des individus déclarés comme faisant partie de ces ménages.

De plus, l'échantillon est tiré en dehors de l'échantillon-maître selon les principes suivants ,

— stratification par région et Tranche d'Unité Urbaine (TUU) [21 régions, la Corse étant regroupée avec Paca, 10 TUU, d'où 170 strates]. Les taux de sondage assurent une taille minimale de 5 400 adultes pour toutes les régions, d'où un taux maximal de 1/100e pour le Limousin. Pour les régions qui dépassent cette contrainte de taille, le taux est légèrement inférieur au 1/300e.

— caractère aréolaire : l'échantillon est composé de 3 500 aires (ce sont des zones géographiques délimitées par des frontières nettes et stables). Ces aires comptent 20 logements dans les villes de 100 000 habitants et plus et 40 logements ailleurs.

— tirage à un degré : dans chaque strate, l'échantillon est tiré par sondage aléatoire simple.

Depuis 1992, le tiers sortant est encore interrogé trois fois pour le compte de l'Enquête Trimestrielle sur l'Emploi (ETE). Cette enquête fournit des points conjoncturels sur les grandes catégories de la population active. Elle est réalisée à 88% par téléphone.

Les non-réponses

Celles-ci sont très faibles pour une enquête auprès des ménages (7,1 % en 1992 par exemple). En effet, le fait que les logements soient ramassés les uns sur les autres facilite le travail de relance pour les enquêteurs. Les ME, réalisées par téléphone, présentent les mêmes taux de non-réponse.

Bien qu'elles soient peu nombreuses, les non-réponses induiraient cependant un biais sur les niveaux de chômage publiés si elles n'étaient redressées de façon appropriée, puisque les non-répondants sont plus souvent au chômage. Ce sont les ETE de 1992 qui le montrent cette fois. En effet, on a tenté d'apparier toutes les résidences principales de l'ETE de juin 1992, par exemple avec les ménages répondant au trimestre précédent, en mars. Sur les 1799 ménages ne répondant pas en juin, 865 avaient pourtant répondu en mars (voir tableau page 75).

Ce tableau montre que les personnes qui étaient au chômage en mars ont une probabilité plus importante de ne pas répondre en juin. Il en va de même en décembre, tandis que les non-réponses en septembre sont plutôt de gens ayant un emploi, mais absents de longue durée pour cause de vacances.

72 lnsee Méthodes n° 56-57-58

Page 76: actes des journées de méthodologie statistique

On peut craindre que dans l'enquête emploi, les ménages présentent les mêmes comportements de réponse qu'en juin ou décembre. Un redressement des non-réponses adapté est donc nécessaire.

Améliorer la précision des résultats

Du fait de la taille des aires dans le rural (40 logements), on observe un design-effect i de 6,6 sur la population des agriculteurs par exemple, de 2 sur le niveau de chômage 2 (voir aussi en annexe quelques écarts-type, calculés en tenant compte des redressements actuels). C'est l'inconvénient du caractère aréolaire de l'échantillon, dont les avantages sont un faible taux de non-réponse et a priori une bonne couverture des situations précaires, logements oubliés au RP, locaux transformés en logements, etc... Comme pour toute enquête, il est utile de caler les résultats sur des données exhaustives, fiables, homogènes dans leurs concepts avec ceux de l'enquête, et disponibles trois mois après le début de la collecte, compte tenu des délais de publication des premiers résultats de l'enquête.

Méthode d'estimation employée actuellement

Cette méthode se déroule en deux temps : en premier lieu le redressement des non-réponses, puis indépendemment, le calage de l'échantillon sur la pyramide des âges.

Redressement du biais des non-réponses

Celui-ci est rendu possible du fait que l'on peut dénombrer les résidences principales de l'échantillon, qui représentent le champ de l'enquête, et parmi elles les ménages répondants. On considère actuellement 8 catégories de résidences principales, résultant du croisement du rang d'interrogation et de la TUU. Le tableau ci-dessous donne les taux de non-réponses dans ces 8 catégories en 1992.

Tiers entrant

Tiers médian et sortant

Rural < 50 000 hab. > = 50 000 hab. Agglomération parisienne

5,4

3,6

7,1

5,1

7,6

7,4

13,8

11,8

( I ). Le design-effect est le rapport de la variance d'un estimateur sur un échantillon donné et de la variance du même estimateur sur un échantillon aléatoire simple de même taille. (2). Journées de méthodologie et statistique de décembre 1991: L'enquête emploi : échantillon 1992 et années suivantes (N. Roth)

Étude des non-réponses dans l'enquête emploi 73

Page 77: actes des journées de méthodologie statistique

Les non-réponses aux enquêtes emploi

(en %

Mars Juin Sept. Déc. Mars Juin 1992 1992 1992 1992 1993 1993

1 : enquête par téléphone 78,9 78,9 81,1 80,8

2 : enquête par visite 13,1 12,6 12,1 11,8

3 : enquête mixte 0,5 0,4 0,3 0,3

Total 92,9 92,5 91,9 93,3 92,4 92,9

5 : refus 2,3 2,3 1,7 1,7 1,8 2,7 1,9

6 : ménage présent 2,9 3,0 2,9 3,0 3,1 2,6

7 : ALD 1,9 2,8 3,5 1,8 1,8 2,6

Total taux de non-réponses 7,1 7,5 8,1 6,7 7,1 7,1

L'estimateur redressé des non-réponses est un estimateur des valeurs dilatées. Il consiste à diviser le poids de sondage d'un ménage répondant par le taux de réponse de sa catégorie (= I - taux de réponse ).

Cette méthode peut paraître assez fruste, elle est néanmoins efficace. En effet, si l'on reprend l'étude précédente sur les non-réponses de l'ETE, un modèle logit avec pour explicatives la TUU et les nombres de chômeurs, d'actifs occupés et d'inactifs du ménage au trimestre précédent penne de conclure que les coefficients correspondant à ces trois dernières variables sont nuls. Dans ce modèle, l'activité au trimestre précédent, fortement corrélée avec celle actuelle, n'apporte aucune information supplémentaire une fois pris en compte la TUU et le rang d'interrogation.

En clair, les estimateurs d'emploi et de chômage obtenus par un tel redressement sont correctement corrigés de la non-réponse. Attention, cette étude n'a été bien sûr réalisée que sur les ménages ayant répondu en mars. Il reste à espérer que l'autre moitié des non-répondants, i.e. les récidivistes de la non-réponse, vérifie aussi cette loi.

La question qui se pose maintenant est : un tel redressement suffit-il pour toutes les variables de l'enquête, ou d'autres facteurs interviennent-ils dans le phénomène de la non-réponse? Par ailleurs, cette classification de la TUU est-elle la plus adaptée, ou en existe-t-il une autre plus appropriée à un redressement du même type?

Calage actuel sur la pyramide des âges 1

En termes de fiabilité, exhaustivité, homogénéité et disponibilité dans un délai de trois mois, on ne possède pour l'instant que la pyramide des âges au moment de l'enquête, par tranche d'âge quinquennal (actualisation du recensement par l'état-civil et par des

(I). Voir "Calage de l'échantillon emploi sur la pyramide des âges", L Meuric, 12 mars 1992, note interne.

74 Insee Méthodes n° 56-57-58

Page 78: actes des journées de méthodologie statistique

Appariement des résidences principales en n avec les répondants en n - 1

Ménages en n

Non-répondants

Répondants

Juin Septembre I Décembre

Total dont répondant en n - 1

1 799 soit 7,5%

22 192

1 944 soit 8,1%

22 011

1 599 soit 6,7%

22 414

Ménages de n répondant en n-1

Non-répondant en n

Répondants

865 soit 3,9%

21 225

796 soit 3,6%

20 980

446 soit 2,0%

21 335

Réponse en n

Probabilité d'avoir été n-1

Actif occupé

Chômeur

Inactif

Non- réponse

Réponse Non- réponse

Réponse Non- réponse

Réponse

39,9

8,5

51,6

47,1

5,2

47,8

46,7

6,9

46,4

47,7

5,2

47,1

47,6

11,5

40,9

47,4

5,9

46,7

Total 100,0 100,0 100,0 100,0 100,0 100,0

hypothèses de migration). La méthode de calage utilisée est le Raking Ratio Généralisé (RRG), développée par C.-E. Sarndal et J.-C. Devine et programmée par O. Sautory dans la macro SAS CALMAR.

Le Raking Ratio simple permet déjà de caler sur les effectifs marginaux de deux variables qualitatives ou plus sans avoir à caler sur leurs effectifs croisés. Le RRG quant à lui, permet également d'introduire des variables quantitatives, résolvant ainsi le problème de la cohérence des statistiques individuelles et des statistiques de ménages dans l'enquête emploi.

En effet, dans l'ancienne série, le calage sur la pyramide des âges conduisait à des poids différents pour les membres d'un même ménage. Ce calage consistait à calculer le rapport entre l'effectif d'une tranche d' âge après redressement des non-réponses et celui de la source officielle, puis à multiplier le poids de tous ses membres par ce rapport.

(1). "Estimateurs par calage et techniques de ratissage généralisé dans les enquêtes par sondage", C.E. Sarndal et J.C. Deville, note interne.

Étude des non-réponses dans l'enquête emploi 75

Page 79: actes des journées de méthodologie statistique

Quel poids alors retenir pour le ménage, comment concilier les statistiques sur les hommes et les femmes vivant en couple par exemple?

Pour que les membres d'un ménage aient le même poids et que l'on puisse cependant caler sur des données individuelles exhaustives, il suffit de considérer pour chaque ménage les variables quantitatives que sont les nombres d'hommes et de femmes du ménage appartenant à telle ou telle tranche d'âge, et d'en ajuster les totaux calculés sur les ménages de l'échantillon.

Malgré ce calage, l'écart-type sur les effectifs des agriculteurs reste important (40 000 pour une population de 1 043 000 en 1992). Il faut donc trouver d'autres sources exhaustives que la pyramide des âges, mieux corrélées avec nos variables d'intérêt, le recensement de 1990 par exemple. La solution proposée maintenant repose elle aussi sur l'utilisation du RRG, tant pour le redressement des non-réponses que pour les calages.

Solution complémentaire : affiner le redressement des non-réponses, caler aussi sur le RP, articuler tout cela

Propositions

Elles consistent à exploiter au maximum les caractéristiques RP des résidences princi-pales présentes dans les aires au moment du recensement, et les caractéristiques au moment de l'enquête des nouvelles résidences principales, connues même si leurs occupants ne répondent pas. Dans ce but, on doit définir 3 catégories de logements :

— Les résidences principales lors du RP90 qui ne le sont plus au moment de l'enquête. Il peut s'agir d'une destruction ou d'une transformation en résidence secondaire, en logement vacant ou occasionnel). Ces logements sont exclus du champ de l'enquête, mais vont pourtant servir ;

— Les résidences principales lors du RP90 qui le sont toujours à la date de l'enquête: — Les nouvelles résidences principales à la date de l'enquête :

— logements neufs : pas d'information au RP, mais uniquement à l'enquête (type d'immeuble, nombre de logements, année d'achèvement) ;

— anciennes résidences secondaires, anciens logements vacants ou occasionnels: on dispose alors d'informations sur le logement au RP (type d'immeuble, nombre de logements, année d'achèvement, nombre de pièces), mais pas sur le ménage lors du RP. Sur cette faible population, se restreindre aux variables de l'enquête ne fait perdre que l'information sur le nombre de pièces.

76 lnsee Méthodes n° 56-57-58

Page 80: actes des journées de méthodologie statistique

1

2

3

Pyramide des agas

Redressement des non-réponses 2 Simultanément calage de 1 et 2 sur le lote! RP

RÉPONDANTS

1

Redressement des non-réponses Non-réponses

Nouvelles résidences principales

Total RP

Résidences principales au RP uniquement

Résidences principales au RP et à l'enquête

Nouvelles résidences principales

RÉPONDANTS

n-réponses

Redresse des non-réponses — —

Redressement des non-

1355,ionses_

Pyramide des agas 1

Étude des non-réponses dans l'enquête emploi 77

Pour les catégories 1 et 2 par contre, qui sont les résidences principales au moment du RP, toutes sortes d'informations sont disponibles sur le ménage et le chef de ménage. Lorsque l'information complète fait cependant défaut (problème d'appariement avec le RP), on peut imputer les caractéristiques actuelles ou des caractéristiques aléatoires, la question n'est pas encore tranchée.

Cette information permet d'une part d'affiner le redressement des non-réponses pour la catégorie 2, d'autre part d'améliorer la précision des résultats en calant les résidences principales RP de l'échantillon (catégories 1 + 2) sur les résultats exhaustifs du RP, d'où l'intérêt de la catégorie 1. Il va de soi que les gains en biais et en précision ainsi acquis diminueront avec le temps, au fur et à mesure que s'atténuera la corrélation des variables auxiliaires avec le phénomène de non-réponses et avec les variables d'intérêt.

Dans tous les cas, le tiers sortant est ensuite enquêté pour le compte de l'enquête trimestrielle. Par souci d'homogénéité, ce tiers est donc traité à part. Le tiers entrant présentant davantage de non-répondants, il le sera également. En clair, les trois tiers de l'enquête seront redressés des non-réponses et calés séparément.

Le tout est maintenant d'articuler redressement et calage, deux scenarii étant possibles.

Page 81: actes des journées de méthodologie statistique

L'avantage du deuxième scénario est qu'il opère les deux calages en même temps, le calage sur la pyramide des âges ne vient donc pas détruire celui sur le RP. De plus, il permet paradoxalement de mettre en oeuvre un modèle plus complexe de non-réponse, tenant compte d'un suivi des logements neufs dans l'enquête éventuellement défectueux.

En effet, les Services statistiques des établissements régionaux(1) reçoivent pour consigne de constituer des aires géographiques aussi représentatives que possible de leur commune ou de leur district. Ainsi, les aires doivent éventuellement contenir des terrains à bâtir, afin de bien prendre en compte la construction neuve. Mais avec des immeubles neufs de 6, 12 ou 20 étages par exemple, elles deviendraient rapidement bien trop importantes, d'où un effet grappe désastreux et une charge de travail déséqui-librée. Les enquêteurs ont donc pour consigne d'exclure tout immeuble ou lotissement construit sur permis de 10 logements ou plus, ceux-ci faisant chaque année l'objet d'échantillonnages spéciaux à partir des fichiers des logements neufs SICLONE. Mais ces fichiers n'étant pas parfaitement exhaustifs, on court le risque de sous-estimer les logements neufs, souvent occupés par des ménages jeunes et de taille réduite, d'où la nécessité du modèle suivant:

Si) --- .. échantillon aréolaire

Logements neufs < 10 dans les aires

1, non-réponse

Logements non-réponse ?

neufs >= 10

SICLONE échantillon spécial

Le calage simultané sur le RP et sur la pyramide des âges devrait maintenir les poids des anciennes résidences principales tout en surpondérant éventuellement les logements neufs d'un effet non-réponse. Une telle méthode n'est applicable que si la notion de résidence principale est bien verrouillée à l'enquête. On n'exclut donc pas de devoir mettre en oeuvre le premier scénario.

Études à réaliser pour valider ces propositions

Elles consistent à : — étudier les non-réponses dans l'enquête emploi, tant pour les résidences principales

de catégorie 2 que pour celles de catégorie 3, afin d'affiner les redressements ; — déterminer quelles variables auxiliaires du RP doivent figurer dans le calage: ce sont

les variables les mieux corrélées avec les variables d'intérêt que sont l'activité (chômeur, inactif ou en emploi) et la catégorie socioprofessionnelle. Attention, on

(1) Les services statistiques sont chargés de raires les enquêtes.

78 Ins e Méthodes n° 56-57-58

Page 82: actes des journées de méthodologie statistique

doit tenir compte du fait que l'échantillon est déjà stratifié par région et tranche d'unité urbaine, et que l'on cale toujours sur la pyramide des âges ;

— enfin, examiner quelle est la meilleure articulation du ou des calages avec le redressement des non-réponses.

Seules les conclusions sur les non-réponses sont exposées ci-après.

Étude des non-réponses

Méthode

L'objectif est d'assurer le meilleur redressement des non-réponses possible à l'enquête emploi, ce qui implique:

— d'étudier ces non-réponses toutes catégories confondues, qu'il s'agisse de refus, d'absents de longue durée ou que l'enquête soit impossible à réaliser. Cette étude se fera au moyen d'un modèle logit ;

— que les variables explicatives rentrées dans ce modèle devront être les plus discrimi-nantes possible: la procédure de test pas à pas de chacune des variables (nous verrons lesquelles tout à l'heure) permet d'atteindre ce but ;

— que ces variables auxiliaires soient bien corrélées avec nos variables d'intérêt (activité, CS). De plus, deux catégories de variables auxiliaires se distinguent: celles du logement, stables, et celles concernant le ménage au moment du RP, dont la corrélation avec le phénomène de non-réponses diminue avec le temps. On privilé-giera donc les caractéristiques du logement s'il y a un choix à faire et l'on étudiera la significativité des caractéristiques du ménage conditionnellement aux premières.

Mise en oeuvre de modèles logit sur 2 popu ns : anciennes t et nouvelles résidences principales (catégories 2 et 3)

Préliminaires

Catégorie 2 : parmi toutes les caractéristiques RP des logements, des ménages ou des chefs de ménage, on a choisi les variables a priori les plus susceptibles d'influer sur les comportements de non-réponse.

Étude des non-réponses dans l'enquête emploi 79

Page 83: actes des journées de méthodologie statistique

Catégorie 3 : toutes les variables disponibles à l'enquête ont été retenues. Leur liste figure ci-dessous.

Des tabulations croisées avec la variable RÉPONSE ci-dessous et des tests du chi-deux ont ensuite permis d'en éliminer quelques-unes comme trop peu corrélées avec la non-réponse (situation particulière d'emploi du chef de ménage, confort du logement), et aussi d'effectuer des regroupements de modalités pour les variables âge du chef de ménage et type de logement (voir plus loin), en fonction des taux de non-réponse dans chacune de leurs modalités.

Enfin, certaines variables quantitatives ont été tronquées par le haut ou regroupées afin que chaque modalité compte suffisamment de non-répondants. Il s'agissait des nombres de personnes, d'adultes, d'enfants, d'actifs occupés du ménage et du nombre de logements de l'immeuble.

Population totale Non répondants

Variables explicatives disponibles

Anciennes résidences principales

Nouvelles résidences principales

47 060 3 476

6 096 733

RP Enquête

Logement TUU TUU, année d'achèvement Année d'achèvement

Type de logement Type de logement.

Nombre de logements Nombre de logements

Nombre de pièces

Statut d'occupation confort

Ménage

Nombres de personnes

d'adultes,d'enfants,d'actifs

Chef de ménage

Sexe,àge,nationalité

Activité,statut

Situation particulière d'emploi

Position professionnelle

80

Insee Méthodes n° 56-57-58

Page 84: actes des journées de méthodologie statistique

Mise en oeuvre de la procédure logistic

Dans les deux cas, on a procédé de la même manière : variable dépendante : RÉPONSE = 1 si le ménage répond

0 sinon: on ne distingue pas le type de non-réponse variables explicatives: celles décrites ci-dessus. L'habitude est de les déclarer sous forme de variables "dummies" ou dichotomiques, ou encore appelées indicatrices, de la façon suivante: si une variable qualitative, le nombre NP de personnes du ménage par exemple, compte K modalités, on définit:

NP1 = 1 si NP =1 0 sinon

NP2 = 1 si NP = 2 0 sinon

NPK1 = 1 si NP K — I 0 sinon

On s'arrête à K-1 car si l'on introduisait dans le modèle l'indicatrice correspondant à la dernière modalité, la somme des indicatrices de 1 à K donnant 1, il y aurait colinéarité entre les variables explicatives. On retire donc usuellement la dernière indicatrice. Les coefficients des autres indicatrices s'interprètent alors comme des écarts par rapport à la dernière modalité, dont l'effet sur la non-réponse est arbitrairement fixé à zéro.

Mais ce système d' indicatrices ne convient pas à notre but initial: tester la corrélation des variables qualitatives et surtout tester les regroupements de leurs modalités. On a préféré retenir les indicatrices définies ci-dessous adaptées à cet objectif:

NP1 = 1 si NP = 1 0 sinon

NF2 = 1 si NP 2 2 0 sinon

NPK I = 1 si NP =- K — 1 0 sinon

Étude des non-réponses dans l'enquête emploi 81

Page 85: actes des journées de méthodologie statistique

En effet, tester la nullité du coefficient de NP1 par exemple équivaut à tester qu'on puisse regrouper les modalités I et 2, toutes choses égales par ailleurs. De sorte qu'alors, la procédure stepwise de test automatique de nullité de tous les coefficients peut être mise en oeuvre. Les indicatrices restantes mettent alors en évidence les seules frontières vraiment pertinentes, et par complémentarité, les regroupements de modalités appro-priés : si NP2 demeure, cela signifie que le fait que le ménage compte jusqu'à 2 personnes ou qu'il en compte davantage est discriminant quant à la non-réponse.

Toujours concernant les variables quantitatives, on constate souvent des taux de non-réponse croissants ou décroissants : il peut donc être intéressant de tester que la non-réponse est directement proportionnelle à la variable numérique ou que certaines modalités ont des effets spécifiques. Pour le nombre de personnes par exemple, on a ainsi mis en concurrence les K-1 variables dichotomiques NP1---NPK-1 et la variable quantitative NP.

Qu'en est-il des variables a priori non ordonnées?

En fait, il n'est pas nécessaire de disposer d'un ordre naturel pour chaque variable qualitative; il suffit d'une batterie de tests de regroupements de modalités ad hoc, autorisant chaque catégorie à ne se regrouper qu'avec 2 catégories voisines au maxi-mum, et à interdire tout autre regroupement. Ainsi, si l'on considère le type d'immeuble au recensement :

Type d'immeuble Non-répondants Taux de non-réponse

(1) maison individuelle 1 398 5,47 (2) immeuble 1 958 10,31. (3) foyer 18 6,04 (4) ferme 39 2,96 (5) hôtel 15 20,83 (6) habitation de fortune 3 16,67 (7) pièce indépendante 28 10,65 (8) logement non à usage d'habitation 17 3,22

On a ordonné cette variable selon les quatre modalités suivantes:

A: (4),(8) B: (1),(3) C : (2),(6),(7) D : (5)

82 Insee Méthodes n° 56-57-58

Page 86: actes des journées de méthodologie statistique

La nature des modalités considérées permet donc souvent de restreindre la batterie de tests comme si l'on avait affaire à une variable ordonnée. A défaut, on peut aussi trier les modalités par taux de non-réponse croissant.

Arrivé à ce stade, on connaît les critères les plus discriminants dans l'explication des non-réponses, ordonnés d'ailleurs par la procédure stepwise par ordre décroissant d'importance. Pour les anciennes résidences principales, il peut alors être intéressant de croiser les plus importants, qui étaient le nombre de pièces, le fait d'habiter à Paris ou ailleurs, le fait d'habiter dans une maison ou un immeuble (catégories A, B versus catégories C, D). Cela n'a cependant rien donné de concluant.

Conclusions

Un test du rapport du maximum de vraisemblance montre que la TUU et le rang d'interrogation ne suffisent pas à expliquer la non-réponse, qu'il s'agisse de l'une ou l'autre catégorie de logement étudiées.

a) Les nouvelles résidences principales

Apparaissent comme largement discriminants, et par ordre : — la TUU: les Parisiens (intra-muros) répondent moins souvent ; — le type d'immeuble : les ménages vivant dans des immeubles répondent moins

souvent, peut-être du fait des digicodes ou autres barrières à l'entrée ; — l'année d'achèvement de l'immeuble (avant 1982 ou après).

b) Les anciennes résidences principales

On a fait tourner deux modèles logit : le premier sur les seules caractéristiques du logement , le second y compris sur les caractéristiques du ménage et du chef de ménage. Dans les deux modèles, ce sont les mêmes caractéristiques du logement qui expliquent la non-réponse : il n'y a donc pas de choix à faire entre ces dernières et les caractéristiques du ménage.

Par ailleurs, les caractéristiques du ménage sont significatives conditionnellement à celles du logement (test du rapport du maximum de vraisemblance). On doit bien prendre en compte les caractéristiques du ménage, même si l'on craint que le gain pour correction des non-réponses qu'elles apporteront diminuera davantage avec le temps.

Apparaissent comme largement discriminants, et par ordre : — le nombre de pièces (variable quantitative) : effet décroissant ; — la TUU: les Parisiens (intra-muros) répondent moins souvent ;

Étude des non-réponses dans l'enquête emploi 83

Page 87: actes des journées de méthodologie statistique

— le nombre de personnes (variable quantitative) : effet décroissant ; — le type d'immeuble (immeuble ou maison individuelle) ; — le rang d'interrogation: en deuxième enquête, les gens répondent mieux ; — l'âge du chef de ménage.

D'autres variables sont également discriminantes, en ce sens que le test du stepwise à 5% les a retenues, mais leur apport est plus faible (voir en annexe) : si elles ne se combinent pas naturellement avec les variables ci-dessus, on ne les retiendra pas. Ainsi, on gardera les différentes catégories de tranche d'unité urbaine, complémentaires du lieu de résidence, mais on excluera l'année d'achèvement de l'immeuble, le nombre d'actifs du ménage, le nombre de logements de l'immeuble et le type d'activité du chef de ménage. En sorte qu'après un nouveau test sans ces variables, on obtient les catégories des variables ci-dessus devant être utilisées pour le redressement des non-réponses. Elles figurent en dernière page de l'annexe.

Il reste à définir les variables RP les plus pertinentes pour le calage, et à étudier comment articuler calage et redressement des non-réponses, selon la méthode exposée en page 78.

84 Insee Méthodes n° 56-57-58

Page 88: actes des journées de méthodologie statistique

ANNEXE

Tableau 5 bis (suite) : Les erreurs aléatoires de l'enquête

Variable

Valeur de la variable et intervalle

de confiance à 95%

Hommes Femmes Les deux sexes

POPULATION ACTIVE OCCUPES

(an nombre)

Actifs occupés au sens du BIT 12784 + ou-76 9548 . ou-91 22330 + ou.135

Salariés 10630 . ou-92 8381 + ou-91 lgoll +ou-149

Non-salariés. 2154 + ou-76 1 165 . ou-52 3319 +ou-117

1. Agriculteurs exploitants 650 + ou - 50 393 + ou - 34 .1.043 . ou - 79 2. Artisans, commerçants, chefs

d'entreprises 1 173 + ou-47 582 ou-34 1755 + ou-71 3. Cadres et professions intellectuelles

supérieurs 1856 + ou-81 849 + ou-46 2704 + ou-115 4. Professions intermédiaires 2524 + ou -56 1961 + ou-58 4485 cou-101 5. Employés 1369 + ou-61 4532 + ou-81 5901 . ou-110 6. Ouvriers 4963 + ou-108 1228 cou-53 6 190 + ou-140

01. Agriculture 1 311 ou - 89 02. Industries agricoles et alimentaires 629 e ou - 39 03. Energie 240 e ou - 25 04. Industries des biens intermédiaires 1 171 + ou - 61 05. Industries des biens d'équipement 1 482 « ou - 63 06. Industries des biens de consommation 1 203 + ou - 53

02 à 06. Industrie (en milliers) 4 724 . ou 132

07. Bâtiment, génie civil et agricole 1 369 . ou - 56

08. Commerce (en milliers) 2 607 ou - 70 09. Transports et télécommunications 1 365 + ou - 56 10. Services marchands 5 228 + ou 101 11 à 13. Institutions financières 711 + ou - 39 14. Services non marchands 4 709 ou - 115

08 à 14. Tertiaire 14 519 . ou - 164

STAGIAIRES

Nombre total des stagiaires actifs

occupés 674 + ou - 33 616 + ou - 29 1 290 + ou - 47

Étude des non-réponses dans l'enquête emploi 85

Page 89: actes des journées de méthodologie statistique

OC

no (addi ti oral)

The SAS Syslem

The LOGISTIC Procedure Ucw,vd9c

variables met the 0.05 signi ficance level for entry into the mode'.

16:09 Wednesday, October 6, 1993

Summary of Stepwise Procedure

Variable Humber Score Wald Pr > Step Entered Removed In Chi-Square Chi-Square Chi-Squre

I TU9 P.,,,,......t.q../F0 1 109.4 0.0001 2 TOI tio:ç,v,-/7..,,,,,,,E,,,V.e. 2 50.2704 0.0001

.,; A5 A,,,,,,kz e.'à-(P :.-" 'id 3 27.6211 0.0001 4 A1. .4 4 6,7153 0.0091 5 TUI 4z,10,, e,,,,U,i,J,....AU huma. 5 5.0212 0.0250

6 L01 11,-,- 9-° (t''-'' ')''''''''"6 1.2998 0.0381 7 TU6 tlit.....k. da. 49'J 000 S1a2,ites,,,ty 7 4.7135 0.0299

Parameter

Analysis of Maximum Likelihood

Standard Wald

Estima tes

Pr > Standardized

zfit Go

Ddds Variable OF Eslimate Error, Chi-Square Chi-Square Estimate Ratio

IIITERCI'T 1 -1.6703 0.1074 241.7339 0.0001 0.188 181 1 -0.5530 0.2166 6.5202 0.0107 -0.000296 0.575 1U6 1 0.2215 0.1021 4.7037 0.0301, 0.061050 1.248 TU9 1 -0.7098 0.1018 15.8973 0.0001 -0.143700 0.492 LOI 1 -'0.2599 0.1134 5.2530 0.0219 -0.070741 0.771 A4 1 -0.2873 0.1239 5.3752 0.0204 -0.077724 0.750 A5 1 0.7410 0.1398 28.0768 0..0001 0.188979 2.098 TOI 1 -0.5016 0.1241 16.3464 0.0001 -0.137610 0.606

Association of Predicted Probabilities and Observed Responses

Concordent = 62.32 Somers' D = 0.314 Discordant = 31.02 Gamma = 0.336 Tied = 6.77. Tau-a = 0.060 (4468368 pairs) c = 0.657

Rç-

zç-9

ç 0u S

dpœ

liM

I dd

SW

Page 90: actes des journées de méthodologie statistique

Parameter Standard Wald Pr >

Standardized

Odds Variable OF

Es ti ma te Error Chi-Square Chi-Square

Estima te

Ratio

1 -2.0285 0.0529 1472.7365 0.0001 0.132 1 0.2029 0.0724 7.8594 0.0051 0.055934 1.225

-0.2293 0.0829 7.6470 0.0057 -0.055600 0.795 1 -0.1440 0.0710 4.0194 0.0450 -0.039707 0.866

-0.6118 0.0688 78.9819 0.0001 -0.119355 0.542 1 -0.0909 0.1125 0.6532 0.4190 -0.016974 0.913 1 0.0160 0.0970 0.0271 0.8693 0.003811 1.016 1 0.0269 0.0937 0.0823 0.7742 0.007328 1.027

INTERCPT RAN keir-k,

uÇ fGespi TUS <50200 U6 Ne,i fa 4.

IL.A.J. TU2 <50000 TU3

r11.

The SAS SysLem 19:26 fuesday, November 9, 1993 1 ro A.

ro The LOGISTIC Procedure „,:,,,,.,;,„4„it, „,,,,;,_„:„„,01,: , Data Set: WORK.8

O net,. ,..-,C.Acui cs,U.0,.. 'x' 1" V U Response Variable: REP

', Response Levels: 2

c. ., Number of Observations: 47060 "0

0

Link Function. Logit

cl Response Profile c...,

A_ O Ordered

,,, ,, Value REP Count

,--- • 1 0 3176 cc,

2 1 43584 •0

ct, c'ô

Criteria for Assessing Model Fit ro

'0 Intercept

Intercept and

,... Criterion Only Covariates Chi-Square for Covariates

AIC 24804.408 24418.877 SC 24813.167 24488.950 -2 LOG L 24802.408 24402.877 399.531 with 7 DF (p=0.0001) Score 430.442 with 7 DF (p=0.0001)

Analysis of Maximum Likelihood Estim'ates

Association of Predicted Probabilities and Observed Responses

Concordant = 53.0% Somers' D = 0.190 Discordant . 34.0% Gamma = 0.218 Tied = 13.0% Tau-a = 0.026 (151497984 pairs) c = 0.595

( anns ) 1

XIN

NV

Page 91: actes des journées de méthodologie statistique

8S

-LS

-9S 0u

sap

oip

apv

aasu

i

0 (additional/

The SAS System

The LOGISTIC Procedure A„,rzep,,e,A

variables met the 0.05 significance level for entry into the modal.

13:55 Saturday, November 6, 1993 6

Summary of Stepwise Procedure

Variable Humber Score Wald Pr > Step Entered Ramoved In Chi-Square Chi-Square Chi-Square

1 NPCE 1 559.1 . 0.0001 2 TU9 2 167.1 . 0.0001 3 TH2 3 68.3623 . 0.0001 4 RANG 4 36.2065 . 0.0001 5 A4 5 30.4121 . 0.0001 6 TH1 6 23.7025 . 0.0001 7 Al 7 9.8488 . 0.0017 B TU1 8 9.9446 0.0016 9 104 9 6.1488 0.0131

IO N6 10 4.3509 0.0370 Il TU5 11 3.9925 0.0457 12 TU3 12 8.0221 0.0046 13 TU6 13 6.9717 0.0083

( M

UN

NIV

Page 92: actes des journées de méthodologie statistique

Analysis of Maximum Likelihood Estimatos 2 3 9 44

Parameter Standard Wald Pr > Standardized Odds Variable Estimate Error Chi-Square Chi-Square Estimate Ratio

0.061064 0.256 INTERCeT -1.3631 0.1380 97.6176 0.0301

RANG 4.'",,,C,I,u,.....u..0.1108 0.0179 38.3211 0.0001

0.0001 -0.146967 1.117

NPCEbi,J,1 44,e1,;,-0"-0.2278 0.0169 I84.2826 0.0385 -0.024273

0.796 Z N6 it.., 6■,;;;;;-, -0.2175 0.1051 4.2826

-0.044502 g..M tri

TU3 0.2185 0.0760 10.2583

8.2649 gillga

0.056343 X

TUl -rth,„«....tr.j. -0.2912 0.0909

TU6 <M0J00 0.0709 0.0095 18.4069

6.9546 0.0001 -0.104879

0.051530

1.244 tri TUS ‘5v9p-., -6.3840 4530 0

Al A,.iiee ° 0.1585 0.0453 0.0485

12.2607 0.0005 0.037366 il.îg 1.172 rn

TU9 fuir/ -0.3982 0.1869

67.3187 0.0084

0.0001 ----.. -0.077693

-0.070211 0.519 1.238

TH1 MaUe. -0.6560

-0.2674 0.1411 0.0492

21.6206 0.0001 0.0001

0.0001

-0.072540 0.765

A4 4,41 ini 0.2131 0.0458 21.6425 0.052870

104 Mei.", miul,,,,j,-0.1184 0.0492 29.5947

5.8011 0.0160 -0.025297 0.888 ,........ (t)

Association of Predicted Probabilities and. Observed Responses

Concordant . 63.52 Somers' D = 0.294 Discordant . 34.12 Gamma = 0.302 Tied = 2.5% Tau-a = 0.040 (151497984 pairs) c = 0.647

Page 93: actes des journées de méthodologie statistique

Insee M

éthodes n° 56-57-58

Step

The LOGISTIC Procedure

Summary of Stepwise Procedure

Variable Humber Score Entered Removed In Chi-Square

hg-M-Pe."^-WA

Wald Pr > Chi-Square Chi-Square

1 NPCE 1 559.1 0.0001 Z TU9 2 167,1 0.0001 3 NP 3 156.8 0.0001 4 TH2 4 71.3659 0.0001 5 RANG 5 36.9279 0.0001 6 AG6 6 34.4734 0.0001 7 TH1 7 17.8541 0.0001 8 AC5 8 16.7764 0.0001 9 A4 9 13.4115 0.0003

10 AG3 10 12.0623 0.0005 11 NP5 11 13.0193 0.0003 12 13

AGI TU1

12 13

10.8631 8.0672

0.0010 0.0045

14 15 16

Al NAC3 AC2

14 15 16

7.2641 6.6701 6.6172

0.0070 0.0098 0.0101

17 N6 17 5.6397 0.0176 18 TU5 18 5.1912 0.0227 19 TU3 19 7.8558 0.0051 20 TU6 20 4.8773 0.0272 21 L04 21 4.6755 0.0306

mns

)axa

Nsw

Page 94: actes des journées de méthodologie statistique

fi

O

fôs Ô

•.Ôm>

Variable Parameter Estimate

Analysis of Maximum Likelihood Estimates

Standard Wald Pr > Error Chi-Square Chi-Square

1,,,‘a,ve,„„„XiLeA,Cit 7.: A- 7 (3 1-

Standardized Odds Estimate Ratio

INTERCPT 0.0787 0.2323 0.1149 0.7346 1.082 m RANG 0.1115 0.0179 38.6465 0.0001 0.061497 1.118

IIPCE -0.1086 0.0196 30.7476 0.0001 -0.070069 0.897 '' N6 -0.2472 0.1057 5.4730 0.0193 -0.027584 0.781 fi. TU1 -0.2858 0.0911 9.8338 0.0017 -0.043682 0.751

TU3 0.2152 0.0762 7.9658 0.0048 0.055478 1.240 TU5 -0.3702 0.0898 16.9951 0.0001 -0.101089 0.691 TU6 0.1642 0.0711 5.3315 0.0209 0.045269 1.178 TU9 -0.4463 0.0491 82.8002 0.0001 -0.087083 0.640 Al 0.1237 0.0454 7.4266 0.0064 0.029165 1.132 A4 0.1522 0.0471 10.4348 0.0012 0.037755 1.164 TH1 -0.5823 0.1414 16.9505 0.0001 -0.062320 0.557 TH2 -0.2792 0.0500 31.2320 0.0001 -0.075726 0.756

-0.1066 0.0493 4.6733 0.0306 -0.022780 0.899 'll61 M.p7730 -0.1919 0.0593 10.4774 0.0012 -0.034414 0.825 AG3 <90 0.2509 0.0466 28.9596 0.0001 0.069135 1.285 AG6 <90 -0.3649 0.0635 33.0352 0.0001 -0.050502 0.694 HP5 6.e.e.o. -0.4822 0.1437 11.2645 0.0008 -0.046138 0.617 UP nm,9e,ti.teme.lee -0.2587 0.0210 152.3144 0.0001 -0.194551 0.772 AC2 tWallia4t6)tm.ee.n.e'1555 0.0575 7.3130 0.0068 -0.028401 0.856 AC5 8,;.,..,4, %.4),.....4.6,Atee'1871 0.0577 10.4996 0.0012 -0.029034 0.829 NAC33,,Ki. . -0.2481 0.0939 6.9805 0.0082 -0.031972 0.780

( M

n s ) U

XUN

INV

Page 95: actes des journées de méthodologie statistique

Insee M

éthodes n° 56-57-58

Ibo SAS system

The LOGISTIC Procedure

Cs No (additional/ variables met the 0.05 significance level

Summery of Stepwise

Variable Humber Stop Entered Removed In

for entry into the model. ni2.»Utt,,me eZ,4ketetd:

Procedure

Score Wald Chi-Square Chi-Square

Pr > Chi-Square

1 NPCE 1 559.1 0.0001 2 TU9 z 167.1 0.0001 3 HP 3 156.0 0.0001 4 THZ 4 71.3659 0.0001 5 RANG 5 36.9279 0.0001 6 AG6 6 34.4734 0.0001 7 TH1 7 17.8541 0.0001 B A4 8 14.1597 0.0002 9 AG3 9 11.3468 0.0008

10 AG2 10 13.7006 0.0002 11 TUI 11 7.8401 0.0051 12 Al 12 7.9173 0.0040 13 AGI 13 4.3246 0.0376 14 TU5 14 4.2957 0.0382 15 TU3 15 8.3180 0.0039 16 TU6 16 5.3627 0.0206

anns ax

nil.w

Page 96: actes des journées de méthodologie statistique

Variable arameter Estimate

The SAS System

The LOGISTIC Procédure

Analysis of Maximum Likelihood Estimates

Standard Wald Pr > Error Chi-Square Chi-Square

20150 Tuesdoy, Uovember 16, 1993

Standardized Odds Estimate Ratio

INTERCPT -1.1351 0.0957 140.6657 0.0001 0.321 RANG 0.1101 0.0179 37.6867 0.0001 0.060678 1.116 NPCE -0.1172 0.0192 37.2006 0.0001 -0.075621 0.889 TU1 -0.2856 0.0911 9.8246 0.0017 -0.043647 0.752 TU3 0.2225 0.0762 8.5329 0.0035 0.057373 1.249 TU5 -0.3718 0.0897 17.1838 0.0001 -0.101549 0.689 TU6 0.1642 0.0710 5.3526 0.0207 0.045253 1.178 TU9 -0.4587 0.0482 90.6060 0.0001 -0.089494 0.632 TH1 -0.5751 0.1412 16.5779 0.0001 -0.061550 0.563 THZ -0.3196 0.0472 45.9242 0.0001 -0.086688 C.726 Al 0.1199 0.0448 7.1531 0.0075 0.028271 1.127 04 0.1486 0.0466 10.1812 0.0014 0.036875 1.160 AGI ty<30 -0.1381 0.0653 4.4779 0.0343 -0.024777 0.871 AG2 _ <40 -0.1451 0.0599 5.8696 0.0154 -0.037443 0.865 AG3 < 50 0.2734 0.0547 24.9895 0.0001 0.075357 1.314 AG6 < gp 0.3795 0.0633 35.9845 0.0001 -0.052525 0.684 NP -0.2135 0.0186 131.1880 0.0001 -0.160603 0.808

8

Page 97: actes des journées de méthodologie statistique
Page 98: actes des journées de méthodologie statistique

Session 3

Données de survie

Page 99: actes des journées de méthodologie statistique
Page 100: actes des journées de méthodologie statistique

Estimation d'un modèle de sortie de chômage à destinations multiples

Chantal Cases(* )

Stéfan Lollivier(')

(*) Insee, département de la Recherche, 15 boulevard Gabriel-Péri, 92245 Malakoff Cedex. Les auteurs remercient les rapporteurs pour l'intérêt qu'ils ont porté à une première version de ce texte.

Économie et Prévision n° 113-114 1994 2/3

Deux grands types de modèles peuvent être utilisés pour représenter les comportements de sortie du chômage. Le premier spécifie les comportements des chômeurs au moyen d'informations micro-économiques et d'hypothèses sur les préférences. Il s'agit de modèles structurels, en général fondés sur la théorie du job search, avec une représentation inspirée des travaux de Lippmann et McCall (1976) et de développements ultérieurs. Le second estime des formes fonctionnelles des lois de durée de chômage déterminées a priori, sans lien explicite avec les comportement sous-jacents. C'est à ce second type, celui des formes réduites, que nous nous référerons.

Une critique importante, pour l'estimation de ce type de modèle, a pour objet la prise en compte insuffisante de l'hétérogénéité des situations au sein du marché du travail et hors de celui-ci (Atkinson et Micklewright, 1991). Ainsi, les modèles estimés traitent souvent de manière globale les sorties du chômage, sans les distinguer précisément (type d 'emploi, inactivité, formation...). Or, on peut supposer que l'occupation de ces différents états résulte de comportements différents.

Dans le cas français, une des orientations récentes -des études sur les sorties de chômage distingue

précisément plusieurs états de sortie pour estimer les fonctions de hasard correspondantes (Bonnal et Fougère, 1990 ; Joutard et Werquin, 1992). Les résultats de ces études, réalisées sur des fichiers relatifs à des aires géographiques limitées, montrent l'intérêt de cette méthode. Elle sera ici appliquée à un fichier national, celui de l'enquête sur le suivi des chômeurs réalisée par l'Insee en 1986-1988.

Trois états de sortie seront pris en compte : contrat à durée indéterminée, contrat à durée déterminée ou stage rémunéré, inactivité. Différencier les emplois selon la durée de leur contrat est une façon un peu schématique de séparer emplois réguliers et emplois précaires, selon la terminologie proposée par Atkinson et Micklewright (1991), et d'aborder la question du dualisme du marché du travail en France (Piore, 1978). Nous avons considéré que les stages rémunérés pouvaient être assimilés, sur la population étudiée, à des emplois précaires (pour une analyse particulière de ces situations de stage, voir Bonnal, Fougère et Sérandon, 1994).

Les modèles de dualisme découlent de l'hypothèse de segmentation du marché du travail (Piore et Doeringer,1971). Ils postulent l'existence de deux espaces de mobilité, au sein de ce marché, entre lesquels les passages sont limités. Le premier, ou secteur primaire, regroupe des entreprises ou parties d'entreprises organisées en marchés internes. Les allocations de main-d'oeuvre et les rémunérations y sont régies selon des modalités particulières résultant largement de l'histoire des relations sociales.

Estimation d'un modèle de sortie 97

Page 101: actes des journées de méthodologie statistique

Le second, ou secteur secondaire, fonctionne selon un mode plus concurrentiel. Salaires, conditions de travail et perspectives de carrière sont plus favorables pour les salariés dans le secteur primaire, mais le passage en provenance du secteur secondaire est très réduit en raison de l'existence de barrières à l'entréem.

Les données dont nous disposons permettent d'illustrer certaines de ces hypothèses en comparant les transitions entre le chômage et les deux types d'emplois, qui seront assimilés à deux segments différents du marché du travail. On peut ainsi rechercher si la probabilité de sortie évolue de la même façon en fonction de la durée du chômage pour les trois destinations possibles. De même, les caractéristiques individuelles des sortants pourront être comparées afin de déterminer si emplois réguliers et emplois précaires concernent des populations différentes.

Le fichier utilisé pour cette étude regroupe un échantillon de demandeurs d'emploi tiré en août 1986 et suivi pendant 18 mois. Sur la période d'enquête, la situation des individus est connue mensuellement. Le traitement de ces données, très riches en informations, est cependant rendu délicat par le mode de tirage.

En effet, les générations les plus anciennes de chômeurs ne sont représentées dans l'échantillon que par des chômeurs de longue durée. Ce phénomène de sélection endogène biaise les résultats des estimations si l'on applique des modèles standards. Pour neutraliser ce biais, il sera utilisé une méthode de maximum de vraisemblance conditionnel qui consiste à corriger la vraisemblance en tenant compte de la date d'entrée au chômage.

On estimera un modèle à destinations multiples dont les intensités de transition vers les différents états de sortie seront modélisées par une loi de Weibull. Un travail précédent sur les mêmes données (Cases et Lollivier, 1993a) avait déjà montré que cette spécification pouvait être retenue pour l'ensemble des sorties considérées globalement. Cette forme a également l'avantage d'englober le modèle stationnaire (à hasard constant) et donc de permettre le test de cette hypothèse. Les résultats de ce modèle montrent l'intérêt d'établir la distinction entre différents états de sortie. Ceux-ci se différencient en effet nettement tant par la forme des intensités de transition que par les caractéristiques des individus qui les occupent et les durées de chômage qu'ils ont connues.

(1) L'existence de marchés internes et d'un secteur primaire, de même que celle d'éventuelles barrières à l'entrée de ce secteur, ont fait l'objet de diverses justifications théoriques liées aux théories--du salaire d'efficience ou à celles de la négociation salariale. Pour plus de détails, voir la revue de littérature de C. Cases dans ce même numéro.

Le modèle estimé

Présentation des données

L'enquête Suivi des chômeurs a été réalisée par l'Insee. A l'origine, un échantillon de 8238 demandeurs d'emploi a été tiré parmi les chômeurs inscrits à l'ANPE en août 1986 (date E t) ). Les personnes tirées ont ensuite été interrogées à quatre dates successives : novembre 1986 (E 1 ), mai 1987 (E 3 ), novembre 1987 (E 3 ) et mai 1988 (E 4 ). L'ensemble des données couvre donc une période totale de 21 mois. 7 450 personnes ont répondu à cette enquête. En E 1 , les individus sont interrogés sur leur situation depuis E 5 , ainsi que sur la longueur de la période de chômage en cours en E, . Aux dates E,, E, et E 4 , ils doivent reconstituer le calendrier mensuel de leur situation d'emploi ou de chômage depuis l'enquête précédente. Il faut noter que l'on n'étudie pas ici le chômage au sens du BIT, mais un état résultant de la déclaration directe faite par les individus. On obtient donc finalement, pour chaque individu, un historique d'emploi commençant à la date de début de la période de chômage en cours en E„ et se terminant en E 4 . Cet historique peut évendiellement contenir plusieurs épisodes de chômage. A la date E 4 , si une période de chômage est en cours, la donnée de durée sera censurée à droite. Au total, on peut ainsi observer 10 345 périodes de chômage, dont 7 450 en cours en août 1986. L'étude portera ici sur un sous-échantillon du panel cylindré, composé des individus de 20 à 59 ans dont l'ancienneté de chômage en E 0 est connue, soit 7 935 durées. Les femmes sont majoritaires dans l'échantillon (4 255 périodes de chômage contre 3 680 pour les hommes).

Trois issues (ou destinations) seront distinguées pour chaque période de chômage : l'emploi durable, l'emploi précaire ou l'inactivité. Les emplois durables comprennent l'ensemble des contrats à durée indéterminée (CDI) et les emplois non salariés, les emplois dits précaires regroupent les contrats à durée déterminée, les intérimaires, les travailleurs saisonniers, travaux d'utilité collective, stages d'initiation à la vie professionnelle et autres formations rémunérées. L'analogie entre marché primaire et CDI d'une part, marché secondaire et CDD d'autre part, n'est que partiellement exacte. Cependant, les données dont on dispose ne permettent guère d'affiner le partage entre ces deux catégories d'emploi. L'enquête répertorie enfin différentes catégories d'inactifs : les personnes suivant une formation non rémunérée, les militaires du contingent, les préretraités ou retraités et les autres inactifs.

98 Insee Méthodes n°56-57-58

Page 102: actes des journées de méthodologie statistique

P(t5T<t+dt,D 5 =1/Tt)

kir-40 dr (1) 0 , (t)— lim

Notations et définitions Sélection endogène et vraisemblance conditionnelle

Soit K états de sortie de chômage possibles, exhaustifs et exclusifs, indices par k = 1, ...,K . On notera f(t) la densité de probabilité de la durée T de chômage et 0 ( t ) le hasard à la date I.

Le hasard se définit comme la probabilité de sortir du chômage à la date t, sachant que l'on n'en est pas sorti auparavant. C'est donc une probabilité conditionnelle, et l'on a :

0 ( t) — f( , S(t)

où S(t) = f(u)d u est la fonction de survieJ

en t. Le problème comporte ainsi K + 1 variables aléatoires : la durée de chômage T et les variables indicatrices de l'état de destination D,.

On note 0, ( t ) l'intensité de transition vers l'état k. Formellement, elle s'écrit :

et le hasard à la date t est la somme des intensités de transition :

(2) 0 (t) = 0, ( t). k=I

Il est également utile de définir les densités conditionnelles à la destination de sortie :

(3) f, ( ) = P ( T= / D k = 1 )

ainsi que les probabilités marginales des différentes issues, dont la contrepartie empirique est la répartition de la population par état à la fin du processus. Elles seront notées :

(4) rt, = S(u)0,( )du,

et vérifient la relation :

fk(r)nk (5) Ok(r) =

S(I)

(Lancaster, 1990).

L'estimation du modèle se heurte ici à une difficulté supplémentaire. En effet, les périodes de chômage figurant dans l'échantillon ne sont pas pleinement-représentatives de l'ensemble des périodes de chômage possibles, l'échantillon étant soumis à une sélection endogène. Pour bien en saisir la nature, il suffit de raisonner par cohorte d'entrée au chômage. Sur l'ensemble des individus entrant au chômage à la date — e (l'origine du temps étant la date E c, de tirage de l'échantillon), il ne subsiste en E, que les chômeurs de durée T > e. Les périodes les plus courtes sont ainsi exclues de la base de sondage pour chaque cohorte d'entrants, ce qui va naturellement biaiser l'estimation de la loi des durées.

Les périodes de chômage autres que la première ne sont pas soumises à une sélection endogène spécifique, mais les traiter de manière pleinement satisfaisante suppose toutefois l'introduction dans le modèle d'un effet individuel rendant compte, en particulier, de la récurrence du chômage chez un même individu et des conséquences qu'elle peut induire sur les probabilités de sortie (Heckman et Borjas, 1980). Une solution plus simple mais plus partielle, est également possible ; elle consiste à

-introduire une indicatrice du rang de la période de chômage observée, et ne prend donc en compte que le numéro d'ordre de la période et non la durée des périodes précédentes (Cases et Lollivier, 1993a). Sa mise en (envie se heurte cependant dans le cas étudié à un problème d'identification, dans la mesure où les durées brèves proviennent presque exclusivement des périodes de chômage répétitives. La question de l'autocorrélation entre périodes successives d'un même individu ne sera donc pas traitée.

Pour faire une correction du biais résultant de la sélection endogène, une solution possible consisterait à ne retenir pour l'étude que les périodes de rang supérieur à 1, qui ne sont pas spécifiquement soumises à cette sélection (Lancaster, 1990). Cette solution reviendrait toutefois à abandonner près des 3/4 de l'échantillon, ce qui n'est guère envisageable.

La méthode qui sera préférée ici consiste à maximiser une vraisemblance conditionnelle à la date d'entrée dans le chômage. Elle est exposée dans l'encadré ci-après.

Spécification des intensités de transition

Une précédente modélisation réalisée sur les mêmes données sans détailler les états de sortie avait montré que le hasard pouvait être estimé par une loi de Weibull (Cases et Lollivier, 1993a). Cette spécification suppose que la probabilité conditionnelle de sortie est monotone. Au vu de différentes formes testées sur les données dans le cas

Estimation d'un modèle de sortie 99

Page 103: actes des journées de méthodologie statistique

0=1

(7) L i=1

Encadré : l'écriture de la vraisemblance

On suppose qu'il est possible de traiter (x1 , E 1 ,T,,K 1 ), où K, est l'état de sortie, comme un vecteur de variables aléatoires

indépendantes entre individus i différents et de même loi. De plus, on fait l'hypothèse que la durée de chômage totale et l'état de sortie (le couple T,,K,) sont indépendants de la date d'entrée au chômage, conditionnellement aux exogènes x1 .

On notera respectivement f o (x),,g 0 (e/x),f(1,k/x;y) la densité marginale de X et les densités conditionnelles de E

sachant x et de ( T,K) sachant x , v étant un vecteur de paramètres. La loi des observations se décompose alors en

f 8 (x),g 0 (e/x),f(t,k/x;‘ , ), et la vraisemblance conditionnelle à la date d'entrée au chômage s'écrit :

1,(1/ X;e:V) — K

f o (x)g o (e / x)f(t,k/ x v)dt t>e

soit :

f(t,k/x;v) k(t,k/x;e;y)= S(e/x;v)

et, en omettant, pour simplifier l'écriture, le conditionnement par x et v :

0 5(t)S(t) (6) X.(r)—

S(e)

La vraisemblance de l'échantillon est le produit des probabilités de sortie vers l'issue k à la date t , pour les durées non censurées, et de la survie à la fin de l'enquête pour les durées censurées. Si l'on note :

—d 15 la variable valant I si la période se termine par l'issue k, et 0 sinon, K

—(1 1 =1 — , ce qui revient à dire que d r vaut 1 en cas de censure et 0 sinon, alors la vraisemblance s'écrit :

f o (x)g,(e/x)f(t,k/x;y)

S(1 1-

1‘1

S(e,)

- 0 0 (11 )S0 1 11

S(e,)

N K

[5((,)]

S(e,) k=1

[O,(t,)]dn.

K

0=1

Puisque la fonction de survie vérifie la relation

(

(8) S ( t ) = exp — 0(1)dtJ 0

a log-vraisemblance a pour expression

(9) log L=

K

_ES 0,(,),, log0,(i i )]

log L

0=1

tt

A K

k=1

0,(u)du+d 1k loge,,(1,)

N

100 Insee Méthodes n°56-57-58

Page 104: actes des journées de méthodologie statistique

des trois types de sorties, une hypothèse de même type peut être acceptée sur les 0, ( t ) en posant :

(10) 0 5 (t) = a A µ A t a= -] ,

avec

(11) = exp ( x [3k ), les x, étant un ensemble de variables exogènes.

Certaines variantes du modèle estimé utiliseront également une variable qui évolue au cours de la recherche, notée x, ( t ). Nous l'appellerons dans la suite du texte variable dynamique, par opposition aux autres variables observées au début de la période de chômage. La forme fonctionnelle sera en l'occurrence très simple, puisqu'il s'agira d'une variable indicatrice prenant la valeur 0 ou 1 selon que l'individu perçoit ou non une allocation :

x,(1) = 1( t r i ) ,

où T, est la date de fin d'allocation pour la période i. Dans ce cas, le paramètre µk s'écrira

exp (x'„ f3„ + y, 1 (t < T i )).

Sans variable dynamique, la log-vraisemblance de l'équation (8) s'écrit :

(12) 1(d,t.e,g,a)

N K

= E E [d,k ( log a k + log + ( 1 ) log t ) k=1

— 14(r a‘ — eau)] .

Les taux de sortie vers les différents états possibles s'écrivent alors, en combinant (2),(4) et (10) :

K

(13) Ir k = OC k li exp

Ils doivent être calculés numériquement.

De même, la durée de chômage espérée pour une sortie vers l'état k s'écrit :

E(T/ 1),) = E k = J t f k (t)dt,

ce qui donne, si l'on tire f,(t) de (5) :

(14) E /tu , exp 11,1 J=

Ce modèle a l'avantage de ne pas postuler la proportionnalité des intensités de transition, hypothèse qui serait très réductrice (Lancaster, 1990).

Avec variable dynamique, l'intensité de transition s'écrit :

ak exp ( x + 1 ( t )) ta-1 .

Le hasard intégré J 0 k (u)du figurant dans la

vraisemblance vaut alors :

J akexP(fk )u œ,.."' du

si T

r I J I

I

cx,exp(x' +y,)ua,-' duk

+ a,exp(x'k Pk)u a,-I du

si e. < < t

cc,exp(xi P k +y,)ua,' du

L

si t

Les termes appropriés pour J 0, (u)du et

log B k (I) sont alors inclus dans la vraisemblance selon les positions individuelles des T, relativement àe i ett i .

Les variables explicatives

La plupart des études empiriques de durée de chômage se fondent sur des modèles théoriques de recherche d'emploi découlant de la représentation proposée par Lippmann et McCall (1976). Selon cette théorie, la décision d'accepter un emploi offert et le salaire qui le caractérise repose sur un arbitrage intertemporel. Lors de chaque proposition, le demandeur d'emploi compare en effet l'espérance de revenu que lui apportera cet emploi avec celle qu'il associe au fait de rester au chômage pour attendre une offre plus favorable. Cette modélisation fait apparaître un salaire de réserve au-delà duquel les

1,1 j U

Estimation d'un modèle de sortie 101

Page 105: actes des journées de méthodologie statistique

offres seront acceptées. Il augmente si la valeur moyenne de la distribution des salaires offerts, l'allocation de chômage ou la probabilité de recevoir une offre sont plus élevées. Dans la version la plus simple du modèle, les paramètres structurels (taux d'arrivée des offres, distribution des salaires offerts, revenus) sont invariants dans le temps. Le salaire de réserve est alors constant, de même que la probabilité conditionnelle de sortie du chômage. Celle-ci apparaît comme le produit de la probabilité de recevoir une offre et de la probabilité que cette offre soit acceptée, c'est-à-dire que le salaire offert soit supérieur au salaire de réserve. Ce modèle théorique a fait l'objet d'un certain nombre de critiques et d'améliorations. Les principales améliorations concernent surtout le développement de modèles non stationnaires (Van den Berg, 1990a). Sous certaines hypothèses, ceux-ci font apparaître un salaire de réserve et un hasard non constant. Le hasard sous forme réduite dépend donc a priori d'un ensemble de variables exogènes décrivant les caractéristiques des individus, du segment de marché du travail auxquels ils appartiennent, ou postulent, les revenus qu'ils perçoivent ou anticipent dans les différentes situations de chômage, d'emploi ou' d' inactivité.

Tout d'abord, deux ajustements séparés seront effectués pour les hommes et pour les femmes, dans la mesure où l'arbitrage en faveur de l'inactivité est plus fréquent pour ces dernières (Lollivier, 1994). On introduit par ailleurs l'âge et le niveau de salaire éventuel de l'individu avant la période de chômage. Ces deux variables interviennent dans le modèle à plusieurs titres. Plus l'âge et le salaire antérieur sont élevés, plus l'espérance de salaire futur s'accroît. Certains modèles prédisent que la croissance de la moyenne des salaires offerts a un effet positif sur le hasard (Mortensen, 1986). Le dernier salaire joue aussi un rôle sur le montant des allocations versées. Cet élément accroît le salaire de réserve et diminue la probabilité d'accepter une offre. Selon la valeur de ces variables, la probabilité d'arrivée des offres d'emploi peut être plus ou moins élevée. Les circuits d' information des salariés plus âgés ou mieux rémunérés, ou bien le signal donné aux employeurs peuvent en effet être différents. L'effet de ces variables sur la valeur du hasard ne pourra être interprété que comme une résultante de ces éléments, parfois antagonistes. L'âge est introduit dans le modèle sous forme de variables indicatrices d'appartenance à une tranche quinquennale. Le salaire antérieur figure également sous forme d'indicatrices de tranches. Une première version des modèles retenait le niveau de formation des demandeurs d'emploi, mais cette variable s'est révélée plus faiblement explicative que le salaire antérieur.

Le montant des allocations est fonction non seulement du salaire antérieur, mais encore des

circonstances de cessation de l'activité. En effet, les personnes démissionnaires ne peuvent pas percevoir d'allocation. sauf dans des cas très particuliers où la démission traduit un départ involontaire (enfant mineur dont les parents déménagent, par exemple). Les salariés ayant achevé un contrat à durée déterminée peuvent percevoir des allocations au même titre que les personnes licenciées au cours d'un contrat à durée indéterminée. Cependant. leurs droits dépendent de la durée de cotisation antérieure, qui peut être souvent plus courte pour les salariés en fin de CDD. La cause du chômage peut aussi créer un signal différent auprès des futurs employeurs. Ainsi, les théoriciens du dualisme du marché du travail postulent que les employeurs préfèrent proposer un emploi primaire à un salarié issu du marché secondaire (Piore et Doeringer, 1971). La perception effective d'une allocation de chômage sera prise en compte par les variables spécifiques décrites ci-dessous, aussi l'effet de la cause de chômage sera plutôt, dans le modèle, interprétable par le biais de la probabilité de recevoir une offre.

Les modèles ne faisant pas apparaître de différence significative entre licenciements collectifs et individuels (depuis 1984, leurs conditions d'indemnisation sont d'ailleurs identiques), les causes de chômage ont été rassemblées en trois groupes : — fin de contrat à durée déterminée ou d'emploi temporaire, — licenciement, — démission ou autres raisons (préretraite, service militaire, fin de formation, départ pour raisons personnelles...).

L'enquête Suivi des chômeurs permet également de repérer mois par mois sur les 18 mois d'observation, ainsi que dans la période précédant l'enquête, le versement d' une allocation de chômage. Une variable indicatrice de perception d'une telle allocation au cours de la période de chômage va permettre de comparer les fonctions de hasard pour les non-allocataires et les allocataires. Pour préciser la mesure de l'effet d'une indemnisation, une version du modèle introduira également une variable dynamique repérant la date de fin d'allocation, et donc la période pendant laquelle les versements seront effectués. Cela permettra de comparer les situations des allocataires avant et après la fin de perception de leurs indemnités. Il ne s'agit ici que d'une date de fin de versements constatée à l'enquête, et non de la date de fin de droits anticipée par le chômeur, sur laquelle aucune question n'est posée. Cette solution a été préférée à celle de l'imputation d'une date de fin de droits, l'application précise des textes nécessitant une information très complète, sur les dernières périodes d'emploi, qui n'était pas parfaitement connue dans l'enquête.

102 Insee Méthodes n°56-57-58

Page 106: actes des journées de méthodologie statistique

Résultats

Principales caractéristiques des données

L'échantillon étudié comportait un nombre assez important de périodes censurées (14 % pour les hommes et 22 % pour les femmes, voir tableau 1). Cette proportion de censures augmente nettement avec l'âge et dépasse 55 % après 50 ans. Avant 40 ans, l'issue la plus fréquente est le contrat à durée déterminée, ce qui traduit l'importance dans le fichier des périodes de chômage brèves et répétitives. La fréquence de cette issue décroît cependant avec l'âge, surtout chez les hommes. Le taux de sortie vers les contrats à durée indéterminée est assez stable avant 50 ans et varie entre 1/4 et 1/3 des sorties environ chez les hommes, entre 1/5 et 1/3 chez les femmes. Pour les hommes, la fréquence de sortie vers cette issue est maximale entre 35 et 39 ans (entre 40 et 45 ans pour les femmes). Les deux sexes se distinguent beaucoup plus nettement si l'on compare les taux de sortie observés vers l'inactivité. Avant 55 ans, ils sont nettement plus élevés pour les femmes où ils dépassent toujours 5 % des sorties, et atteignent près de 15 % entre 25 et 29 ans, âge où la quasi-totalité des femmes devenant inactives restent au foyer, et de 28 % après 55 ans. Chez les hommes, cette issue est réservée à la fin de carrière (après 50 et surtout 55 ans), période où le salaire de réserve est plus élevé et, sans doute, les offres plus rares. Accessoirement, on constate un second pic chez les hommes les plus jeunes : entre 20 et 24 ans, l'inactivité représente près

Tableau 1 : répartition des sorties de chômage observées par destinations selon le sexe et l'âge (en %)

Sexe Age Destination

CDI CDD Inactivité Censure Ensemble

20-24 27,5 53,9 4,6 14,0 100

25-29 33,9 45.1 1,9 19,1 l 100

30-34 31,3 43,5 1,5 23,7 100

Hommes 35-39 34.1 37.1 1.5 27,3 100

40-44 30,9 38.9 0.4 29,8 100

45-49 30,3 29,0 4,4 36.3 100

50-54 16,6 18,9 9.0 55,5 100

55-59 7,7 7,7 28,8 55,8 100

20-24 22,4 47,6 8.4 21,6 100

25-29 20,2 34,3 14,8 30.7 100

30-34 23,7 34.8 9,4 32,1 100

Femmes 35-39 25,6 35,5 8,4 30,3 100

40-44 33,3 29,2 7,1 30,4 100

45-49 25,2 25,6 5.6 43,6 100

50-54 15,8 13,6 9.1 61,5 100

_ 55-59 9,9 6.9 27.9 55,3 100

Source . lnsee, enquête Suivi des chômeurs, 1986-1988.

Estimation d'un modèle de sortie

de 5 % des sorties. Un examen plus détaillé montre que les 2/3 des hommes concernés partent au service militaire, le 1/3 restant suivant une formation non rémunérée.

Les durées de chômage issues de l'enquête, non corrigées des effets de la sélection endogène et de la censure à droite, sont de 19 mois environ pour les hommes et de 22 mois pour les femmes (cf. tableau 2). Les hommes ont des durées de chômage comparables (de l'ordre de 14,3 mois) pour les deux types d'emplois, alors que les femmes sortent plus rapidement vers les emplois à durée déterminée (15,2 mois) que vers les emplois stables (17 mois). Les durées de chômage croissent généralement avec l' âge. Le modèle, en corrigeant ces durées de chômage apparentes de l'effet de la sélection endogène, va transformer sensiblement ces résultats.

Résultats de l'estimation

Forme des intensités de transition selon les destinations La forme des intensités de transition varie selon le sexe et l'état de sortie dans les deux modèles estimés (cf. tableaux 3 et 4). Dans le modèle sans variable de date de fin d'allocation, et pour les hommes sortant du chômage vers un emploi durable, on ne peut rejeter un modèle à intensité de transition constante (exponentiel) puisque le paramètre a ne diffère pas significativement de 1. Ce n'est pas le cas si la destination est l'emploi à durée déterminée, car la valeur du paramètre induit une intensité décroissante

Tableau 2 : durées de chômage observées par sexe, âge et destination (en mois)

Sexe Âne Destination

Toutes destinations CDI CDD Inactivité Censure

Ensemble 19,2 14,3 14,4 25.3 30,4

20-24 10,7 9,7 10,7 13.2 12,0

25-29 16.2 15,3 14,0 18.0 22,9

30-34 19,0 13,6 18.0 27,0 27,5 Hommes

35-39 22,0 16,0 17,9 41,0 33,9

40-44 23,2 20.1 19,0 24,0 31.8

45-49 24,1 18,8 20,1 22,9 31,9

50-54 35.6 19,4 21,0 40,7 44,6

55-59 33.5 21,6 16,0 29.1 39,8

Ensemble 21,9 17,0 15.2 26,3 31,1

20-24 15.2 14,3 12,8 18,3 20,4

25-29 21,4 16.5 17,1 23,2 28,7

30-34 23,2 17,7 17,1 26.9 32,8 Femmes

35-39 23,0 18,7 16.0 25,0 34,1

40-44 22.2 19,7 19.2 25.5 27,0

45-49 25,9 19.6 14,0 30,0 36,0

50-54 33,6 18.5 23.7 35,8 39,4

55-59 39,1 22,9 15.1 42,8 43,2

Source : lnsee, enquête Suivi des chômeurs, 1986-1988.

103

Page 107: actes des journées de méthodologie statistique

Tableau 3 : estimation des coefficients des variables exogènes : modèle sans date de fin d'allocation

Variable F

Hommes Femmes

Contrats à durée Contrats à durée inactivité. Contrats à durée Contrats à durée I indéterminée 1 déterminée Indéterminée déterminée 1 Inactivité

a 0,94 (0.03) 0,91 (0,02) 1,12 (0,08) 0.88 (0,03) 0,81 (0.02) 1.13 (0.05)

Constante - 3,35 (0,16) - 2,16 (0,11) - 5,39 (0,41) - 3,02 (0,14) - 1.92 (0.10) - 4.67 (0,24)

Moins de 3 500 F reférence référence reférence j reférence reférence référence

3 500-4 000 0,25 (0,12) n.s. n.s. 0.18 (0.08) n.s.

Salaire antérieur

4 000-4 500 0,44 (0.12) 0,35 (0.09) 0,61 (0.30) n.s. n.s.

4 500-6 000 0.53 (0,11) 0,32 (0,08) 0,38 (0,10) 0.19 (0.09) n.s.

6 000 ou plus 0,92 (0,12) 0,34 (0.11) 0,89 (0,30) 0,64 (0,14) 0.61 (0,11) n.s.

Aucun salaire ou n. d. 0,30 (0.12) n.s. 0.81 (0.28) n.s. n.s.

' 20-24 ans reférence référence référence référence référence référence

25-29 ans n.s. - 0,40 (0.08) - 1.24 (0.35) - 028 (0.10) - 0,46 (0,07) 0,26 (0,13)

30-34 ans -0.35 (0.10) - 0.54 (0,08) ! - 1.64 (0.44) - 0.45 (0,08) n.s.

Âge 35-39 ans -0,33 (0,11) -0,75 (0,10) - 1,79 (0,47) - 0,45 (0,09) n.s.

40-44 ans - 0,54 (0,13) -0,71 (0,11) -3,16 (1.04) 0,22 (0,11) -0,61 (0,12) -0,48 (0,24)

45-49 ans -0.62 (0,13) - 1,08 (0,13) -0.78 (0.35) n.s. - 0,91 (0,14) - 0.97 (0,30)

50-54 ans - 1,44 (0.16) - 1,74 (0,15) - 0,82 (0.16) - 1,63 (0,17) -0.72 (0.24)

55-59 ans - 2,35 (0.22) -2,69 (0,22) 0.57 (0,24) - 1.24 (0,2!) - 2.26 (0,26) 0.42 (0,18)

Fin de CDD reférence référence référence reférence reférence reférence

Circonstances Licenciement -0.51 (0,08) - 0,47 (0,11) - 0,55 (0,09) n.s. d'arrêt Démission ou autre - 0,33 (0,12) - 0.26 (0.09) n.s. -0,41 (0,10) - 0,45 (0.08) n.s.

Non déclaré 0,94 (0.09) 0.45 (0.07) 0,67 (0.27) 0,68 (0.08) 0,42 (0.07) 0.59 (0,14)

Allocation n.s. - 0,50 (0.22) -021 (0.07) - 0,18 (0,06) - 0,33 (0,12)

Source Insee. enquête Suivi des chômeurs, 1986-1988. - Les écarts types sont entre parenthèses. - n.s.: non significatif au seuil de 5 %.

Tableau 4 : estimation des coefficients des variables exogènes : modèle avec date de fin d'allocation

Hommes Femmes Variable Contrats à durée

indéterminée Contrats à durée

déterminée Inactivité Contrats à durée indéterminée

Contrats à durée déterminée Inactivité

a 0.89(0,03) 0,84 (0,02) 1,01 (0,08) 0.85 (0,03) 0.80 (0.02) 1,06 (0,05)

Constante -3,18 (0.15) - 2,00 (0,11) -5,24 (0,39) - 3,00 (0,14) - 1,92 (0,10) - 4,55 (0,24)

Moins de 3 500 F reférence reférence reférence reférence reférence référence

3 500-4 000 0,26 (0,12) n.s. n.s. n.s. 0,20 (0,08) n.s

Salaire antérieur

4 000-4 500 0,48(0,11) 0,39 (0,09) 0,62 (0,30) n.s. n.s. n.s.

4 500-6 000 0,57 (0,10) 0,36 (0,08) n.s. 0,43 (0,10) 0.22 (0,09) 0,31 (0,15)

6 000 ou plus 0,96 (0.12) 0.38 (0,11) 0.88 (0.29) 0.66 (0,13) 0,63 (0.11) n.s.

Aucun salaire ou n. d. 0,27 (0,12) us. 0,70 (0,28) n.s.

20-24 ans référence reférence référence reférence reférence reférence

25-29 ans n.s. -0,39 (0,08) 22 (0.35) -0.25 (0,10) -0,46 (0.07) 0.26 (0.13)

30-34 ans -0,28 (0,10) -0,39 (0,08) - 1,45 (0,44) 1 n.s. -0.45 (0,08) 0,31 (0,13)

Âge 35-39 ans - 0,28 (0,11) - 0,70 (0,10) - 1,66 (0,48) n.s. -0,43 (0.08) n.s.

40-44 ans - 0,46 (0.13) - 0,62 (0,11) - 3,08 (1,04) 0,28(0,11) - 0,59 (0,12) - 0,40 (0,24)

45-49 ans -0,56 (0,14( - 1,01 (0,13) -0,68 (0.35) ns. -0,88 (0,14) -0,89 (0,30)

50-54 ans - 1,29 (0,16) - 1,58 (0,15) n.s. - 0,75 (0,16) - 1,60 (0,17) - 0.60 (0,241

55-59 ans -2,18 (0,22) -2,51 (0,22) 0,97 (0,24) - 1,15 (0,22) -2,21 (0,26) 0,59 (0,18)

Fin de CDD référence reférence référence référence référence reférence

Circonstances d'arrêt

Licenciement n.s. -0,47 (0,08) n.s. -0,41 (0,10) 4 0,51 (0,09)

Démission ou autre - 0,36 (0,12) - 0,28 (0.09) n t. - 0,38 (0,10) - 0,44 (0,08) n.s.

Non déclaré 0.92 (0,09) 0,43 (0,07) 0,70 (0,27) 0,70 (0,08) 0,43 (0,06) 0,64 (0,14)

Existence d'allocation 0,49 (0.10) 0.57 (0.08) 0,57 (0,22) nt. n.s.

Avant tin d'allocation - 0,68 (0.08) -0.75 (0.07) - 1,45 (0,19) - 0,49 (0,09) -0,26 (0,07) -0,79 (0.13)

Source : Insee, et quête Suivi des chômeurs, 1986-1988. - Les écarts types sont entre parenthèses. - ns non significatif au seuil de 5 %.

104

Insee Méthodes n°56-57-58

Page 108: actes des journées de méthodologie statistique

avec la durée de chômage. Cette décroissance est toutefois très faible et les deux coefficients ne diffèrent guère. En revanche, l'intensité de transition vers l'inactivité augmente avec la durée. En d'autres termes, la probabilité de sortir vers un CDD diminue légèrement au cours de la période de chômage, alors que celle de sortir vers un emploi durable reste stable et celle de sortir vers l'inactivité augmente. La décroissance du hasard total dans un modèle qui ne distingue pas les états de sortie (Cases, Lollivier, 1993b) résulte donc de l'agrégation de trois logiques distinctes.

Pour les femmes, les deux intensités de transition vers l'emploi sont nettement décroissantes et toujours assez peu différentes l'une de l'autre. Le coefficient de la transition vers l'inactivité est en revanche comparable à celui des hommes.

Ces résultats ont des conséquences mécaniques sur les écarts entre durées de chômage espérées. Elles seront ainsi les plus brèves pour les sorties vers les CDD et les plus longues pour les sorties vers l'inactivité.

La prise en compte de variables exogènes est importante pour' analyser la dépendance de durée, tout particulièrement lorsque l'issue du chômage est l'activité. En effet, le même modèle estimé avec une constante seulement, donc sans tenir compte de l'hétérogénéité observable entre les individus. aboutirait à des probabilités de sortie nettement plus décroissantes. Les coefficients a seraient, par exemple, de 0,77 et 0,69 vers les CDI et les CDD au lieu de 0,88 et 0,81 pour les femmes. Par rapport à la situation moyenne, la prise en compte des variables exogènes diminue de près d'un tiers les espérances de durée pour les populations de référence. Cette situation est générale et se réfère à un phénomène, appelé mover-stayer, qui est courant lorsque l'on estime des modèles de durée. Si la population observée se compose de sous-groupes homogènes de hasards constants mais différents, la structure de la population restant au chômage va se modifier à chaque période. En effet, elle comportera au fil du temps relativement plus d'individus ayant la plus faible probabilité conditionnelle de sortie. Le hasard total apparaîtra donc comme décroissant, alors qu'il est simplement l'amalgame de sous-populations différentes à hasards constants.

L'existence d'une hétérogénéité non observée entre individus, qu'elle soit non observable ou qu'elle résulte d'oubli de variables explicatives, aurait le même type d'effets sur l'estimation du hasard. Diverses méthodes, paramétriques ou non, peuvent être utilisées pour tenir compte de ce biais. On peut par exemple estimer des intensités de transition comme des mélanges de lois, en spécifiant a priori une loi de probabilité pour le facteur d'hétérogénéité individuelle. Ce type d'estimation, effectué sur les mêmes données, tend à aplanir les intensités de

Estimation d'un modèle de sortie

transition vers l'emploi qui deviennent exponentielles (Cases, Lollivier, 1993b)

Dans le modèle distinguant les allocataires avant et après leur fin de versements, les paramètres a i sont, à l'inverse, moins élevés, mais la destination vers l'inactivité se distingue encore nettement des sorties vers l'emploi. L'intensité de transition vers l'inactivité y est pratiquement constante pour les deux sexes, alors que celles vers les emplois durables au non durables apparaissent franchement décroissantes, surtout pour les femmes. L'hétérogénéité prise en compte ici n'est plus une hétérogénéité entre sous- populations. Elle se réfère au contraire à deux sous-périodes différentes pour une même population, celle des allocataires. Le modèle, ne prenant pas en compte la durée des allocations, ajuste des intensités de transition moyennes sur deux sous-nuages de points : le premier, dans le temps (avant la fin des indemnités), a une intensité de transition beaucoup plus faible que le second, comme on le verra ci-dessous. La résultante croît donc nettement plus, au cours de la période de chômage, que ses deux composantes.

Effets de l'indemnisation du chômage

Les différences entre allocataires pris dans leur ensemble et non-allocataires sont plus marquées chez les femmes. Les femmes allocataires ont en effet, dans tous les cas, des durées de chômage plus élevées que les autres. Être allocataire ne modifie en revanche pas les probabilités marginales des différentes issues. Pour les hommes, être allocataire ne change pas significativement les proportions des issues vers l'emploi et n'a pour conséquence que de réduire légèrement le taux de sortie et de rallonger les durées de chômage à destination de l'inactivité.

L' introduction d' une variable indicatrice de la perception des allocations, pouvant évoluer au cours de la recherche, conduit à des résultats plus contrastés. La perception effective d'une allocation joue assez négativement sur les taux de sortie (cf. tableau 4). Un effet analogue avait déjà été mis en évidence, en France, sur un fichier d'allocataires (Florens et Fougère, 1989), ainsi que sur le fichier local d'une agence de l'ANPE (Bonnal et Fougère, 1990). Dans notre enquête, son interprétation est ambiguë dans la mesure où la notion de fin d'allocation est floue. En effet, certains chômeurs déclarent des montants faibles perçus pendant des durées très longues (plus de deux ans). De ce fait, un coefficient négatif peut autant s'interpréter comme un effet négatif de fin d'allocation que comme un effet de sélection entre chômeurs. Cet effet isolerait des populations marginales, qui perçoivent pendant de longues durées des allocations ne relevant plus des Assedic, mais sont néanmoins liées à l'état de chômage. Que l'effet soit plus marqué chez les hommes renforce d'ailleurs cette interprétation, puisque ceux-ci se retirent moins fréquemment du marché du travail que les femmes.

105

Page 109: actes des journées de méthodologie statistique

Effets des autres variables exogènes Les effets d'âge, qui apparaissaient déjà nettement dans les données brutes, sont très marqués. En premier lieu, les périodes de chômage, toutes choses égales par ailleurs, ont des durées d'autant plus brèves que le demandeur d'emploi est plus jeune. Cette croissance des durées moyennes avec l'âge est assez régulière chez les hommes. Les femmes ont pour leur part des durées stables de 25 à 45 ans, qui augmentent ensuite fortement jusqu'à 55 ans, pour diminuer ensuite entre 55 et 60 ans. Dans cette classe d'âge, la sortie la plus fréquente étant l'inactivité, on peut dire que les femmes se décident alors plus rapidement à quitter le marché du travail que les hommes.

Les probabilités marginales de sortie vers les CDD sont relativement plus élevées chez les jeunes. Cette conclusion vaut surtout pour les jeunes femmes de mois de 25 ans. Pour les hommes, l'issue CDD reste d'une probabilité à peu près constante jusqu'à 45 ans.

Les sorties des femmes vers les emplois durables sont les plus fréquentes entre 40 et 45 ans, alors que le taux par âge est, là aussi, relativement constant chez les hommes en milieu de carrière. Quant aux sorties vers l'inactivité, elles ont lieu le plus souvent en fin de carrière (après 50 et surtout 55 ans), période où le salaire de réserve est le plus élevé et, sans doute, les offres plus rares. Elles sont à tous âges plus fréquentes pour les femmes, pour lesquelles un second mode apparaît entre 25 et 29 ans.

Si la cause du chômage ne modifie pas la probabilité de sortir vers un emploi durable pour les femmes, les hommes ayant été licenciés sont un peu avantagés, car ils trouvent plus souvent et plus rapidement un._ emploi durable. Le fait d'être issu d'un CDD favorise chez les femmes la reprise d'un emploi du même type, les sorties vers l'inactivité étant alors moins probables.

La tranche de salaire dans laquelle se situaient les individus avant leur période de chômage a un effet significatif à la baisse sur la durée de la période de chômage. Des offres d'emploi probablement plus nombreuses dominent donc dans ce cas la hausse du salaire de réserve. La variable est en revanche peu ou pas significative pour l'issue inactivité. Les probabilités marginales des différentes destinations sont cependant peu affectées par le salaire antérieur. La tranche de salaire la plus élevée correspond, chez les hommes, à une sortie moins probable vers un emploi durable.

Durées de chômage et probabilités de sortie estimées

L'application du modèle permet d'estimer, individu par individu, des espérances de durée de chômage et des probabilités de sortie. On peut alors en évaluer des moyennes selon la destination et les différentes catégories de chômeurs. Cette estimation sera

106

réalisée sur le modèle statique, qui ne prend pas en compte la durée des allocations. Les données censurées sont ainsi réparties entre les trois destinations possibles en fonction des caractéristiques X i des individus. De plus, le biais sur les durées lié à la sélection endogène est éliminé par la méthode employée (cf. plus haut).

Les effets de la sélection endogène sur les durées de chômage observées apparaissent, a posteriori, importants : ainsi, la durée moyenne estimée n'est que de 11,1 mois pour les hommes et 12,8 mois pour les femmes, alors que les durées apparentes étaient respectivement de 19,2 et 21,9 mois sur les données brutes (cf. tableaux 2 et 6). Cet effet est particulièrement marqué pour les durées des périodes de chômage des femmes à destination de l'inactivité (16,6 mois de durée estimée contre 26,3 mois de durée apparente). Les durées estimées sont plus faibles pour les hommes que pour les femmes, de 1 à 3 mois selon l'issue du chômage, bien que les différences soient peu significatives pour les deux sorties vers l'activité. Elles sont nettement croissantes avec l'âge. Pour donner un ordre de grandeur, les sorties en CDD ont lieu en moyenne au bout de 10,9 mois pour les hommes et 12 mois pour les femmes, celles vers les emplois stables après 11,4 et 13,1 mois, celles vers l'inactivité après 13,4 et 16,6 mois de chômage.

D'autre part, l'imputation à partir du modèle confirme la prédominance des sorties vers les emplois précaires, qui représentent plus de la moitié des destinations (cf. tableau 5). D'après le modèle, près de 15 % des périodes de chômage des femmes

Tableau 5 : probabilités de sortie estimées par le modèle (sans date de fin d'allocation)

Sexe et destination observée

CDI Proba (%)

CDD Proba (%)

Inactivité Proba (96)

Ensemble Proba (%)

Hommes

Censure 34,7 50,1 15,2 100

Ensemble 36.7 54,5 8.8 100

Femmes

Censure 32.6 48,8 18,6 100

Ensemble 32,6 52,4 15,0 100

Source . Insee, enquête Suivi des chômeurs, 1986-1988.

Tableau 6 : durées de chômage estimées par le modèle (sans date de fin d'allocation)

Destination observée

CDI Durée (mois)

CDD Durée (mois)

Inactivité Durée (mois)

Ensemble Durée (mois)

Hommes

Censure 163 15,7 19,0 16,4

Ensemble 11.4 10,9 13,4 11.1

Femmes

Censure 16,5 15,1 20,6 16.6

Ensemble 13,1 12,0 16,6 12.8

Source : Insee, enquête Suivi des chômeurs, 1986-1988.

Insee Méthodes n°56-57-58

Page 110: actes des journées de méthodologie statistique

(et moins de 10 % de celles de hommes) se terminent par une sortie du marché du travail.

Le modèle permet également de prédire une issue pour les périodes censurées. Dans près de la moitié des cas de censure, la sortie estimée est un emploi précaire. Ce résultat n'est pas surprenant, puisqu'une grande partie des périodes censurées sont observées pour des individus ayant connu plusieurs épisodes de chômage sur la période d'observation. Il illustre le fait que cette catégorie particulière semble voir s'enchaîner les emplois précaires, alternant avec de courtes périodes de chômage.

Conclusion

Cette étude visait à confirmer l'intérêt. pour la modélisation des durées de chômage, de distinguer différentes issues possibles à celui-ci, à l'intérieur et hors du marché du travail. En effet, les résultats du modèle estimé montrent que les intensités de transition vers les trois destinations retenues ont des formes différentes et, en particulier, ne varient pas de la même façon en fonction de la durée de chômage. Le modèle sépare nettement les sorties vers l'inactivité de celles vers l'emploi. Les premières sont de plus en plus probables lorsque la durée de chômage augmente, ce qui peut traduire un découragement. Les sorties vers les emplois précaires, au contraire, sont moins probables au fil du temps, particulièrement pour les femmes, alors que les emplois réguliers sont de probabilité constante pour les hommes et décroissante pour les femmes.

Ainsi, le dualisme du marché du travail entraînerait un dualisme équivalent parmi les chômeurs. Aux chômeurs primaires, d'âge mûr et issus d'un emploi durable, s'ajoutent des chômeurs secondaires plus jeunes provenant de CDD, et pour lesquels les périodes de chômage sont plus brèves, mais répétées.

Le modèle confirme également l'importance des effets d'âge sur la durée du chômage, mais montre aussi que ce facteur joue un rôle important sur la destination, les emplois précaires étant, par exemple, plus probables chez les plus jeunes. En revanche, la distinction entre chômeurs allocataires ou non-allocataires est moins pertinente, cette variable n'étant significative que pour les femmes et pour les sorties vers l'inactivité.

Il est cependant difficile d'interpréter l'ensemble de ces résultats en termes de comportements. Pour cela, un modèle structurel séparant les différentes destinations et explicitant les déterminants individuels est indispensable ; la construction et l'estimation d'un tel modèle apparaît comme un prolongement naturel de cette étude.

Bibliographie

Atkinson A.B., Micklewright J. (1991). "Unemployment Compensation and Labor Market Transitions: A Critical Review", Journal of Economic Literature, vol. 29, pp. 1679-1727. Bonnal L., Fougère D. (1990). "Les déterminants individuels de la durée du chômage", Économie et Prévision, n°96. pp. 45-82. Bonnal L., Fougère D., Sérandon A. (1994). "Evaluating the Impact of French Employment Policies on Individual Labor Market Histories", document de travail, Crest-département de la Recherche, Insee, n°9417. Cases C., Lollivier S. (1993a). "Estimation de la durée du chômage en France en 1986", document de travail, Crest-département de la Recherche, Insee, n'9309. Cases C., Lollivier S. (1993b). "Individual Heterogeneity in Duration Models with Segmentation", document de travail, Crest-département de la Recherche, Insee, n°9344. Doeringer P.B., Piore M.J. (1971). Interna! Labor Markets and Manpower Analysis, Lexington Mass. Florens J.P., Fougère D. (1989). "Non Causality in Continuous Time: Applications to Counting Processes", Cahier Gremaq-université des sciences sociales Toulouse-1, n°8912. Gouriéroux C., Monfort A. (1991). "Modèles de durée et effets de génération", document de travail, Crest-département de la Recherche. Insee, n°9125. Heckman J.J., Borjas G.J. (1980). "Does Unemployment Cause Future Unemployment 7 Definitions. Questions and Answers from a Continuous Time Model of Heterogeneity and State Dependance", Economica, vol. 47, pp. 247-283. Joutard X., Werquin P. (1992). "Les déterminants individuels de la durée du chômage : de l'intérêt de distinguer les emplois stables des emplois précaires", Économie et Prévision, n°102-103, pp. 143-156. Lancaster T. (1990). The Econometric Analysis of Transition Data, Econometric Society Monographs, Cambridge University Press. Lancaster T., Chesher A.D. (1983). "An Econometric Analysis of Reservation Wages", Econometrica, vol. 51, pp. 1661-1676. Lippman S.A., McCall J.J. (1976). "The Economics of Job Search: A Survey", Economic Inquiry, vol. 14, pp. 155-367. Lollivier S. (1994). "L'évolution du marché du travail dans les années 1980", Revue Économique, vol. 45, n° 3, pp. 429-441, mai. Narendranathan W., Nickel S. (1985). "Modelling the Process of Job Search", Journal of Econometrics, vol. 28, pp. 29-49. Mortensen D.T. (1986). "Job Search and Labor Market Analysis", in Handbook of Labor Economics, O. Ashenfelter and R. Layard eds, Elsevier Science Publishers BV, vol. II, pp. 849-919. Piore M.J• (1978). "Dualism in the Labor Market-A Response to Uncertainty and Flux-The Case of France", Revue Économique, vol. 29, n°I. Van den Berg G. J. (1990a). "Non Stationarity in Job Search Theory", Review of Economic Studies, vol. 57, pp. 255-277. Van den Berg G. J. (1990b). "Search Behaviour, Transition to Non-Participation and the Duration of Unemployment", The Economic Journal, pp. 842-865. Visser M. (1992). "Analysis of Labour Market Histories with Panel Data", document de travail, Crest-département de la Recherche, Insee, n'9209.

Estimation d'un modèle de sortie 107

Page 111: actes des journées de méthodologie statistique
Page 112: actes des journées de méthodologie statistique

L'impact des dispositifs d'emploi sur le devenir des jeunes chômeurs : une évaluation économétrique sur données longitudinales

Liliane Bonnal'''

Denis Fougère'-'

Arme Sérandon'--

(*1Cresep. universue d'Orleans. CNRS et Crest. Pans

()))*°) Ceiee. université des Sciences sociales de Toulouse.

Nous souhaitons remercier les participants à la conférence ResiCemfi "On the Evaluation of Training Programs' (Madrid. septembre 1993) pour leurs commentaires, particulièrement James Heckrnan. Joe Hotz et Gerard Van den Berg. mais aussi les participants à l'Asset Meeting (Barcelone. octobre 1993) et aux sérrunaires d'économétrie du Core (Louvain-la-Neuve. décembre 1993) et du Crest (Pans, février 19941. Nous sommes extrêmement rtconnaiscants à Carmen Olmos pour son aide en matière de traitement informatique des données. Cette recherche a bénéficié d'une subvention du ministère du Travail. de l'Emploi et de la Formation professionnelle. dans le cadre de l'appel d'offre 'Mieux évaluer les politiques d'emploi'.

Économie et Previston n° 115 1994-4

Cette étude propose une évaluation des dispositifs d'emploi instaures en France durant la seconde moitie des annees 1980 pour faire face à l'augmentation du chômage et améliorer les perspectives d'emploi des travailleurs les moins qualifiés. L'évaluation conduite ici se limite à l'étude de l'impact de ces.mesures sur les probabilités de réemploi et de retour au chômage des jeunes travailleurs. Pour cela. l'accent est mis sur les durées des périodes ultérieures de chômage et d'emploi vécues par les bénéficiaires des dispositifs. mais aussi sur la probabilité d'accés à un emploi sur contrat à durée indéterminée (CD1 ci-apres) à la fin de la pénode de chômage suivant le passage en mesure. et sur la probabilité de retour en chômage lorsque le dispositif est suivi d'une embauche sur CD1. L'étude économétrique est réalisée à partir de l'enquête longitudinale Suivi des chômeurs collecter par l'Insee entre novembre 1986 et mai 1988. qui permet de retracer les histoires individuelles de participation au marché du travail d'une cohorte d'individus chômeurs en août 1986.

Notre article se situe dans la lignée de precédentes études estimant les effets de politiques publiques d'emploi ou de programmes de formation sur des données individuelles de transition ( le lecteur intéressé trouvera dans l'article de Florens. Fougère, Kamionka et Mouchait. 1994, une présentation des modélisations et des méthodes de traitement statistique appropriées à de telles données). Ce type de données fournit des informations sur les dates auxquelles les individus de l'échantillon transitent par les programmes de stage et les emplois aidés et mesure. par ailleurs, les durées des périodes subsequentes d'emploi et de chômage (voir par exemple les articles de Ridder. 1986. Card et Sullivan. 1987, Ham et Lalonde, 1990. 1991. ou Gritz, 1993). Deux constatations motivent ces études. . Premièrement, pour les groupes de travailleurs les moins qualifiés. il semble plus naturel de se concentrer sur les taux de réemploi que sur les salaires pour cette seconde variable. il est en effet peu vraisemblable d'obtenir des écarts très significatifs entre bénéficiaires et non bénéficiaires des mesures ( voir Bassi (1983) ou Ashenfelter et Card (1985), par exemple) . Deuxièmement, il y a un intérêt évident à procéder à l'estimation séparée des effets des programmes ou des mesures publiques sur les durées des périodes suivantes d'emploi et de chômage : Ham et Lalonde (19911 remarquent fort pertinemment que la séparation de ces effets permet de comparer différents programmes : par exemple. "un programme qui allonge les durées d'emploi des stagiaires peut être préféré à un autre qui raccourcit les durées de chômage. car l'emploi stable conduira plus sûrement à l'accumulation de capital humain (et donc à l'accroissement des salaires) que ne le fera une succession d'emplois temporaires* : de plus, l'estimation de ces deux catégories d'effets est nécessaire à l'évaluation des effets à moyen terme des programmes. Ces dernières considérations sont particulièrement bien adaptées à la situation du

L'impact des dispositifs d'emploi 109

Page 113: actes des journées de méthodologie statistique

Encadré 1 : tableau récapitulatif des principales mesures

Mesures Type de contrat

durée totale Objectif Public vise

. Contrat de travail de type Contrat particulier

d'apprentissage . Entre 1 à 3 ans. En général 2 ans

Permettre a un Jeune d'acquenr une qualification professionnelle sanctionner par un diplôme technologique ou professionnel ou un titre homologue rus eau 5. 4. 31

Jeunes de 16 à 25 ans au plus sans qualification ou avant une qualification ne permet ant pas I acces a I emploi

Contrat de qualification

. Contrat de travail de type particulier à durée déterminée

. 6 1 24 mois maximum. renouvelable en cas d'échec à I examen ou pour acquenr une qualification supérieure.

Permettre a un jeune d'acquenr une qualification professionnelle sanctionnée par un diplôme. un titre homologue ou une qualification reconnue par une cons enuon collective

Jeunes de lb a 25 ans inclus

. sans diplôme de niveau 5

. avec un diplôme obsolete ou inadapte

Contrat d'adaptation

. Sou CDD de 6 à 12 mois

. Soit CDI tau moins I an)

Faciliter l'embauche de jeunes qualifies grace a une formation complementaire adapter a l'entrepnse

Jeunes de 16 a moins de 20 ans avec une qualification e' susceptibles d occuper rapidement un emploi i inscription a I ANPE non obligatoire'

SIVP

Contrat tripartite entre l'État trepresente par l'ANPE). l'entreprise d'accueil et le jeune, contrat différent d'un contrat de travail

. Durée de 3 mots 1 6 mois

. Non renouvelable.

Permettre a un =nt d acquenr une qualification professionnelle et faciliter I acces a l'emploi

. Jeunes de 16 a 25 ans revoit!, primo-demandeur, d emploi sans expenence prolessionnene

. Jeunes inscrits a l'ANPE depuis plus de 12 mois

3 mois minimum à 12 mots maximum tefuree maximale ponce â 24 mois en 19871

. Renouvellement possible

Améliorer l'employabilue des jeunes en les familiarisant avec le monde du travail.

Jeunes de I6 a 21 ans revolus et jeunes de 21 d 25 ans inscrits depuis plus d un an a l'ANPE

TUC

. Stages de préparation à l'emploi

E)

. Stag

P

es qualiflanu

De 6 1 8 ou de 6 1 9 mois. selon Permettre 1- insertion sociale et la formauon suivie proiessionneile des Jeunes

Jeunes de 16 à 25 ans sans qualification recemment sortis du systerne scolaire

Source : Liaisons »clades. e 10726 et n° 10746. Dossiers nansuques du Travail et de l'Emploi. n* 51

110 Insee Méthodes n°56-57-58

Page 114: actes des journées de méthodologie statistique

pour l'emploi des jeunes sur la période 1986-19

Employeur benefidiaire Formation Stand et rtmunéranon

du benefimaire Condmons pour les employeurs

Employeur agrée en qualite de maitre d apprenussagc .400 heures minimum par an

en centre d'apprentissage

. 1500 heures Idurce muumum pour un Bac protesstonnel ou un BTS

. Salarie paye par l'entreprise

. Salaire sur la base du SmIc selon l'âge et I anctennete dans le contrat ide 15 a 75 Sr du Sauce

Exoneration totale des cotisations patronales et salariales de secunte sociale dans les entreposes de plus de 10 salaries

Tous employeurs assu etus l'Unecbc sauf Etat. collecuvites ternionales. etablIsscrnents publics administraufs

Au moins un quart du temps de la dures du contrai en organisme de formation

. Salarie paye par l'entreprise

. Salaire variant de 17 % à 75 % du Snuc en fonction de l'âge et de l'anciennete du contrat

. Exonerauon a 100 gr des cotisations de secunté sociale pendant la durer du contrat

. Défiscalisauon (remboursement à l'employeur des heures de formation'

Idem . SI CDD. 200 heures au minimum de formation hors poste de travail dans un organisme de formation (interne ou externe 2 l'entreprise)

. Si CDI. le temps de formation est fonction du poste propose et de la qualification du Jeune

. Salarie paye par l'entreprise.

. 80 % du salaire maximum convenuonnel (sans pouvoir être infencur au SmIci si CDD et pendant le temps de formation si COI

. 100 % du salaire conventionnel au-dela de la penode de formation si CDI .

. Plus d'exontrauon de cotisations depuis Juillet 1987

. Défiscalisation

Idem Suivi du stage assure

. au sein de l'entrepnse par un

. hors de l'entreprise par un organisme dc •stovi• (ANPE. organisme competent) à raison de 25 heures par mots

. Stagiaire de la formation protessionnelle

. Versement par l'Eut d'un montant forfaitaire dctermme par decret t 535 F pour les 16-18 ans. 1 185 F pour les 18-21 ans et I 580 pour les 21-25 ans)

. Indemnue complementatre verset par l'entreprise (17 % du Srruc pour les moins de 18 ans. à 27 % à parur de 18 ans

. Exonératton de toutes les charges sociales sur I'mdemmte complementatre

. Associations a but non lucratif et londauons

. Collect,ites temtonalcs et etabhssements publics

. Organismes de secunte sociale et societes mutualistes

. Institutions de retraite et de prevovance

. Cornues d cntrepnsc

Pas de systeme de formation spectfique man des formations comulementaires eventuelles recherche d'emploi.. )

. Stagiaire de la formation professionnelle.

. Rémuneratton verser parl'État fixer à 1250 F « indemmté non obligatoire (de 500 F maxlmum} à la charge de l'organisme

. En cas de prolongement du stage à 24 mois, majeure parue de la remuneratIon ( I 000 F verste par I organisme (en plus d'une indemnite de frais d'au moins 250 Fret non plus parl'État (payant 250 FI

Exoneratton des cotisations de secunte sociale pour

indemmte complementatre ou la remuneration de la deuxleme annec

Tous employeurs En centre de formation d'une durce de

. 550 heures pour les SPI (830 heures pour les SPE renforces)

. 600 a 700 heures pour les stages qualifiants

. Stagiaire de la formation professionnelle

. Versement par l'Etat d'une indemnité forfaitaire

Financement de la formation assume par l'Eut .

L'impact des dispositifs d'emploi 111

Page 115: actes des journées de méthodologie statistique

Encadré 2 : caractéristiques des formations en alternance sur la période 1986-19

Contrats de qualificauon Contrais d'adaptauon S1VP

1986 1987 1988 1 1986 1987 1988 a . 1986 1987 1988

Mans de II salaries 64.8 54.0 55.1 I 43.1 35.3 2.5.8 ! 54.6 69.6 71,6 Taille de

l'établissement De 11 à 49 salants 18.4 24.2 24.2 1 31.0 32.9 34.9 26.2 193 193

Plus de 49 satanés 16.8 21.3 20.7 25.9 31.8 39.3 19.2 11.1 9.1

Agriculture 0.6 2.6 3.5 15 1.4 0.8 3.0 3.4 3.4

Secteur Industrie d'activité

BTP'"

17.0

16.2

18.5

11.1

18.2

115

32.4

15.4

33.1

10.3

39.9

7.4

23.4 21.0 21.1

10.5 12.3 13.0 Ternaire 65.2 67.8 66.8 50.7 55.2 51.9 63.1 63.3 62.4

Sexe : part des hommes 59.1 55.8 55.7 65.5 63.3 52.9 51.3 52 51.7 Moins de 18 ans 13.5 7.8 7.0 - 2.6 1.4 2.0 7.2 6.5 8.5

Âge De 18 à Ill ans 62.0 40.4 53.4 52,9 44.5 47.3 63.9 58.7 59.4

Plus de 21 ans 24.5 51.8 39.6 445 54.1 50.7 28.9 34.8 32.1 6 ou 5bis 20.3 16.1 16.5 14,7 13.2 12.1 22.9 30.4 30.8

Niveau ,

de formation' 5 59.8 56.0 56.2 59.0 55.7 54.8 59.6 58.0 57.3 4. 3.2 et I 19.9 27.9 2.7.3 26.3 31.1 33.1 17.5 11.6 11.9

CD1 40.8 45.6 45.0 Contrat' 3 ' CDD de mimas dur an 12.1 10.9 11.4 19.9 22.0 29.4

dur= uniforme ter. moisi

C1DD de plus d un an 87.9 89.1 88.6 39.3 32.4 25.6 4.8 5.2 5.2

Salarié 8.5 11.2 11 16.9 17.3 19.5 3.4 3.2 2.3

Chômeur Inscrit État

4.4.5 20.3 2.3.1 39.9 31.7 30.1 65.8 65.7 74.0

pt ent Étudiant 22.6 19.6 15.1 11.1 12.9 10.2 9.6 7.8 4.0

Autres 24.4 48.9 24.8 32.1 38.1 19.1 21,2 23.3 14.8

(TUC. SIVPi 124.8) 121.1 (4.91

Sources • service des Etudes statistiques. mmistere du Travail Remarques : les données pour les annees 1986 et 1987 sont relatives au dcumeme semestre de chaque annee. alors que les donnees pour 1988 sont relatives à l'ensemble de armee. Abrevusoons (I)BTP bâtiment et travaux publics 121 Niveaux 6 ou 5 bis pas de formation allant au-delà de la fin de la scolarité obligatoire ou formation courte d'une durec d'un an maximum

t certificat d'éducation professionnelle ou atleNtlitl00 de mème naturel Niveau 5 : niveau de formation equivalent à celui de brevet d'études professionnelles (BEP) ou du certificat d'apurudc professionnelle CAP I

. Niveaux 4. 3. 2 et I niveau de formation égal ou supérieur au baccalauréat.

. 131 CDI • contrat â dura indetermmee CDD contrat à durée détertrunce

marché du travail français. caractérisé ces dernières années par la multiplicité des mesures publiques d'emploi et par la coexistence de contrats de travail à durée indéterminée et à durée déterminée.

Par ailleurs, les articles qui viennent d'ètre cités illustrent parfaitement le débat relatif à la méthodologie d'évaluation des programmes : ainsi. alors que l'étude de Ridder (1986) exploite des données non expérimentales, celle de Ham et Lalonde (1991) utilise des observations expérimentales'''. Pour certains, les données expérimentales doivent titre préférées, car une expérimentation aléatoire rend la participation au programme non corrélée aux caractéristiques individuelles observées et surtout non observées. De ce fait, elles facilitent l'évaluation du programme, qui peut alors se réduire à une simple comparaison des moyennes de la variable pertinehi,

(par exemple. le taux de réemploi ou les gains salariaux) au sein des groupes de traitement et de contrôle. Cependant. les contributions récentes de Ham et Lalonde (1991). Heckman (1991) et de Dubin et Rivers (1993) mettent l'accent sur les biais potentiels inhérents aux études expérimentales : généralement. l'affectation aléatoire n'élimine pas tous les biais dus à la sélection endogène. Cela est particulièrement vrai lorsque le bénéficiaire peut décider de quitter le programme à tout instant, et en particulier bien avant le terme prévu. De plus, Heckman et Hotz (1989) modèrent les critiques envers les procédures d'évaluation non expérimentales en présentant un test de spécification de modèle qui peut être appliqué à tout ensemble de données non expérimentales, et qui permet de choisir parmi les estimateurs alternatifs non expérimentaux.

112 Insee Méthodes n°56-57-58

Page 116: actes des journées de méthodologie statistique

L'étude conduite par Ridder (1986) dans le cas hollandais est souvent présentée comme l'exemple dune évaluation économétrique de programmes d'emploi à l'aide de données individuelles non expérimentales. Ridder soutient qu'avec de telles données, une simple comparaison avant/après. sans groupe de contrôle équivalent. permet une évaluation du programme. Cette procédure nécessite toutefois d'observer des trajectoires individuelles de longueur suffisante avant le début et après la fin du programme. Elle est par ailleurs impraticable lorsqu'un même individu peut accéder plusieurs fois à différents types de mesures. Enfin. Ridder traite la sélection des participants comme un processus exogène. affecté seulement par la situation individuelle (en chômage. en emploi...) juste avant l'entrée dans le programme. De façon évidente. cette dernière hypothèse est inadaptée la sélection est généralement faite par les administrateurs du programme. mais aussi par les employeurs participant au programme ou offrant des emplois aidés. et finalement par les travailleurs eux-mêmes, qui acceptent ou bien refusent de participer au programme ou de travailler dans ces emplois. Par conséquent. la sélection à l'entrée en programme est généralement non aléatoire et corrélée aux variables dépendantes (le taux de réemploi, le salaire...). notamment par le biais des effets des caractéristiques individuelles, observées (comme l'âge. le sexe, le niveau de formation...) ou non observées (comme la motivation. le goût pour le travail... ) par l'économètre. Pour toutes ces raisons. la méthodologie suggérée par Ridder ne peut être directement appliquée aux données dont nous disposons.

Pour conduire l'évaluation sur les données longitudinales collectées par l'Insee. nous devons tenir compte tout à la fois des spécificités des dispositifs publics d'emploi. en particulier du fait qu'un individu peut passer plusieurs fois par ces dispositifs au cours d'une période de temps limitée. mais aussi des spécificités de l'échantillon. Pour ces raisons, nous avons opté pour une modélisation appartenant à la classe générale des modèles de transition multi-états multi-épisodes. qui permet par ailleurs de réduire les deux biais suivants.

. Un biais d'échantillonnage endogène, dû au fait que l'échantillon utilisé est extrait d'un effectif de chômeurs à une date donnée (août 1986).

. Un biais de sélection résultant de 11 ienorance du caractère non aléatoire du processus de participation aux dispositifs : généralement. cette participation dépend de l'hétérogénéité individuelle et des conditions de la demande de travail. Une façon de réduire ce biais consiste à :

-- premièrement. traiter les mesures publiques comme des états spécifiques du processus de transition, qui prend alors ses valeurs dans un ensemble d'indices correspondant aux états d'emploi. de chômage. de mesures...

— puis faire dépendre les taux d'intensité de transition vers les mesures des caractéristiques individuelles pertinentes, mais aussi d'une composante

d'hétérogénéité non observée. par ailleurs corrélée aux autres termes d'heterogenélte affectant les taux de transition vers l'emploi ou le chômage.

Ce biais de sélection est de même nature que celui qui résulte, dans un modèle Tobit blvarié. d'une corrélation entre le terme aléatoire affectant la variable latente de sélection et les termes aléatoires affectant la variable endogène observée dans chacun des deux régimes.

Le traitement explicite de ces deux biais distingue notre methodologie de celle utilisee par Aucoutuner (1993). Celle-ci se livre, en effet, a un exercice semblable au nôtre, en utilisant des outils certes beaucoup plus simples. mals qui peuvent se reveler très imprécis. Rappelons qtr Aucoutuner compare les taux d'emploi en avril 1991 de deux groupes de chômeurs entrés dans leur 13' mois de chômage en janvier 1990. ceux qui sont passés par une mesure à la sortie de leur période de chômage et les autres. D'une part. cette taçon de faire neglige la dynamique des trajectoires individuelles ( pourquoi a% oir choisi avril 1991, et pas novembre 1991. autre date d'observation disponible ? Les emplois retrouvés sont-ils de duree plus élevée, plus stables ^ Les résultats différeraient-ils si l'on prenait en compte les trajectoires diversifiées des non-benéficiaires. à savoir en distinguant ceux qui sont passés entre-temps par un CDD. un CD1. etc. 7), D'autre pan et surtout, les estimations produites ne sont redressées d'aucun des deux biais precédemment évoqués : en particulier. le biais de sélection est totalement ignoré ( est-ce que ce sont les chômeurs de longue durée les plus employables qui passent par les mesures 7 En fait, la méthodologie utilisée par Aucoutuner est celle qui est appropriée à une expérimentation avec affectation aléatoire des individus à deux groupes. un groupe cible et un groupe de contrôle). Enfin. Aucoutuner ne tient pas du tout compte du fait que le tiers des chômeurs échantillonnés sort du panel avant avril 1991 i ceux-là seraient-ils des non-bénéficiaires ayant retrouvé un emploi 71.

La principale question à laquelle nous nous intéressons dans cet article est donc la suivante : pouvons-nous faire la distinction entre les diverses catégories de dispositifs publics selon leurs impacts relatifs sur les durées subséquentes d'emploi et de chômage 7 A ce niveau, notre analyse prend en compte le type de mesure suivie par le bénéficiaire. Par ailleurs, notre étude met l'accent sur l'effet de la durée limitée des droits à l'allocation de chômage sur la transition du chômage vers l'emploi ou vers les mesures. mais aussi sur l'ampleur des biais d'échantillonnage et de sélection. La première partie donne quelques statistiques descriptives de l'échantillon analysé. La deuxième contient une présentation du modèle de transition que nous estimons. Les résultats sont commentés dans la troisième partie et nos conclusions résumées dans la quatrième.

L'impact des dispositifs d'emploi 113

Page 117: actes des journées de méthodologie statistique

Tableau 1 : statistiques descriptives ci.. - `antillon

Variables Minimum Maximum Moyenne Esart Type

Nananalite française

Âge en novembre 1986

0

15

1

26

0.9289

21.17 2.66

Ouvrier nen qualifie 0 03086

Damer qualifié 0 0.2094

Qualification Employé 0 0.1810

Cadre 0 0.0613

Aune 0 .0396 0

Sans diplôme 0 0.5033

Diplôme CAP ou BEP 0 0.3029

Études secondaires et plus 0 0.092

Non-reponse 0 0.1017

Fin de contrat à dur= déterminée 0 0.3119

Raison d'entrée licenciement 0 0.1511 en chômage Démission 0 0.2034

Premiere miner (y compris service militaire) 0 03336

13eneficture de l'allocation chômage 0 I 0.25

Ayant préalablement swvr inse mesure 0 1 0.16

0 1 0.071 Non-réponse à la durée de cette mesure

Chômage initial Durée de =ut mesure 3 78 2322 18.25

Âge à l'entre en chômage 14 25 19.64 2.66

Dunte du chômage in e ) I 79 1336 11.67

ICI 1 99 14.16 12,4.6

Âge à la prermére munition 14 27 20.84 2.73

. Contrat à dura indeterrnmee I n c, I 18 4.10 3.91

(cl I I8 7,62 6.33

Situation après . Contrat a durée deternuriée in c ( I 15 2.86 2.78

la premiere transition : Durée

de l'épisode : . Mesure

(cl

(ne(

I

I

15

18

2.93

546

2.98

3.36

Ici 1 18 5.64 3.92

. . Inactivité in ci 1 I3 8.84 4.09

Ici 1 18 9.21 4.32

Age à la seconde transition 14 27 20.63 2.63

. Chômage int( I 17 3.36 237

ICI 1 17 ' 3.71 3.05

. Contrat à durée mdetemunce in c I I 16 3,99 2.95

Situation sbooctrès 1C / I 17 7.29 5,37

transition Durée . Contrai à durée déterminee

de l'épisode - ( n ci

ICI

I

I

12

12

3.84

4.28

2.38

2.66

. Mesure inci I 14 4.65 2.85

(c) I I" 4.81 3.21

. inactivité in c ( I 16 6.84 4.84

Ici I I 7 6.87 5.00 Âge à la troisierne transition 20.48 234

. Chômage ( n ci I I 5 3.25 2.89

Ici I 16 3.55 3.12

. Contrai à dures indeternunér Ince I 16 533 2.40

Situation après ici I 16 533 4.35

la troisième transition Durée . Contrat à durée déterminer

de 1. &menée , in c i

(ci

1

1

Il

13

2.92

3.31

2.36

2.69

. Mesure ( n c ( I 13 3.92 2.75

ici 1 13 3.95 2.42

. InaGUY1tî met I 12 4.48 3.96

(c) I 12 4.58 4,65

Abréviations n c : sauf durées ceninnées à droite. c : durées censurées à droite comprises. Remarque : toutes les durées sont exprimées en mots.

114 Insee Méthodes n°56-57-58

Page 118: actes des journées de méthodologie statistique

Tableau 2 : fréquences des transitions vers les emplois aines

Type de mesure TUC

SIVP

Contrats

Autres Total Rang de la transition

98 84 27 116 325

2 14 18 11 21 64

3 28 31 13 30 102

4 7 5 12 6 30

Tableau 3 : fréquences des deuxièmes transitions

Deuxième état

Premier étai CDI CDD PEP 1 A Total

CDI 125 48 35 9 93 31 t.47

CDD 117 9 22 8 170 13 339

PEP 66 28 40 15 148 28 323

Il 3 7 28 56 9 114

Total 319 88 104 60 467 87 1125

CDI contrat à dune indéternume CDD contrat a durée datertrunee PEP 'Pobuque d'emploi publique' 1 macnvne C chômage . A sotte prarnambe du panel.

Les données

Cette partie présente essentiellement des statistiques descriptives de l'échantillon. qui visent à justifier l'utilisation d'un modèle économétrique de transition distinguant les effets des passages en mesure des effets de l'hétérogénéité individuelle non observée (i.e. des variables "cachées"). Le fait principal plaidant pour un tel modèle est, comme on le verra. la fréquence des trajectoires caractérisées par un passage en mesure suivi d'un retour en chômage, puis d'une réentrée en dispositif.

Les données utilisées pour l'étude sont issues de l'enquête Suivi des chômeurs réalisée par l'insee. L'échantillon a été constitué par tirage au sort dan -, la population de chômeurs inscrits à l'ANPE en août 1986. Plus de 8 000 individus ont été retenus et. parmi eux, 7450 ont répondu au questionnaire. Les individus échantillonnés par l'Insec ont été interrogés 4 fois, en novembre 1986, en mai 1987, en novembre 1987 et enfin en mai 1988. À chaque interrogation, ils ont répondu au questionnaire de l'enquête Emploi et à un questionnaire supplémentaire portant sur l'évolution de leur situation depuis la dernière enquête. L'information recueillie permet de reconstituer les trajectoires de participation au marché du travail des individus sur lesquels porte l'enquête, et en premier lieu de connaître les dates et motifs de sortie de la période de chômage

échantillonnée en août 1986. La durée de cette période de chômage peut donc être mesurée exactement (en mois), sauf pour les personnes sorties du champ de l'enquête avant de quitter le chômage. Pour ces dernières. cette période de chômage, incomplète, est dite censurée à droite. Les informations obtenues mois par mois entre novembre 1986 et mai 1988 retracent les événements de participation au marché du travail. Seules sont prises en compte les 6 992 personnes effectivement inscrites à l'ANPE en août 1986 et pour lesquelles il est possible d'observer une date précise et cohérente d'entrée en chômage. L'échantillon est ainsi réduit de 458 observations. On observe de plus que 603 individus n'ont pas répondu à la seconde enquête (mai 1987), 424 à la troisième (novembre 1987) et 290 à la quatrième (mai 1988). Par conséquent, 1317 ont quitté le panel avant la dernière interrogation prévue : leur sortie est supposée due à un processus de sortie du panel qui sera explicitement incorporé dans le modèle statistique.

La période couverte par l'enquête est tout à fait pertinente puisqu'elle débute juste après la mise en place, par l'ordonnance du 17 juillet 1986, du Plan d'emploi des jeunes. Les mesures en vigueur sur cette période sont rappelées dans l'encadré 1. L'encadré 2 contient quelques statistiques générales sur les entreprises et secteurs ayant recouru aux dispositifs de formation en alternance au cours de la période, ainsi que sur les publics visés. Il montre que dans l'ensemble, les SIVP et les et de qualification

L'impact des dispositifs d'emploi 115

Page 119: actes des journées de méthodologie statistique

Tableau 4 : fréquences des troisièmes transitions

Troisième eut

Deuxième transition

CD1 CDD PEP A Total

CDI (MD 10 7 1 27 1 2 48

CD1 PEP 16 3 4 9 35

CD1 C 35 19 21 5 5 93

CDI —. 1 0 0 3 5 0

Sous-total CDI 62 29 13 60 13 8 185

CDD CDI 55 14 4 36 4 4 117

CDD —• PEP 6 3 1 22

CDD—• C 83 14 24 9 170

CDD —.1 0 3

Sons-total CDD 94 105 21 69 14 14 11"

PEP CM! 32 3 3 23 3 bh

PEP CDD 5 a 13 1

PEP C 24 26 48 35 8 14-8

PEP — 1 3 2 1 7 1 15

Sous-total PEP MI 37 59 72 16 13 257

1 COI 4 1 0 4

I ODD 0 0 0 0 3

I -. PEP 1 0 3 0

I C 8 16 21 1 56

Sous-total I 13 9 18 29 3 5 77

Total 229 180 111 230 46 40 836

I inacusite C chômage . A coruc prematuree du panel

Remarque il s'agit ici du IFOISiemc eut ',sué" apres soue de la pénode de chômage . la nonierne unnsitton est effectuer entre les second et troisieme CULS

ont principalement concerné les petits établissements dans le secteur tertiaire et les jeunes de 18 à 21 ans, alors qu'à la fin de la période d'observation (à savoir, 1988). les contrats d'adaptation étaient plus fréquemment utilisés par des firmes plus importantes dans le secteur de l' industrie et par des jeunes travailleurs âgés de plus de 21 ans. Nous remarquons que les recrutements dans les SIVP concernaient très fréquemment les chômeurs, tandis qu'en 1988 les contrats de qualification et d'adaptation étaient principalement conclus avec des jeunes travailleurs précédemment employés dans des stages (TUC. SIVP...) ou avec des jeunes inactifs. Finalement, remarquons que ces mesures concernaient plus souvent des jeunes possédant un diplôme technique tniveau 5) que ceux ayant un niveau de formation plus faible (niveau 6 ou 5 bis).

Statistiques descriptives de l'échantillon

L'objectif de cette étude étant de mesurer l'impact des politiques publiques destinées à favoriser l'insertion professionnelle des jeunes, nous nous sommes limités à la population des hommes n'ayant pas encore atteint l'âge de 26 ans en août 1986. Cet échantillon contient 1 337 individus. Le tableau 1 donne des informations sur les caractéristiques individuelles (âge à la date de la première enquête,

nationalité, niveau de formation et qualification) et la raison de l'entrée dans la période de chômage échantillonnée en août 1986. De plus, il décrit les caractéristiques des trois premières transitions observées (durée de l'épisode correspondant, âge à la date de la transition, droits à l'allocation chômage durant les périodes de chômage.). Notons que l'âge moyen dans ce sous-échantillon est peu élevé, 21 ans. Les ouvriers non qualifiés sont les plus représentés (50 °Io de l'échantillon). De plus, 50 % des chômeurs sont sans diplôme supérieur au BEPC. La durée moyenne de la période initiale de chômage est égale à environ quatorze mois. Le tableau 1 indique le nombre détaillé d'individus ayant bénéficié d'un emploi aidé au cours des quatre premières transitions enregistrées dans l'enquête. Les TUC et SIVP sont les mesures les plus fréquemment observées.

Les transitions

Les transitions effectuées par le sous-échantillon de jeunes hommes entre août 1986 et mai 1988 vont maintenant être décrites. Considérant les effectifs concernés par les différents types de transition, nous avons été amenés à distinguer, parmi les états de participation au marché du travail : . les emplois sous contrat à durée indéterminée (CDI),

116 Insee Méthodes n°56-57-58

Page 120: actes des journées de méthodologie statistique

Graphiques I : proportions mensuelles dans les quatre états du marché du travail

CD1

0 i 1 5 n 8 9 10 I I 12 13 la 15 In 1 7 18 19 20 :i V Io 1 2 13 14 1 , II, 1 - 1 , 10 21

Mon- Mo.

CDD PEP

os) 100

90 • - Sans dIplornr 90 •

-- - -

- San, doplOme

- - - CAP nu BEP 80 • - CAP ou BEP S•0

70 • - Bac et 70 • Ba.. 6, n195

60 Non•rrpon. 60 Non-rrponsc 50 • 50

ao 40 '

M) 30

2)) - In

211 •

IO •

0 1 2 3 à 7 6 S 9 10 11 12 17 14 15 In 1 - Ip I o 20 21 0

x III 11 12 I3 11 i< If. i7 18 1 3/ 20 2) Mn,

. les emplois sous contrat à durée déterminée (CDD1.

. et les emplois aidés résultant des dispositifs publics d'emploi (dans la suite du texte. cette categone d'emploi est signalée par l'abréviation PEP. comme "Politique d'emploi publique" ).

En plus de ces situations et de celles plus habituelles de chômage (Cl et d'inactivite (1). nous avons dû considérer. en raison de l'importance quantitative du phénomène. la sortie prématurée du panel. ou "auntion":'. comme un état particulier du processus de transition analysé. Les personnes qui sortent du panel à un Instant donné ne peuvent réapparaitre dans l'échantillon aux enquêtes suivantes. Par conséquent. aucune transition à parir de l'état d'attrition A ) ne peut être observée.

Dans cette définition des situations sur le marché du travail, l'aspect le plus contraignant est certainement l'agrégation de tous les types de mesures en un seul état d'emploi aidé, noté PEP. Cette agrégation est toutefois rendue nécessaire par la faiblesse des effectifs transitant par les différents dispositifs t voir. pour illustration, le tableau 21. Cette faiblesse est encore accrue lorsque l'on conduit l'analyse au sein de strates correspondant à différents niveaux de formation initiale. Ce. , .7égation empêche, il est

vrai, d'étudier ici les logiques d'enchaînement des dispositifs, mises en évidence en particulier par Aucoutuner (1993). Il faut toutefois savoir que. dans le sous-échantillon retenu ici. parmi les 325 jeunes hommes passant en dispositif à la sortie de la période de chômage courante en août 1986. seuls 48 ont enchaîné directement une seconde mesure (parmi ces 48 individus, l'enchainement le plus fréquemment observé, soit dans H cas, est le passage d'un SIVP à un contrat de qualification ou dadaptation). Au-delà. seuls 7 individus parmi ces 48 ont enchaîné une troisiéme mesure. et un seul parmi ces 7 en a connu successivement quatre. Moutons que. pour réduire l'inconvenient de l'hypothèse d•agrégatton des dispositifs en un seul état, nous avons malgré tout distingué ceux-ci lorsqu'ils interviennent comme déterminants potentiels des durées ultérieures de chômage et d'emploi, ou des transitions à partir de ces etats vécues par les bénéficiaires des mesures.

Après la première transition. 149 personnes (11 l'échantillon) sont sorties du panel. 347 (26 9( de l'échantillon ) ont obtenu un emploi de durée indéterminée. 339 (25 9r) ont trouvé un emploi à durée déterminée. 325 (24 e7c1 ont obtenu un emploi aidé et 114 (8.5 9c) sont devenues inactives. Par la suite. 927 individus. soit 69 cie de l'échantillon. ont effectue une seconde transition. La reparution de ces

L'impact des dispositifs d'emploi 117

Page 121: actes des journées de méthodologie statistique

secondes transitions entre les différents états est donnée dans le tableau 3. Sur la première diagonale figure le nombre des observations censurées à droite dans chaque état après la première transition. Ce tableau montre que : — 36 % des individus qui ont obtenu un contrat à durée indéterminée n'effectuent pas d'autre transition sur la période d'observation : — parmi les travailleurs qui ont obtenu un contrat à durée déterminée. 2.6 % sont encore dans cet emploi ou dans un autre CDD directement enchaîné au premier en mai 1988. 34.5 9e ont obtenu ensuite un contrat à durée indéterminée, et environ 50 9r sont retournés une fois encore en chômage — parmi les jeunes hommes entrés en mesures. 12 9r sont encore dans un emploi aidé en mai 1988 (parmi ceux-là. 27 sont encore dans le même dispositif. 12 sont dans une seconde mesure directement enchaînée à la première. 1 enfin dans un troisième emploi aidé): 20 % ont obtenu un contrat à durée indéterminée, presque 9 9r ont trouvé des emplois à durée déterminée. et environ 45 c7c. sont devenus chômeurs : — environ 79 % des chômeurs devenus inactifs à la première transition redeviennent chômeurs ou retrouvent un emploi lors de leur seconde transition. En première analyse, il apparaît que les transitions vers les emplois stables (CDI) sont plus fréquentes à partir des contrats à durée déterminée (CDD) que des emplois aidés. Compte tenu du phénomène d'attrition (7,7 % de l'échantillon restant) et des épisodes censurés. 836 jeunes hommes réalisent une troisième transition. La répartition des ces troisièmes transitions est résumée dans le tableau 4. Remarquons que 50 % des travailleurs qui ont obtenu un contrat à durée indéterminée après un emploi aidé ou après un contrat à durée déterminée sont toujours dans cette situation en mai 1988. De plus, il apparaît que les transitions entre chômage et emplois aidés sont assez fréquentes. Ainsi. parmi les jeunes hommes qui sont retournés en chômage après être entrés en mesure à la première transition, 48 (i.e. 42 5 de ceux que l'on observe quittant cette seconde période de chômage) réentrent en emploi aidé une nouvelle fois. Ce phénomène de récurrence sera confirmé par une analyse statistique plus formelle, dans laquelle on essaiera de contrôler l'effet des variables 'cachées'. i.e. de l'hétérogénéité non observée, pouvant agir simultanément sur le processus de sélection à l'entrée en mesure et sur l'employabilité, c'est-à-dire sur l'accès aux emplois plus réguliers (voir troisième partie). Comme les politiques d'emploi publiques sont principalement destinées aux jeunes avec peu ou pas de diplôme ou sans expérience, nous avons stratifié notre sous-échantillon selon le niveau de formation. Quatre groupes apparaissent (voir les statistiques descriptives, tableau 1) :

. le premier est constitué d'individus sans diplôme supérieur au BEPC, qui représentent 50 9c de l'échantillon, i.e. 673 individus.

. le deuxième comprend ceux qui possèdent un CAP ou un BEP. soit 405 individus représentant 30 9r de l'échantillon. . le troisième groupe correspond aux jeunes hommes ayant un niveau de formation supérieur ou égal au baccalauréat, et qui représentent 9,2 % du sous-échantillon, i.e. 123 individus, . finalement, 136 (10,2 %) ne donnent aucune information sur leur niveau de formation initiale.

Les graphiques I donnent les proportions de ces quatre sous-groupes selon leur situation (chômeurs, employés dans un CD1. un CDD ou un emploi aidé). mois par mois. d'août 1986 à mai 1988 (ces proportions sont calculées sans incorporer les individus sortis prématurément du panel). On remarque que. pour les personnes avec le niveau de formation le plus élevé. le taux de chômage est plus faible en fin de période. alors que leur taux d'emploi sous des contrats à durée indéterminée est supérieur (65 9e contre 30 9e pour les jeunes sans diplôme). Considérons maintenant les proportions d'individus en emplois aidés : elles sont plus élevées pour les individus sans diplôme et pour les non-répondants à la question sur le niveau de formation initiale (dans le cas des CDI. le comportement des non-répondants est très proche du groupe des non-diplômés ). Pour les individus les plus diplômés. les proportions en emplois aidés sont autour de 10 % à la fin de la période d'observation.

L'annexe 1 donne le nombre exact d'individus ayant effectué zéro. une, deux... transitions sur la période d'observation. Il montre que les personnes ayant un faible niveau de formation (sans diplôme ou avec un CAP ou un BEP) transitent de façon plus intensive entre les divers états du marché du travail que celles possédant un niveau de formation plus élevé. Ce tableau montre également que 63 individus sont restés au chômage d'août 1986 à mai 1988. Le nombre maximal de transitions effectuées sur cette période est égal à I 1. ce qui indique une grande mobilité des personnes ayant un faible niveau de formation.

L'annexe 2 donne le nombre d'individus ayant effectué zéro. un. deux... séjours dans un état donné sur la période. Quel que soit le niveau de formation. les états les plus récurrents sont le chômage et l'emploi sous un contrat à durée déterminée. Les emplois aidés apparaissent moins fréquemment que les deux autres états d'emploi, mais cela résulte probablement de l'agrégation des différents types de mesures en un seul état. Quel que soit l'état, le degré de récurrence diminue avec le niveau de formation. Le modèle économétrique de transition qui nous permet d'évaluer l'impact des passages par les emplois aidés est présenté de façon détaillée dans l'encadré 3.

1 1 8 Insee Méthodes n°56-57-58

Page 122: actes des journées de méthodologie statistique

par conséquent. I', est l'état occupé par l'individu y durant le r épisode de sa trajectoire. et = , - t est une

variable aléatoire (positive) représentant la durée de séjour de l'individu y dans ce r emsode.

Dans notre base de données. les individus sont échantillonnés dans une population de chômeurs à la date To t août 19861

par conséquent. un travailleur i a déjà passé un temps U „ , = - T,. en chômage à cette date. Cette durée de séjour

, est bien sûr une durée incomplète. censurée à droite : dans ce'. conditions R , = - „ = 1, - indique

la durée résiduelle dans l'épisode de chômage échantillonné avant unc transition Jers retat I . au temps t ,

Pour simplifier la modélisation. nous supposons que les transitions individuelles sur le marche du travail ne dépendent pas

directement du temps calendaire au travers des effets saisonniers ou du cx cle conjoncturel"' Par consequent. l'axe individuel

dei, temps peut être gradué de façon que son origine It = ô i soit egale a la date a laquelle le travailleur entre sut le marche

du travail pour la première fois : donc t mesure le temps ecoule entre cette date d'entrer (qui est observe dans] enquete

et la date a laquelle l'individu , effectue sa /11—` transition sur le marche du travail

Pour illustrer le schema d'échantillonnage. nous representons sur le graphique une realisation du processus de transition

décrit ci-dessus. Ce graphique montre que l'individu est d'abord en chômage pour une durer L . = T puis ensuite

employé sous un contrat de durée déterminée. égale à , = „ . puis il se retrouve encore une fois en chômage.

épisode pendant lequel il est echantillonné à la date T„ et interroge à la date T.. pour une durer egale à

= t - T ; par la suite. il trouve un contrat d'adaptation dont la durer est L = T - T enfin. il est

embauché dans un emploi sous contrat à duree indeterrninee dans lequel il reste pour une durer supeneure a cette

dernière durée est censurée à droite à la date T, .

Nous émettons maintenant l'hypothèse que les transitions individuelles sur le marché du travail peuvent être representées par

des modèles avec intensités multiplicatives mélangées (voir par exemple Aalen. 1987. ou Andersen et Borgan. 1985. pour

une presentation générale des modèles à intensité multiplicative. et Ruin et Heckman. 1983. Aalen. 1987. ou Ritider. 1990,

pour des extensions aux mélanges de modèles avec intensites multiplicatives t. Plus paniculierement. nous supposons que.

pour un individu , . l'intensité de transition vers l'étai d après une duree de séjour egale à 1.; dans l'etat d ). durant

le épisode de son processus de transition sur le marché du travail. est définie par

p,, = h, i t( i expt f3 X,, t - à i I 1'

pour, = 1 n et k a j

oit

. h t I est une intensue de base (positive). dont la forme peut dependre des etats d'origine tj I et de destination (4. I. mais

aussi du rang il t de l'épisode courant dans la trajectoire de participation.

. X,, , est un vecteur de variables individuelles dépendantes du temps. et dont la valeur au temps t t est

supposée agir sur une éventuelle transition de l'étai j vers l'état dtA =JI par l'Intermédiaire d un vecteur de paramètres

inconnus 5 , ( à estimer).

v, , est une variable aléatoire positive de fonction de repanition F . dont la specification peut dépendre des états j et

k .mais aussi du rang de l'épisode. et qui capture l'effet de l'heterogenene individuelle non observer sur la transition de l'etat

j vers l'état I,

Etant donné le nombre de transitions possibles dans notre ctude. nous restreignons la taille du vecteur aléatoire multivane

tv . 1 en supposant que

pour tout I' n I . ce qui implique que les termes d'heterogeneite non observée sont fixes dans le temps.

. y = y, , . pour tout j E E . ce qui signifie que le terme d'heterogcnéite affectant la transition de l'état j vers l'état d

(k n j ) est spécifique à l'étai de destination k

L'impact des dispositifs d'emploi 119

Page 123: actes des journées de méthodologie statistique

Encadré 3 : modélisation des transitions individuelles sur le marché du travail

Structure générale et notations

Nous supposons que chaque travailleur i dans la population est soumis à un processus de participation(3) Y décrivant sa

situation sur le marché du travail au temps r (t 2 0 ). Le problème général à analyser et la configuration particulière des données de l'enquête Suivi des chômeurs nous amènent à supposer que le processus Y, prend ses valeurs à un instant r dans

l'ensemble E= z e N. I 5/56 . où l'indice,, enregistre les états suivants :

1. chômage (C),

2. emploi sous un contrat à durée indéterminée (CDI),

3. emploi sous un contrat à durée déterminée (CDD).

4. emploi aidé résultant d'une politique d'emploi publique (PEP).

5. inactivité (I),

6. sortie prématurée du panel (A).

En fait, l'enquête permet de distinguer cinq catégories d'emplois aidés : les contrats d'adaptation et de qualification, malheureusement regroupés dans le questionnaire, les contrats d'apprentissage, les Travaux d'utilité collective (TJC), les Stages d'initiation à la vie professionnelle (SIVP), et les stages 16-25 ans (inclus dans la catégorie 'Autres stages' ). Mais considérant le nombre réduit de transitions observées, nous avons agrégé les diverses catégones d'emplois aidés en un seul état. La sortie du panel est tin état absorbant qui ne peut être atteint qu'après la date d'échantillonnage To (aoilt 1986). L'indice

1 est utilisé pour indiquer le rang d'un épisode de chômage, d'emploi... au sein de la trajectoire individuelle sur le marché du

travail. Cet indice peut prendre toute valeur entière positive ou négative : 1 = 0 est réservé à l'épisode de chômage

échantillonné en T0 , 1 = 1 indice le premier épisode observé après la période de chômage échantillonnée. 1 = — 1 indice

l'épisode précédant cette période de chômage, et ainsi de suite. Par conséquent, la valeur maximale prise par / pour une observation individuelle indique le nombre de transitions effectuées par le travailleur après la date d'échantillonnage T0 Les

trajectoires individuelles de participation sont observées rétrospectivement aux temps T, (novembre 19861. T, mai 1987).

T, (novembre 1987) et T., (mai 1988). Une histoire 'complète" (sans attrition) est censurée à droite en T, Une sortie

prématurée du panel peut intervenir à tout instant entre T„, _ et T m = , 4 ) . mats pas exactement aux temps

, T, . Pour un travailleur,. IL , indique la date aléatoire d'entrée dans le rs''' épisode de la trajectoire de participation :

Graphique 2 : une réalisation du processus de transition sur le marché du travail

6 -

5 -

4 1-

3 1

2 -F T3 T4 X

T, T,

r t = 0 T.. 1,

ua,

120 Insee Méthodes n°56-57-58

Page 124: actes des journées de méthodologie statistique

) X cap t l 5,, = ka,„ ( I „ . X ( t, + 11,v i .,)dt

Cette dernière hypothèse implique, par exemple. qu'un Individu pour lequel la composante non observée v , a une valeur

relativement élevée montre un faible attachement au marché du travail et va mes probablement se diriger vers

quel que soit l'état (emploi ou chômage) qu'il occupe actuellement. Par ailleurs, un travailleur non qualifié est d'autant plus désireux d'accepter un emploi de type stage subventionné ou un emploi aidé que la valeur de sa composante non observée

,„ est élevée.

Finalement, suivant Flinn et Heckman (1982). nous supposons que les composantes) v t ), c sont générées par une

variable aléatoire normalement distribuée un et telles que

(2) v t = expt a, ui )

tu IN(0.1),t =- 1.

Le vecteur de variables dépendantes du temps X,, ,( 1 peut être décompose en deux sous-vecteurs ci

X,t ,(t, + (4 1 1

. la valeur du premier, X ,(), ,(11 1. est fixée à la date d'entrée dans ic r— épisode pour l'individu( et reste donc constante

tout au long de cet épisode typiquement, ce vecteur comprend des variables indépendantes du temps, telles que le sexe. le niveau de formation...) mais aussi des covanables décrivant la trajectoire antérieure sur le marché du travail (nombre de périodes précédentes de chômage, durée totale de séjour dans ces états, dernier état occupé...)

. le second sous-vecteur de covariables, X] , ( + u ) , comprend les variables dépendantes du temps au cours du t" '

épisode dans notre application, nous considérons seulement une covanable de cc type un processus indicateur

Z, (t, (4, ) prenant la valeur 1 si l'état occupé par l'individu t durant le 1" épisode de son processus de transition est

le chômage, et s'il est encore bénéficiaire de l'allocation chômage après un temps u passé dans cet épisode. la valeur 0

sinon.

Notons L, le rang de la transition correspondant à la première entrée sur le marché du travail de l'individu I de façon que

T, = 0 après rééchelonnage de l'axe des temps individuel : ainsi L, peut prendre toute valeur entière neganve

( L , = 0 - I . - 2 1. De façon similaire. ( L,= 0.1. 2 ....) est l'indice de la dernière transition observée pour

l'individu i avant T ‘ . fin de la période d'observation. Par conséquent_ ( - L,) est le nombre total de transitions

effectuées par l'individu t avant la date 7",,. Dans l'exemple décrit sur le graphique 2. L, = - _ et = 2 , ce qui implique

un nombre total de transitions égal à 4. Remarquons que la première encrée sur le marché du travail à l' instant z t = 0 n'est

pas comptée comme une transition ; de plus, nous supposons par la suite que la probabilité initiale du processus au temps

t t = i.e. • prob ( Y o , = j) j e N ne contient aucune information sur ( les paramètres de) la distribution du processus

individuel de transition.

Supposons maintenant que le processus entre dans l'état j à l'instant T 1 (L_, < . Examinons la distribution en

probabilite de la durée de séjour dans l'état j état visité à la I' transition du processus. On montre (voir Fougère et Karruonka, 1992b. pp. 474-475, pour une démonstration) que la densité conditionnelle de la durée de séjour observée dans

l'état . durant le P`"" épisode du processus, étant donné que celui-ci commence à l'instant t , et finit à l'instant T, u :

par une transition vers l'état k. est :

avec K = 5 (état d'an itice exclu) si 1 t < 0 , et K = 6 (état d'attrition inclus) si /, 2 0 et où les vecteurs , ( . 1 et

v, sont définis par

= t5„1, „ ,(. )= [X, ( ) j,,, ' V , = Ev, Jk. E

L'impact des dispositifs d'emploi

121

Page 125: actes des journées de méthodologie statistique

La densité conditionnelle définie dans (3) est la contribution à la vraisemblance du 1"'" épisode lorsque celui-ci n'est pas censuré à droite. i.e. lorsque t = T, + u , 5 T,. Lorsque le r— épisode dure plus que T, — r . la contribution à la

vraisemblance de cet épisode censuré à droite est:

(4) S l/ (T, — f.,(T 4 ).v,) = prob (u, > T, — t ,. I T, ( ), v, )

6

—f

(t I T, .0,, (1, + t).y, ,)dr o

où S, ( . ) est la survie conditionnelle de la durée de séjour dans le /" épisode. Si un individu son prématurement du

tisanel lors du f"' épisode. entre deux dates successives d'enquête _ ci T,„ m = 1 . , 41. la contribution de cet épisode

à la fonction de vraisemblance est alors :

(5)prOb(14, E — , — [ et Y, =6 I T, . .x, , T . Y , )

-

g 6 ( Li I u).v,1du.

J E E,,/ 6 ,

Grâce aux hypothèses sur v j k et sur X,, , l'intensité de transition (I) peut être écrue :

(6) h ji ,(o, I 13,, , X,, (T, + u , ).V ,.,)

=h ul . )eXP(f X ) y,,, Z,(T, + u,) ) exp (

>cap( Z,( T, + )) e&p(13,% X ,(T,

5„ = (5)% Y„

(t ,. + u,. ) = , ( r i ). Z,( + u, )

et:

1 si u, 5 D, Z,( t , u t ) =

0 sinon

D, étant la durée des droits à l'allocation chômage durant le r— épisode si cet épisode est un épisode de chômage. i.e.

j = 1 (si j s 1 D, est nécessairement égale à zéro et Z, ( t, + t ,) est égal à zéro tout au long du rrepisode). Par

conséquent, la densité conditionnelle (3) devient

où :

(7) g,,0d, I t3, ),v ,) = )exp(y,, u,) * ) )

/ X

X exp exp(r.ii% )

9i = Z, (t , )exp (y,

fa h 4:.(t)cit

+ ( 1 — u, )) exp(7,, ) f er /1 4::(t)dt + f D,

= exp

122 Insee Méthodes n°56-57-58

Page 126: actes des journées de méthodologie statistique

Correction du biais d'éduuntillonnage dans la population des chômeurs

11 est bien connu que l'échantillonnage à partir d'une population de chômeurs à une date donnée T peut encraber des

estimations biaisées pour les paramètres de la distribution des durées de séjour dans cet état ou dans les états suivants (emploi. inactivité...). Le biais a deux composantes, un biais de longueur (length-bias) dû au fait que la probabilité d'échantillonnage d'un épisode est généralement proportionnelle à sa durée écoulée (ou longueur), et un biais de taux d'entrée (inflow-rate Mar),

résultant de la dépendance de cette probabilité envers le taux d'entrée en chômage à la date de début -r 0 , de cet épisode'6'.

Un article récent de Cases et Lollivier (1992) présente une première mise en évidence de l'importance du biais d'échantillonnage dans l'enquête Suivi des chômeurs.

Comme les ensembles de données utilisés dans les études similaires (voir, par exemple. Ridder (1986), Van den Berg. Lindeboom et Ridder (1991), I' enquète de I'lnsee n'enregistre pas la trajectoire individuelle n ( Y ° ) précédant l• entree dans

l'épisode de chômage échantillonné en To . Une façon possible de contourner le problème est de supposer que le taux d•entree

en chômage ne dépend pas directement du temps calendaire, mais s'écrit comme le produit de v , (le terme d'hétérogénéité

non observé affectant les intensités de transition vers le chômage) et X , (t o ,) qui représente le vecteur de covanables

individuelles observées à la date d'entrée en chômage. En d'autres termes, si q ( . ) est le taux d'entrée, alors nous supposons que :

(8) Oz° , I v i ,.X,(t o ,))=q,(v,,)xq,(X,(',0 ,)).= exp(a i w,)xq,(X,(e8 ,))

avec

q 1 (.)> etq z (.) >

Rappelons que U = T - t 0 , représente l'ancienneté en chômage de l'individu i à la date d'échantillonnage. Dans ces

conditions, la probabilité qu'un individu i avec un terme donné d'hétérogénéité non observée v et un vecteur donné de

covariables X ( 0 , ) soit dans le stock de chômeurs au moment de l'échantillonnage est égale à :

(9) P5 ( v ,.X,( t o ,)) = 91'4, v,.X,( t o Mprobl U0 ,> ij o v, • X, ( ld o

exp ( a ie,)Xq 2 ( X , ( to, exP

t

j hai ,(11 )di 0

dU o

Par conséquent, la probabilité d'être échantillonné dans le stock, étant donné l'hétérogénéité observable est :

-

(101 P,(X,(t o ,)) = t o ,//9 ( 1d w,

q 2 ( X,(t o ,)) J exp(Œ, w fp( w . )div

avec :

5

K = exp h°„( r I ,(t o ,).a,...,)d1 dU o 0

où tp ( ) est la fonction de densité d'une distribution normale standard N ( 0 . 1 1. Finalement, la contribution à la vraisemblance d'un individu i avec des covariables X, ( t o ) à l'entrée en chômage et avec une trajectoire observée

( , Y,, est la densité conditionnelle de cette séquence étant donné que l'individu était chômeur à la date T0 .

Ainsi, cette fonction de vraisemblance a la forme générale :

L'impact des dispositifs d'emploi 123

Page 127: actes des journées de méthodologie statistique

I■ 1

x[P,(X,(1° ,)) 1 1,„7.1_,,,(14,_, Î , (-(,_,

• JY exp I a i 55',) S Lyz T,- .X (

(Il) Lut, X . ( ). fi,a =i.

gUr c,, v,,,X„(t o,))S (T,„- T i I et rz T.).C{, w ,)

n r,(."

1.1

J - expia .

I 5, (T,_,

5

h°,,(t I 0

L 5 1w 1 d sv I

tP(5.,)615.,

l ezp

• = ( , , ) et Y, est l'état occupé durant k rè— épisode de la trajectoire observée. Étant donné les hypothèses (4), (6)

et (7), une procédure standard de maximisation de la vraisemblance permet d'obtenir des estimations convergentes de

• = ( ), , = ( et des paramètres des intensités de base•

Dans l'application, les hasards de base sont supposés constants dans le temps, i.e. h,:'( té, )= h . Cette dernière hypothèse

Implique que la durée de séjour dans l'état) est exponentiellement distribuee.

Les indicateurs calculés : définitions

Nous avons, en -premier lieu, calculé la probabilité conditionnelle que l'état k succède à l'état j(Jek), indépendamment de

la durée de,séjour dans l'état j .

Lorsque les covariables sont indépendantes du temps, cette probabilité conditionnelle, étant donné une valeur des covanables individuelles observées X,,(t,) est égale à :

(12) » = j 11, 1/ (X

où :

na l ,)... , h (X , S i tu X, ,(T,):x. 1clu 0

h (X,5 „(t,):5..

(t, )

k"a)

et

exp ( (3;, + o.k w ) •

Cette probabilité est calculée en utilisant les estimations obtenues dans le modèle avec hétérogénéité non observée, pour les chômeurs ne bénéficiant pas du système d'allocation de chômage et pour les travailleurs employés sous un CDI.

124 Insee Méthodes n°56-57-58

Page 128: actes des journées de méthodologie statistique

Dans le cas de chômeurs percevant une allocation de chômage pendant une duree egale a T. cette probabilité devient

(131 n, , , x(t ). T.., = prob(K = k t h )...,Iprobt t h T X, ,(t,

+ prob(K = k t i ,> T.X,,(T,).w,1- prob(t h > T I X, (t, )

1 exp

où :

expy,, ( t , a, .

et

= exp15,,X T ; -<• a,„ .)

Il peut être également intéressant d'obtenir une estimation de la probabilite de devenir chômeur de longue duree, I. e plus de 12 mois, pour un individu actuellement au chômage. selon l'état qu'il occupait auparavant et selon la durée T de sa penode de droits à l'allocation de chômage. Cette probabilité est égale à

- 1141 5,112 I X, ,1t, (.T) = f 5,112 I x,

S 1 (12 I X, ). cxpi- exp( y,,

1.2

- ( 12 - T)x exp(13, 1 X,„ ) + a,.

si 0 T 12

5,112 I X, , t t.T.w, = exp - 12

exp(y,1 11X,, ,tt. )

si T > 12

Les calculs des formules (13) el (14) ont été réalisés pour différentes valeurs de la durer T des droits à l'allocation chômage • ces durées sont celles qui étaient en vigueur en 1986 pour des individus employés respectivement entre 3 et 6 mots. 6 et 12 mois ou 12 et 24 mois avant de devenir chômeurs.

Dans ces cas, la durée des droits était respectivement de 3, 8 et 14 mots. Les personnes qui etalent auparavant en TUC n'étaient generalcment pas éligibles à l'allocation chômage une fois revenues en chômage.

Finalement, nous avons estimé la corrélation entre deux termes d'hétérogenéité aléatoire non observée. notés v , et V.

Cette corrélation est égale à

(15) core( ,.v1. expt ) - 1

I

expia ) - 1 11 exp a', 1 - 1

L'impact des dispositifs d'emploi 125

Page 129: actes des journées de méthodologie statistique

Tableau 5 : intensités de transition Intensités de transition à partir du chômage

Jeunes hommes sans diplôme (N . 673) Jeunes hommes avec CAP ou BEP (N = 4051

Modèle avec intensités constantes

sans hétérogénéité heérnaveec _ni,

Modèle avec intensités constantes

sans hétérogenéné avec héterogenéné Variables

Constante - 4.004 10.093) - 3.982 (0.0951 -1996 10.6731 - 4,18410.6921

Éligibilité à l'allocation chômage 0.28010.0931 0.467 10.0951 0.942 10.756) 0.71 ,10 11761

-CQ. CA. App 0.480 (0.1201 0.991 10,1201 - 0.513 (0.812i - 0.353 11.039

C -ii CDI - TUC -0,16310.1161 0.063 10.116) - 0.715 (0.215) - 0.903 (0.414)

Sil11311On préalable :

_ srvp 0,113 (0.117i 0,454 10.1171 0.236 10.2381 0.264 10.1361

- Autres stages 0.101 10.1101 0.377 10.1101 - 0.244 (0.42)1 -045110.52h

-CD) 0,776 (0.0861 0.75610,088) 0.254 (0,2071 0.133 10.3121

-CDD 0.296 (0.0901 0.296 10.0921 0.15010.192) 0.382 (0.3641

Constante - 2.240 (0.0891 - 2316 (0.096) - 2,617 (0.2131 - 2.914 10292)

Éligibilité à l'allocrinon chômage - 1.081 (0.009) - 0.711 (0.095) - 0.266 i0.1661 0.222 10.2551

-CQ, CA. App - 0.786 (0.1211 0,167 (0.121) - 1.04010.8491 - 150210.4%1

C --s CDD Situation préalable : - TUC - 0.064 (0.110) 0369 (0.1131 - 0.897 (0.428) - 0.710 (0.471)

- srvp 0.188 (0.117) 0,723 (0.118) 0.015 (0.323) - 0.049 (0.732)

- Autres stages - 0.66410.113) - 0.205 10.1151 0.164 (0.366 ) 0.656 10.468)

-CDI - 0.471 (0,097) - 0.562 10.1021 - 0.113 (0.185) 0.102 (0.176)

- CDD 0.474 (0.0801 0,417 (0.0891 0.65110.138) 0.351 10.282)

Constante - 4549 (0.091) - 4.871 10,0971 - 3.02810.684i - 3.035 10,6711

Éligibilité à I' allocanon chômage 1.369 (0.091) 1.179 (3.0971 - 0.180 10.6101 - 0.123 (0.653)

-CQ, CA. App 0.78510.1181 0.206)0.119) 0.07310.587, - 0.008 (0.450)

C-1 PEP - TUC 0,715 (0.099) 050410.1041 1.254 (0_2791 1134 (0.2761

SittlatIalable

OT1 pré :

_ srvp 0,376(0.112) 0.128(0.113) 0,80910.1431 0.78210.145)

- Autres stages 0.123(0,1071 - 0.229 10.109) 0.376 )0.224, 0.40210.302)

- CDI - 0543 (0.096) - 0.470 10.098) - 0.580 10.3511 - 0.57910.352)

-CDD - 0303 (0.087) - 0,219 (0.089) - 0.615 (0,2041 - 0387 10,189)

Constante - 15,995 (0,098) - 16.118 10.1011 - 3.891 (0,945) - 3,918 (0.846) C --s 1

Éligibilité à l'allocation chômage 11539 (0.0981 11.416 (0.1011 - 0.989 (1.0861 - 0.875 10.8661

Constante - 4,742 (0.098) - 4.862 10.101)

Éligibilité à l'allocanon chômage - 0.123 (0.098) - 0.28410.101)

C -. A - PEP - 0.109 (0.1091 -0.204 (0.110)

Situation -CD1 0.019 (0,107) 0.023 (0.107)

-CDD 0,210 (0.103) 0,20910,1041

126

Insee Méthodes n°56-57-58

Page 130: actes des journées de méthodologie statistique

Les résultats

Puisque les différentes mesures sont regroupées en un seul état. dénoté PEP. comme cela a été expliqué dans la deuxième partie. le processus individuel de transition prend ses valeurs dans un espace d'état à six éléments : chômage (C), emploi sous un contrat à durée indéterminée (CDI), emploi sous un contrat à durée déterminée (CDD), emploi aidé (PEP). inactivité (I). et attrition (A). Nous considérons en premier lieu les strates composées d'hommes àgés de moins de 26 ans en novembre 1986 et qui sont soit diplômés d'un CAP ou d'un BEP, soit sans diplôme (sous-entendu, supérieur au BEPC). Le tableau 5 contient les estimations des paramètres des modèles avec ou sans hétérogénéité non observée et corrigés du biais d'échantillonnage pour les sous-échantillons considérés. Le vecteur de covariables comprend — une variable dépendante du temps indiquant si l'individu perçoit une allocation chômage à l'instant de la transition lorsqu'il est chômeur, — des variables dichotomiques, indiquant l'état occupé juste avant l'entrée dans l'état actuel.

Pour construire ces variables dichotomiques, nous distinguons quatre catégories de mesures : — contrats de qualification, d'adaptation ou d'apprentissage (Contrats),

— travaux d'utilité collective (TUC). — stages d'initiation à la vie professionnelle (SIVP), — autres stages.

Les intensités de transition

Les résultats montrent que le passage préalable par un emploi aidé affecte uniquement certaines intensités de transition. Toutefois, le signe et l'amplitude des effets dépendent du type de mesure suivie auparavant par les jeunes hommes. L'introduction des termes d'hétérogénéité non observée améliore l'adéquation des modèles'''. Dans le cas des jeunes sans diplôme. cela modifie les effets des passages préalables par des mesures et. par exemple. augmente ces effets sur les transitions du chômage vers les emplois à durée déterminée ou indéterminée, mais diminue ceux affectant le taux de réentrée en mesure. Cependant, dans le cas des diplômés de CAP ou de BEP. la prise en compte des termes d'hétérogénéité non observée ne modifie pas beaucoup les estimations de ces effets. Tous les commentaires suivants sont donc basés sur le modèle avec hétérogénéité non observée.

En ce qui concerne les jeunes hommes sans diplôme. un passage préalable par un contrat d'apprentissage, de qualification ou d'adaptation élève l'intensité de transition vers les emplois stables (CD1) à l'issue de

Tableau 5 (suite) : intensités de transition à partir des contrats à durée indéterminée

Jeunes hommes sans diplôme (N = 673) Jeunes hommes avec CAP ou BEP ( N = 405)

Variables Modèle avec mtensmés constantes Modèle avec intensztes constantes

sans hétérogénéité hétérogénéité sans héterogentue avec hétérogénéité

Constante - 1.990 10.077) - 3,070 (0.079) - 3.380 10.1171 - 3.321 (0.085)

--) CDI C - srvr - 0-377 10.1191 - 0.468 10.1191 - 0.831 (1.089) - 0.822 11.0951

Shunta° prenable : - Autres emplois PEP 0.311 10.1141 0.262 10,114) 0.833 10223) 0.845 10-2011

- CDD 0.169 10.1051 0,382 10.105) - 0.419 (0.439) - 0.381 10.4091

Consume - 3,326 10.0941 - 3.579 10.1001 - 4.344 10.086) - 3.709 t 0.224 t

CDI --■ CDD Situation

prenable - - PEP - 1.340 (0.1201 - 1.198 10.120) .

-CDD - 1.558 10.119) - 2.368 (0.1191 0.383 (0.129) - 0_573 10.147)

• Constante - 4.630 10.105) - 4.792 10.1061 - 4,649 (0373) - 4356 10,4611

CDI --, PEP ; - PEP 0.67910.1181 0.416 (0.1181 Situation

; prealable : -CDD - 0.921 10.865) - 1.01111.0781

CDI -.-. I Constante - 6,043 (0,118) - 6.116 10,1181 - 5.397 103471 - 5.289 (0257)

CDI -. A Constante - 4.43410.1041 - 4,316 10.1031 a

L'impact des dispositifs d'emploi 127

Page 131: actes des journées de méthodologie statistique

Tableau 5 (fini : intensités de transition à partir des états CDD, PEP et I

Jeunes hommes sans diplôme IN = 6731 Jeunes hommes avec CAP ou BEP IN= 4051

Modèle avec tntensnes constantes

sans hétérogénéité avec hélé-ro-genette

Modèleavcc mtensites consumes

sans hétérogénéité avec hétérogenéne Vanables

Consume - 1_566 10.064) - 1.555 10.0661 - 1.88010.0821 - 1.366 (0.081)

CDD -. C - PEP - 0,960 10.1171 - 1.064 10.1171 - 1.452 10-2951 - 1.427 10.215)

Sn-nation prealable

-CDI - 0.663 10.1081 - 0.597 10.1081 - 0.366 102/2, - 0.7 -5,c):::•.,

Constante - 2.435 (0 084) - 1390 (0,081 ■ - 2.548 10.1051 - 2_439 10.1401

CDD --• CDI - PEP - 1.189 10.1201 - 0.957 10,120) - 0.091 10.39h, U.256 14.276 ,

Slruacron pl...table

- CDI - 0.641 10.1151 - 0.800 (0.115) 0.20610.3611 0.07)1 ILL) I.

Constante - 4.896 10.113 - 4.918 10.113) - 4.062 10.2.331 - 4.099 10.2051 _

CDD --■ PEP Slruauon prcalable - PEP 1,968 10,1191 1.690 (0,1191 1.135 10.3471 1.070 1'0520)

CDD -) I Constante - 4.974 10.116) - 4.967 10.1161 - 4.635 (0.218) - 4.707 (0.082)

CDD -. A Constante - 4321 10.113) - 4_516 10.113)

PEP -. C Constante - 2-43610.0721 - 2_724 (0.084) - 2334 10.130) - 2.550 10.1611

PEP -. CDI Constante - 3.419 10.094) - 2_99010.0981 - 3.039 10,035) - 3_391 10.2151

PEP -. CDD Consume - 4357 (MOS) - 3.742 10,110) - 3.955 102221 - 4.076 10.4151

PEP -.) I Constante - 4.945 10.114) - 5.351910.1151 - 4.292 101891 - 4143 (0218)

PEP -, A Constante - 4.157 10.1061 - 4.606 10.109)

I C Constante - 2.940 10.097) - 3.170 (0,0991 - 3.056 (0.1311 - 3.068 10.138)

1 -. CDI Constante - 4,995 10.1181 - 4.67810,1181 - 4.503 10.3501 - 4314 103661

I CDD Consume - 5.218 10.118) -4,79310.1191 - 4.790 10.7031 - 5.027 (0.3331

I PEP Constante - 4.325 10.115) - 5.177 10.116) - 4.490 10.4181 - 4.766 10,4901

1 A Constante - 4.312 10.1171 - 5.174 10,1171

0,29110.053) 0.049 )0.1:5/

- 0.59610.037) 06.94 /t/...r LI

- 1.063 10.0901 - 132010.43x9

0.715 10.086) - 0.122010.310)

0,40410.09/1 - 0.197 10,474;

0.435 i 0 1

b - 9443.805 _9416.433 - 5294,T7 - 5265.0

,-,^ ,-- . Ave- . t - Dans k tableau 5. les nombres entre parenthèses sent les ecarts types les car-a:rets gras tncl)quent un nt seau de sitzrufh.--tovor de 5 %. les carrieres talions un niveau de 10 %

1 2 8 In.s&• i;31 , /es y:" 5;1-.57-.58

Page 132: actes des journées de méthodologie statistique

la période de chômage qui suit, alors que le passage préalable par un SIVP (respectivement par un TUC) augmente l'intensité de transition du chômage vers les CDD (respectivement vers les emplois aidés). En un sens, ce résultat donne un premier critère de classement pour les différentes mesures. Cela peut s'expliquer par la dimension formatrice plus importante des contrats d'apprentissage, de qualification et d'adaptation. généralement attribués à des jeunes plus expérimentés. Dans le cas des diplômés d'un CAP ou d'un BEP. ces contrats semblent n'avoir aucun effet particulier sur les transitions à partir du chômage. alors que le passage préalable par un TUC diminue (respectivement augmente) l'intensité de transition du chômage vers les CDI (respectivement vers les emplois aidés). De façon claire, quel que soit le niveau de formation, les TUC sont les mesures publiques ayant l'impact le plus faible sur la sortie du chômage.

Un autre résultat est particulièrement intéressant : lorsque les jeunes chômeurs sans diplôme perçoivent encore des droits à l'allocation chômage. ils transitent plus Intensément du chômage vers les CDI et même vers les emplois aidés. Ce dernier résultat peut être dû à un effet incitatif résultant de la législation sur les droits à l'allocation chômage (AC). Plus précisément. si avant son entrée en emploi aidé le jeune bénéficie de cette allocation, le versement de l'allocation chômage est interrompu pendant cet emploi et reprend si le jeune se réinscrit à l'ANPE au terme du passage en mesure. A l'opposé. lorsque le jeune chômeur ne reçoit plus d'allocation chômage, son intensité de transition du chômage vers les emplois temporaires (CDD) augmente. Cela est un résultat intéressant, qui peut être expliqué par un changement dans le comportement de recherche des

travailleurs avant un faible niveau de formation, au cours de leur période de chômage : ayant épuisé leurs droits à l'allocation chômage, ils sont prêts à accepter des emplois temporaires. qui sont plus fréquents. mais souvent associés à des salaires plus faibles. Cependant. les droits à l'allocation chômage ne semblent avoir aucun effet significatif sur les transitions à partir. du chômage dans le cas des jeunes diplômés d'un CAP ou d'un BEP. cc qui peut s'expliquer par la faible taille de ce sous-échantillon.

Si nous considérons les transitions à partir des CDI. nous observons que le passage prealable par certains types de mesure (TUC. autres stages) est associe à une Intensité de transition vers le chômage plus élevée que ne l'est le passage préalable par des contrats de formation en alternance (SIVP. contrats de qualification, d'apprentissage et d'adaptation t. Ce résultat peut s'expliquer par le fait que les contrats de qualification sont plus fréquemment utilisés par des grandes entreprises et plus souvent transformés en contrats à durée indéterminée à leur terme. Parallèlement, un jeune travailleur qui a suivi précédemment une mesure. quelle que soit sa catégorie. passe d'un CDI à un CDD de façon moins intensive (i.e. moins fréquent) qu'un travailleur auparavant en chômage.

Finalement, notons l'existence d'effets de récurrence : le passage préalable par une mesure augmente l'intensité de transition d'un CDD vers un autre emploi aidé. Il pourrait être interessant de savoir si ces transitions sont frequemment réalisees au sein de la même entreprise . malheureusement. l'ensemble de données ne contient pas de telles informations.

Tableaux 6 : probabilité de transition à partir du chômage selon l'état précédemment occupé (en %)

Jeunes hommes sans diplôme

État pancôdent Prenuere

entrée TUC Autres PEP S1VP CDD CQ. CA. App CDI

Darce potenuelle d'éligibilité tes moisi 0 0 3 8 3 8 3 8 8 14 8 14

.. CDI 12.9 9.8 15.9 29.7 14.6 19.9 15.8 21.2 36.5 37.6 43.5 45.2

Probabilité de transition Ven.. • •• CDD 69,2 71,9 57.8 44,9 57.6 55.8 60.8 54.8 38.3 34.5 33,4 29.1

... PEP 1 2.0 14.0 17.3 16.6 19.3 17.4 14,4 14.6 18.2 20.2 13.2 14,7

- Probab..1ite d'une durer au chômage supericure a un an 22.8 14.9 23.8 2 1.8 10.3 9.7 15 4 14,9 11,0 9.8 22.5 20.5

Jeunes baumes avec un CAP ou un BEP

État précédent Pre en

mière trée TUC Autres PEP SiVP CDD CQ. CA. App CDI

Dusse potenuelic d'éligibilité t cri mass 0 0 3 8 3 8 3 8 8 14 8 14

... CDI 15.9 3.9 10.1 12.1 17.6 21.1 24.7 28.1 21.4 24.0 25.8 28.0 Probabilité de

trunstuon vers... ... CDD 41.4 17.1 53.1 54.8 33A 34.7 52.1 52.7 21.5 213 50.3 50.7

30.7 703 30.1 28.1 42,6 39.6 14.2 12.7 43.7 42_5 15.7 14.7

Probabilité d'une durer au chômage supeneure a un an 16.8 7.0 9.6 8.9 7.7 7.0 13.7 11.3 29.0 28.8 15 .7 14.1

L'impact des dispositifs d'emploi

129

Page 133: actes des journées de méthodologie statistique

Quelques indicateurs utiles

L'encadré 3 présente les définitions de quelques indicateurs t probabilités conditionnelles. corrélations) dont les résultats des calculs sont ici présentés.

Le tableau 6 montre que la probabilité de devenir chômeur de longue durée et la probabilité des différentes issues au chômage varient de façon significative avec les types de mesures préalablement suivies. Par exemple. pour les jeunes hommes sans diplôme. la probabilité de devenir chômeur de longue duree est deux fois moins importante pour ceux qui sont passes précédemment par des formations en alternance que pour ceux qui etment employés auparavant dans des stages pour les lb-25 ans ou qui effectuent leur première entrée sur le marché du travail. L'efficacité des contrats d'apprentissage. de qualification ou d'adaptation est renforcée par le fait que. pour des jeunes chômeurs ayant un faible niveau de formation. la probabilité d'accéder à un emploi reguber t a duree indelerminée i à la fin de leur période de chômage est plus élevée lorsqu'ils etaient préalablement employés dans ce type de formation en alternance : à l'opposé. cette probabilité est particulièrement faible lors d'une première entrée sur le marché du travail ou pour ceux qui étaient préalablement en TUC. Toutefois. la probabilité de transition du chômage vers un nouvel emploi aidé n'est pas tellement modifiée par le type de mesure préalablement suivie.

Ces résultats ne sont pas vérifiés de façon identique pour les détenteurs d'un CAP ou d'un BEP. Une fois encore. les contrats d'apprentissage. de qualification et d'adaptation sont associés à une probabilité plus élevee d'obtenir un emploi régulier (sous un contrat à durée indéterminée ) à la fin de la période de chômage suivante : a l'opposé. le passage par un TUC semble fortement diminuer la probabilité d'obtenir directement un emploi de ce type. En fan. cette probabilite est plus grande pour un jeune homme entrant sur le marché du travail pour la première fois. Cependant. ce résultat doit être contrebalancé par le tait que le passage préalable par un TUC est associe a une probabilité plus faible d'être chômeur de longue duree (ou de façon équivalente. à une durée moyenne de chômage plus faible) : dans le cas des jeunes diplômes d'un CAP au moins. les TUC entrainent une mohilite plus élevée. taisant alterner des périodes courtes de chômage et des emplois aides. Ce résultat peut être etendu aux mesures caractérisées par de faibles dimensions formatrices. à savoir les stages d'initiation a la vie professionnelle (SIN/Pi et les stages pour les 16-18 et 18-25 ans. egalement associées à des périodes de chômage courtes se terminant fréquemment par un nouvel emploi aidé.

De plus. notons que les jeunes diplômés d'un CAP ou d'un BEP obtiennent un emploi aidé plus fréquemment que les Jeunes travailleurs moins diplômés à la fin de leur période de chômage. s'ils

130

entrent pour la premiere fois sur le marche du travail ou s'ils etaient auparavant en emploi aide, Ainsi. il est clair que 1 'entree en mesures est fortement sélective : lorsqu'ils operent une sélection parmi les candidats. les employeurs t du secteur public ou privé) préfèrent retenir les individus les plus formes. Cependant. lorsqu'ils oni été employes auparavant dans un emploi plus regulter t sous un contrat à duree indéterminée ou deternnnée). les chômeurs les moins forme. .sont moins soumis à ce processus de sélection : leur chance d'obtenir un empli)) aide est la même que celle des détenteurs d'un CAP ou d'un BEP

La prohahiliie de devenir chômeur de longue duree n'augmente pas avec la duree des droits a l'allocation de chômage néanmoins, l'allongement 'de cette durée augmente la probabilité d'obtenir un contrat a duree indeterminee à la fin de la penode de chômage. en particulier pour les jeunes hommes sans diplôme precedemment employés en SIVP. en stages 16-18 ans et 18-25 ans (autres PEP) ou dans des emplois temporaires sous un contrai à durer détermines

Le tableau 7 contient les estimations des prohabilites de transition des emplois réguliers t sous contrats :1 durée indéterminée) vers les autres états. selon les états précédant les emplois CD1 actuellement occupés. En premier lieu. remarquons que la probabilité de transition vers le chômage est plus élevée pour les jeunes auparavant employés dans des mesures avec une faible dimension formatrice (TUC. stages 16-25 ans) que pour ceux précédemment employes dans des mesures comprenant des penocles de formation en alternance (SIVP. CA , CQ. apprentissage). Dans le cas des jeunes hommes sans diplôme. le passage préalable par un emploi aidé augmente légèrement la probabilité de transiter d'un emploi sur CDI vers un autre emploi aidé. Pour les individus avec un niveau de formation plus élevé (CAP ou BEP). cette probabilité est deux lois plus élevée pour ceux qui étaient precédemment employés dans une mesure avec des penodes de formation en alternance ( S1VP et contrats )que pour ceux employés dans les autres mesures ts compris les TUC Mais. dans l'ensemble, la durée moyenne d'un CDI tou de faron équivalente. la probabilité que sa duree soit supeneure à un an) est plus élevée lorsque cet emploi est précédé par une formation en alternance plutôt que par une penode de chômage ou un TUC. En particulier. dans le cas des jeunes diplômes d'un CAP ou d'un BEP. les TUC sont suivis par des emplois sur CDI d'une durée plus courte. Par conséquent. pour cette catégorie de jeunes travailleurs. qui ne sont pas les moins diplômés. les TUC sont de façon evidente la mesure la moins efficace ils sont associes a une probabilité très faible d'obtenir un emploi stable à la lin d'une période de chômage et à une tres forte probabilité de reentrer en chômage une fois embauché en CD1.

Considérons maintenant les estimations des coefficients de corrélation entre les termes

Insee Méthodes n°56-57-58

Page 134: actes des journées de méthodologie statistique

Tableau 7 : probabilité de transition à partir des emplois sur CDI ien% I

- --_ ______. État suivant le CDI

Etat precécient --

---

C -i- I CDD SIVP . contrat. Auuts suges + TUC

San] diplôme 44.7 69.7 3.4.7 58.4 C

CAP 45.3 49.4 28 - 62»

Sans diplôme 33.0 5.0 37.9 13.5 CDD

CAP 35.1 33.' 45.1 25,6

Sans diplôme 9.9 9.6 12.5 14.0 PEP

CAP 12.4 '.3 1 -.5

d une darceProbabillei Urtt cn CDI supcncure a un an

Sans diplôme 26.0 30.9 32.6 28.2

CAP 35.4 50 9 45 4 I ., -

Tableau 8 : matrice de corrélation pour les termes d'hétérogénéité non observée

jeunes hommes sans cElalômei

C CDI CDD PEP I A

C I - 0.8202 - 0.6183 0.9524 0.996- - 0.8763

CDI I 0.9354 - 0.6501 - 0.7782 0.9930

CDD 1 - 0.4502 - 0.5728 0.6808

PEP I 0.9736 - 0.'7 169

1 I - U.8386

A I

d'hétérogénéité non observée affectant les intensités de transition. Le tableau 8 montre que. pour le sous-échantillon des jeunes sans diplôme. les termes aléatoires concernant les transitions vers les CDI et les CDD sont positivement corrélés, ainsi que le sont les termes aléatoires des transitions vers le chômage et les emplois aidés. Mais le terme aléatoire correspondant aux transitions vers les CDI est corrélé négativement avec celui affectant les transitions vers les emplois aidés. Cela implique que. toutes choses égales par ailleurs. un jeune sans diplôme employable en CDI. de par la valeur élevée de sa composante d'hétérogénéité non observée, est moins soumis au risque d'une entrée en chômage ou moins enclin à

accepter un emploi aidé. Cela confirme que le processus de sélection à l'entrée dans les mesures dépend de façon importante de l'hétérogénéité individuelle non observée. Cependant. ces résultais ne peuvent être vérifiés pour les détenteurs d'un CAP ou d'un BEP pour ce sous-échantillon, seuls les

paramètres a, associés aux termes aléatoires

affectant les transitions vers les CDI et les CDD sont significatifs, ce qui implique que. toutes choses égales par ailleurs, un jeune travailleur qui est plus employable sous un contrat à durée tndétermtnee se dirigera moins probablement vers un emploi temporaire en CDD.

Pour les jeunes travailleurs sans diplôme, le signe et la valeur des coefficients de corrélation entre les termes aléatoires concernant les transitions vers l'état

L'impact des dispositifs d'emploi

d'attrition et vers les CDI montrent que le processus de sortie du panel n'est pas exogène. mais dépend vraisemblablement des mobilités résidentielles associées à des embauches sous contrat a durée indéterminée (ou sous contrat à durée déterminée). Malheureusement. à cause de leur fréquence moindre, les transitions vers l'attrition doivent être traitées comme des observations censurées à droite dans le cas des détenteurs d'un CAP ou d'un BEP.

Finalement. le tableau de l'annexe 2 illustre l'importance des biais provoqués par l'omission des termes d'hétérogénéité non observée et par le schéma d'échantillonnage. Pour cela, nous comparons. dans le cas des diplômés d'un CAP ou d'un BEP. les estimations des probabilues de sortie du chômage et de chômage de longue durée produites par trois modèles à intensité de hase constante.

(1 ) Le modèle prenant en compte les termes d'hétérogénéité non observée et corrigé du biais d'échantillonnage dans le stock.

(2) Le modèle omettant les termes d'hétérogénéité non observée et corrigé du biais d'échantillonnage dans le stock.

13 Le modèle sans hétérogénéité non observée et sans correction du biais d'échantillonnage. De façon évidente, le dernier modèle surestime les probabilités de devenir chômeur de longue durée, alors que le second sous-estime les probabilités de sortie du chômage.

131

Page 135: actes des journées de méthodologie statistique

Résumé et conclusions

Cet article était consacré à l'impact des dispositifs d'emploi mis en place durant les années 1980 sur le devenir de court terme des jeunes chômeurs bénéficiaires. Notre étude, utilisant des données individuelles longitudinales, s'est attachée en particulier au traitement des biais statistiques spécifiques à cette catégorie de problèmes : le biais de sélection à l'entrée dans les mesures et résultant en particulier de l'hétérogénéité individuelle non observée. le biais impliqué par le schéma d'échantillonnage endogène. et le biais d'attrition.

Les estimations mettent en évidence les résultats suivants.

— Selon leur contenu en formation, les divers types de mesures ont des effets différents sur les trajectoires des bénéficiaires : par exemple. le passage par des mesures comprenant des périodes de formation en alternance. tels les contrats de qualification ou d'adaptation. et les SIVP. augmente la probabilité d'accéder à un emploi stable à la fin de la période suivante de chômage. par rapport aux mesures ayant des dimensions formatrices moins affirmées (tels les TUC et les stages 16-18 ou 18-25 ans). Ce résultat apparaît moins clairement pour les jeunes hommes sans diplôme : cependant. les mesures avec les plus faibles contenus en formation ne correspondent pas aux périodes de chômage subséquentes les plus longues : par exemple, dans le cas des diplômés d'un CAP ou BEP. les passages préalables par des TUC sont associés à la durée de chômage moyenne la plus faible. mais aussi à la probabilité la plus élevée de retourner en emploi aidé : parallèlement. un CDI précédé d•un emploi aidé avec des périodes de formation en alternance a une durée moyenne plus élevée qu'un CDI suivant un TUC ou un autre stage public : de plus. il finit moins fréquemment par une transition vers le chômage.

— L'entrée dans les emplois aidés est fortement sélective : elle dépend en premier lieu de l'état actuellement occupe (remarquons. par exemple. que pour les jeunes diplômés d'un CAP ou d'un BEP. les transitions vers les emplois aidés s'effectuent de façon plus intensive à partir du chômage qu'à partir des CDI) : elle dépend aussi du niveau de formation initiale des jeunes travailleurs (les moins formés se dirigent de façon moins intensive du chômage vers les emplois aidés) : finalement, la sélection dépend des passages préalables en mesures, mais aussi de l'hétérogénéité individuelle non observée notons que nous pouvons seulement déceler les. effets à l'ordre 1 des passages en mesures : par conséquent. les emplois aidés ont un impact à très court terme sur les trajectoires individuelles.

132

— La duree potentielle des droits à l'allocation chômage t AC J n'augmente pas la durée moyenne des périodes de chômage : cependant. elle augmente la probabilité d'obtenir immédiatement un CDI à la fin de la période de chômage lorqu'ils bénéficient encore de l'allocation chômage. les travailleurs les moins diplômés se dingeht de façon plus intensive vers les emplois aidés cela peut être dû à l'effet Incitatif résultant de la législation sur l'allocation chômage.

Bien sûr beaucoup d'autres questions relatives a ce suie( pourraient être abordees. En particulier. il est possible d•anal■,ser les effets des ex.onerations des cotisations sociales en tant yu incitationspour les firmes à embaucher de Jeunes travailleurs dans des formations en alternance. Il est possible tr essayer de voir si ces firmes substituent ces emplois a d'autres plus réguliers. Ces questions semblent sortir du champ de cette première étude. essentiellement parce qu'elles nécessitent l'observation d•inlormations non disponibles dans les données unlisees ici

lnsee Méthodes n°56-57-58

Page 136: actes des journées de méthodologie statistique

Notes

(I) Les articles de Lalonde (1986). Fraker et Maynard (1987). Woodbury et Spiegelman (1987), Heckrnan et Hoa (1989) et l'ouvrage édité par Manski et Garfinkel (1991) constituent les principales contributions récentes à ce débat. Précisons que les données expérimentales sont généralement fournies par des expérimentations de programmes de formation dont le principe est le suivant : les participants sont choisis au hasard au sein d'une population de caractéristiques prédéfinies. et ensuite affectés. une nouvelle fois de manière aléatoire. soit à un groupe dit "de traitement" recevant la formation, soit à un groupe dit "de contrôle" qui n'en bénéficie pas.

(2) Nous proposons de retenir le terme utilisé dans la langue anglaise.

(3) Pour une presentation generale du traitement économetnque des données de transition. voir par exemple le livre de Lancaster (1990). ou les récentes synthèses de Florens et Fougère (1992). Fougère et Kamionka (19926), ou Florens. Fougère. Kamionka et Mouchait (1994).

14) C'est une hypothèse forte le( probablement irréaliste). qui mériterait d'être relâchée dans une étude complémentaire. Remarquons cependant que Fougère et Kamionka I I 992a) ont mis en évidence la relative stationnarité des intensités de transition sur le marché du travail au cours de la période 1986-1988 en France. Pour l'incorporation des effets saisonniers et de ceux du cycle conjoncturel dans les modèles de durée ou de transition. voir De Toldi. Gouriéroux et Monfon (1992) ou lmbens et Lynch (1992).

(5) Clairement, cette spécification permet aux vanables explicatives non observées d'être mutuellement dépendantes. Cependant. cette dépendance est trop restrictive, car la

corrélation entre log v 1 , et log v (k a k t peut seulement

être égale à O. I ou - I, selon que a j o k .= 0 > 0

ou o < 0 . Une façon de produire une dépendance plus

flexible est de supposer que les composantes v i ont une

distribution discrète multivanée avec un nombre fini de points de support (voir Lindeboom et Van den Berg (1991) ou van den Berg. Lindeboom et Ridder (1991) pour des détails) : une telle hypothèse semble être relativement maniable dans une structure de modèle bivarié de duree, mais devient coûteuse en calcul pour un modèle de transition avec six états.

(6) Les articles de Chesher et Lancaster (1981. 1983), Ridder (1984), Van den Berg. Lindeboom et Ridder (1991) et Gouneroux et Montan (1992) sont consacrés à l'analyse de biais similaires dans le contexte de modèles de durée de chômage.

(7) Un test des rapports de vraisemblance entraine un rejet du modèle sans hétérogénéité non observée.

L'impact des dispositifs d'emploi

Bibliographie

Aairen 0. 0. H9781. °Non-Parametric lnference for a Family of Counting Processes". The Armais of Statistics, vol. 6. n°6, pp. 701-726.

Aalen 0.0.1198/1. °Mixing Distribution on a Markov Scandinavian Journal of Statistics. vol. 14. pp. 281-289.

Andersen Borgan O. (1985). °Counting Process Models for Life History Data: a Revtew (with Discussion)°. Scandinavum Journal of SIGUISIICJ. vol. 12. pp. 97-158

Ashenfelter 0.. Card D. (1985). 'Using the Longitudinal Structure of Eamings to Estimate the Effect of Training Prograrns'. The Review o) fermantes and SIDIMICS, vol. 67. pp. 648-660.

Aucouturier A.L. 119931. °Contribution à la mesure de l'efficacité de la politique de l'emploi'. Travail et Emploi. n°55/1. pp. 20-29

Basci L. (19831. 'The Effect of CETA on the Post-Program Eamings of Participants", The Journal of Humai Resources. vol. 18. pp. 539-556.

Cases C.. Lollivier S. (1992). 'Estimation de la durée du chômage en France en 1986". document de travail. Crest. n°9309. Insee. Pans.

Card D., Sullivan D. (1988). "Measuring the Effect of Subsidned Training Programs on Movements in and out of Employment°. Econornenc-a. vol. 56. pp. 497-530.

Dauty F.. Ourtau M. (1993). °Contrats de qualification. contrats d'apprentissage : un bilan rapide de la coexistence des deux formules". note. Cejee. n°146. université de Toulouse.

De Toldi M.. Gouriéroux C.. Monfort A. (1992). 'On Seasonal Effects in Duration Models. with Application to Prepayments*. Working Paper. Crest. n°9216. Insee. Pans.

Dubin Rivers D. (19931. °Experimental Estimates of the Impact of Wage Subsidies". Journal of Econometrics. vol. 56, pp. 219-242.

Dossiers statistiques du Travail et de l'Emploi, n°34-35 (octobre 1987). n°43-44 (octobre 1988). n°51 (août 1989). n`62 (septembre 19901. Pans, ministère du travail, de l'emploi et de la formation professionnelle

Flinn C.J- Heckman JJ. (1982). °Models for the Analysis of Labor Force Dynamics". in Advances in Econometncs, vol. 1. R. Basmann and G. Rhodes cils. Greenwich. Conn.: JAI Press. pp. 35-95.

Flinn C.J, Hecianan JJ. (1983). 'The likelihood Funcuon of the Multivanate-Multlepisode Moder. in Advances in Economeincs. vol. II. R. Basmann and G. Rhodes eds, Greenwich. Conn.: JAI Press. pp. 225-231.

Florens J.P., Fougère D. (1992). 'Point PrOCeSSeS., in The Econometncs of Panel Data. Handbook of Theorv and Applications. L. Mâtyas and P. Sevestre eds. Kluwer Academic Press. pp. 316-352.

Florens J.P., Fougère D., Kamionka T., Mouehart M. (19941. "La modélisation économétrique des transitions individuelles sur le marché du travail°, Econotme et Prévision, à paraître.

133

Page 137: actes des journées de méthodologie statistique

Fougère D.. Kamionka T. (1992a1. °Un modèle markovien du marché du travail'. Annales 'Econornte et de Statistique. n°27, pp. 149-188.

Fougère D., Kanitionka T. (1992b). °Mobilité et précarisation sur le marché français du travail : une analyse longitudinale pour les années 1986 à 1988', Économie et Prévision, n°102-103. pp. 157-178.

Fougère D.,Kainionka T. (1992b). "individuel Labour Market Transitions". in The Economemcs of Panel Data. Handbook of Theory and Applications, L. Maryas and P. Sevestre eds. &lu wer Academie Press. pp. 470-508.

Fraker T., Maynard R. (198'7). "The Adequacy of Comparison Groups Designs for Evaluauons Y:ith Employment-Related Programs". The Journal of Human Resources, vol. 22. pp. 194-227.

Gouriéroux C., Monfort A.119921. °Modèles de durée et effets de génération'. document de travail, Crest n°9125, bue, Pans.

Grisa R.M. 119931. "11e Impact of Training on the Frequency and Duration of Employment'. Journal of Econometrics. vol. 57, pp. 21-51.

Ileum T., Lalonde R. (1990). "Using Social Experiments tri Estimate the Effect of Training on Transition Rates". in Panel Data and Labor Market Studies, J. Hartog. Ridder G. and J. Theeuves eds, Amsterdam. North-Holland, pp. 157-172.

Ham T., Lalonde R. (1991). "Estimaung the Effect of Training on the Incidence and Duration of Unemployment: Evidence on Disadvantaged Women from Expenmemal Data'. Working Paper. n°3912, NBER.

Heckman J.J. (19901. "Alternative Approaches to the Evaluation of Social Programs: Econometric and Expenmental Methods°, 6th World Congress of the Econometric Society. Barcelona. Spain.

Heckman J.. Hotu J. (19891. 'Choosing among Alternative Non-Expenmental Methods for Esumaung the Impact of Social Programs: the Case of Manpower Training". Journal of the Arnencan Stans:Ica! Association. vol. 84. pp. 862-874.

lmbens G.W.., Lynch L. (19921. "Labour Market Transitions over the Business Cycle'. Working Paper. Harvard University.

Liaisons Sociales, °insertion professionnelle des jeunes-Les stages-Les contrats", juillet 1990. n°10746.

Liaisons Sociales, "Aide à l'embauche-Structures favorisant l'emploi'. juin 1990. n°10726.

Liaisons Sociales, "Le contrat d'apprentissage-La taxe d' apprenussage'. juin 1993.n°11469.

Lalonde R. (1986). *Evaluaring the Economemc Evaluauons of Training Programs with Expenmental Data'. 71e Amencan Economic Review. vol. 76, pp. 604-620.

Lancaster T. (1990). The Econometric Analysis of Transition Data. Econometric Society Monographs, Cambridge University Press, New-York.

Lindeboom M., Van den Berg G-1 (19911. 'Hetèregenctry tri Bivariate Duration Models: the Importance of the Mixing Distribution", Research Mernorandurn, Leiden University.

Manski C.F.., Garfbakel L (1991). Evaluating Welfare aria Training Programs, Manski C.F. and 1. Garfinkel, eds. Cambridge, Harvard University Press.

Ridder G. (19841. °The Distribution of Single-Spell Duration Data', in Studies in Labor Market Analvsis • G.R. Neumann and N. Vv'estergard-Nielsen eds.. Spnnger Verlag. Berlin.

Ridder G. (19861. °An Evcnt History Approach to the Evaluation of Training. Recrutement and Employment Programs°. Journal of Applied Econometncs, vol. 1. n°2. pp. 109-126.

Ridder G. (1990). "The Non-Parametnc Identification of Generaltzed Accelerated Failure Tune Models'. The Revu.. of Economic Srudies, vol. 57. pp. 167-182_

Van den Berg Lindeboom M., Ridder G. 119911. 'Attrition in Longitudinal Panel Data. and the Empincal Analysa of Dynarruc Labour Market Behaviour'. Research Memorancium. n'427. Groningen Universih

Woodbury S.A., Spiegelman R.G. (1987), Bonuses to Workers and Employers to Reduce Unemployment Randomrzed Trials in Illinois". The Amencan Economic Review, vol. 77, pp. 513-530.

134 Insee Méthodes n556-57-58

Page 138: actes des journées de méthodologie statistique

Annexe 1 : nombre de transitions individuelles effectuées sur la période d'observation

Nombre de transitions

0 1 2 3 4 5 6 7 8 9 10 I 1 Total Niveau de formation

Sans diplôme 42 183 154 123 r2 49 30 8 7 3 0 2 673

(6.24) (33.431 156.31) (74.59) (85.29) (92.57) 197.011 (98.2) (9924) (99.691 (99.691 1100)

CAP ou BEP 14 104 96 62 58 33 21 9 3 3 I I 405

(3.46) (29.141 (52.84) (68,15) (82.471 (90.621 (95.81) (98.03) (98.77) (9931) (99.76) (180)

Biantalaureal 4 39 33 24 11 5 4 3 123

et plus 13251 (34.96) (61.79) 1813) (90.24) (94.31) (9736) (100)

Non-reponse 3 25 31 31 23 18 4 0 I (36

(121) 120.59) (43.381 (66.17) (83.08) (96.321 (9926) (99.26) ( 100 )

Total 63 351 314 240 164 105 59 20 11 6 I 3 1332

Notes . les nombres entre parendiese sont les fret:lunures =nuites

Annexe 2 : nombre de pes par les différents états au cours de la période sur la période d'observation

Nombre de passages 0 I 2 3 4 5 6

Sans diplôme 351 (52.1) 2_18(3241 83 (12.31 12(1.8) 8(1.2) 110.2)

ô Chmage Cap 219 (54,0) 117 (28.9) 51 (12.6) 15(3.7) I(03) 2(031

Bac 86 (69.9) 28 (22.8) 8(6.5) 1 )0.8)

Non-reponse 61 (44.8) 59 (43.4) 16111.81

Sans diplôme 431 (64.1) 163 (242) 58 18.6) 16(24) 5 10.7)

CDD Cap 228 (56.3) 99(244) 57(14,1) 1614.01 21051 3(0.71

Bac 85 (69.1) 26 (21.1) 9(73) 3(15)

Non-réponse 82 (60.3) 38 (27.9) 13 (96) 3 (2_2)

Sans diplôme 378 (562) 234 (34.81 50 (71) 9 113) 2 (0,3)

CDI Cap 173 (42,7) 187 (461) 37 (9.1) 7 (1.8) 1 (0.2)

Bac 38 (3091 68 (55.3) 16 (13.0) I (0.81

Non-réponse 67 (493) 51 (375) 17 112.51 1 (0.7)

Sans diplosnc 436 (64.81 190(282) 39(5.8) 8(1.2)

Cap 277 (68.41 104 (25.7) 23 (37) 1 (02) PEP

Bac 93 (75.6) 28(228) 2)1.6)

Non-reponse 66 (48.6) 54 (39.7) 14 (10,31 1(0.71 1 (0 7)

Sans diplôme 573 (85.11 98 (14.6) 2 (03)

Ist activite Cap 355 (87.6) 46 (11.4) 4 (1,01

Bac 102(829) 20(16.3) I (0.8)

Non-reponse 103 (75.7) 31 (22.81 2 (151

Sans diplôme 506 (752) 167 (24.8)

Cap 320 (79.01 85 (21.0) Attrition

Bac 89 (72.41 34 (27.6)

Non-réponse 118 (86.8) 18(132)

Abreviations pouf les tuyauta de farma= Cap (CAP ou BEP). Bac (Etarcalausent et plus) Les nombres entre parenthèses sont les &tenonnons relatives.

L'impact des dispositifs d'emploi 135

Page 139: actes des journées de méthodologie statistique

Annexe 3 : probabilités de transition à partir du chômage selon les états précédemment occupés (en pourcentage)

Jeunes dé meurs d'un CAP ou d'un BEP

État précédent R 'ère encrée TUC Autre PF_P S[VP CDD CQ, CAApp CDI

Dur potenuelle d'éligibilité t en mots)ots1 0 0 3 8 3 8 1 8 8 14 8 14

Probabilité de traredter vers

MI (11 15.9 3.9 10.1 12.1 17.6 21.1 24.7 28.1 21.4 24.0 25.8 28.0

(2) 11,4 3.9 13.7 18.7 18.9 24.9 18,7 25.1 20.7 24.4 34.4 39 .2

13) 11.2 3.6 14,7 19.7 18.8 24.5 18.7 25.1 20.8 24.1 34.3 39.1

CDD I 1 ) 41.4 17.1 53.1 54.8 33.4 34,7 52.1 52.7 213 22..3 50.3 50.7

(21 45.4 13.0 422 40.1 29.5 27.4 61.9 58.0 21.4 20.7 393 3?.2

(3) 44_5 11.7 39.9 37.8 26.8 24.9 62.5 58.7 19.2 18.6 39.7 37.4

PEP 111 30.7 70.3 30.1 28.1 42.8 39.6 142 12.7 43.7 42.5 15.7 14,7

(21 30.1 74.0 35.8 35.1 45.0 43.1 12.0 11.6 45.3 44.6 17.3 16.6

131 29.5 743 38.7 37.8 48.8 46' 11.4 11.0 50,0 49.2 17.2 16.6

Probabilité d'une durée au chômage supeneure a un an 11) 16.8 7,0 9.6 8.9 7,7 7.0 13,7 11.3 29.0 28.8 15.7 14,1

(21 14.6 6.4 10.7 12.0 6.8 7.2 8.6 9.4 29.1 30.4 18.7 18.4

(31 18.8 8.5 9.1 153 6.6 11.3 1 1.2 17,7 34.3 43_2 30.2 36,9

Notes (1) Modèle avec hétérogénéité non observée et congé du Man d'échantillonnage dans k stock (2) Modéle sans hétérogénéité non observée mais congé du biais d'échanullonnage dans k stock (3) Modéle sans héterogeneete non observée et sans correction du biais d'échanullonnage dans k stock

136 Insee Méthodes n°56-57-58

Page 140: actes des journées de méthodologie statistique

Session 4

Contrôle et qualité des données

Page 141: actes des journées de méthodologie statistique
Page 142: actes des journées de méthodologie statistique

PREMIÈRES RÉFLEXIONS ET ANALYSES SUR LES MÉTHODES

DE TRAITEMENT DES DONNÉES DANS LES ENQUÊTES

ANNUELLES D'ENTREPRISES Dominique BONNANS - Emmanuel RAULIN

Introduction

Les travaux présentés ci-dessous s'inscrivent dans le cadre du projet de 4e génération des Enquêtes Annuelles d'Entreprises (EAE) ; un des axes de ce projet est, en effet, de doter toutes les EAE d'un même logiciel de traitement des données, incluant les phases de contrôle-apurement (avec recontact éventuel de l'entreprise), redressement et extra-polation. Il faut rappeler que les EAE c'est environ 230 000 entreprises interrogées tous les ans, plus de 100 données par questionnaire traitées par à peu près 200 gestionnaires mobilisés pour cette seule opération. Bien entendu, le travail de contrôle-apurement des données, le recontact d'entreprises pour cause de données manquantes ou suspectes représente la tâche principale des gestionnaires, au moins quant au temps qui y est consacré.

D'autre part, depuis plus de 10 ans, de nombreuses réflexions ou évaluations sur les méthodes de traitement des données ont été engagées par de nombreux instituts de statistique, aux États-Unis, au Canada, en Suède ou en Australie par exemple. Un des points communs à ces divers travaux est l'attention portée au travail confié aux gestionnaires d'enquête dans cette phase de contrôle-apurement des données par rapport à celui pris en charge automatiquement par l'ordinateur (correction automa-tique de données suspectes, imputation pour cause de non-réponse partielle...). Plus précisément, les efforts déployés dans divers instituts de statistiques portent sur un ciblage plus grand des recontacts d'entreprises demandés (ou suggérés) aux gestion-naires, en quelque sorte pour une intervention plus sélective des gestionnaires sur les données manquantes ou suspectes.

Premières réflexions et analyses 1 39

Page 143: actes des journées de méthodologie statistique

De ce point de vue, les chaînes de traitement mises en place dans les EAE Commerce et Services (et particulièrement Commerce) ont depuis longtemps intégré la non-néces-sité de recontact systématique de l'entreprise en cas de non-réponse ou de donnée suspecte : les procédures de redressement automatique des données qui ont été déve-loppées permettent de résoudre correctement et automatiquement de nombreux cas. Il n'en reste pas moins, et c'est l'objet de la partie ci-dessous de montrer que des voies d'amélioration sensible apparaissent possibles, tant certaines modifications de don-nées opérées par les gestionnaires, apparaissent, in fine, de peu d'utilité. Ce qui apparaît alors fortement en cause, c'est l'absence de prise en compte de l'impact de l'erreur supposée (donnée suspecte) sur le résultat agrégé (par rapport au domaine d'étude envisagé).

La partie 2 explore alors une méthode de contrôle des données qui serait organisée autour d'une sélection plus grande des recontacts d'entreprise. Sur la base des données transmises par l'entreprise (questionnaire), comme de celles disponibles dans la base de sondage ou dans des enquêtes précédentes, une sélection des entreprises est faite, à l'aide d'une règle de décision ; cette sélection oriente vers les gestionnaires les entreprises pour lesquelles un recontact peut s'avérer nécessaire, les autres entreprises ne faisant l'objet de corrections qu'automatiques. Afin de se prémunir contre des corrections automatiques aberrantes, un contrôle final sur données agrégées permet de sélectionner en fin de traitement un lot supplémentaire d'entreprises réclamant une analyse spécifique de la part du gestionnaire.

Seuls quelques-uns des scénarios testés sont présentés dans ce rapport. Pour de plus amples détails, se réferrer aux rapports disponibles à la division H3E. En l'état actuel, ces travaux apparaissent encourageants sans, toutefois, autoriser immédiatement la mise en place d'une nouvelle architecture du contrôle des données.

C'est l'objet de la partie 3 de lister les points d'approfondissement nécessaires si l'on veut faire évoluer nos méthodes de traitement vers des méthodes garantissant une qualité de résultats comparable à celle d'aujourd'hui, avec des coûts moindres, autorisant alors des délais de publications plus courts. Les points d'approfondisse-ments encore nécessaires sont très importants et montrent clairement que le travail engagé n'en est qu'à une première phase.

* * *

Enfin, nous remercions Monsieur Hesse (Unité méthodologie de la Direction des Statistiques Économiques) pour les nombreuses et pertinentes remarques qu'il a faites sur l'ensemble de ce problème.

* * *

140 INSEE Méthodes n° 56-57-58

Page 144: actes des journées de méthodologie statistique

On utilise très souvent dans ce document deux expressions qu'il convient de bien préciser dès à présent.

A priori signifie en début de traitement, c'est-à-dire avant toute intervention du gestionnaire. On considère par exemple que les données disponibles a priori sont celles que l'on connaît par le fichier de lancement d'enquête ou par toute autre source extérieure, par le fichier de l'année précédente, par les résultats bruts transmis par l'entreprise, par les messages issus d'un éventuel contrôle automatique...

A posteriori signifie en fin de traitement, c'est-à-dire après le passage de la procédure de contrôle-redressement-extrapolation. Les données a posteriori sont les données définitives.

Tous les travaux qui suivent ont été réalisés à partir des données de l'Enquête Annuelle d'Entreprise dans le Commerce, essentiellement parce que c'est, aujourd'hui, l'EAE qui possède le plus d'informations sur le traitement subi par une donnée lors des phases de contrôle-redressement-extrapolation.

Les trois •études réalisées sur les méthodes de traitement (rapports disponibles à la Division H3E), se sont efforcées d'évaluer des procédures de contrôle plus sélectives, fondées sur une articulation entre un contrôle individuel exercé a priori sur certaines entreprises répondantes et un contrôle agrégé appliqué en fin de traitement. L'évalua-tion s'est heurtée à l'utilisation de certaines procédures actuelles, en particulier celle de redressement, qu'il a fallu 'forcer" pour l'adapter à nos simulations. La restriction à ce cadre particulier, qui préserve les procédures existantes, contribue à expliquer notre relative incapacité à valider à ce stade la méthode de contrôle proposée.

Premières réflexions et analyses 141

Page 145: actes des journées de méthodologie statistique

Examen du processus actuel de contrôle-apurement dans l'EAE Commerce

Le principe actuel du contrôle

Le contrôle actuel est un contrôle individuel. Une fois saisi, le questionnaire renvoyé par l'entreprise subit un premier contrôle, à l'issue duquel des messages précisent le type d'anomalies ou d'erreurs détectées. Une liste d'entreprises non valides est ainsi déterminée. Le gestionnaire peut alors intervenir directement sur les données et effec-tuer des mises à jour à l'écran.

Un code qualité (EQAA2) est attribué aux entreprises. Il définit le niveau de cohérence atteint par le questionnaire et il indique si une entreprise est ou non redressable, c'est à dire si les ultimes corrections de données jugées suspectes, ou renseignements de données manquantes peuvent être, sans risque trop grand, prises en charge par la procédure finale de redressement des données. Le code qualité tient compte de la taille de l'entreprise. Les unités redressables sont, en fin d'enquête, soumises à la phase d'imputation automatique. Celles qui n'atteignent pas un niveau d'apurement "suffi-sant" (au regard des seuils choisis par le responsable d'enquête) au moment de l'élaboration des résultats agrégés sont traitées comme des entreprises non répondantes.

Graphique 1

Cinématique du traitement actuel (contrôle des données, redressement des données, extrapolation des non-réponses totales)

Unités répondantes

w Contrôles des

données individuelles

Intervention gestionnaire obligatoire

2 Intervention gestionnaire possible mais non obligatoire

MB

Redressement des données RMB

Unités non répondantes

Extrapolation des non-réponses totales

En cours d'année _ _ _ _ En fin d'année Avec : B données brutes

MB données obtenues après intervention du gestionnaire RMB données définitives (où éventuellement MB = B =13MB pour les variables)

142 INSEE Méthodes n° 56-57-58

Page 146: actes des journées de méthodologie statistique

La répartition des unités entre 1 et 2 est principalement fonction du "verdict" du contrôle et de la taille de l'unité (contrôle de base pour toutes les entreprises, contrôle complé-mentaire pour les entreprises de plus de 50 salariés)

Il faut souligner ici que l'ensemble du contrôle est largement paramétrable dans le processus existant, c'est-à-dire que la plupart des tests peuvent être réglés, ainsi que la répartition des contrôles entre contrôle de base et complémentaire.

Si l'on s'interroge malgré tout sur les éventuelles failles du traitement actuel, c'est après avoir constaté a posteriori qu'un certain nombre d'interventions demandées aux gestionnaires se révélaient d'une faible efficacité au regard des résultats agrégés. C'est ce que l'on va développer au cours des paragraphes suivants.

On peut cependant dès à présent souligner deux traits de prudence du système actuel.

Tout d'abord, même si la taille de l'unité est prise en compte, dans le calcul du code qualité par exemple, l'effet d'impact potentiel sur le résultat agrégé n'est que partiellement intégré. En effet, le contrôle de base s'applique de la même manière à toutes les entreprises. Le système actuel ne fait pas de distinction entre les unités qui ont des messages "bloquants", c'est dire dont une ou plusieurs données sont en cause dans la non-vérification d'une règle du contrôle, cette règle faisant partie du groupe des règles incontournables.

Ensuite, le nombre de données suspectes n'intervient pas dans la sélection issue du contrôle des données brutes. Le code qualité n'indique pas parfaitement le degré d'incohérence du questionnaire.

On peut voir dans ces deux traits une faiblesse coûteuse à l'arrivée, dans la mesure où le gestionnaire est conduit à examiner de la même manière des unités pour lesquelles le caractère "suspect" est plus ou moins intense, ou plus ou moins susceptible d'influer sur le résultat agrégé.

Analyse des mises à jour effectuées par les gestionnaires

Une mise à jour est une intervention du gestionnaire, qui se traduit par une modification de la donnée brute issue du fichier de saisie.

Il faut souligner ici une limite importante à l'analyse effectuée, qui n'a pas examiné les interventions laissant inchangé un résultat qui aurait pu être modifié par les procédures de redressement, par la voie de la confirmation des anomalies l• Ce type d'intervention sera

(1) Une anomalie est le fait qu'un ratio sorte des limites autorisées. Le gestionnaire d'enquête peut, après examen confirmer la validité de ce ratio ou de modifier une des données en cause.

Premières réflexions et analyses 143

Page 147: actes des journées de méthodologie statistique

Situation Rémunéra- tions totales

Nb total d'heures ravaillées

Effectif total Chiffre

d'affaires net

Achat de marchan-

dises

Investis- sement

NM 81,3 73,0 78,1 83,3 76,4 49,9

NR 11.3 14,8 2,7 4,4 8,0 29,5

RG 6,2 9,8 12,3 8,6 10,0 13,0

MO 1,2 2,4 3,3 3,7 5,6 4,1

VE 0,6 0,1

CA 3.0 3,4

Total 100,0 100,0 100,0 100,0 100,0 100,0

NM : donnée non modifiée NR : donnée manquante (non réponse partielle) RG : donnée manquante puis renseignée MO : donnée modifiée VE : donnée totale non modifiée mais ventilation renseignée CA : donnée calculée (totalisation par exemple)

pris en compte par le contrôle alternatif présenté ultérieurement. Cette première phase de l'analyse s'est intéressée essentiellement à deux types de mise à jour : la modification d'une donnée brute est le renseignement d'une valeur manquante. Elle a en outre relevé un certain nombre d'opérations qui pourraient être évitées, comme par exemple celles de totalisation qui représentent encore en moyenne 3 (70 des interventions concernant l'effectif total ou l'investissement total, comme le prouve le tableau 1.

Tableau 1

Les entreprises répondantes de l'EAE Commerce selon leur situation après le contrôle-apurement effectué par les gestionnaires (avant les procédures de redressement automatique).

La proportion faible de modifications effectuées par les gestionnaires (code MO), est à mettre en regard du très grand nombre d'entreprises dont un examen par le gestionnaire est demandé (voir tableau 3 page 154). Ce phénomène illustre le grand nombre de cas où le gestionnaire confirme un ratio jugé anormal pour les règles présentes.

La valeur d'une modification est l'écart entre la donnée modifiée par le gestionnaire et la donnée brute. La valeur du renseignement d'une non-réponse partielle est l'écart entre la donnée renseignée par le gestionnaire et le résultat que fournirait un redresse-ment des données brutes (imputation automatique). La valeur totale des mises à jour est la somme des valeurs absolues des mises à jour.

L'évaluation du "rendement" des mises à jour s'est posée en termes de concentration et de vitesse de convergence.

144 INSEE Méthodes n° 56-57-58

Page 148: actes des journées de méthodologie statistique

4,

1/4 Intervalle de X% Résultat

initial

Seules les modifications ont permis d'établir des courbes de concentration, indiquant ce que x % de ce type de mise à jour représentait en pourcentage de la valeur totale des mises à jour. Les graphiques établis ont souligné le fort degré de concentration des modifications)

Graphique 2

Nombre total d'heures travaillées (6101)

Lecture : 5,8 % des modifications re-présentent 90,8 % du volume total de ces modifications (concentration des modifications en valeur absolue).

Cette forte concentration s'explique en partie par les erreurs de saisie (multiplication par 100 ou 1000 de la donnée du questionnaire). Conjuguée avec l'analyse de la convergence des modifications (cf graphique 3), ce résultat montre que peu de modifi-cations ont eu finalement un impact sur le résultat agrégé.

Graphique 3

Convergence vers le résultat définitif

NC = {entreprises non déterminantes par rapport à la variable}

% de la valeur totale des modifications

100 90 80 70 60 50 - 40 30 20 10 0 0 10 20 30 40 50 60 70 80 90 100

% d'entreprises modifiées

Résultat définitif

100% 20% 0%

Lecture : 20 % des interventions ma-nuelles sont suffisantes pour approcher le chiffre définitif à x % près

Proportion des mises à jour

(1) Cf. Projet EAE 4G "Réflexions sur les méthodes de traitement - lue étape", novembre 1992.

Premières réflexions et analyses 145

Page 149: actes des journées de méthodologie statistique

L'approche en terme de convergence permet de suivre l'élaboration du résultat agrégé obtenu après le contrôle-apurement effectué par les gestionnaires, consi-déré comme étant le "vrai" résultat, valeur de référence, à partir de la valeur agrégée initiale.

Les entreprises sont classées par ordre croissant de la valeur absolue des mises à jour. L'écart à la valeur finale est calculé pas à pas, en cumulant les valeurs algébriques des mises à jour de chaque entreprise, en partant de la plus petite mise à jour. Il est ainsi tenu compte des éventuelles compensations entre les corrections apportées. La courbe de convergence est obtenue en intégrant successivement les mises à jour effectuées par les gestionnaires.

Cette courbe permet de déterminer le nombre de mises à jour "non contributives", si l'on autorise une plage de variation de x % autour de la valeur finale.

L'analyse a été menée pour chacun des deux types de mise à jour.

Vitesse de convergence des modifications

Dans ce cas, le résultat initial inclut les données brutes ainsi que les valeurs manquantes renseignées par les gestionnaires. Les entreprises qui participent alors à l'élaboration effective du résultat définitif (par rapport au résultat initial) sont donc uniquement celles qui ont été modifiées.

Sur les huit variables étudiées (rémunérations, heures travaillées, effectif sala-rié, effectif en fin de premier trimestre, effectif cadre, chiffre d'affaires net, achat de marchandises et investissement), en moyenne seules 15 % environ des modifications manuelles opérées sur les données brutes (par retour à l'entre-prise), sont nécessaires pour approcher le résultat agrégé à 0,5 % près (cf. tableau 2). Ce qui signifie, par conséquent, que près de 85 % des modifications opérées par les gestionnaires ne sont que de faible intérêt quant à la précision du résultat.

L'examen des principales modifications montre que, dans la majorité des cas, il n'est pas permis de conclure à l'existence d'un biais systématique. Si l'on observe fréquemment que les corrections les plus importantes se font toutes dans le même sens (en général à la baisse), c'est en réalité imputable aux erreurs d'unité ou de saisie.

Les erreurs d'unité sont par exemple fréquentes pour les variables "rémunérations totales", "nombre total d'heures travaillées" et "chiffre d'affaires net", quel que soit le secteur étudié.

146 INSEE Méthodes n° 56-57-58

Page 150: actes des journées de méthodologie statistique

Tableau 2

Pourcentage de modifications effectuées à l'intérieur d'un intervalle de 0,5%

Variables 6101 6243 6411 58 62 64 61 + 62

Rémunérations totales

Nb total d'heures travaillées

Effectif total

Chiffre d'affaires net

Achat de marchandises

Investissement total

94,8

53,8

98,4

100,0

97,8

70,0

90,0

54,5

67,9

95,5

33,7

87,5

100,0

75,0

92,3

100,0

99,4

67,4

100,0

78,3

76,3

99,0

88,7

89,6

100,0

69,9

85,6

98,7

70,2

89,2

95,3

57,8

91,0

99,4

99,4

79,9

99,2

74,2

93,9

99,1

99,2

83,2

Vitesse de convergence des interventions consistant à renseigner les va-leurs manquantes

L'analyse n'a pu être menée que sur un extrait de données provisoires de l'EAE Commerce portant sur l'exercice 1991. D'après cette simulation, le renseignement manuel (après retour à l'entreprise) des valeurs manquantes pourrait être dans plus de la moitié des cas, remplacé par une imputation automatique, sans perte de précision.

Bilan de cette première partie

Les résultats de cette première étape, présentés dans le rapport sur l'analyse de l'efficacité du mode actuel de traitement des données, doivent être bien entendu nuancés, pour tenir compte d'un certain nombre de difficultés relevées au cours de l'étude et surtout parce qu'ils ne permettent d'établir qu'un constat a posteriori du "rendement" du mode de contrôle actuel.

Ils ont cependant paru suffisamment prometteurs pour encourager la recherche d'un mode de contrôle plus "efficace" susceptible de repérer a priori (cf remarque prélimi-naire) les unités justifiant un examen du gestionnaire.

L'examen de la procédure actuelle doit donc être interprété essentiellement comme un moyen d'éclairer les différents phénomènes intervenant dans les phases de traitement d'enquête et de jeter les bases d'une réflexion sur une méthode alternative de contrôle.

Premières réflexions et analyses 147

Page 151: actes des journées de méthodologie statistique

CTraitement"

gestionnaire,

43c2iye, Agrégation 2

Extrapolation

Proposition d'une méthode de contrôle alternative

Architecture du contrôle proposé

Le schéma de contrôle envisagé est à deux degrés : l'un concerne le contrôle individuel sélectif s'appliquant a priori aux unités répondantes et gouverné par une règle de décision, l'autre est relatif au contrôle agrégé fonctionnant a posteriori et pouvant comporter plusieurs étapes.

Graphique 4

Procédure d'un traitement à 2 degrés et 6 étapes

ler degré : 2e degré : contrôle sélectif individuel contrôles agrégés

,1 Traitement

gestionnaire —

Règle de Agrégation

décision

1

Traitement automatique,

Unités répondantes

Unités non répondantes

r Traitement' ' Traitement' "—Traitement Traitement' gestionnaire gestionnaire gestionnaire) gestionnaire,,

Agrégation Agrégation Agrégation Résultat 3 4 5 définitif

La règle de décision pilotant le contrôle sélectif individuel intègre toutes les informa-tions disponibles a priori, c'est-à-dire avant toute intervention du gestionnaire, en particulier les données brutes, les éventuelles données de l'année précédente ainsi que les informations contenues dans le fichier de lancement d'enquête.

L' objectif de ce type de contrôle est de repérer les unités susceptibles de ne pas être bien traitées par une procédure automatique, afin de les confier à l'examen du gestionnaire et de soustraire à cet examen manuel les unités pouvant être convena-blement traitées automatiquement. Il faut souligner toutefois que même pour ces entreprises exclues du contrôle gestionnaire, la cohérence interne des données est assurée.

On peut remarquer dès à présent le rôle déterminant joué par la règle de décision qui doit prendre en charge l'essentiel de la sélection. En effet l'orientation vers le contrôle gestionnaire doit être effectuée pendant toute la durée du traitement pour lisser

148 INSEE Méthodes n° 56-57-58

Page 152: actes des journées de méthodologie statistique

la charge de travail et non se concentrer en fin de période. Les contrôles agrégés ne doivent isoler qu'un petit nombre d'entreprises et permettre uniquement de se garantir contre des dérives, préjudiciables aux chiffres agrégés, de l'imputation automatique.

Le contrôle sélectif individuel

Il s'applique aux entreprises répondantes dont les données ont déjà subi, comme dans la procédure actuelle, un contrôle automatique permettant d'affecter certains codes (dont le code qualité) et de repérer certaines anomalies.

Il est gouverné par une règle de décision. La recherche de cette règle s'est inspirée des caractéristiques d'entreprises identifiées comme "déterminantes" a posteriori : unités pour lesquelles l'imputation automatique fournit une valeur "éloignée" du résultat indiqué par le gestionnaire et qui ne permettent pas de rester dans une fourchette de 0,5 % du résultat agrégé définitif.

Cependant, comme l'objectif n'est pas de repérer exactement ces unités "déterminan-tes" a posteriori mais un ensemble d'entreprises "critiques", c'est-à-dire présentant a priori un risque potentiel d'erreur importante, les recherches reposant sur des analyses discriminantes se sont révélées peu fructueuses. Elles n'ont en particulier pas permis d'identifier une fonction de score linéaire apte à scinder correctement les unités répondantes.

Le choix des critères de sélection a été guidé par les trois hypothèses faites sur les entreprises que l'on ne sait pas "bien" redresser au regard du résultat définitif, c'est-à-dire pour lesquelles l'écart constaté a posteriori entre la donnée redressée à partir des valeurs brutes et la donnée définitive est significatif :

I — ce sont les entreprises qui présentent le plus d'incohérences ; 2 — ce sont les entreprises qui ont une forte contribution au résultat agrégé ; 3 — ce sont les entreprises dont l'évolution contribue le plus à faire évoluer le ré-sultat global.

Plusieurs règles de décision ont été testées 1 , soit en organisant les critères de sélection en filtres successifs, soit en les combinant dans une fonction de score. Deux règles ont été retenues. Elles accordent une grande importance aux contributions.

Règle F3 : traitement gestionnaire pour les entreprises fortement incohérentes et pour les très grandes entreprises incohérentes (code EQAA2 égal à I ou 2) ou

(I) Cf. Projet EAE 4G "Réflexions sur les méthodes de traitement - 2" étape", mars 1993.

Premières réflexions et analyses 149

Page 153: actes des journées de méthodologie statistique

fortement contributives (données brutes de l'année N ou données définitives de l'année N-1 représentant plus de 0,05 % de l'effectif total, des rémunérations, du chiffre d'affaires ou de l'investissement du résultat agrégé définitif de l'année N-1).

Règle F10 : traitement gestionnaire pour les entreprises fortement contributives.

Le tableau 3 présente les écarts au résultat définitif relevés après l'application de la règle F10 à différents secteurs du niveau intermédiaire (3 chiffres) de la nomenclature.

On peut dès lors observer que le volume d'unités confiées au gestionnaire est souvent réduit de manière importante. Il faut en outre rappeler que "contrôle gestionnaire" ne signifie pas "intervention du gestionnaire" : la règle de décision, fondée sur une stratégie de prudence, soumet à l'examen manuel toutes les entreprises importantes, même si leurs données ne présentent pas d'incohérences. Cette orientation délibérée pour la prudence peut constituer un frein à "l'efficacité" de la méthode proposée. On verra plus tard s'il est possible d'envisager d'autres scénarios plus hardis.

Cette diminution du nombre d'entreprises confiées au traitement gestionnaire s'effectue parfois au détriment de la précision.

Tableau 3

Application de la règle F10 à différents secteurs

Secteur Nr Nca H P R S T M E e Nm

641 2 550 2 196 1,1 0,5 - 2,9 - 0,4 0,9 - 0,3 0,6 - 2,5 845

642 2 067 1 888 1,0 0,4 1,1 - 2,3 0,8 0 0,3 2,0 785

643 609 486 0 - 0,1 - 0,3 0,7 0 0,2 0 0,1 558

644 3 237 3 064 1,3 1,7 1,3 - 0,5 1,4 1,6 1,0 -'2,4 1 087

621 1 030 902 - 0,3 0,9 0,5 2,7 0,3 0,1 0 0,5 694

624 2914 2 744 2,2 1,1 3,1 2,7 1,1 0 1,9 0,5 1 247

610 3 797 3 614 1,2 - 1,7 - 1,2 - 1,3 - 1,5 22,4 2,4 73,9 343 580 2 765 2 482 1,6 - 0,6 0,6 2,2 0,3 - 0,2 - 0,7 - 6,0 695 581 975 884 0,1 - 8,8 0,3 0,3 0,4 11,9 0,5 2,8 698

Avec : Nr = nombre d'entreprises répondantes, Nca = nombre d'entreprises actuellement sou- mises au contrôle gestionnaire, Nm = nombre d'entreprises soumises au contrôle gestionnaire dans la procédure de traitement proposée

Les contrôles agrégés

Ils constituent le deuxième degré de la procédure de traitement envisagée. Les résultats individuels élaborés après passage de la règle de décision, sont alors agrégés et permettent l'extrapolation des entreprises non répondantes. On obtient ainsi un premier

150

INSEE Méthodes n° 56-57-58

Page 154: actes des journées de méthodologie statistique

résultat agrégé. Ce résultat est soumis à un macro-contrôle qui permet de réorienter vers l'examen manuel certaines unités déterminantes. Un second résultat agrégé peut ensuite être calculé. Cette procédure est ainsi répétée en utilisant à chaque étape un contrôle différent.

Les macro-contrôles envisagés reposent sur un taux de couverture ou sur la distribution d'une variable importante. Leur succession permet d'enrichir à chaque passage l'infor-mation à l'aide des corrections induites. Les scénarios testés ont montré que l'utilisation successive des filtres est toujours préférable à leur application simultanée.

Un certain nombre de filtres ont été testés ] . Cinq ont été retenus pour simuler les procédures de traitement pour divers secteurs :

80 % P : couverture de 80 % du chiffre d'affaires provisoire P / E : chiffre d'affaires / effectif total R / H : rémunérations / heures travaillées I / E : investissement / effectif total P / M : chiffre d'affaires / achat de marchandises

Le premier filtre oriente vers le contrôle gestionnaire les entreprises participant à la couverture de 80 % du chiffre d'affaires provisoire. Les quatre filtres reposant sur des ratios sélectionnent les entreprises situées dans les "queues de distribution" (définies par les centiles 5 % et 95 %).

La procédure globale de traitement

On a retenu l'application du contrôle à un niveau intermédiaire (3 chiffres) de la nomenclature. C'est donc à ce niveau d'observation que l'on détermine les unités confiées au contrôle gestionnaire et celles qui sont soumises à une procédure automa-tique. On examine ensuite les résultats obtenus au niveau agrégé (2 chiffres) et au niveau détaillé (4 chiffres) de la nomenclature.

Les résultats sont présentés au tableau 4.

Le gain en volume n'est pas négligeable. Il ne suffit cependant pas à évaluer le gain exprimé en charge de travail ou en coûts.

En revanche, la perte en précision atteinte pour certaines variables et certains secteurs n'est pas satisfaisante. Un examen plus précis des écarts les plus importants

(I) Cf. Projet EAE 4G "Réflexions sur les méthodes de traitement - 3e étape", octobre 1993.

Premières réflexions et analyses 151

Page 155: actes des journées de méthodologie statistique

Tableau 4

Impact du contrôle appliqué au niveau intermédiaire (3 chiffres) de la nomenclature

Secteur Nr Nca HP R S T ME I Nm Nm/N

64 8 463 7 636 0,2 - 0,7 - 0,1 - 1,3 - 0,3 - 1,0 - 0,4 1,6 5 054 59,7

641 2 550 2 196 0 0,6 0 - 0,8 0,1 - 1,0 0,2 2,0 1 403 55,0

6411 1 742 1 490 0 - 0,6 - 0,1 - 0,4 - 0,2 - 1,0 - 0,3 1,6 1 011 58,0

6412 297 256 0,2 0,2 0 - 2,8 0,1 - 0,7 0 1,8 158 53,2

642 2 067 1 888 0 - 0,7 0,1 - 2,7 - 0,2 1,0 - 0,5 1,6 1 146 55,4

6422 486 448 - 0,8 - 0,8 - 0,6 - 2,2 - 0,7 - 1,0 - 0,9 - 3,0 289 59,5

6424 453 411 - 0,3 - 1,0 - 0,2 - 5,0 - 0,1 1,2 0,4 - 1,8 275 60,7

643 609 486 - 0,1 - 0,1 - 0,1 0,2 - 0,2 0,1 0,2 0 577 94,7

644 3 237 3 064 - 0,5 - 1,3 0,4 1,3 - 0,5 1,6 0,6 - 1,9 1 928 59,6

6443 604 578 0 - 1,1 0,1 1,4 - 0,3 - 1 3 0,3 - 1,0 356 58,9

6445 237 185 - 0,2 - 0,9 - 0,2 1,5 - 0,4 0,7 0,4 - 2,0 151 63,7

6449 465 454 - 1,6 - 1,8 - 1,4 1,3 - 2,5 - 2,0 - 2,1 - 0,6 238 51,2

62 3 995 3 696 0 0,9 0,3 0,1 - 0,2 - 1,1 0,3 - 1,0 2 893 72,4

621 1 030 902 - 0,1 0,3 0,1 - 1,0 0 0,5 0,1 - 0,7 792 76,9

6211 474 419 0 0,3 0,1 1,0 0,1 0,7 0 0 381 80,2

622 21 20 0 0 0 0 0 0 0 0 20 95,2

623 30 30 0 0 0 0 0 0 0 0 30 100,0

624 2 914 2 744 0,1 - 1,1 0,3 0,4 - 0,2 1,4 0,3 1,1 2 051 70,4

6243 1 704 1 643 - 0,1 - 1,0 0,3 1,6 0,2 - 1,1 - 0,2 - 0,9 1 208 70,9

61 3 797 3 614 - 1,0 1,8 - 0,8 0,9 0,9 1,3 1,1 - 4,8 1 821 48,0

6101 3 315 3 143 - 1,7 - 2,9 - 1,4 - 2,5 1,5 - 2,2 - 2,0 - 13,8 1 384 41,7

6103 409 403 - 0,5 - 1,1 - 0,4 - 0,2 0,5 0,8 - 0,5 - 1,2 378 92,4

58 3 740 3 366 - 03 - 2,8 03 0,2 3,2 0,5 - 3,2 2 194 58,7

580 2 765 2 482 - 0,4 - 0,9 - 0,4 - 1,3 - 0,2 0,6 - 0,6 - 3,6 1 437 52,0

5804 724 647 0,7 - 0,8 - 0,6 - 0,7 - 0,5 - 0,6 - 0,6 - 3,9 421 58,1

5806 465 428 0,9 - 1,7 0,8 - 1,1 1,1 - 1,0 - 0,2 - 4,3 278 59,8

581 975 884 - 0 1 - 9 4 - 0 1 - 0 7 -01 -125 - 0 2 - 2 0 757 776

152

INSEE Méthodes n° 56-57-58

Page 156: actes des journées de méthodologie statistique

propose comme explication prépondérante l' incapacité du redressement à renseigner des non-réponses partielles, alors que l'intervention du gestionnaire apporte une information.

Bilan de cette deuxième partie

L'analyse que l'on peut faire de la méthode de contrôle proposée se trouve limitée par le cadre très particulier dans lequel elle s'inscrit et qui a cherché à préserver le mode de fonctionnement actuel et à utiliser les procédures existantes de redressement et d'imputation.

La procédure de contrôle à deux étapes ici présentée ne peut par conséquent recevoir de validation à ce stade de l'analyse. En effet, il n'est pas ici possible de séparer l'effet "conservation du cadre existant" de l'effet "performances de la méthode proposée".

Toutefois, même si la procédure présentée n'assure pas un degré de précision suffisant pour certaines variables, elle propose sans doute la trame du scénario alternatif recher-ché. En effet, les divers développements statistiques réalisés ont permis d'exhiber un certain nombre de mécanismes contribuant à conforter cette hypothèse. Il convient donc d'explorer d'autres axes de réflexion, qui ont parfois déjà été évoqués sans être traités en profondeur et qui seraient susceptibles d'enrichir la trame mise en évidence afin d'élaborer un scénario performant.

Premières réflexions et analyses 153

Page 157: actes des journées de méthodologie statistique

i-Zé;i'xions non développées

Information insuffisante sur les données brutes

Certaines entreprises déterminantes échappent au contrôle gestionnaire issu de la règle de décision parce que les variables utilisées comme filtres ne sont pas renseignées. Cette remarque est en particulier essentielle pour les entreprises nouvellement interrogées qui ne peuvent être identifiées que par les variables de l'année courante ; si celles-ci sont manquantes, ni les informations relatives à l'année précédente ni les variables d'évo-lution ne peuvent les repérer.

Les données redressées à partir des données brutes pourraient fournir une information supplémentaire, susceptible de pallier les défaillances des données brutes. Les résultats obtenus en utilisant cette information dans les filtres de décision n'ont révélé aucune amélioration sensible par rapport aux scénarios issus des données brutes. Une des explications réside sans doute dans les limites du programme de redressement "forcé" qui ne parvient pas à estimer certaines variables comme l'investissement.

Cette information supplémentaire apportée par le redressement des données brutes pourrait cependant être mobilisée d'une autre manière, dans une approche alternative de l'appréciation du risque d'erreur (cf § page suivante).

Il faudrait toutefois réfléchir au mode d'organisation que suppose ce type de démarche, intégrant un redressement avant toute intervention du gestionnaire. Il implique notam-ment de ne pouvoir démarrer les opérations de contrôle gestionnaire qu'une fois un certain nombre de questionnaires rentrés, pour que ce redressement ait un sens (calcul des moyennes de strates par exemple). Il faudrait comparer les "coûts" de cette organisation au gain en précision. Une autre solution peut consister à utiliser en début de traitement les moyennes de strates de l'année précédente et de n'y substituer les moyennes courantes qu'une fois un nombre suffisant de questionnaires reçus (voir Greenberg et Petkunas — Bureau du Census).

Retour systématique à l'entreprise

Les études effectuées ont montré que le redressement "forcé" appliqué aux données brutes échoue fréquemment à renseigner une non-réponse partielle concernant certaines variables comme l'investissement.

On peut envisager un scénario dans lequel l'existence d'une non-réponse partielle sur quelques variables décisives (chiffre d'affaires, investissement...), repérée par le pre-

154 INSEE Méthodes n° 56-57-58

Page 158: actes des journées de méthodologie statistique

mier examen automatique du questionnaire, donnerait lieu à l'édition automatique d'une demande d'information complémentaire adressée à l'entreprise. Ce scénario ne peut malheureusement pas être évalué actuellement. Seule une enquête témoin menée sur quelques secteurs permettrait de chiffrer le coût supplémentaire induit et de le confronter au volume de renseignements ainsi collectés, en tenant compte des délais de réponse.

Ce retour à l'entreprise pourrait se révéler très intéressant dans la mesure où il permettrait de suffisamment compléter les données brutes pour assurer un "bon" fonctionnement de la procédure de redressement.

Approche alternative du risque d'erreur

On n'a jusqu'à présent abordé l'estimation du risque d'erreur qu'à l'aide des notions de contribution et d'incohérence interne du questionnaire. Cette approche est encore très fruste, notamment elle ne prend pas en compte les prévisions d'erreur de la donnée brute que l'on peut faire.

Le risque d'erreur induit par la méthode de contrôle proposée dépend en fait de la capacité du redressement automatique à approcher la "vraie" valeur obtenue après intervention du gestionnaire. Comme le redressement fonctionne essentiellement à partir d'estimations par la moyenne, le risque encouru résulte en partie de la faculté à discerner a priori les unités atypiques des unités "moyennes".

Deux pistes peuvent être explorées, qui véhiculent la même idée mais utilisent des outils différents.

La première reposerait sur une comparaison entre la valeur brute et la valeur obtenue après un premier redressement de la valeur brute, permettant d'approcher pour une variable son "écart à la moyenne". Cet écart devrait être rapporté au résultat agrégé afin de tenir compte de l'impact final. Un seuil de tolérance étant fixé, cet écart relatif pourrait intervenir comme un des critères de la règle de décision. On peut alors calculer un score pour chaque unité, combinaison, linéaire ou non, de ces différents écarts, pondérés eux-mêmes selon l'intérêt de la variable. Seules les entreprises dont le score dépasserait un seuil donné, seraient alors orientées vers un examen par le gestionnaire.

La deuxième s'intéresserait à la distribution des variables. C'est la notion de "profil moyen". On pourrait utiliser des ratios identiques à ceux retenus dans les contrôles agrégés et confier à l'examen du gestionnaire les unités se situant dans les "queues de distribution". La stratégie devrait distinguer les entreprises interrogées l'année précé-dente des entreprises nouvelles. Pour les premières, les ratios établis en N-1 serviraient

Premières réflexions et analyses 155

Page 159: actes des journées de méthodologie statistique

de critères, pour les autres, les ratios seraient calculés à partir des données brutes et comparés aux distributions de N-1.

Ces deux pistes devront être développées, même si l'on peut, dès à présent, présager quelques difficultés. En effet, la première réflexion risque d'être limitée par la procédure existante de redressement des données brutes et la seconde est subordonnée, pour les unités nouvellement interrogées, au degré de renseignement des questionnaires. Dans les deux cas, on risque de ne pas pouvoir repérer quelques unités influentes.

Évaluation de la méthode

Robustesse, flexibilité

On a souvent évoqué dans les dossiers d'analyse ces deux exigences sans jamais les explorer vraiment puisque l'on n'a pas réussi à proposer une méthode de contrôle totalement satisfaisante. Il faut donc rappeler que toute procédure proposée devra, pour être validée, satisfaire aux contraintes suivantes :

- sensibilité aux paramètres : il conviendra de s' assurer que le déplacement marginal des frontières de sélection (sous l'effet de la modification des seuils par exemple) n'engendre pas de variations de trop forte amplitude sur la précision des résultats. Les rapports d'étape ont montré comment les phénomènes de compensation des erreurs et d'impact indirect de l'intervention du gestionnaire pouvaient accroître la sensibilité des résultats aux paramètres ;

- universalité : il s' agit de vérifier si la méthode peut être adaptée à différents secteurs ou différents domaines. Les spécificités en termes de taille, de concentration, de taux de non-réponse, d'exhaustivité devront être prises en compte.

Efficacité

Dans les différents rapports d'étape, l'évaluation du contrôle proposé est envisagée en termes d'arbitrage entre perte en précision et gain en volume d'unités traitées. C'est une approche grossière du débat qualité / prix, ou plus généralement coût / EQM :

prix : la seule notion de "coûts" retenue est celle qui repose sur le volume d'unités traitées. On n'a pas tenu compte des disparités entre les unités ; réduire de 50 % le volume d'entreprises traitées ne diminue pas forcément d'autant la charge de travail. Il faudrait pouvoir affecter à chaque questionnaire un indicateur d'estimation du temps de traitement manuel. La taille du questionnaire, la complexité de l' entreprise, le volume d'anomalies ou d'erreurs détectées pourraient participer à l'élaboration

156 INSEE Méthodes n° 56-57-58

Page 160: actes des journées de méthodologie statistique

de cet indicateur. Il faudrait en outre intégrer les coûts de fonctionnement induits par l'adoption d'une méthode alternative ;

- qualité : la qualité a été évaluée à la lecture de la précision des résultats agrégés. On ne peut cependant pas mesurer les gains en précision devant résulter d'une attention accrue apportée aux entreprises les plus importantes.

Il faudrait toutefois développer la réflexion sur le niveau de précision souhaitable, sachant que les erreurs de mesure résultant de l'assouplissement du contrôle sont à rapprocher des imprécisions dues à l'échantillonnage et à l'extrapolation des non réponses.

Pour cela il semble indispensable de préciser le cadre théorique plus général dans lequel se situe notre problématique. Les analyses réalisées ont fourni des informations ponc-tuelles sur les écarts à une valeur de référence (valeur définitive). Il s'agira de traduire en termes d' impact sur la variance totale (ou plutôt sur l'EQM) les effets d'une méthode alternative de traitement. En s'inspirant des travaux statistiques effectués, qui sont en mesure d'orienter le choix des critères de sélection, leur hiérarchie et leur combinaison au sein d'une règle, on pourra dresser un certain nombre de caractéristiques susceptibles de décrire une sous-population d' unités "contribuant peu" à la variance totale. Il faudra alors, à partir de la confrontation entre volume d' unités traitées manuellement et impact sur la variance, essayer de définir la "meilleure" règle de décision permettant d'orienter en début de traitement les entreprises répondantes vers un contrôle gestionnaire ou un contrôle automatique.

Ce débat sur la précision est en outre indissociable de la réflexion sur le niveau d'agrégation retenu pour la publication des résultats. Il faudra pouvoir définir quelle précision souhaitée pour quel niveau d'observation.

Premières réflexions et analyses 157

Page 161: actes des journées de méthodologie statistique

BIBLIOGRAPHIE

ANDERSON, K.: "Average Weekly Earnings — 4th quarter 1988, comparison of edited data from the current input editing system with an experimental (extreme outlier) input editing system", output edit study, Statistics Sweden, septembre 1989.

BOUCHER, L. : "Micro-editing for the Annual Survey of Manufactures: what is the value-added ? ", Statistics Canada.

BOUCHER, L. : "ASM selective editing project", memorandum, Statistics Canada, février 1992.

BOUCHER, L. : "Selective editing for the Annual Survey of Manufactures", project description, Statistics Canada, avril 1992.

CorroN, C. : "SGVI — description des fonctions du système généralisé de vérification et d'imputation", Statistics Canada, juillet 1991.

GRANQUIST, L. : "On the need for generalized numeric and imputation systems", Statistics Sweden, Séminaire de méthodologie statistique, Commission Économique pour l'Europe, Nations Unies, Genève, décembre 1987.

GRANQUIST, L. : "Data editing activities at Statistics Sweden", report, Statistics Swe-den, avril 1989.

GREENBERG, B. et PETKUNAS, T.: "An evaluation of edit and imputation procedures used in the 1982 Economic Censuses in Business Division", Bureau of the Census.

HIDIROGLOU, M. A. et BERTHELOT, J.M. : "Contrôle statistique et imputation dans les enquêtes-entreprises périodiques", techniques d'enquêtes, vol. 12, n°1, pp. 79-89, Statistics Canada, juin 1986.

LATOUCHE, M. - BERTHELOT, J.M. : "Stratégie de suivi pour les enquêtes économi-ques", Recueil du Symposium 90 de Statistique Canada "Mesure et amélioration de la qualité des données", octobre 1990.

158 INSEE Méthodes n° 56-57-58

Page 162: actes des journées de méthodologie statistique

LATOUCHE, M. - BERTHELOT, J.M. : "Use of a score fonction to prioritize and limit recontacts in editing business surveys", Journal of official statistics, Vol 8, n° 3, 1992, pp 389-400.

STATISTICAL JOURNAL of the United Nations Economic Commission for Europe, Special issue on data editing, vol. 8, n° 2, 1991.

Premières réflexions et analyses 159

Page 163: actes des journées de méthodologie statistique
Page 164: actes des journées de méthodologie statistique

NETTOYAGE DE DONNÉES DANS LE CAS DE FICHIERS D'ENTREPRISES

recherche de la cohérence transversale Elizabeth Kremp

Un fichier de données individuelles, appelé aussi données de panel, peut être caracté-risé par trois dimensions : le nombre d'individus, le nombre d'informations, c'est-à-dire de variables permettant de caractériser ces individus, et le nombre d'années pour lesquelles ces informations sont disponibles. En plus de ces trois caractéristiques, une quatrième peut être prise en compte, plus difficilement mesurable, qui est la qualité de ces informations.

Le problème du nettoyage d'un échantillon s'est posé dans le cadre de la comparaison des bases de données comptables de la Banque de France par rapport aux données exhaustives SUSE de l'Insee. En effet l'Observatoire des Entreprises de la Banque de France a à sa disposition deux sources de données comptables qui ne sont pas exhaustives : le fichier FIBEN (Fichier Bancaire des Entreprises) et le fichier FPD (Fichier Périodique des Données) de la Centrale de Bilans2. Avant de pouvoir comparer ces différentes bases, il est important de disposer de statistiques fiables3. De façon plus générale, ce problème de repérage de données extrêmes ou aberrantes se pose lors de la réalisation d'études économiques appliquées qui utilisent des données de panel.

Après avoir essayé de préciser ces notions de valeurs aberrantes et de valeurs extrêmes, ce travail rappelle les outils statistiques et présente différentes méthodes permettant d'identifier ces valeurs. Huit techniques construites à partir de ces outils et de ces méthodes sont ensuite testées sur la base FIBEN, sur le critère du ratio clients des délais de paiement. Enfin l'application de trois de ces techniques à sept ratios, permet de les comparer, d'évaluer le rôle du choix des ratios et de mesurer les phénomènes cumulatifs d'élimination d'observations.

Parmi ces trois techniques, deux d'entre elles donnent des résultats très proches : celle qui supprime les observations situées à plus de 3 intervalles interquartiles du premier et du troisième quartiles (technique 2) et celle qui applique une méthode de standar-disation avec comme estimateur de localisation une moyenne tronquée à I % et comme

(1) Ce document n'engage que son auteur et n'est pas l'expression de la position de la Banque de France. Il reprend une étude interne de la Centrale de Bilan : La question du nettoyage de données, D93/01, mars 1993, Banque de France. (2) L'annexe 1 donne une description succincte de ces deux sources d'information. (3) La réflexion sur le nettoyage des données pour pouvoir comparer les sources Banque de France et Insee a été menée avec Marie-Christine Parent du Département des statistiques d'entreprises de l'Insee.

Nettoyage de données 161

Page 165: actes des journées de méthodologie statistique

estimateur de dispersion le pseudo écart-type (technique 8). La première est plus simple à mettre en oeuvre, ce qui peut être une bonne raison pour la préférer. Cependant, si la distribution de la vraie population pour le ratio étudié est très éloignée d'une distribu-tion normale, alors ces deux techniques peuvent conduire à éliminer trop d'observa-tions, et une technique qui n'impose pas un estimateur de dispersion d'une loi normale semble préférable : c'est le cas de la méthode de standardisation utilisant aussi la moyenne tronquée à 1 % mais prenant l'intervalle interquartile comme estimateur de dispersion (technique 7).

1. Valeurs aberrantes et valeurs extrêmes

La première étape de ce travail a consisté en une lecture de la littérature sur la détection de valeurs extrêmes "outliers" et leur traitement. La difficulté à traduire le terme "outliers" reflète et résume en elle-même le problème. En utilisant la terminologie de valeurs extrêmes, on recherche un sous-ensemble de données dont la suppression modifierait beaucoup l'analyse statistique. Mais comme le signalent Gould et Hadi (1993), la suppression automatique des valeurs extrêmes revient à les considérer comme points aberrants alors que les valeurs extrêmes ne sont pas forcément aberrantes. Elles peuvent effectivement correspondre à des erreurs de collecte de données ou des erreurs de frappe, mais elles peuvent également être dues à un mélange de populations. Si les informations sont correctes, elles peuvent être très utiles, et par exemple signaler que les données ne sont pas issues d'une population suivant une loi normale, hypothèse souvent implicite dans les analyses statistiques, ou signaler que le modèle utilisé ne permet pas de prendre en compte l'ensemble des observations. C'est pourquoi l'autre teinte parfois utilisé dans la littérature anglo-saxonne est celui de "influential data".

1.1. L'absence de consensus

La démarche à utiliser pour repérer puis traiter ces valeurs extrêmes ne fait pas et ne peut pas faire l'objet d'un consensus dans la littérature car elle dépend de plusieurs paramètres : type de données, méthode de collecte utilisée, taille de l'échantillon, moyens informatiques disponibles, utilisation ultérieure des données (données en coupe ou fichier temporel, étude de statistique descriptive ou étude économétrique...). Par contre le consensus existe sur le travail minutieux de repérage préalable pour essayer de les identifier tout en évitant la suppression d'un trop grand nombre d'observations. Comme le souligne Dormont (1983, p. 102), dans le cas d'une étude économétrique nécessitant un fichier cylindré, l'utilisation "d'un ensemble de critères semblant a priori représenter la cohérence et la continuité minimales exigibles peut conduire à un fichier extrêmement restreint".

162 Insee Méthodes n° 56-57-58

Page 166: actes des journées de méthodologie statistique

1.2. Les options

Plusieurs options peuvent être relevées :

- corriger les données s'il s'avère qu'il y a eu une erreur de saisie ;

analyser les chiffres avec et sans les observations extrêmes et, si l'on décide que les observations extrêmes doivent être éliminées, c'est-à-dire sont aberrantes ou ont trop d'influence dans le cadre de l'étude, bien en spécifier le nombre ;

remettre en cause la méthode ou le modèle utilisé : utiliser des statistiques et des tests non paramétriques 1 (la médiane, l'intervalle interquartile, tests sur les rangs, tests sur l'égalité de médianes) à la place de statistiques et de tests paramétriques (moyenne, écart-type, tests sur l'égalité des moyennes), utiliser une statistique plus robuste à la présence de valeurs extrêmes (moyenne tronquée, moyenne bipondérée, winsorization, M-estimateurs), utiliser un modèle plus robuste (régression pondérée, régression en utilisant la médiane et non la moyenne).

1.3. La transparence

Deux remarques peuvent être faites sur ces différentes options. L'ensemble de la littérature étudiée insiste sur la transparence nécessaire à tout traitement de valeurs extrêmes ou aberrantes (transparence pour le responsable de l'étude et transparence vis-à-vis du lecteur). Ainsi, si une observation est considérée comme aberrante, elle est retirée de l'échantillon étudié, quelle que soit la statistique utilisée. Il est en effet très important de toujours spécifier le nombre d'observations rentrant dans le calcul d'une statistique, car la comparaison de différentes statistiques pour une même variable peut être d'un grand apport dans l'analyse. Il faut donc être certain que ces statistiques sont comparables et portent sur la même population. Il est aussi important de donner au lecteur, dans la mesure du possible, les moyens d'évaluer le biais de sélection que la suppression de valeurs aberrantes peut introduire (suppression des entreprises défaillan-tes dans le cas d'un cylindrage sur plusieurs années, suppression de certaines fusions dans le cas d'un nettoyage sur taux de croissance...).

Les modifications d'observations relevées dans la littérature concernent la correction des erreurs (type erreur de saisie), ou l'estimation de valeurs manquantes (quand la suppression des observations ayant des variables avec valeurs manquantes conduirait

(1) Une statistique est dite paramétrique si elle fait référence aux paramètres d'une distribution (dont la moyenne et l'écart-type sont les premiers moments). Par opposition, une statistique non paramétrique est libre de toute hypothèse sur la distribution, et plus particulièrement de toute hypothèse de normalité. Une statistique est dite robuste si elle est peu sensible à la présence des valeurs extrêmes; elle peut être paramétrique (moyenne tronquée), ou non paramétrique (médiane).

Nettoyage de données 163

Page 167: actes des journées de méthodologie statistique

à un échantillon très et trop restreint). La modification dans le fichier de la valeur de certains ratios en les "ramenant à une borne" paraît d' une autre nature. D'une part, leur modification déforme les relations existantes entre les différentes variables relatives à la même observation. D'autre part, elle contribue à la constitution de points d'accumu-lation aux deux extrêmes de la distribution, ce qui va à l'encontre de l'utilisation de méthodes robustes qui ont pour principal objectif de réduire l'influence des queues de distribution trop épaisses. Enfin, elle n'est pas équivalente et va plus loin que l'utilisa-tion de statistiques modifiant la pondération des observations (moyenne tronquée) ou remplaçant les valeurs extrêmes par leurs valeurs adjacentes ("winsorization"), puis-qu'aussi bien la moyenne tronquée que la "winsorization" ne modifie pas les valeurs du fichier.

1.4. Cohérence transversale, cohérence temporelle

Comme il a déjà été souligné, le travail d'identification de valeurs extrêmes dépend de nombreux paramètres parmi lesquels le type de données utilisées. La grille de lecture de la littérature statistique a été guidée par le fait que les échantillons considérés ici sont grands et sont utilisés à la fois pour des études de statistiques descriptives et des études économétriques I . Les données sont étudiées à la fois dans leur dimension transversale (on parle souvent de coupe), par exemple l'étude d'un secteur donné pour l'année 1992, et dans leur dimension temporelle. La recherche de la cohérence transversale apparaît comme un préalable à la recherche de la cohérence temporelle, d'une part parce qu'un nettoyage ne peut être totalement remis en question, par la mise à disposition d'une nouvelle année d'information, d'autre part parce que la recherche de la cohérence temporelle repose sur le calcul de taux de croissance, qui impose donc le cylindrage partiel (on parle d'échantillons semi-constants) ou total (on ne garde que les observa-tions des entreprises présentes sur toute la période étudiée) ; ce cylindrage entraîne une réduction importante de l'échantillon et l'introduction de biais de sélection. Le travail présenté ici s'est concentré sur l'étude de la recherche de la cohérence transversale. Les mêmes techniques ne peuvent pas être utilisées pour rechercher ces deux types de cohérence, car les variables (et leur distribution) diffèrent : la cohérence en coupe repose sur l'étude de ratios (rarement de variables en niveau), alors que la cohérence temporelle repose sur l'étude des taux de croissance de variables en niveau (par exemple l'emploi, la valeur ajoutée...).

Des travaux préliminaires sur la recherche de la cohérence temporelle à partir du taux de croissance des effectifs ou du chiffre d'affaires montrent que l'application des

(1) Une méthode de nettoyage adaptée à un échantillon de 30 observations, comme celle proposée par Hadi (1992) est difficilement transposable pour un échantillon de plusieurs milliers d'observations.

164 Insee Méthodes n° 56-57-58

Page 168: actes des journées de méthodologie statistique

techniques présentées ici peut être trop sélective et conduire à éliminer beaucoup de petites entreprises ayant connu une forte croissance . Par exemple, une entreprise qui passe de 2 salariés à 10 salariés connaît une croissance de ses effectifs de 400 %, alors que l'intervalle interquartile est de l'ordre de 10 et que le troisième quartile varie entre 3 et 5 suivant les secteurs. L'application de cette technique conduirait à éliminer toutes les entreprises qui ont un taux de croissance de leurs effectifs supérieur à 35 %. Néanmoins ces travaux suggèrent aussi que si la recherche de la cohérence transversale est faite sur des ratios faisant intervenir les effectifs et le chiffre d'affaires (ou la valeur ajoutée), les entreprises du fichier nettoyé qui ont des taux de croissance élevés, correspondent en fait à des observations extrêmes et non pas aberrantes (par exemple des entreprises qui ont connu une restructuration).

2. Outils et méthodes

La littérature est abondante mais très spécialisée. Différentes démarches peuvent être distinguées : celles proposées par les statisticiens, celles proposées par les théoriciens de l'économétrie, et celles utilisées dans les études économétriques appliquées. Un des objectifs de ce travail est d'essayer de faire le lien entre ces différentes types de littérature2 . Si certains articles mettent l'accent sur l'identification ou la suppression de valeurs extrêmes (un des objectifs étant de déterminer des "cutoffs", c'est-à-dire des seuils à partir desquels les observations seront écartées), alors que d'autres se centrent sur l'utilisation de statistiques ou de modèles robustes à la présence de valeurs extrêmes, ils font tous référence à un certain nombre de concepts dont les principales propriétés sont brièvement rappelées ci-dessous. Cette présentation des outils statistiques préala-blement à celle des méthodes est d'autant plus nécessaire que l'opposition entre méthodes qui suppriment les points aberrants et méthodes robustes dont les résultats sont peu influencés par la présence de ces points aberrants s'est avérée peu adéquate. En effet si les méthodes utilisées pour supprimer les points aberrants reposent sur des statistiques peu robustes, le nombre de points aberrants décelés est inversement pro-portionnel au nombre de points effectivement aberrants. Ces méthodes échouent dans certains cas à identifier des vraies valeurs aberrantes, simplement parce qu'elles dépendent des observations qu'elles sont supposées identifier. Un des enseignements des tests de ces différentes méthodes est donc qu'il faut utiliser des statistiques robustes dans les méthodes cherchant à identifier les points aberrants.

(1) La technique 2 a été utilisée pour ces travaux préliminaires (élimination des observations à l'extérieur de l'intervalle fq1-3 eiq, q3+3 eiqp. (2) Le manuel STATA (1990, p. 298) commence sa présentation des différents diagnostics de points influents en insistant avec regret et excuses sur le jargon utilisé dans cette littérature et l'absence de consensus sur la terminologie utilisée. L' auteur insiste sur le fait qu'une donnée influente va l'être pour une certaine statistique. Ainsi, au lieu de fournir la liste des points influents, il laisse le lecteur avec différentes listes, calculées respectivement avec différentes statistiques; sa présentation propose 13 méthodes ou statistiques pour réfléchir à la notion de points influents. On voit que le consensus est loin d'exister ...

Nettoyage de données 165

Page 169: actes des journées de méthodologie statistique

2.1. Les outils statistiques

Les outils qui permettent de caractériser une distribution peuvent être regroupés en trois catégories : les estimateurs de localisation, les estimateurs de dispersion, et les statisti-ques permettant de juger de la forme de la distribution (symétrie, épaisseur des fins de distribution). Ce survol ne prétend pas être exhaustif. Dans le choix des critères présentés, sont retenus ceux qui sont faciles à mettre en oeuvre pour de grands échantillons, soit du fait de la simplicité du concept lui-même, soit du fait qu'il est d'utilisation facile dans le logiciel SAS I .

2.1.1. Les estimateurs de localisation

La moyenne et la médiane sont les deux statistiques de localisation d'une distribution les plus utilisées et les plus faciles à calculer.

La moyenne empirique X de l'échantillon est un estimateur de la moyenneµ de la population. Elle utilise toutes les données de l'échantillon, est le meilleur estimateur (c'est-à-dire à variance minimum) à distance finie de localisation si les données proviennent d'une distribution normale (et même d'une distribution uni-modale si la taille n de l'échantillon tend vers l'infini et que l'on applique le théorème central limite), mais est très sensible aux valeurs extrêmes.

1 X = —n Xi où Xi sont les n observations de l'échantillon. i= 1

La médiane M ne repose que sur la valeur centrale de la distribution et est mieux adaptée aux distributions aux queues longues ou épaisses, ou avec des valeurs aberran-tes (elle est par exemple plus efficace dans le cas d'une loi de Laplace, Wonnacott et Wonnacott, 1991, p. 266). Elle correspond au 50 ième percentile ; les 25 ième et 75 ième percentiles sont aussi appelés respectivement premier et troisième quartiles (q1 et q3).

D'autres estimateurs de localisation sont plus robustes et plus adaptés à un large éventail de distributions, pour lesquelles on accepte de faire cependant l'hypothèse de symétrie.

(1) Cette étude a mis en évidence le grand retard de SAS en terme de techniques robustes dans le module SAS/STAT par rapport à d'autres logiciels accessibles sur PC (SPSS, STATA). Du fait de la taille des échantillons concernés, les logiciels sur ordinateur central continuent à avoir notre préférence. Après consultation de l'institut SAS, il apparaît que ces techniques seraient développées dans un module spécialisé (INSIGHT).

166 Insee Méthodes n° 56-57-58

Page 170: actes des journées de méthodologie statistique

La statistique trimeanl a pour objectif d'intégrer des informations plus éloignées du

centre que la simple médiane. TRI = —1 (Fi + 2M + Fu), où Fi, et Fu sont approximés 4

par les premier et troisième quartiles, et M est la médiane.

La moyenne tronquée ou moyenne élaguée est calculée en supprimant de façon arbitraire un certain pourcentage de la distribution : on parle de moyenne tronquée à 5 % (ou 5 % trimmed mean dans les logiciels statistiques) pour une moyenne calculée sur un échantillon où les 5 % d'observations les plus faibles et les 5 % d'observations les plus fortes sont supprimées. La médiane est un cas extrême : c'est une moyenne tronquée à 50 %.

La moyenne bipondérée de Tukey appartient à ;a famille des M-estimateurs. La caractéristique de ces M-estimateurs (M pour Maximum de vraisemblance) est de donner un poids plus faible aux points les plus éloignés du centre, sans toutefois utiliser la méthode brutale de la moyenne tronquée qui les élimine. En général, les poids sont une fonction décroissante de la distance par rapport au centre de la distribution. Les autres M-estimateurs les plus connus sont l'estimateur d' Huber (recommandé quand la distribution est proche d'une distribution normale, et sensible lui-même aux valeurs aberrantes), et les estimateurs d'Hampel, et d'Andrew.

La "winsorization" de la moyenne, (Sachs, 1984, p. 280) n'est pas présentée dans la liste des statistiques de localisation, bien qu'elle s'y apparente. Elle a été proposée par C.Winsor, "car beaucoup de distributions empiriques sont presque normalement distri-buées seulement dans leurs régions centrales", (Sachs, p. 65). Elle consiste, après avoir ordonné les observations, à remplacer les k plus petites observations par la (k + 1) ième plus petite observation et les k plus grandes observations par la (k + 1) ième plus grande observation.

n — k —1

1 ,

Xwk = —n K +1) X(k + 1) + E x(i) (k + 1) x - k) i = k+ 2

Dans la littérature, cet estimateur est rarement utilisé comme estimateur de la moyenne2.

Rosenberg et Gasko (1983) comparent différents estimateurs de localisation (moyenne, médiane, moyennes tronquées, trimean...) pour différentes distributions symétriques (loi normale, loi de Cauchy caractérisée par des queues épaisses, loi slash). Cette comparaison, faite sur des échantillons de petite taille, conduit à ne préconiser l'usage de la médiane que pour des échantillons de taille inférieure ou égale à 6 ; pour des

(1) appelée aussi "two-sided quartile weighted median" (Sachs, 1984, p. 100).

(2)Par contre, (Mudholkar, 1991) utilise cette méthode de winsorization en l'appliquant au calcul de l'écart-type pour définir un "pooled trimmed-t statistics".

Nettoyage de données 167

Page 171: actes des journées de méthodologie statistique

échantillons de taille supérieure, elle recommande l'utilisation de la moyenne tron-quée. Celle-ci, comme la trimean, n'est malheureusement pas calculée de façon automatique dans le module STAT de SAS.

2.L2. Les estimateurs de dispersion

L'écart-type (standard déviation) s de l'échantillon est un estimateur de l'écart-type a de la population :

S = n —

1 I

(Xi — 2 où Xi sont les n observations de l'échantillon et X sa =

moyenne.

Il utilise toutes les données de l'échantillon et est le meilleur estimateur de dispersion si la distribution suit une loi normale ; cependant il est encore plus sensible aux valeurs extrêmes que la moyenne puisqu'il est fonction des écarts élevés au carré. Si la plupart des Xi sont relativement proches les uns des autres et un seul est très différent, l'écart-type est contrôlé principalement par celui-là.

L'écart-type de la moyenne empirique (standard error of the mean), caractéristique de l'écart entre X , moyenne empirique de l'échantillon et sa cible t , moyenne de la population, est calculé à partir de l'écart-type s de l'échantillon et intervient directement dans la calcul de l'intervalle de confiance :

SE s

\n

En effet, l'intervalle de confiance à 95 % de II s'écrit :

X — 1.96 , X + 1.96

L'écart absolu moyen, (Mean Absolute Deviation (AD) )

Il existe deux définitions suivant les auteurs ; l'un est calculé par rapport à la moyenne X, l'autre par rapport à la médiane M ;

1 AD = 1 — E xi - x ou AD -,- —nv, IXi—MI

i=1 i=

168 Insee Méthodes n° 56-57-58

Page 172: actes des journées de méthodologie statistique

L'écart absolu médian, (Median Absolute Deviation MAD)

MAD = médiane {I - M I }

L'écart interquartile (EIQ), (1nterquartile range (IQR), ou Qrange) est la différence entre le troisième quartile, q3 et le premier quartile, q11 . Cot estimateur est le plus souvent utilisé dans la littérature comme estimateur de la dispersion, si l'on craint la présence de points aberrants. Certains auteurs l'utilisent tel quel, d'autres l'utilisent sous la forme de pseudo écart-type (F-pseudosigma [cf. ci-dessous]).

Iglewicz (1983) compare ces différents estimateurs de dispersion. Il rappelle que l'écart-type et l'écart absolu moyen sont peu efficaces si la distribution n'est pas normale. L'EIQ et le MAD donnent de meilleurs résultats si la distribution a des queues épaisses, entre autres si elle contient des points aberrants.

2.1.3. La forme de la distribution

La distribution de référence la plus couramment utilisée est la loi normale. Elle est caractérisée par sa fonction de densité en forme de cloche ; elle est uni-modale, symétrique et les queues de distribution sont peu épaisses. Deux statistiques permettent de mesurer la déviation d'une distribution quelconque par rapport à celle d'une loi normale en termes de symétrie et de queues de distribution :

La "skewness" mesure les déviations par rapport à la symétrie de la loi normale. La formule précise fait intervenir les moments d'ordre trois. Une approximation peut être

obtenue avec la formule suivante : skewness — 3 ( X — M )

où X est la moyenne, M,

la médiane et s, l'écart-type.

Une distribution parfaitement symétrique a une moyenne égale à sa médiane, c'est-à-dire une skewness égale à O. Une distribution a une skewness positive si la partie droite de la densité est plus longue, c'est-à-dire si la moyenne est supérieure à la médiane ; si elle est inférieure, on parle de skewness négative.

La "kurtosis" fait référence à l'épaisseur des queues d'une distribution. Une distribu-tion normale a une kurtosis égale à 3. Une kurtosis supérieure à 3 indique que la distribution a des queues épaisses relativement à celles d'une loi normale. Le calcul de la kurtosis fait intervenir les moments d'ordre 4 et est donc très sensible à la présence de valeurs extrêmes.

(I) La littérature anglo-saxonne utilise parfois la notion de Fourth-spread dF = Fu - qui est équivalente.

Nettoyage de données 169

Page 173: actes des journées de méthodologie statistique

2.1.4. Les tests rapides de non normalité

Hamilton (1990, p. 44) propose un test plus robuste que le calcul de la kurtosis pour mesurer la normalité des queues d'une distribution dans le cas d'une distribution symétrique, en comparant l'écart-type avec l'intervalle interquartile :

si l'écart-type > EIQ/1.35, on a des queues épaisses,

si l'écart-type = EIQ/1.35, on a une distribution approximativement normale,

si l'écart-type < EIQ/1.35, on a des queues longues.

Ce coefficient de 1.35 vient de ce que les premier et troisième quartiles d'une distribu-tion normale sont égaux respectivement à g – 0.6745 a , et t + 0.6745 a , et donc l'intervalle interquartile est 1.349 a . L'écart-type d'une loi normale est donc égal à EIQ/1.349. Ce ratio est connu sous le nom de F-pseudosigma (Emerson et Hoaglin, 1983, p. 41) ou de pseudo écart-type (Pseudo-standard deviation (PSD) ), Hamilton (1991, STB3, p. 16).

Ce test est peu fiable si la distribution est très asymétrique car l'asymétrie est déjà en elle-même une preuve de non normalité et ce type de distribution a typiquement une queue allongée et une queue épaisse.

Sachs (1984, p. 325) fournit un test basé sur l'étendue ("range", différence entre la plus grande observation et la plus petite observation) et l'écart-type. Si le rapport entre les

étendue deux = —R

est à l'extérieur d'un intervalle de confiance, alors l'hypothèse écart type s de normalité doit être rejetée. Les deux bornes définissant cet intervalle sont fonction de la taille n de l'échantillon et du seuil de significativité cc. À titre d'exemple, pour cc = 1 % et a = 5 % et pour n = 100 et n = 1000, la région critique est :

a n borne inférieure borne supérieure

1 % 100 4.10 6.36 5% 100 4.31 5.90 1 % 1000 5.57 7.80 5 % 1000 5.79 7.33

Source : Sachs (1992, p. 328)

2.1.5. Un autre concept souvent utilisé

Une statistique, souvent utilisée dans les travaux de l'Observatoire des Entreprises n'a pas été présentée ci-dessus : le ratio moyen RM, concept plus macro-économique

170

Insee Méthodes n° 56-57-58

Page 174: actes des journées de méthodologie statistique

rapporte la somme des numérateurs à la somme des dénominateurs, et peut s'interpréter

comme yne moyenne pondérée de ratios individuels y

( Xi

2.2. Les méthodes de nettoyage

Il est difficile de toujours bien distinguer les méthodes permettant d'identifier des valeurs extrêmes de certaines des méthodes parmi celles dites robustes et utilisées pour réduire l'influence des valeurs extrêmes. En effet, le rapprochement des résultats obtenus par certaines méthodes robustes de ceux obtenus par les méthodes tradition-nelles permettent de détecter l'existence de valeurs aberrantes.

Prenons deux exemples :

- parmi les statistiques dites robustes, la médiane est une statistique non paramétrique, robuste à la présence de valeurs aberrantes, puisqu'elle ne repose que sur une seule valeur, l'observation centrale. Son utilisation ne permet cependant pas d'identifier directement les valeurs aberrantes ;

par contre, la moyenne tronquée est une statistique paramétrique robuste, qui repose sur les observations centrales (leur nombre dépend du degré de tronquage utilisé). La comparaison des résultats de moyennes tronquées et de la moyenne permet alors de repérer l'existence des observations très influentes. La méthode la plus simple consiste à calculer des moyennes tronquées à différents seuils, puis à comparer les résultats de moyennes tronquées et de la moyenne pour identifier les valeurs influentes. Si ce test, surtout quand il est calculé automatiquement par un logiciel, ce qui n'est malheureusement pas le cas dans le module STAT de SAS, permet de faire une vérification rapide de la qualité de l'échantillon, il ne fait intervenir aucun paramètre de dispersion et peut paraître sommaire.

2.2.1. Le Box plot de Tukey

Cette méthode, attribuée à Tukey, et utilisée dans les graphiques "Box plots" des logiciels statistiques, est basée sur l'écart interquartile EIQ (différence entre le troisième

Nettoyage de données 171

Page 175: actes des journées de méthodologie statistique

quartile, q3 et le premier quartile, qI) et distingue deux catégories de valeurs extrêmes déterminées par deux types de bornes (bornes intérieures et bornes extérieures).

Sont considérées comme légèrement extrêmes ("mild outliers") toutes les valeurs extérieures à l'intervalle [ql - 1.5 EIQ, q3 + 1.5 EIQ]. Hamilton (1991, STB3, p. 16) considère que ces observations représentent 0,7 % d'une population normale et ne devraient pas être jugées comme alarmantes. Toujours dans le cas d'une loi normale, Emerson et Hoaglin (1983) estiment que la probabilité qu'une observation appartenant à un échantillon de taille n soit en dehors de l'intervalle [ql - 1.5 EIQ, q3 + 1.5 EIQ] est de 0.007 + 0.4/n.

Sont considérées comme très extrêmes ("severe outliers"), les valeurs extérieures à l'intervalle [q l - 3 EIQ, q3 + 3 EIQ]. Elles représentent 0,0002 % d'une population normale et ont des effets non négligeables sur le calcul de la moyenne, de l'écart-type s et des autres statistiques classiques.

2.2.2. Repérage des observations influentes sur le calcul de l'écart-type

Belsley, Kuh et Welsh (1980) ont proposé différentes statistiques pour mesurer l'in-fluence de chaque observation sur les estimations des paramètres d'une régression, en supprimant de façon itérative chaque observation : DFFITS (mesure de l'influence sur le prédicteur), DFBETAS (mesure de l' influence sur le paramètre estimé) et COVRATIO (mesure de l'influence sur l'écart-type). Elles sont intégrées dans la plupart des logiciels statistiques (voir par exemple SAS, 1990, pp. 1418-1420, Hamilton,1990, pp. 119-122 pour STATA, et SPSS,1992, pp. 183-187). Pour une régression où l'on régresse y sur x, un point (xi, yi) peut être important parce que 9i est éloigné de yi , ou parce que xi est trop éloigné de l'ensemble des autres x. En appliquant les seuils proposés par Belsley et alii, fonctions à la fois du nombre de paramètres étudiés et de la taille de l'échantillon, ces différentes statistiques donnent dans notre cas des résultats quasi équivalents 1 ; dans les critères de sélection présentés ici, seule la statistique COVRATIO est retenue.

Soit s(i)2 la variance estimée après suppression de la ième observation ;

Soit X(i) la matrice X sans la ième observation.

La statistique COVRATIO mesure le changement dans le déterminant de la matrice de variance-covariance en supprimant la ième observation :

(1) Ceci n'est bien sûr pas toujours le cas et s'explique ici pour deux raisons: la première est que cette méthode est appliquée ici sur le calcul de la moyenne, et la régression effectuée consiste à régresser sur une constante; la deuxième raison est due à la taille des échantillons utilisés.

172 Insee Méthodes n° 56-57-58

Page 176: actes des journées de méthodologie statistique

P( X-1.1

cs

P( X-

cs

2 . . . —1) det(s (1)(X(1) X(t))

COVRATIO —

Si p est le nombre de paramètres du modèle et n le nombre d'observations de l'échantillon, Belsley et alii suggèrent que les observations telles que

COVRATIO i -1 I 3p / n soient considérées avec attention.

2.2.3. Élimination après standardisation de la distribution)

La méthode de nettoyage la plus classique consiste à prendre en compte la moyenne et l'écart-type de la distribution pour déterminer des bornes au-delà desquelles les observations sont éliminées ("cutoffs"), et repose donc sur la notion d'intervalle de confiance. Pour une distribution arbitraire de moyenneli et d'écart-type 6 , l'inégalité de Bienaymé-Tchebyshev indique que la probabilité que l'écart absolu entre une variable et sa moyenne soit supérieur à k cs est inférieure ou égale à IA2

:

1 >k) —

2 k

Dans le cas d'une distribution arbitraire, on atteint un seuil de 5 %, avec k = 4.47 (voir Sachs, 1984, pp. 63-64). Dans le cas d'une loi symétrique et uni-modale, l'inégalité plus stricte de Gauss s'applique :

k) s —4,

9k`

La même valeur k = 4.47 donne alors un seuil de 0,5 %. Enfin dans le cas d'une distribution normale et avec toujours la même valeur de k, le seuil est de 54 x 10-7.

Ainsi, si la variable étudiée suit effectivement une loi normale, le seuil à partir duquel les observations sont supprimées est très faible. Mais cette méthode peut être utilisée sans qu'il soit nécessaire de faire d'hypothèse sur la loi de la distribution. Au pire, le seuil à partir duquel les observations sont supprimées est de 5 %.

Le problème est que cette méthode utilise deux estimateurs peu robustes aux valeurs aberrantes, et donc identifie comme extrêmes d'autant moins d'observations que la dispersion est grande au départ, c'est-à-dire que le nombre de valeurs aberrantes dans l'échantillon brut est élevé. Cette méthode échoue dans certains cas à identifier des vraies

(1) On appelle standardisation la transformation d'une variable normale quelconque en une variable normale centrée réduite.

det ( s2 (X' X) -1 )

Nettoyage de données 173

Page 177: actes des journées de méthodologie statistique

valeurs aberrantes, simplement parce qu'elle dépend des observations qu'elle est supposée identifier. De nombreux essais ont été faits sur la base FIBEN pour rendre plus robuste cette méthode. Ces essais consistent à utiliser d'autres paramètres de localisation et de dispersion de la distribution de l'échantillon, plus robustes à la présence des points aberrants. Cela revient à faire des combinaisons des méthodes précédentes.

ech iqu

pp iq ées bas F BEN ,4°

3.1. La nécessité du trevail de repérage des valeurs extrêmes

On peut se demander pourquoi ne pas utiliser des statistiques robustes et quel est l'intérêt d'éliminer certaines valeurs aberrantes. Autrement dit, ne peut-on utiliser des statistiques, des tests et des méthodes économétriques robustes sur un fichier brut, au lieu d'utiliser des statistiques, des tests et des méthodes économétriques classiques sur un fichier nettoyé grâce à des méthodes de nettoyage reposant sur des statistiques robustes ? Plusieurs éléments poussent en faveur de la deuxième solution. Ils tiennent aux propriétés de nos bases, aux utilisations qui en sont faites, et à la formation de l'utilisateur et du lecteur.

Les bases de l'Observatoire des Entreprises permettent la réalisation d'études dont certaines s'adressent à un large public non spécialisé en statistiques. D'autre part si certaines statistiques (ratios moyens, médianes) paraissent moins sensibles que d'autres (moyennes de ratios) à la présence de valeurs extrêmes, elles n'en sont pas néanmoins totalement indifférentes. Si les nombreux contrôles effectués sur les données de la Centrale de Bilans permettent de penser que cette base est plus à l'abri que la base FIBEN des méfaits des valeurs extrêmes, le petit nombre d'observations parfois présentes pour un croisement secteur-taille donné fait que la statistique utilisée peut être très perturbée par la présence d'un seul point.

De plus, l'utilisation de méthodes de régression robustes est plus lourde à utiliser et donc souvent beaucoup plus coûteuse en temps informatique (elles reposent en général sur des méthodes itératives), et nécessite des connaissances statistiques de la part de l'utilisateur et du lecteur plus poussées.

Enfin, comme le montrent les dates de publication des articles de la bibliographie, ces techniques sont encore en pleine évolution. La revue publiée mensuellement par le logiciel STATA, explique que si il n'y a qu'une façon de faire une régression utilisant la méthode des moindres carrés ordinaires (OLS), la méthode de régression robuste "n'est pas unique, et unifiée ; une grande variété d'estimateurs robustes existent, sans

174 lnsee Méthodes n° 56-57-58

Page 178: actes des journées de méthodologie statistique

large consensus sur celui qui marche le mieux", Hamilton (1991, STB, p. 21). L'article se termine ainsi : "en résumé, les méthodes robustes ne peuvent dispenser l'analyste de la nécessité d'un travail soigneux de diagnostics, en regardant et réfléchissant sur les résultats de toute analyse".

Avant de présenter une comparaison des différentes techniques de nettoyage appliquées à la base FIBEN, les tableaux I et 2 illustrent l'effet du nettoyage aussi bien sur la base FIBEN que pour le sous-ensemble constituant le fichier FPD de la Centrale de Bilans. Ces calculs sont présentés pour certains secteurs pour l'année 19881. Les exemples retenus montrent que les ratios moyens, tout comme les moyennes de ratios, peuvent être influencés par les valeurs extrêmes. Ainsi, les pratiques qui consisteraient à publier des tableaux où seraient retirés un certain nombre d'observations pour le calcul de la moyenne de ratios individuels (par crainte de valeurs aberrantes), mais à garder ces mêmes observations pour le calcul des ratios moyens, ne sont pas fiables.

Tableau 1 - Comparaison des fichiers FIBEN et FPD, bruts et nettoyés statistiques sur le ratio délais clients (standardisation avec moyenne tronquée à 1 % et pataud° écart type)

Secteur Base Nombre Moyenne Ratio

moyen

Écart type

Écart

type de la m. empirique

Pl Médiane 112

Maximum Écart inter quartile

UO2 FIBEN 4876 53.7 51.0 222.6 3.19 0.0 43.7 179.0 15236 34.1

I.A.A. FPD 1908 612 52.4 349.3 8.00 3.7 46.5 181.8 15236 32.3 FIBEN net 4807 47.7 50.0 28.2 0.41 0.0 43.3 136.1 159.0 33.2

FPD net 1883 51.1 51.7 27.2 0.63 3.7 46.2 142.8 158.1 31.6

U05A FIBEN 7318 89.7 105.7 69.2 0.81 10.4 84.0 245.3 3571.6 45.3

Ind. b. FPD 2459 91.0 110.5 39.6 0.80 18.0 88.5 239.7 470.1 43.3

équip. FIBEN net 7232 85.7 100.8 36.5 0.43 10.2 83.5 194.5 235.7 44.7

Protes. FPD net 2433 88.9 104.4 33.9 0.69 18.0 87.9 187.4 229.9 42.4

1106 FIBEN 11737 87.3 72.1 983.4 9.08 1.0 65.5 228.2 73680 45.0

Ind. b. FPD 4291 70.3 73.1 45.6 0.70 6.1 67.4 176.3 1342 40.2

Conso. FIBEN net 11607 67.0 71.1 34.2 0.32 1.0 65.1 169.6 216.8 44.4

Courant FPD-net 4268 68.5 72.3 31.2 0.48 6.1 67.1 161.7 213.9 39.7

Note : Les résultats présentés dans ce tableau sur la ligne FIBEN nettoyé sont les mêmes que ceux présentés dans le tableau 3, huitième technique.

(1) Ces travaux ont été faits dans le cadre d'une comparaison avec la base SUSE de l'Insee et l'année 1988 était la dernière disponible lors de leur démarrage. L'ensemble des tests et des comparaisons ont été réalisés sur les entreprises industrielles (hors énergie). Dans tous les cas les méthodes ont été appliquées par secteur (au niveau de la NAP15, soit six secteurs), pour prendre en compte les hétérogénéités sectorielles. Par contre elles ne sont pas appliquées par critère taille. Lorsque des résultats sont donnés pour la base FPD de la Centrale de bilans, le nettoyage a été effectué sur l'ensemble FIBEN, puis le sous-ensemble FPD a été reconstitué en triant sur la variable type, qui caractérise le type de bilan. Aucun test de nettoyage n'a été effectué directement au niveau de la base FPD; bien évidemment, les résultats seraient quelque peu différents. Enfin, les résultats ne sont présentés ici que pour certains secteurs, tous les secteurs étant donnés dans la première version de ce document daté de mars 1993.

Nettoyage de données 175

Page 179: actes des journées de méthodologie statistique

Tableau 2 -Comparaison des fichiers FIBEN et FPD, bruts et nettoyés par tranche d'effectifs - statistiques sur le ratio délais clients (standardisation avec moyenne tronquée et escudo écart type)

1988, secteur des biens de consommation courante (U06

Tranche effectifs Base Nombre Moyenne Ratio

moyen Écart type

Écart type da

la m. empirique

P1 Médiane q2 P99 Maximum

Écart inter

quartile

0-19 FIBEN 3876 98.6 67.7 1225 19.68 0.2 62.7 272.5 66326 50.4 FPD 733 67.8 64.9 54.9 2.03 2.7 62.8 179.3 1050.5 46.7 FIBEN net 809 64.8 64.9 37.1 0.60 0.2 61.9 176.9 215.0 48.9 FPD net 728 65.1 63.3 36.1 1.34 2.7 62.4 169.6 206.6 -46.5

20-499 FIBEN 7626 81.4 71.4 850.4 9.74 1.5 66.5 204.1 73680 42.9 FPD 3356 70.7 72.7 44.3 0.76 7.3 67.6 176.3 1342.0 39.0

[BEN net 7564 67.9 70.1 32.8 0.38 1.5 66.0 163.7 216.8 42.5 FPD net 3338- 69.0 71.4 0.3 0.52 7.3 67.6 155.5 213.9 38.6

>=500 FIBEN 235 91.7 74.4 271.2 17.69 11.3 75.5 145.3 4210.3 35.7 FPD 202 73.4 74.1 26.3 1.85 12.5 74.9 138.5 145.3 33.8 FIBEN net 234 74.1 74.4 26.9 1.76 11.3 75.3 139.7 149.1 35.6 FPD net 202 73.4 74.1 26.3 1.85 12.5 74.9 138.5 145.3 33.8

Note : On rappelle que le nettoyage a été effectué toutes tailles confondues, seul le calcul des statistiques est ensuite réalisé par tranche d'effectifs.

Le tableau 1 compare différentes statistiques calculées pour le ratio délais clients'. Les statistiques de la première ligne sont calculées sur la base FIBEN non nettoyée, celles de la deuxième ligne le sont sur le sous-ensemble constitué par les entreprises adhéren-tes à la Centrale de Bilans. Les troisième et quatrième lignes présentent les mêmes statistiques sur les deux mêmes bases après élimination des observations considérées comme aberrantes en appliquant la méthode de standardisation au ratio délais clients (avec comme indicateur de localisation la moyenne tronquée à 1 % et comme estimateur de dispersion le pseudo écart-type). La première colonne de chiffres donne le nombre d'entreprises rentrant dans le calcul des différentes statistiques.

Dans le secteur des industries agro-alimentaires (UO2), la suppression de 1,4 % des observations de FIBEN (69 observations), ou de 1,3 % des observations du FPD (25 observations) fait passer la moyenne de ratios individuels de 54 à 48 jours pour FIBEN, et de 61 à 51 jours pour le FPD. Les ratios moyens sont dans ce cas peu sensibles au nettoyage. Par contre, l'écart-type passe de 349 à 27 pour les entreprises du FPD, alors que l'intervalle iriterquartile passe de 32,3 à 31,6. Ainsi, l'intervalle de confiance permettant de tester des différences de moyennes sur la base FPD de la Centrale de bilans est très fortement réduit ; il passe de [45 jours, 77 jours] à [50 jours, 52 jours]. Sans nettoyage, la moyenne des délais clients en 1988 est connue avec une incertitude de 30 jours ; avec nettoyage et en supprimant 25 observations sur 1908, la précision est de deux jours.

(1) La définition la plus simple du ratio délais clients [Créances clients (ligne bx du bilan) sur chiffres d'affaires TTC (fi + yy)], a été retenue pour pouvoir facilement comparer avec les données SUSE de l'Insee.

176 Insee Méthodes n° 56-57-58

Page 180: actes des journées de méthodologie statistique

Le secteur des industries des biens d'équipement professionnel (U05A), fournit un exemple ou le ratio moyen est lui-même affecté de 5 à 6 jours par le nettoyage, aussi bien dans la base FIBEN que dans la base FPD.

Dans le secteur des Industries des Biens de Consommation courante (U06), le nettoyage fait baisser la moyenne de ratios de 20 jours pour les données FIBEN, et de près de deux jours pour le FPD, réduisant ainsi fortement l'écart entre les deux sources.

La même comparaison par tranche d'effectifs montre que quel que soit le secteur, ce sont les petites entreprises qui sont le plus sensibles au nettoyage. Le tableau 2 fournit cette comparaison pour le secteur U06, industries des biens de consommation courante. Pour la base FIBEN, la baisse de 20 jours de la moyenne des ratios individuels pour l'ensemble du secteur constaté dans le tableau 1 entre le fichier FIBEN brut et le fichier FIBEN nettoyé est le résultat d'une baisse de 32 jours pour les entreprises de moins de 20 salariés (suppression de 67 entreprises, soit 1,7 %), de 13 jours pour les P.M.E. (suppression de 62 entreprises, soit 0,8 %) et de 18 jours pour les grandes entreprises, cette dernière baisse n'étant due à la suppression que d'une seule entreprise.

3.2. Définition des techniques et des ratios

Le problème du nettoyage d'un échantillon s'est posé dans le cadre de la comparaison des bases de données comptables de la Banque de France avec les données exhaustives SUSE de l'Insee. En effet, étudier la représentativité d'une base A par rapport à une base B avant d'avoir écarté les valeurs apparemment aberrantes des bases A et B n'a pas grand sens. Dans une première étape, les comparaisons de ces deux bases ont été faites en éliminant les points extrêmes avec la méthode de standardisation, que nous avions utilisée dans des travaux précédents (cf. Kremp et Mairesse, 1992, Mairesse et Kremp, 1993), avec comme indicateurs de localisation et de dispersion, la moyenne et l'écart-type. Cette méthode a été appliquée ù7 ratios, sur les données de FIBEN, et parallèlement à l'Insee sur les données SUSE. Elle s'est avérée peu fiable (et n'est pas présentée dans les tableaux), car ses résultats sont trop dépendants de la dispersion des observations dans l'échantillon brut. Si la dispersion est très grande, cette méthode délimitera des bornes très lointaines pour éliminer les points extrêmes. Du fait que la dispersion des écarts types est beaucoup plus importante que la dispersion des moyen-nes, la première partie de cette recherche s'est portée sur les moyens de réduire l'influence des points aberrants sur l'écart-type (techniques 4, 5 et 6). Ensuite pour des raisons de cohérence, il a semblé logique d'utiliser aussi des estimateurs robustes de localisation si des estimateurs robustes de dispersion sont utilisés (techniques 7 et 8).

A partir des outils et des trois méthodes présentés ci-dessus, huit façons de nettoyer un fichier, appelés par la suite techniques, ont été testées, dont certaines sont une simple

Nettoyage de données 177

Page 181: actes des journées de méthodologie statistique

application d'une des méthodes, d'autres sont une combinaison de méthodes ou de méthodes et d'outils.

Les deux premières techniques correspondent à l'application de la méthode expliquée ci-dessus, et attribuée à Tukey. La première montre les conséquences de la suppression de toutes les observations situées à plus de 1.5 écart interquartile du premier et du troisième quartiles. La deuxième technique montre les conséquences de la suppression de toutes les observations situées à plus de 3 écarts interquartiles. Ces deux techniques sont les plus simples à mettre en oeuvre.

Les techniques 3 et 4, utilisent la méthode de Belsley et alii. La technique 3 (BKW) donne les résultats de la suppression des valeurs ayant une trop forte influence sur le critère de COVRATIO, c'est-à-dire sur le calcul de l'écart-type. La technique 4 (STD/BKW) consiste en l'application de la méthode de standardisation, une fois les points extrêmes, repérés par la technique 3, supprimés.

Les techniques 5 à 8 appliquent la méthode de standardisation avec différents estima-teurs de localisation et de dispersion! :

Technique 5 : moyenne et écart interquartiles (eiq) ;

Technique 6 : moyenne et pseudo écart-type (psd, intervalle interquartile divisé par 1.349) ;

Technique 7 : moyenne tronquée à 1 % (tml) et écart interquartile (eiq) ;

Technique 8 : moyenne tronquée à 1 % (tml) et pseudo écart-type (psd = eiq/1.35) ;

Ces huit techniques ont été testées sur la batterie des sept ratios utilisés lors de l'étude de représentativité des bases de l'Observatoire des entreprises avec les don-nées exhaustives de SUSE de l'insee. Ces sept ratios sont les suivants :

R1 = marge brute d'exploitation = excédent brut d'exploitation/chiffre d'affaires hors taxes

R2 = taux de valeur ajoutée = valeur ajoutée/production

R3 = marge d'autofinancement = capacité d'autofinancement nette/chiffre d'affaires hors taxes

R4 dettes financières/fonds propres

R5 = fonds propres/total bilan

R6 = délais clients

R7 = délais fournisseurs

178 Insee Méthodes n° 56-57-58

Page 182: actes des journées de méthodologie statistique

3.3. Comparaison des huit techniques sur le ratio délais clients

Pour chaque secteur de l'industrie au niveau NAP15, pour l'année 1988, toutes tailles confondues, le nettoyage a été fait pour chacun de ces sept ratios avec les huit différentes techniques. Ensuite, l'effet de ces différentes techniques a été évalué en regardant les résultats par tranche d'effectifs, en distinguant trois tranches, les moins de 20 salariés, les PME de 20 à 500 salariés, les grandes entreprises de plus de 500 salariés.

La version préliminaire de ce document fournit l'ensemble des com araisons de ces huit techniques appliquées au ratio délais clients pour les six secteurs . A titre d'illus-tration le tableau 3 présente les résultats, toutes tailles confondues, de trois des six secteurs étudiés. La première ligne rappelle les valeurs des différentes statistiques pour l'échantillon brut.

Pour tous les secteurs, la première technique (suppression de toutes les observations situées à plus de 1,5 écart interquartiles du premier et du troisième quartiles) supprime le plus d'observations. Le pourcentage d'entreprises supprimées sur le ratio délais clients varie entre 1,8 % pour le secteur de la construction automobile et 4,6 % pour le secteur des industries des biens d'équipement ménagers.

La deuxième technique (suppression de toutes les observations situées à plus de 3 écarts interquartiles du premier et du troisième quartiles) supprime entre 0,9 % et 2,3 % des observations sur le ratio délais clients, avec une grande homogénéité d'un secteur à l'autre, puisque 5 des 6 secteurs ont un taux entre 0,9 et 1,1 %. Le secteur ayant le taux le plus élevé de 2,3 % est encore une fois le secteur des industries des biens d'équipe-ment ménagers.

La technique 3 de Belsley, qui permet d'identifier les observations ayant une grande influence sur le calcul de l'écart-type n'est pas suffisante pour écarter les points aberrants. Ainsi, dans le secteur des industries de biens de consommation courante, une entreprise ayant un délai client de 1609 jours n'a pas été identifiée comme extrême.

Les techniques 4, 5, et 6 ont comme caractéristique commune l'utilisation d'un indicateur de dispersion robuste tout en conservant l'indicateur de localisation tradi-tionnel qu'est la moyenne. Les techniques 7 et 8, lourdes à mettre en oeuvre car SAS ne calcule pas automatiquement de moyenne tronquée, donnent dans la plupart des cas

(1) La méthode de standardisation pour un estimateur de localisation pt et un estimateur de dispersion a consiste à éliminer les observations X telles que

X — a

Nettoyage de données 179

Page 183: actes des journées de méthodologie statistique

Tableau 3 - Comparaison des huit techniques sur le ratio délais clients fichier FIBEN

Secteur Base Nombre % con-

serve ' Moyenne Ratio

moyen

Écart

type

Écart

typa

de la

m.

empi-

rique

pi Médiane

q2 p99 Max.

Écart inter

quartile

UO2

I.A.A.

FIBEN brut

1:q3+1.5

eiq

2:q3+3 eiq

3:BKW

4: STD

avec BKW

5: STD

avec eiq

6: STD

avec psd

7: STD

avec tm 1

et eiq

8: STD

avec tm 1

et psd

4876

4664

4811

4873

4851

4850

4812

4847

4807

.

95.7

98.7

99.9

99.5

99.5

98.7

99.4

98.6

53.7

45.1

47.8

50.0

48.9

48.9

47.8

48.8

47.7

51.0

48.0

50.1

51.0

50.8

50.8

50.1

50.8

50.0

222.6

24.3

28.4

35.2

30.8

30.8

28.5

30.5

28.2

3.2

0.4

0.4

0.5

0.4

0.4

0.4

0.4

0.4

0

0

0

0

0

0

0

0

0

43.7

42.4

43.3

43.7

43.6

43.6

43.4

43.6

43.3

179.0

106.8

137.3

176.9

158.0

156.5

137.4

154.3

136.1

15 236

114.4

164.6

539.8

207.1

202.4

165.8

200.0

159.0

34.1

31.3

33.2

34.0

33.8

33.7

33.2

33.7

33.2

U05A

Indus-

tries

biens

équipmt

protes-

sionnel

FIBEN brut

1:q3 +1.5

eiq

2:q3+3 eiq

3:BKW

4: STD

avec BKW

5: STD

avec eiq

6: STD

avec psd

7: STD

avec t m 1

et eiq

8: STD

avec t m1

et psd

7318

7083

7239

7242

7242

7269

7234

7269

7232

96.8

98.9

99.0

99.0

99.3

98.9

99.3

98.8

89.7

83.4

85.9

86.0

86.0

86.6

85.8

86.6

85.7

105.7

96.4

100.8

100.9

100.9

105.3

100.8

105.3

100.8

69.2

33.0

36.8

36.9

36.9

38.4

36.6

38.4

36.5

0.8

0.4

0.4

0.4

0.4

0.4

0.4

0.4

0.4

10.4

9.9

10.2

10.2

10.2

10.2

10.2

10.2

10.2

84.0

82.8

83.6

83.6

83.6

83.7

83.5

83.7

83.5

245.3

164.6

197.1

198.1

198.1

210.0

194.8

210.0

194.5

3 571.6

175.1

242.9

244.1

244.1

288.3

238.2

288.3

235.7

45.3

43.6

44.7

44.7

44.7

44.9

44.7

44.9

44.7

U06

Indus-

tries

biens

consom-

melon

courante

EISEN brut

1: q3+ 1.5

eiq

2:q3+3 eiq

3:BKW

4: STD

avec BKW

5: STD

avec eiq

6: STD

avec psd

7: STD

avec tm 1

et eiq

8: STD

avec tm 1

et psd

11737

11420

11616

.

11730

11685

11677

11635

11664

11607

.

97.3

99.0

99.9

99.6

99.5

99.1

99.4

98.9

87.3

65.2

67.1

70.1

68.3

68.1

67.4

67.9

67.0

72.1

70.2

71.3

72.1

71.7

71.7

71.4

71.6

71.1

983.4

31.2

34.4

51.7

37.3

36.8

35.0

36.2

34.2

9.1

0.3

0.3

0.5

0.3

0.3

0.3

0.3

0.3

1.0

0.8

1.0

1.0

1.0

1.0

1.0

1.0

1.0

65.5

64.5

65.1

65.4

65.3

65.3

65.2

65.3

65.1

228.2

142.4

171.0

222.2

195.5

194.0

176.1

189.1

169.6

73680.0

155.8

222.6

1609.4

299.5

285.7

235.8

267.8

216.8

45.0

43.3

44.4

44.9

44.7

44.7

44.5

44.6

44.4

180 Insee Méthodes n° 56-57-58

Page 184: actes des journées de méthodologie statistique

des résultats très proches des techniques 5 et 6 ; cependant elles sont plus cohérentes que ces dernières, puisqu'elles utilisent aussi un estimateur robuste de localisation. Dans un petit nombre de cas, les techniques 5 et 6 ne détectent pas des valeurs extrêmes, ou au contraire, éliminent toutes les observations (Cf. rôle du choix des ratios, tableau 4, secteur des biens d'équipement ménagers).

Le choix entre la technique 7 et la technique 8 dépend de la forme de la distribution de la variable testée. Si il y a de bonnes raisons de croire que cette distribution est très éloignée de la distribution normale, et si une transformation de la variable permettant de rapprocher sa distribution d'une loi normale ne peut être envisagée, alors la technique 8 peut conduire à éliminer trop d'observations.

Les techniques 2 et 8 donnent des résultats extrêmement proches, toutes tailles confon-dues et par tranche d'effectifs dans le cas du ratio des délais clients. La technique 2 étant beaucoup plus simple à mettre en œuvre, ce peut être une bonne raison pour préférer cette technique si ce résultat se confirme sur d'autres variables et sur les données SUSE de l'Insee.

Enfin, il faut noter le comportement très différent du secteur U05B, qui s'explique en partie par le plus petit nombre d'observations de ce secteur. Même après nettoyage, l'hétérogénéité dans ce secteur reste très forte. Une attention particulière doit lui être portée.

La comparaison par tranche d'effectifs (non reproduite ici), confirme que quelle que soit la technique employée, les entreprises de moins de 20 salariés sont plus touchées par le nettoyage que les entreprises de plus grande taille.

3.4. Le rôle du choix des ratios

La comparaison des huit techniques appliquées à un même ratio a déjà fourni quelques enseignements. Le tableau 4 compare les taux d'acceptation des huit techniques appliquées par secteur à sept ratios. Moins complet que le précédent puisqu'il résume une technique à son taux d'acceptation, il permet d'évaluer la sensibilité des techniques aux différents ratios.

La première constatation est que quelle que soit la technique utilisée, les taux d'accep-tation varient beaucoup d'un ratio à l'autre : ils dépendent plus du ratio concerné que du secteur (mis à part le cas du secteur des biens d'équipement ménagers déjà signalé ci-dessus). Le ratio des dettes financières sur fonds propres (R4) est celui pour lequel le plus fort pourcentage d'entreprises est rejeté pour six techniques sur huit (entre 8 % et 11 % suivant les secteurs en appliquant la technique 2).

Nettoyage de données 181

Page 185: actes des journées de méthodologie statistique

A l'opposé, le ratio de taux de valeur ajoutée (R2) et le ratio des délais clients (R6) sont pour 6 techniques, ceux pour lesquels le plus faible pourcentage d'entreprises est rejeté (moins de 1 %, pour le ratio R2 en appliquant la technique 2).

La deuxième constatation est que, quel que soit le ratio et quel que soit le secteur, la technique 1 est beaucoup plus sélective que les autres.

La troisième constatation concerne les techniques 3 et 4, qui utilisent la méthode de Belsley et alii. Elles apparaissent fort différentes des autres techniques puisque pour ces deux techniques R3 et R4 n'ont pas les taux de rejet les plus forts. Elles ont un taux de rejet qui varie beaucoup d'un secteur à l'autre pour le même ratio ; ainsi pour le ratio

Tableau 4 - Comparaison des faux d'acceptation selon les huit techniques pour chacun des sept ratios

1 : [111-1.5 elq q3+1.5

04]

2 : (q1-3 elq q343 &g]

3 : Beisley' Kuh, Walsh

4: standar- disation

avec BKW

5 : Standar- disation avec elq

6 : Standard) sation avec

psd

7 : Standar- disation

avec moyenne

tronquée à 1 % et eiq

8 : Standar-disation

avec moyenne

tronquée à 1 % et psd

Secteur des industries Agro Alimentaires (UO2) : 4 876 observations

R1 88.6 97.4 99.7 99.2 98.9 97.6 98.8 97.7

Marge brute d'exploitation = ebe / chiffre d'affaires R2 95.2 99.7 99.8 99.8 I 99.9 99.7 99.9 I 99.7 Taux de valeur ajoutée = valeur ajoutée / production

R3 79.7 92.8 99.7 99.0 96.1 94.0 96.3 I 93.8

Marge d'autofinancement = capacité d autofinancement nette / chiffre d'affaires

R4 81.8 90.6 99.3 97.8 I 93.5 91.6 93.4 I 91.4

Dettes financières / fonds propres

R5 89.0 97.7 97.1 97.1 99.2 98.4 99.2 I 98.4 Fonds propres / total bilan

R6 87.7 1 98.7 99.9 99.5 I 99.5 98.7 99.4 I 98.6 Délais clients

R7 j 91.6 I 98.3 99.8 99.2 I 99.2 98.4 99.1 I 98.2 Délais fournisseurs

Secteur des Industries des biens d'équipement ménagers (U0513) : 176 observations

R1 84.6 94.9 98.9 98.9 0 0 98.3 94.9

R2 92.0 98.3 98.9 98.9 98.3 77.3 98.9 98.9

R3 80.7 92.6 98.9 97.7 0.6 0 96.0 95.5

R4 83.5 89.2 98.9 97.7 4.0 2.3 93.2 90.3

R5 89.8 98.9 97.2 97.2 99.4 99.4 99.4 99.4

R6 88.6 97.7 98.3 98.3 99.4 97.7 99.4 97.7

R7 86.4 98.9 96.6 96.6 100 98.9 100 98.9

Secteur des Industries des biens de consommation courante (U06): 11 737 observations

R1 86.1 96.6 99.9 99.7 97.7 93.8 98.5 97.3

R2 89.6 99.6 99.9 99.8 99.7 99.7 99.7 99.7

R3 79.8 92.2 99.9 99.8 96.1 93.7 96.1 93.7

R4 82.5 90.7 99.8 99.0 93.5 91.2 93.7 91.4

R5 90.8 97.8 99.6 99.1 99.2 98.7 99.1 98.7 R6 89.7 99.0 99.9 99.6 99.5 99.1 99.4 98.9 R7 87.5 98.7 99.9 99.6 99.3 98.8 99.2 98.6

182 Insee Méthodes n° 56-57-58

Page 186: actes des journées de méthodologie statistique

R5, le taux de rejet varie entre 0,3 % pour le secteur U06 des industries de biens de consommation courante et 2,9 % pour le secteur UO2 des industries agro-alimentaires.

La quatrième constatation est que les techniques 5 et 6, qui n'utilisent pas d'estimateur de localisation robuste, peuvent donner des résultats très bizarres, puisque dans le cas d'un petit secteur avec des valeurs très aberrantes, la technique conduit à éliminer toutes les entreprises (secteur U05B des industries de biens d'équipement ménagers).

Enfin, la dernière constatation est que les techniques 2 et 8, quel que soit le secteur et quel que soit le ratio, donnent des résultats très proches, confirmant les résultats trouvés ci-dessus sur le délais clients.

Le tableau 5 étudie les phénomènes cumulatifs d'élimination polir les techniques qui apparaissent les plus solides. Pour les six secteurs confondus, la technique 2 appliquée successivement aux sept ratios conserve 83 % des observations, la technique 7 en conserve 89 % et la technique 8, 85 %. Par tranches d'effectifs, ce tableau montre que les plus petites entreprises (moins de 20 salariés) sont les plus atteintes par le nettoyage (79 %, 87 % et 81 % respectivement, contre 87 %, 93 % et 89 % pour les plus de 500 salariés). Il confirme aussi la similitude des résultats obtenus par la technique 2 (trois intervalles interquartile) à l'extérieur de l' intervalle [q I , q3]) et la technique 8 (stan-dardisation avec moyenne tronquée à 1 % et pseudo écart-type).

3.5. Comparaison des statistiques après application d'une des trois techniques sur les sept ratios

Les tableaux 6 comparent les trois techniques qui apparaissent les plus solides. La technique 2 élimine les observations à l'extérieur de l'intervalle [q1-3 eiq, q3 + 3 eiq] et est la plus simple à mettre en oeuvre. Les techniques 7 et 8 appliquent une méthode de standardisation avec comme estimateurs de localisation une moyenne tronquée à I %. Elles diffèrent sur le choix de l'estimateur de dispersion, la première retenant l'intervalle interquartile, la seconde imposant l'écart-type d'une loi normale (le pseudo écart-type). Pour chaque technique, le nettoyage est fait pour les sept ratios ; une observation est éliminée dès qu'elle ne vérifie pas un test pour un des ratios ; ensuite pour chacun des sept ratios, les statistiques sont donc calculées sur le même nombre d'observations pour une technique donnée. Ainsi, le nombre d'observations pour une

(1) Par contre, le tableau 6-6 pour le ratio délais clients n'est pas identique aux tableaux 2 et 3. Dans ces deux tableaux, seules les observations ne vérifiant pas le critère de sélection pour le ratio délais clients ont été éliminées alors que dans le tableau 6.6, les observations ne vérifiant pas le critère de sélection pour un des sept ratios ont été éliminées. Les tableaux 2 et 3 calculent le ratio délais clients sur 98 ou 99% des observations suivant les secteurs, le tableau 6.6 sur 80 à 90% des observations. Ceci n'est pas négligeable, comme le montre la comparaison des résultats pour le secteur des industries de biens d'équipement professionnel. En appliquant la technique 2 à ce seul ratio, le tableau 3 indique un ratio moyen de 100.8, pour 7239 observations. En appliquant cette même technique 2 aux septs ratios, le ratio moyen pour les délais clients, calculé sur 6108 observations (Cf. tableau 6.1). Cela permet de souligner l'importance du choix des ratios pour un nettoyage de l'échantillon.

Nettoyage de données 183

Page 187: actes des journées de méthodologie statistique

Tableau 5- Comparaison pour trois techniques des phénomènes cumulatifs d'élimination pour les sept ratios

Nombre Pourcentage d'entreprises supprimées

Technique 2 :q3+3elq 0 fois 1 fois 2 fois 3 fois 4 fois S fois 6 fois

6 secteurs confondus 35855 83,0 12,4 3,0 1,1 0,3 0,1 0,0

I.A.A. (UO2) 4876 81,2 14,5 3,0 1,0 0,3 0,0 0,0

Biens intermédiaires (U04) 10959 84,7 11,6 2,5 0,8 0,3 0,1 0,0

Biens de conso. courante (U06) 11737 82,0 12,8 3,4 1,4 0,3 0,1 0,0

Biens d'équipt profess. (U05a) 7318 83,5 11,7 3,3 1,2 0,3 0,1 0,0

Biens d'équipt ménager (U056) 176 81,3 13,1 2,8 1,1 1,1 0,6 0,0

Construc. auto et MTT (U05c) 789 83,3 12,8 2,7 1,1 0,0 0,0 0,1

Par tranche d'effectifs

<20 11798 79,1 15,3 3,5 1,4 0,4 0,2 0,1

20-500 23103 84,9 11,1 2,8 1,0 0,2 0,1 0,0

> 500 954 87,1 9,7 2,5 0,4 0,2 0,0 0,0

Technique 7 : std avec tml et eiq 0 fois 1 fois 2 fois 3 fois 4 fois 5 fois 6 fois

6 secteurs confondus 89,5 8,6 1,3 0,4 0,1 0,1 0,0

I.A.A. (UO2) 88,5 9,7 1,4 0,3 0,1 0,0 0,0

Biens intermédiaires (U04) 90,6 7,9 1,0 0,3 0,1 0,0 0,0

Biens de conso. courante (U06) 89,0 8,8 1,4 0,5 0,1 0,1 0,0

Biens d'équipt profess. (U05a) 89,5 8,5 1,3 0,4 0,2 0,1 0,0

Biens d'équipt ménager (L1056) 89,8 8,5 0,0 0,6 1,1 0,0 0,0

Construc. auto et MTT (U05c) 89,1 9,6 0,9 0,3 0,0 0,0 0,1

Par tranche d'effectifs

<20 86,9 10,4 1,7 0,7 0,2 0,1 0,0

20-500 90,7 7,8 1,1 0,3 0,1 0,0 0,0

> 500 93,4 5,7 0,6 0,1 0,2 0,0 0,0

Technique 8: std avec tml et psd 0 fois 1 fois 2 fois 3 lois 4 fois 5 fois 6 fois

6 secteurs confondus 84,7 11,8 2,4 0,8 0,2 0,1 0,0

I.A.A. (UO2) 83,0 13,3 2,7 0,7 0,3 0,0 0,0

Biens intermédiaires (U04) 86,0 11,0 2,0 0,6 0,2 0,1 0,0

Biens de conso. courante (U06) 83,8 12,4 2,5 1,0 0,2 0,1 0,0

Biens d'équipt profess. (U05a) 85,3 11,1 2,6 0,7 0,2 0,1 0,0

Biens d'équipt ménager (U056) 82,4 14,2 1,1 1,1 1,1 0,0 0,0

Construc. auto et MTT (U05c) 85,2 12,2 1,8 0,8 0,0 0,0 0,1

Par tranche d'effectif

<20 81,0 14,5 2,8 1,2 0,3 0,2 0,0

20-500 86,4 10,6 2,2 0,6 0,1 0,0 0,0

> 500 89,0 8,9 1,8 0,1 0,2 0,0 0,0

(1) La première colonne donne le nombre d'entreprises dans le secteur avant tout nettoyage. La deuxième colonne donne le pourcentage d'entreprises conservées ("éliminées zéro fois"). Les colonnes suivantes donnent le pourcentage d'entreprises éliminées 1 fois (c'est-à-dire pour un seul ratio), deux fois (c'est-à-dire pour deux ratios) ...

184 Insee Méthodes n° 56-57-58

Page 188: actes des journées de méthodologie statistique

technique et son taux d'acceptation correspondant, ne sont donnés que pour le ratio R1 : marge brut d'exploitation. Pour chaque technique ce taux d'acceptation est identique à celui présenté dans le tableau 51.

Les résultats sont présentés pour les six secteurs et les sept ratios pour avoir une vue complète des conséquences d'un tel nettoyage. Pour en faciliter tant soit peu la lecture, un certain nombre de chiffres du fichier brut, fortement modifiés par le nettoyage, sont en caractères gras.

La première constatation est que bien que ces trois techniques donnent des résultats différents, les écarts entre les statistiques calculées après application d'une de ces trois techniques sont bien plus faibles que ceux qui séparent ces statistiques de celles calculées sur l' échantillon brut.

La deuxième constatation concerne les écarts types de l'échantillon (s) et de la moyenne empirique ( a x ). Quelle que soit la taille du secteur et quel que soit le ratio considéré,

l'écart-type de l'échantillon et l'écart-type de la moyenne estimée sont modifiés de façon très importante. Dans quatre des six secteurs, l'écart-type de la moyenne estimée après nettoyage est au moins divisé par 10 (entre 40 et 70 suivant les ratios dans le secteur U06 des industries de biens de consommation courante), ce qui réduit considé-rablement la longueur des intervalles de confiance. Le nettoyage apparaît un prélimi-naire indispensable à l'utilisation des tests d' égalité de moyennes.

La troisième constatation est que certains ratios sont plus sensibles que d'autres aux effets du nettoyage. Les statistiques du ratio dettes financières sur fonds propres (R4) sont par exemple fort différentes après nettoyage. La moyenne de ce ratio pour le secteur des industries agro-alimentaires (UO2, 4 876 observations) passe de 2,3 avant nettoyage à 1,6 ou 1,7 selon la technique retenue. Pour le secteur des biens d'équipement professionnel (U05A, 7 317 observations), cette moyenne est divisée par trois. Le taux de valeur ajoutée (R2), qui comme l'a montré le tableau 4 est celui qui conduit à éliminer le moins d'observations, connaît une variation de la moyenne de ratios de 10 points dans le secteur des industries de biens de consommation courante (U06, 1) 737 observations).

Enfin, les moyennes de ratios ne sont pas les seules statistiques sensibles aux valeurs extrêmes. Pour chacun des sept ratios, on peut trouver un secteur où l'écart entre le ratio moyen calculé sur l'échantillon brut et celui calculé après application de n'importe laquelle des trois techniques est important. Ainsi, le ratio moyen du taux de marge brut d'exploitation (R 1 ) pour le secteur des industries de biens d'équipement ménager (U058) passe de 3,2 % sur le fichier brut à 8,3 ou 8,4 % pour les fichiers nettoyés. Toujours dans le même secteur, le ratio moyen pour le taux de valeur ajoutée (R2) passe de 26,1 % à 30,1 %. Pour le ratio dettes financières sur fonds propres (R4), le ratio moyen du secteur des industries de biens de consommation courante (U06) passe de 87 % pour le fichier brut à entre 75 et 77 % pour les fichiers nettoyés.

Nettoyage de données 185

Page 189: actes des journées de méthodologie statistique

Deux remarques peuvent être faites sur le ratio moyen. D' une part, l'écart entre le ratio moyen calculé sur le fichier brut et ceux calculés sur les fichiers nettoyés est plus important pour les secteurs ayant relativement peu d'observations (secteur des indus-tries de biens d'équipement ménager (U05B, 176 observations), secteur des construc-teurs automobiles (U05C, 788 observations) que pour les autres. D'autre part, les écarts sur le ratio moyen sont plus importants quand les statistiques sont calculées par tranche d'effectifs. Ceci s'explique par le fait que toutes tailles confondues, les grandes entreprises dominent dans le calcul du ratio moyen, et, comme il a déjà été souligné, elles appartiennent à la catégorie la moins touchée par un nettoyage.

Que dire sur le choix de la technique elle-même ? Ce tableau montre la proximité des résultats des techniques 2 et 8 avec des taux de rejet entre 15 % et 20 % suivant les secteurs, taux un peu plus élevés que ceux de la technique 7 (entre 10 % et 12 %). Or la technique 8, par définition, a pour conséquence de rapprocher la distribution de l'échantillon de celle d'une loi normale. Si la vraie population pour le ratio étudié a une distribution très éloignée de celle d'une loi normale, les techniques 2 et 8 ont tendance à éliminer trop d'observations.

La dernière colonne des tableaux 6 donne un test rapide de non normalité, puisque, comme il a été dit ci-dessus, si l' intervalle interquartile rapporté à l'écart-type vaut 1,35, la distribution est approximativement normale. Cette dernière colonne fournit donc plusieurs indications. La marge d'autofinancement (R3) est le ratio pour lequel ce rapport est le plus éloigné de 1.35 (entre 0,8 et 1). C'est aussi le ratio (Cf. tableau 4) qui entraîne le plus grand taux de rejet. Ce ratio ne suit sûrement pas une loi approxi-mativement normale et en utilisant des techniques comme la technique 2 ou la technique 8 qui tentent de rapprocher sa distribution d'une loi normale, beaucoup d'observations sont éliminées. Par contre pour des ratios comme les délais clients ou fournisseurs (R6 ou R7), pour lesquels le tableau 4 montre des taux d'acceptation très proches pour les techniques 2, 7 et 8, ce rapport vaut 1.3, confirmant que leur distribution peut être approximée par une loi normale.

186 Insee Méthodes n° 56-57-58

Page 190: actes des journées de méthodologie statistique

Tableaux 6 : Comparaison de trois techniques pour les sept ratios - Année 1988 données Fiben par secteur

Tableau 6-1 : R1 Marge brut d exploitation = excèdent brut d'exploitation / chiffre d'affaires

sauu

op a

p ag

nço

UO2 Industries brut

agricoles q3+3eig

alimentaires STD tm1, eiq STD tmt, psd

UO4 Industries brut

des biens q3+3eiq

intermédiaires STD tm1, eiq STD tm1, psd

U05A Indus, brut

biens q3+3eiq d équipement STD tmt, eiq

profess. STD tmt, psd

U058 Indus. brut

biens q3+3eiq d équipement STD tm1, eiq

ménagers STD tm1, psd

U05C brut

construction q3+3eig

auto, autres STD tmt, eiq

matér. transp. STD tmt, psd

006 Industies brut

biens q3+3eiq

consommation STD tm1, eiq

courante STD tmt, psd

nom bre

pct obs. moyenne ratio moyen

écart type s

écart type de la

moyenne

minimum PI q1 q2 q3 p99 maximum eiq eiq/ s

4876 . 0.050 0.067 0.391 0.006 -21.5 -.178 0.023 0.049 0.088 0.282 0.989 0.065 0.2

3960 81.2 0.063 0.068 0.051 0.001 -0.10 -.028 0 028 0.052 0.088 0,221 0.282 0.060 1.2

4314 88.5 0.062 0.068 0.056 0.001 -0.21 -.055 0.026 0,051 0,088 0.240 0.347 0.062 1.1 4047 83.0 0.060 0.065 0.051 0.001 -0.16 -.038 0.027 0.051 0.086 0.217 0.276 0.060 1.2

10959 . 0.084 0.117 0.408 0.004 -34.6 -.189 0.050 0.085 0,132 0.360 0.993 0.082 0.2 9282 84.7 0.100 0.126 0.065 0.001 -0.10 -.022 0.056 0.088 0.133 0.304 0.376 0.076 1.2 9934 90.6 0.099 0.121 0.072 0.001 -0.26 -.059 0 054 0.087 0.133 0.328 0.457 0.079 1.1 9430 86.0 0.098 0.121 0.065 0.001 -0.15 -.046 0.055 0,087 0.131 0.295 0.364 0.076 1.2

7318 . 0.039 0.101 1.989 0.023 -153 -.281 0.036 0,069 0.114 0.319 24.659 0.078 0.0 6108 83.5 0.085 0.118 0.063 0.001 -0.12 -.047 0.043 0.074 0.118 0.277 0.345 0.075 1.2 6550 89.5 0.082 0.108 0.070 0.001 -0.27 -.090 0 040 0.072 0.117 0.291 0.418 0.076 1.1 6241 85.3 0.082 0.110 0.064 0.001 -0.18 -.069 0.041 0.073 0.116 0.273 0.332 0.074 1.2

176 . -0.987 0.032 11.331 0.854 -144 -42.6 0.035 0.07i 0,120 0,410 0.411 0.085 0.0 143 81.3 0.090 0.084 0.070 0.006 -0.07 -.043 0.045 0.078 0.128 0.340 0.358 0.083 1.2 158 89.8 0.083 0.083 0.086 0.007 -0.31 -.253 0.040 0.074 0.122 0.358 0.411 0.083 1.0 145 82.4 0.087 0.084 0.067 0.006 -0.07 -.054 0.045 0.078 0.123 0.294 0.340 0.078 1.2

789 . 0.075 0.107 0.089 0.003 -1.02 -.111 0.039 0.068 0.108 0.297 0.807 0.069 0.8

657 83.3 0.082 0.112 0.054 0.002 -0 06 -.017 0.044 0.074 0.111 0.248 0.302 0.067 1.2

703 89.1 0.080 0.111 0,059 0.002 -0.14 -.047 0.042 0.070 0,110 0.258 0.356 0.068 1.2

672 85.2 0.081 0.111 0.054 0.002 -0.07 -.033 0.043 0.072 0.110 0.248 0.302 0.067 1.2

11737 . -0.044 0.089 7.536 0.070 -766 -.271 0.036 0.069 0.111 0.322 0.965 0.075 0.0

9626 82.0 0.082 0.095 0059 0.001 -0.11 -.046 0.044 0.074 0.113 0.263 0.333 0.069 1.2

10446 89.0 0.079 0.093 0.067 0,001 -0,25 -.089 0.041 0.072 0.112 0.281 0.404 0,072 1.1

9834 83.8 0.079 0.093 0.060 0.001 -0.17 -.070 0.042 0.072 0.111 0.258 0.320 0.069 1.1

00

Page 191: actes des journées de méthodologie statistique

UO2 Industries brut

agricoles q3+3eiq

alimentaires STD tm1, eiq STD tm1, psd

U04 Industries brut

des biens q3+3eiq

intermédiaires STD tml, eiq STD tm1, psd

1105A Indus. brut

des biens q3+3eiq

d équipement STD tm1, eiq

protess. STD tm1, psd

U058 Indus. brut

des biens q3+3eiq

d équipement STD tm1, eiq

ménagers STD tm1, psd

U05C brut

construction q3+3eiq

auto, autres STD tm1, eiq

mater. transp. STD tm1, psd

U06 Industries brut

des biens q3+3eiq

consommation STD tm1, eiq

courante STD tm1, psd

8s. -z

s--9s

- ou

sap o

tpm

9. 9S

UI

Tableau 6-2 : R2 Taux de Valeur ajoutée = valeur ajoutée 1 production

moyenne ratio moyen

écart type s

écart type de la

moyenne

minimum Pi q1 q2 q3 p99 maximum e,.,. eiq/s

0.248 0.218 0.338 0.005 -16.6 -.039 0.134 0,229 0.348 0.736 0.997 0.214 0.6 0.249 0.224 0.153 0.002 -0.26 0.000 0.135 0.227 0.338 0.689 0.923 0.203 1.3 0.252 0.224 0.159 0,002 -0,66 -.011 0.135 0.228 0.343 0.711 0.993 0.208 1.3 0.248 0.219 0.154 0.002 -0.38 -.013 0.133 0.224 0.336 0.688 0.923 0.203 1.3

0.420 0.345 1.022 0.010 -8.37 0.042 0.305 0.415 0.524 0.785 104.333 0.220 0.2 0.419 0.349 0.152 0.002 -0.09 0.088 0.310 0.417 0.522 0.771 0.993 0.212 1.4 0.418 0.346 0.155 0.002 -0.26 0,083 0.308 0.416 0.523 0.776 0.998 0,215 1.4 0.418 0.346 0.152 0.002 -0.26 0.087 0,309 0.416 0.520 0.771 0.993 0.211 1.4

0.389 0.388 1.315 0.015 -91.2 0.062 0.308 0.410 0.509 0.806 20.447 0,201 0.2 0.419 0.398 0.147 0.002 0.01 0.111 0.316 0.414 0.512 0.795 0.989 0.196 1.3 0.417 0.391 0.148 0.002 -0.19 0.102 0.314 0.413 0.512 0.795 0.989 0.197 1.3 0.417 0.394 0.148 0.002 -0.19 0.103 0.314 0.413 0.511 0.793 0.989 0.196 1,3

-0.169 0.261 6.211 0.393 -60.8, -32.1 0.259 0.360 0.456 0.684 0.832 0.197 - 0.0 0.374 0.301 0.137 0.011 0.09 0.100 0.277 0.366 0.472 0.684 0.832 0.194 1.4 0.369 0.301 0.145 0.012 -0.28 0.089 0.274 0.368 0.467 0.684 0 832 0,193 1.3 0.372 0.301 0.138 0,011 0.09 0.100 0.274 0.365 0.467 0.684 0,832 0.193 1.4

0.362 0.282 0.141 0.005 -0.51 0.032 0.275 0.359 0.444 0.768 0.877 0.169 1.2 0.366 0.284 0.129 0.005 -0.00 0.080 0.277 0.363 0.446 0.721 0,875 0.169 1.3 0.365 0.284 0.131 0.005 -0.00 0.080 0,277 0.361 0.445 0.721 0.875 0.168 1.3 0.366 0.284 0.128 0.005 -0.00 0.080 0.278 0.362 0.445 0.721 0.875 0,168 1.3

0.309 0.337 6.892 0.064 -721 0,015 0.280 0.391 0.504 0.905 2,491 0.224 0.0 0.406 0.341 0.169 0.002 -0.07 0.072 0.290 0.396 0.504 0.899 0.996 0.214 1.3 0.405 0.341 0.171 0.002 -0.11 0.062 0.288 0.395 0.504 0.900 0.996 0.217 1.3 0.405 0.340 0.170 0.002 -0.11 0.068 0.288 0.396 0.504 0.900 0.996 0.216 1.3

Page 192: actes des journées de méthodologie statistique

saau

uo

p a

p a

8vito

1 1al

v

Tableau 6.3 : R3 = Marge d autofinancement

UO2 Industries brut

agricoles q3+3eiq

alimentaires STD lml , eiq STD tmt, psd

U04 Industries brut

des biens q3.3eiq

intermédiaires STD tmt, eiq STD tml, psd

U05A Indus, brut

des biens q3+3eig d équipement STD tmt, eiq

profess. STD tml, psd

U0513 Indus. brut

des biens q3+3eiq d équipement STD tml, eiq

ménagers STD tml, psd

U050 brut

construction q3+3eiq

auto, autres STD tmt, eiq

matér. transp. STD tml, psd

U06 Industries. brut

biens q3+3eig ,.--,. consommation STD tml, eiq 00 g:".) courante STD tml , psd

moyenne ratio moyen

écart type s

écart type de la

moyenne

minimum pl ql q2 q3 p99 maximum eiq eiq/s

0.018 0 018 0.728 0.010 -22.0 -.250 -0.006 0.005 0.025 0.179 35.322 0.031 0.0

0 013 0.018 0.029 0.000 -0.07 -.059 -0.002 0.007 0.026 0.103 0.118 0.028 t.0

0.011 0.018 0.035 0.001 -0.13 -.086 -0.004 0.006 0,025 0.119 0.146 0.029 0.8

0.011 0.016 0.030 0.000 -0.09 -.074 -0.003 0.006 0,024 0.096 0.110 0.028 0.9

0.023 0.032 0.729 0.007 -9.63 -.281 -0.003 0.015 0.043 0.248 68.750 0.046 0.1

0.025 0.040 0.041 0.000 -0.09 -.077 0.001 0.017 0.044 0.150 0.181 0.043 1.0

0.023 0.036 0.049 0.000 -0.19 -.117 -0.001 0.016 0.044 0.178 0.224 0.045 0.9

0.023 0.037 0.043 0.000 -0.13 -.095 0,000 0.016 0.043 0.145 0.172 0.043 1.0

-0.009 -0.009 1.214 0.014 -54.3 -.424 -0.011 0.009 0.037 0.205 47.412 0.048 0.0

0.019 0.015 0.044 0.001 -0.11 -.090 -0.004 0.013 0.040 0.151 0.179 0.043 1.0

0.015 -0,000 0.053 0.001 -0.21 -.152 -0.006 0.012 0.029 0.164 0.221 0.045 0.8

0.016 0.001 0.047 0.001 -0.15 -.118 -0.005 0,012 0.038 0.144 0.166 0.043 0.9

-1.064 -0.054 11.005 0.830 -138 -49.7 -0.021 0.007 0.036 0.302 0.342 0.057 0,0

0,016 -0.002 0.046 0.004 -0.09 -.085 -0.011 0.014 0.043 0.143 0.153 0.054 1.2

0.010 -0.004 0.055 0.004 -0.18 -.154 -0.013 0.011 0.041 0.143 0.153 0.055 1.0

0.013 -0.002 0.051 0.004 -0.15 -.137 -0,013 0.011 0.042 0.143 0.153 0.055 1.1

0.015 0.029 0.101 0.004 -1.58 -.224 -0.003 0.013 0.039 0.277 0.623 0.041 0.4

0,021 0.033 0.035 0.001 -0.08 -.062 0.001 0.016 0.039 0.127 0.151 0.038 1.1

0.019 0.032 0.043 0.002 -0.15 -.109 -0.001 0,015 0.039 0.149 0.196 0.040 0.9

0.019 0.033 0.038 0.001 -0.12 -.103 0.000 0.015 0.039 0.127 0.151 0.039 1.0

0.003 0,014 17.544 0.162 -1325 -.408 -0.012 0.007 0.032 0.220 1342.17 0.045 0.0

0.015 0.020 0.041 0.000 -0.10 -.085 -0.006 0.010 0.034 0.139 0.167 0.040 1.0

0.011 0.018 0.050 0.000 -0.19 -.148 -0.008 0.008 0.034 0.159 0.205 0.042 0.8

0.012 0.018 0.043 0.000 -0.14 -.113 -0.007 0.009 0,033 0.130 0.153 0.040 0.9

Page 193: actes des journées de méthodologie statistique

UO2 Industries brut

agricoles q3+3eiq

alimentaires STD tml , eiq STD tmt , psd

U04 Industries brut

des biens q3+3eiq

intermédiaires STD tml , eiq STD Iml , psd

U05A Indus. brut

des biens q3+3eiq

d équipement STD tml , eiq

proless. STD tml , psd

LI05B Indus. brut

des biens q3+3eiq

d équipement STD tml , eiq

ménagers STD tml, psd

U05C brut

construction q3,3eiq

auto, autres STD tml , eiq

matér. transp. STD tml , psd

U06 Industries. brut

biens q3+3eiq

consommation STD tml , eiq

courante STD tml , psd

8ç-z

s.-9

Ç 01

,1 sa

pozp

ppv

aasu

i

Tableau 6-4 : R4 = dettes financières / fonds propres

pct obs. moyenne ratio moyen

écart type s

écart type de la

moyenne

minimum pl ql q2 q3 p99 maximum eiq eiq/s

. 2.33 0.97 32.93 0.47 -793 -25.4 0.27 1.08 2.57 37.18 865.51 2.30 0.1 81.2 1.68 0.92 1.99 0.03 -4.04 -2.71 0.41 1.15 2.39 8.50 9.47 1.98 1.0 88.5 1.63 0.94 2.44 0.04 -8.35 -5.21 0.34 1.10 2.40 9.76 12 04 2 07 0.8 83.0 1.63 0.95 2.09 0.03 -5.59 -3.85 0.37 1.12 2.38 8.50 9.49 2.00 1.0

. 1.39 0.86 52.62 0.50 -1574 -14.6 0.23 0.75 1.76 22.36 4708.00 1.52 0.0 84.7 1.15 0.77 1.27 0.01 -2.80 -1.32 0.29 0.77 1.61 5.51 6.33 1.32 1.0 90.6 1.16 0.81 1.60 0.02 -5.45 -3.04 0.26 0.75 1.64 7.02 8.13 1.38 0.9 86.0 1.12 0.78 1.33 0.01 -3.70 -2.24 0.28 0.76 1.60 5.54 6.38 1.32 1.0

. 3.23 0.91 93.40 1.09 -1458 -12.0 0.17 0.66 1.69 24.66 6946.38 1.52 0.0 83.5 1.05 0.69 1.25 0.02 -2.80 -1.36 0.22 0.66 1.50 5.50 6.25 1.28 1.0 89.5 1.07 0.80 1.54 0.02 -5.48 -2.85 0.20 0.66 1.54 6.60 8.12 1.34 0.9 85.3 1.03 0.73 1.32 0.02 -3.71 -2.24 0.21 0.66 1.51 5.57 6.35 1.30 1.0

. -7.67 1.12 215.49 16.24 -2644 -113 0.14 0.67 1.55 137.17 1054.75 1.42 0.0 81.3 0.90 0.74 1.09 0.09 -2.45 -1.30 0.21 0.61 1.14 4.53 4.92 0.93 0.9 89.8 1.01 0.78 1.51 0.12 -4.55 -4.20 0 21 0.67 1.30 7.15 7.39 1.09 0.7 82.4 0.97 0.74 1.15 0.10 -2.45 -1.30 0.22 0.67 1 19 4.53 4 92 0 98 0.8

. 1.53 1.10 31.47 1.12 -713 -18.6 0.21 0.65 1.66 31.28 347.27 1.45 0.0 83.4 1.03 1.02 1.16 0.05 -2.45 -0.53 0.25 0.65 1.45 5.56 5.89 1.20 1.0 89.1 1.08 1.07 1.50 0.06 -4.73 -2.78 0.24 0.66 1.51 6.69 7.44 1.26 0.8 85.2 1.02 1.03 1.22 0.05 -2.94 -2.03 0.25 0 65 1.45 5.64 5.95 1.20 1.0

0.92 0.87 94.38 0 87 -9447 -16.2 0.18 0 76 1.96 29.48 2075.00 1.78 0.0 82.0 1.24 0.75 1.50 0.02 -3.38 -1.92 0.26 0.78 1.78 6.42 7.30 1.52 1.0 89.0 1.25 0.76 1.91 0.02 -6.48 -3.99 0.23 0.77 1.82 7.99 9 42 1.60 0.8 83.8 1.21 0.77 1.58 0.02 -4.37 -2.69 0.24 0.78 1.78 6 50 7.37 1.54 1.0

Page 194: actes des journées de méthodologie statistique

Tableau 6-5 : R5 = fonds propres / Total bilan

tJ 00 ce

UO2 Industries brut

agricoles q3+3eiq

alimentaires STD tml, eiq STD tml, psd

U04 Industries brut

des biens q3+3eiq

intermédiaires STD tml, eiq STD tml, psd

U05A Indus. brut

des biens q3,3eiq

d équipement STD tml, eiq

profess. STD tml, psd

U058 Indus. brut

des biens q3+3eig

d équipement STD tml, eiq

ménagers STD tml, psd

U05C brut

construction q3+3eig

auto, autres STD tint, eiq

mater. transp. STD tml, psd

U06 Industries. brut

biens q3+3eiq 1/47) consommation STD tml, eiq

courante STD tml, psd i--.■

moyenne ratio moyen

écart écart type type s de la

moyenne

minimum pl ql q2 q3 p99 maximum eiq eictis

0.191 0.289 0.276 0.004 -3.05 -.778 0.082 0 188 0.323 0.781 1.000 0.240 0.9 0.239 0.292 0.183 0.003 -0.39 -.268 0.123 0.213 0.336 0.754 0.941 0,214 1.2 0.221 0.289 0.213 0.003 -0.85 -.462 0.110 0.205 0.332 0.762 0.958 0.222 1.0 0.229 0.284 0.193 0.003 -0.60 -.355 0.118 0.209 0.332 0.749 0.941 0.213 1.1

0.223 0.304 0.369 0.004 -28.9 -.525 0.113 0.217 0.347 0.751 0.995 0.234 0 6 0.263 0.317 0.167 0.002 -0.35 -.140 0,145 0.238 0.359 0.720 0.957 0.214 1.3 0.250 0.310 0.187 0.002 -0.80 -.297 0.134 0.231 0.357 0.728 0.995 0.222 1.2 0.256 0.314 0.176 0.002 -0.54 -.247 0.141 0.235 0.357 0.719 0.957 0.216 1.2

0.201 0.197 0.399 0.005 -18.5 -.550 0.097 0.197 0.327 0.736 0.948 0.230 0.6 0.250 0.238 0.169 0.002 -0.36 -.167 0.132 0.221 0.342 0.722 0.945 0.210 1.2 0.237 0,205 0.186 0.002 -0.76 -.312 0.123 0.213 0.336 0.725 0.945 0.214 1.1 0.243 0.219 0.176 0.002 0.55 -.249 0.129 0.217 0.338 0.720 0.945 0.209 1.2

0.232 0.249 0.213 0.016 -0.90 -.337 0.125 0.226 0.346 0.727 0.830 0.221 1.0 0.274 0.283 0.168 0.014 -0.27 -.123 0.153 0.250 0.368 0.663 0.684 0.216 1.3 0.259 0.279 0.182 0.014 -0 27 -.212 0.144 0.236 0.353 0.684 0.830 0.209 1.2 0.272 0.283 0.167 0.014 -0.27 -.123 0.152 0.249 0.368 0.663 0.684 0.216 1.3

0.222 0.220 0.215 0.008 -1.48 -.512 0.105 0.206 0.339 0.757 0.947 0.234 1.1 0.257 0.230 0.155 0.006 -0.27 -.095 0.144 0 236 0.358 0.645 0.801 0.214 1.4 0.244 0.225 0.173 0.007 -0.67 -.220 0.135 0.227 0.348 0.645 0.815' 0.213 1.2 0.250 0.229 0.167 0.006 -0.54 -.220 0.139 0.232 0.351 0.645 0.801 0.212 1.3

0.187 0.289 0.778 0.007 -67.4 -.837 0.089 0.196 0.337 0.752 0.955 0.248 0.3 0.252 0.306 0.182 0.002 -0.41 -.234 0.128 0.223 0.354 0.729 0.955 0.226 1.2 0.235 0.306 0.206 0.002 -0.90 -.395 0.116 0.214 0.349 0.733 0.955 0.233 1.1 0.243 0.302 0.192 0.002 -0.61 -.327 0.124 0.219 0.350 0.728 0.955 0.227 1.2

Page 195: actes des journées de méthodologie statistique

UO2 Industries brut

agricoles q3+3eiq

alimentaires STD tml, eiq STD tml, psd

U04 Industries brut

des biens q3+3eig

intermédiaires STD tml, eiq STD tml , psd

U05A Indus, brut

des biens q3+3eiq

d équipement STD tml , eiq

profess. STD tml, psd

U058 Indus. brut

des biens q3+3eiq

d équipement STD tml, eiq

ménagers STD iml , psd

U05C brut

construction q3+3eiq

auto, autres STD tml, eiq

malér. transp. STD tml , psd

U06 Industries. brut

biens q3+3eiq

consommation STD tml , eiq

courante STD el , psd

8S-L

S-9

5- ou

s'aP

0111

;

Tableau 6-6 R6 = Délais clients

moyenne ratio moyen

écart type s

écart type de la

moyenne

minimum pl ql q2 q3 p99 maximum eiq eiq/s

53/ 51.0 222.6 3.2 0.0 0.0 29.3 43.7 63.4 179.0 15236.1 34.1 0.2 47.6 50.2 27.0 0.4 0.0 0.3 29.9 43.7 61.6 134.3 164.6 31.8 1.2 48.2 50.9 29.0 0.4 0.0 0.1 29.5 43.6 62.3 146.4 200.0 32.9 1.1 47.6 49.8 27.0 0.4 0.0 0.3 29.8 43.6 61.7 134.2 158.1 31.8 1.2

83.3 79.1 193.3 1.8 0.0 8.5 58.2 77.5 97.6 207.0 17235.0 39.4 0.2 78.5 78.7 29.4 0.3 0.0 11.4 59.3 77.9 96.6 158.2 214.5 37.3 1.3 78.5 78.6 30.6 0.3 0.0 10.7 58.8 77.6 96.9 163.6 251.3 38.1 1.2 78.1 78.6 29.4 0.3 0.0 10.8 58.9 77.6 96.5 157.2 207.3 37.6 1.3

89.7 105.7 69.2 0.8 0.0 10.4 61.9 84.0 107.2 245.3 3571.6 45.3 0.7 84.8 96.0 34.6 0.4 0.0 12.1 62.1 83.1 104.6 184.6 239.7 42.5 1.2 85.8 104.8 36.6 0.5 0.0 11.7 62.1 83.4 105.5 198.5 288.3 43.4 1.2 84.7 99.2 34.7 0.4 0 0 11.1 61.9 83.0 104.7 184.0 235.7 42.8 1.2

86.9 77.2 79.1 6.0 0 0 1.1 53.2 78.2 102.1 290.2 938.7 48.9 0.6 74.9 76.1 33.9 2.8 0.0 1.1 51.5 77.4 97.0 168.7 201.5 45.5 1.3 81.5 76.8 45.3 3.6 0.0 1.1 52.7 78.4 101.6 268.6 290.2 48.9 1.1 75.2 76.1 33.7 2.8 0.0 1.1 51.6 77.4 97.0 167.0 168.7 45.4 1.3

69.1 45.0 41.9 1.5 0.1 5.4 45.6 66.0 86.9 216.7 626.2 41.3 1.0 66.7 43.2 29.0 1.1 0.1 4.8 46.7 66.8 86.0 137.4 173.1 39.3 1.4 67.5 44.2 30.1 1.1 0.1 5.4 46.7 67.0 87.7 138.4 216.7 41.1 1.4 66.8 43.2 29.1 1.1 0.1 4.8 46.7 66.7 86.5 137.4 173.1 39.8 1.4

87.3 72.1 983.4 9.1 0.0 1.0 43.5 65 5 88.4 228.2 73680.0 45.0 0.0 66.7 71.1 32.0 0.3 0.0 2 0 44.6 65 5 86.6 157.3 222.6 42.0 1.3 67_4 71.5 34.3 0.3 0 0 1.6 44.1 65.4 87.2 171.0 266.7 43.1 1.3 66.4 71.0 32.0 0.3 0.0 1.6 44.3 65.3 86.4 156.2 213.4 42.2 1.3

Page 196: actes des journées de méthodologie statistique

sa?u

uop

ap e

viCo

naN

Tableau 6-7 : R7 = Délais fournisseurs

moyenne ratio moyen

écart type s

écart type de la

moyenne

minimum pl ql q2 q3 p99 maximum eiq eici/s

UO2 Industries brut 66.4 51.3 220.1 3.2 0.0 4.4 33.3 50.8 74.4 231.7 10281.8 41.1 0.2 agricoles q3+3eiq 54.7 50.4 31.5 0.5 0.0 5.2 32.2 48.5 70.2 163.0 196.6 38.0 1.2

alimentaires STD tml, eiq 56.5 51.0 34.2 0.5 0.0 5.1 32.6 49.7 72.1 178.7 234.2 39.5 1.2 STD tml, psd 55.1 50.1 31.6 0.5 0.0 4.7 32.3 48.8 70.6 163.0 194.6 38.3 1.2

U04 Industries brut 96.2 76.6 84.5 0.8 0.0 19.6 70.9 90.4 112.2 237.2 6690.0 41.3 0.5 des biens q3+3eiq 91.7 75.7 31.9 0,3 0.0 21.2 70,7 89.6 109.8 185.9 235.0 39.1 1.2

Intermédiaires STD tml, eiq 92.6 75.8 33.9 0.3 0.0 20.4 70.7 89.9 110.6 199.5 277,8 39.9 1.2 STD tml, psd 91.8 75.6 31.9 0.3 0.0 21.0 70.7 89.7 110.0 185,9 230.2 39.2 1.2

U05A Indus. brut 102.7 99.6 135.5 1.6 0.0 22.0 74.1 95.9 118.8 256.2 10838.6 44.8 0.3 des biens q3+3eiq 96.8 92.5 35.0 0.4 0.0 22.5 73.9 94.9 116.3 196.5 253.0 42.4 1.2

d équipement STD tml, eiq 97.9 98.7 37.1 0.5 0.0 22.1 73.9 95.3 117.1 216.0 295.1 43.2 1.2 profess. STD tml, psd 96.9 94.3 35.0 0.4 0.0 22.6 73.9 95.0 116.5 198.2 247.4 42.6 1.2

U05B Indus, brut 94.6 76.5 39.9 3.0 20.7 22.1 67.3 88.7 107.9 229.9 264.3 40.6 1.0 des biens q3+3eiq 91.1 , 74.3 36.8 3.1 20.7 22.1 65.1 86.2 107.3 204.4 204.6 42.2 1.1

d équipement STD Iml, eiq 93.9 74.9 39.8 3.2 20.7 22.1 66.6 87.2 108.1 204.6 264.3 41.4 1.0 ménagers STD tml, psd 91.5 74.4 36,7 3.0 20.7 22.1 66.6 86.6 107.3 204,4 204.6 40.6 1.1

U05C brut 93.7 77 6 89.0 3.2 0.0 18.3 69.1 87.6 108.1 248.1 2178.2 38.9 0,4 construction q3+3eiq 87.3 77.7 30.3 1.2 2.0 20.1 68.9 85.8 106.4 161.9 215.5 37.5 1.2 auto, autres STD tml, eiq 87.7 77.8 31.3 1.2 2.0 20.1 68.9 86,1 106.6 167.7 248.1 37.7 1.2

male. transe. STD tml, psd 87.4 77.7 30.6 1.2 2.0 20.1 69.1 86.0 106.6 167.7 215.5 37.5 1.2

U06 Brut 97.6 74.6 1129.1 10.4 0.0 10.6 58.5 79.8 103.0 256.4 122045 44.5 0.0 biens de q3+3eiq 80.4 72.2 34.7 0.4 0.0 11.0 57.3 78.1 99.6 183.4 235.9 42.3 1.2

, consommation STD tml, eiq 82.0 73.3 37.2 0.4 0.0 11.0 57.9 78.8 100.7 203.5 282.6 42.9 1.2 W courante STD tml , psd 80.6 72.3 34.7 0.3 0.0 11,1 57.5 78.3 99.8 183.1 230.8 42.3 1.2

Page 197: actes des journées de méthodologie statistique

Conclusion

La construction d'une base de données "nettoyée" suppose d'une part un consensus sur la méthode de nettoyage à appliquer et d'autre part un consensus sur les ratios sur lesquels cette méthode devrait être appliquée. L'objet du présent papier se concentre sur le premier point, c'est-à-dire la comparaison de différentes techniques de nettoyage dans une optique de cohérence Transversale d'un fichier. Après avoir rappelé certains concepts et outils nécessaires, ce travail décrit différentes méthodes d'identification de valeurs extrêmes puis teste huit techniques définies à partir de ces trois méthodes et appliquées sur la base FIBEN.

Ces comparaisons de techniques sur différents ratios et le travail effectué en parallèle avec le Département des statistiques d'entreprises de l'Insee montrent que le choix des ratios sur lesquels un nettoyage devrait être appliqué est aussi crucial, et devrait faire l'objet d'une autre études . Certains des ratios étudiés ici sont sûrement trop fragiles et conduisent à éliminer trop d'observations (ratios faisant intervenir les dettes par exemple) ; par contre des ratios faisant intervenir les effectifs (valeur ajoutée par tête, capital par tête) et qui n'ont pas été utilisés dans ce travail sont de bons ratios pour repérer des points aberrants.

S'il n'existe probablement pas une solution unique qui ferait le consensus de tous les chercheurs-utilisateurs, il y a des pratiques plus ou moins dangereuses. Quelle que soit la technique appliquée parmi les trois finalement retenues, on voit que sur les sept ratios, elle met à l'abri d'un certain nombre d'erreurs. Ces techniques reposent sur des critères qui laissent le moins Je place possible à l'arbitraire. Leurs utilisations facilitent les comparaisons inter-temporelles ou inter-fichiers. Elles permettent de plus à l'utilisateur de données comme au lecteur de connaître de façon précise les outils utilisés et les raisons pour lesquelles des observations peuvent être écartées.

(1)Cette étude est en cours au Service de Méthodologie de la Direction des Entreprises de la Banque de France.

194 Insee Méthodes n° 56-57-58

Page 198: actes des journées de méthodologie statistique

BIBLIOGRAPHIE

BELSLEY David, KUH Edwin, et WELSH Roy, Regression Diagnostics Identifying lnfluential Data and Sources of Collinearity, John WILEY, New York, 1980.

DORMONT Brigitte, Modèles de demande de travail une comparaison France - R.EA. sur données de panels, Thèse pour le Doctorat de 3ème cycle en Economie Mathéma-tique et Econométrie, Université de Paris I, 1983.

EMERSON John, HOAGLIN David, « Stem-and-Leaf Displays », p. 7-32, dans Hoaglin et alii (1983), Chapter 1.

GOODALL Colin, « M-Estimators of Location : an Outline of the Theory », p. 339-401, dans Hoagliet et alii (1983), Chapter 11.

GOULD William, HADJ Ali, « Identifying Multiple Outliers », Stata Technical Bulletin, STB 11, p. 28-32, January 1993.

RAD! Ali, « Identifying Multiple Outliers in Multivariate Data », Journal of Royal Statiscal Society, B 54 (3), p. 761-771, 1992.

HAMILTON Lawrence, Statistics With Stata, Brooks/Cole Publishing Company, 1990.

HAMILTON Lawrence, « How Robust is Robust Regression », Stata Technical Bulletin, STB2, p. 21-25, 1991.

HAMILTON Lawrence, « Resistant Normality Check and Outlier Identification », Stata Technical Bulletin, STB3, p. 16-18. 1991.

HOAGLIN David, MOSTELLER Frederick et TUKEY John, (Eds), Understanding Robust and Exploratory Data Analysis, John WILEY, New York, 1983.

HOAGLIN David, MOSTELLER Frederick et TUKEY John, (Eds), Exploring Data Tables, Trends and Shapes, John WILEY, New York, 1985.

IGLEWICZ Boris, « Robust Scale Estimators and Confidence Intervals for Location », p. 404-433, dans Hoaglin et alii (1983), Chapter 12.

Nettoyage de données 195

Page 199: actes des journées de méthodologie statistique

KRASKER William, KUH Edwin et WELSH Roy, « Estimation for Dirty Data and Flawed Models », dans Handbook of Econometrics, Volume 1, p. 651-696, GRILICHES Zvi et INTRILIGATOR Michael (Eds), 1983.

KREMP Elizabeth, « La questipn du nettoyage des données », Document interne D93/01, Centrale de Bilans, Banque de France, mars 1993.

KREMP Elizabeth et MAIRESSE Jacques, « Dispersion and Heterogeneity of Firm Performances in Nine French Service Industries, 1984-1987 », dans Griliches (Zvi) (ed.), Output Measurement in the Service Sectors, Chicago, University Press of Chica-go, p. 461-489, 1992.

LI Guoying, « Robust Regression », p. 281-340, dans Hoaglin et alii (1983), Chapter 8.

MAIRESSE Jacques et KREMP Elizabeth, « A look at Productivity at the Firm Level in Eight French Service Industries », The Journal of Productivity Analysis, 4, p. 211-234, 1993.

MUDHOLKAR Anil, « A Construction and Appraisal of Pooled Trimmed-t Statistics », Communications in Statistics, Theory and Methods, 20 (4), p. 1345-1359, 1991.

SACHS Lothar, Applied Statistics, A Handbook of Techniques, Springer-Verlag, New York, 1984.

SAS, SAS/STAT Llser's Guide — Version 6 — 4e édition, volume 2, 1990.

SPSS, Base System. User's Guide, Release 5.0, 1992.

ROSENBERG James, GASKO Miriam, « Comparing Location Estimators : Trimmed Means, Medians and Trimean », p. 297-336, dans Hoaglin et alii (1983), Chapter 10.

TUK John, Explorating Data Analysis, John WILEY, New York, 1977.

WONNACOTT Thomas et WONNACOTT Ronald, Statistique, Economica, 4ème édition, 1991.

196 Insee Méthodes n° 56-57-58

Page 200: actes des journées de méthodologie statistique

ANNEXE 1

Descripti n des bases de données comptables de la Banque de France

FIBEN est un fichier de renseignements créé et géré par la Banque de France pour répondre à ses propres besoins et à ceux des établissements de crédit. Il recense des informations de diverse nature (données descriptives et comptables) sur 1 300 000 entreprises et compte environ 120 000 bilans annuels (liasse fiscale). Ces bilans représentent 96 % des sociétés anonymes et 65 % des SARL existantes en France. Ces données sont conservées 5 ans.

La base de données de la Centrale de Bilans (FPD) comprend des informations descriptives et comptables sur les entreprises adhérentes à la Centrale de Bilans. Les informations recueillies dépendent d'un acte volontaire d'adhésion de la part de l'entreprise, et des relations que la Banque entretient avec ces adhérents. Outre les renseignements nécessaires à son identification et la liasse fiscale (renseignements communs au Fichier FIBEN), le dossier de collecte comprend des feuillets complémen-taires portant le détail de certains postes du bilan, de l'endettement et des flux inter-exercices. Ces données sont conservées en ligne sur une période minimum de 10 ans. 30 000 entreprises sont actuellement adhérentes à la Centrale. Du fait de la demande de feuillets complémentaires, de la relation privilégiée entre l'entreprise et la succursale de la Banque de France qui saisit ces données, et des nombreux contrôles de cohérence (environ 400), la base de la Centrale est à la fois plus riche et plus fiable.

Nombre d'entreprises

FIBEN 120 000 entreprises Données de la liasse fiscale

Nombre de variables

Centrale de Bilans 30 000 entreprises Données de la liasse fiscale et données complémentaires

Nettoyage de données 197

Page 201: actes des journées de méthodologie statistique

ANNEXE 2

Définition des ratios utilisés dans cette étude

Les ratios utilisés dans cette étude ont été définis lors de l'étude de la représentativité des bases de l'Observatoire des Entreprises par rapport aux données exhaustives de SUSE de l'INSEE. Les lignes suivantes donnent leur définition à partir des postes comptables de la liasse fiscale.

R1 = marge brute d'exploitation = excédent brut d'exploitation / chiffre d'affaires hors taxes = [ (FL + FM + FN) — (FU + FS + FV + FT + FW) + FO — (FY + FZ + FX) ] / FL

R2 = taux de valeur ajoutée = valeur ajoutée / production = [ (FL + FM + FN) — (FU + FS + FV + FT + FW) ] / (FL + FM + FN)

R3 = marge d'autofinancement = capacité d'autofinancement nette/chiffre d'affaires hors taxes = [GG +(GH-GI) +(GJ + GK +GL-GR) + (GO-GT) +(HA +11B-HE-HF)—HK-FP] / FL

R4 = dettes financières / fonds propres = (DS + DT + DU + DV) / (DL — DK — AA)

R5 = fonds propres / total bilan = (DL — DK — AA) / EE

R6 = délais clients = 360 * BX / (FL + YY)

R7 = délais fournisseurs = 360 * DX / (FS + FU + FW + FZ)

198 Insee Méthodes n° 56-57-58

Page 202: actes des journées de méthodologie statistique

ANNEXE 3

Tableau récapitulatif des huit techniques

q1 - 1.5 eiq,

q3 + 1.5 elq

2 q1 - 3eiq, q3+3 eiq

3 BKW

4 STD sur

BKW

5 STD sur moyenne

et EIG

6 STD sur moyenne et PSI)

7 STD sur moyenne tronquée à 1 % et

HO

8 STD sur moyenne tronquée 51 % et

PSI)

Outils

Moyenne

Moyenne tronquée à 1 %

Écart-type

Écart interquartile (EIQ)

Pseudo écart-type (PSI))

0

.. c.

Méthodes

Box plot de Tukey

Covratio de Belsley-Kuh-Welsh

Standardisation de la distribution

C.

___________C.

Nettoyage de données 199

Page 203: actes des journées de méthodologie statistique
Page 204: actes des journées de méthodologie statistique

LES ÉCARTS D'ESTIMATION DE LA POPULATION ACTIVE FRANÇAISE

AU RECENSEMENT DE MARS 1990 ET A L'ENQUÊTE ANNUELLE SUR L'EMPLOI DE JANVIER 1990

D'OÙ VIENNENT LES ÎIVERGENCES ?

Dominique Rouault

Le recensement français de population de mars 1990 fournit deux évaluations brutes assez proches de la population active française et de ses composantes. Sa version "exhaustive légère" (exploitant l'ensemble des bulletins, mais pas l'intégralité de leurs informations) dénombre 22 609 000 actifs occupés (y compris les militaires du contingent), et 2 733 000 chômeurs. Son "exploitation lourde" (traitant l'ensemble des informations des bulletins, mais n'exploitant qu'un quart d'entre eux par sondage) compte 107 000 actifs occupés en moins et 52 000 chômeurs en plus (ce dernier traitement, plus contrôlé par l'Insee, opère des reclassements sur le code d'activité chiffré à l'exhaustif par des façonniers).

De son côté, l'enquête sur l'emploi (enquête annuelle par sondage) de janvier 1990 donne, selon la définition rigoureuse du Bureau International du Travail (BIT), des évaluations se situant nettement en dessous du recensement : 22 322 000 actifs occupés et 2 254 000 chômeurs.

Pour comparer valablement les deux sources, il convient néanmoins de tenir compte de trois facteurs de divergence : une différence de champ d'investigation (l'enquête ne porte que sur la "population des ménages", c'est-à-dire sur les personnes résidant dans des logements ordinaires), une différence de concept dans le codage de l'activité (le codage au recensement ne satisfait pas aux critères précis du BIT qui nécessitent une batterie complexe de questions mise en oeuvre dans l'enquête), et une différence de date de collecte (du 15 janvier au 15 février pour l'enquête, du 5 mars, date de référence, à la fin avril pour le recensement). De plus, l'enquête est affectée d'un aléa de sondage (la marge d'incertitude habituellement tolérée ou "intervalle de confiance à 95 %", est de 130 000 sur la population active, 150 000 sur la population active occupée et 80 000 sur le chômage).

Les écarts d'estimation de la population française 201

Page 205: actes des journées de méthodologie statistique

Deux premières analyses [MARCHAND 19 et GUILLEMOT 20] effectuées après la disponibilité des résultats de l'exploitation légère (été 1991) avaient cependant conclu que ces facteurs explicatifs ne suffisaient pas à rendre compte des divergences consta-tées. Il fallait donc admettre l'existence d'un effet propre aux protocoles de collecte : à l'enquête mode de questionnement, libellé des questions et enregistrement des réponses diffèrent de celles du recensement, et surtout intervient l'interaction enquê-teur-enquêté.

Compte tenu des enjeux importants liés à ces données, non seulement en termes de structure, s'agissant notamment du taux d'activité des femmes ou du taux de chômage (tableau 1), mais surtout en termes d'évolution récente et prévisible des ressources en main d'oeuvre, il fut décidé fin novembre 1991 de procéder à un rapprochement des déclarations faites au Recensement de la Population (RP) et à l'Enquête Emploi (EE) sur le "tiers sortant" de l'enquête (personnes enquêtées pour la dernière fois) pour approfondir cet "effet protocole".

Ce rapprochement s'est effectué en deux temps : établissement d'un "fichier de correspondance" magnétique au niveau des logements par appariement "à vue" des identifiants à l'enquête emploi des locaux du "tiers sortant" (un peu plus de 32 000) avec leurs identifiants au recensement (pour des raisons de protection des personnes ces deux identifiants sont distincts et ne peuvent être rapprochés qu'au vu des docu-ments de collecte), puis appariement informatique du "fichier de correspondance" et des fichiers magnétiques des deux sources, jusqu'au niveau des individus, identifiés à l'intérieur des logements par leur sexe, année et mois de naissance. L'apurement du fichier a été soumis à une stricte contrainte de délai (fin juin 92), mais la qualité globale de l'appariement est satisfaisante (environ 95 % des résidences principales retrouvées, et 91 % des individus enquêtés) et a permis de rapprocher environ 40 000 paires d'enregis-trements d'adultes de 15 ans ou plus, dont 10 000 figurant dans le sondage au quart.

La présente étude vise à isoler l'effet propre des deux protocoles de collecte, grâce à leur rapprochement à trois niveaux successifs: "macrosocial", "mésosocial" et "micro-social". L'exploitation exhaustive du recensement est privilégiée clans la comparaison pour des raisons de représentativité de l'échantillon ci-dessus, mais on indiquera dans quel sens ont joué les corrections dues à l'exploitation lourde.

L'approche "macrosociale", après une présentation rapide des protocoles de collecte et du codage de l'activité au recensement, effectue les corrections de champ, de concept et de date rendant comparables les deux sources. En particulier, elle procède à une simulation du concept de "type d'activité au sens du recensement" sur le questionnaire de l'enquête.

L'approche "mésosoc ale" opère une analyse statistique des enregistrements des per-sonnes codées différemment aux deux sources, en termes de "lot de réponses" dans les deux protocoles (dans l'optique d'un contrôle de qualité des codages) et en termes de

202 INSEE Méthodes n° 56-57-58

Page 206: actes des journées de méthodologie statistique

caractéristiques sociodémographiques (aux fins de désigner des sous-populations à "risque objectif de divergence"). Elle permet de donner une mesure quantitative globale de l'"effet protocole" et complémentairement de l'aléa de sondage.

L'approche "microsociale" effectue une démarche plus qualitative par retour direct aux questionnaires remplis par une sous-population ciblée par le précédent "cadrage", pour tenter de démêler les divergences tenant aux changements de situation des personnes, aux différences de codification d'une situation identique dans les deux chaînes de production, et au flou de déclaration d'une même situation par l'enquêté (recensé) lui même. Elle débouche en outre sur l'interprétation sociologique.

L'approche "rnacrosociale"

Présentation rapide des protocoles de collecte

Pour alléger l'exposé nous nous contenterons ici de rappeler les caractéristiques essentielles des deux protocoles de collecte et de traitement. Pour une description plus précise, on se reportera à la bibliographie en annexe. De même pour fixer la mémoire nous avons recouru à l'utilisation de codes.

Le questionnaire de l'enquête emploi est administré annuellement en mars par un réseau d'enquêteurs qualifiés, à l'ensemble des adultes de 15 ans au moins résidant à titre principal (ou éventuellement rattachés au ménage occupant) dans un échantillon de logements suivi trois années de suite et renouvelé par tiers. En 1990, année du recensement général de la population, cette enquête a été avancée en janvier et son questionnaire rénové. C'est l'enquêteur qui enregistre les réponses des personnes au fur et à mesure d'un cheminement rigoureux comportant de nombreux "filtres", et cet enquêteur est autorisé à remplir le questionnaire d'un adulte absent au moment de son passage, en interrogeant un autre adulte du ménage.

En revanche les bulletins du recensement ne comportent qu'un nombre limité de questions, formulées de façon assez sommaire, et ont été dans la plupart des cas remplis par les individus eux-mêmes, assez rarement en présence d'un agent recenseur. Ils sont collectés, non seulement parmi la population vivant dans des logements ordinaires ou "population des ménages", mais aussi auprès des personnes vivant en collectivité.

Les écarts d'estimation de la population française 203

Page 207: actes des journées de méthodologie statistique

Restriction du champ au RP la population des ménages

Le rapprochement montre que pratiquement tous les actifs "rattachés" aux ménages à l'enquête emploi se retrouvent dans la population des ménages du recensement. On peut donc assimiler le champ de la population active à l'enquête au champ de la population active des ménages au recensement. Dans l'exploitation exhaustive, cette dernière compte 22 343 000 actifs occupés (22 237 000 dans le sondage au quart) et 2 669 000 chômeurs (respectivement 2 723 000).

Correction de concept à l'EE : le type d'activité "au sens du recensement"

Le recensement utilise le verso du bulletin individuel (renseigné par les personnes qui travaillent) et la question 9 (renseignée par les autres) que l'on regroupe ici sous le terme d'"activité spontanée" (code en cinq postes INAC5). Il exploite en complément la question II sur la "recherche d'emploi" (ANREC regroupé ici en trois modalités, "oui", "non", "blanc") pour coder définitivement le "type d'activité" (regroupé ici en trois postes TACT3H dans l'exhaustif léger et TACT3 dans le sondage au quart).

Les recensés notifiant (au verso du bulletin) qu'ils travaillent, sont codés actifs occupés. Pour ceux qui se classent spontanément "chômeur (inscrit ou non à l'ANPE) " à la question 9, on examine la réponse à la question I I : s'ils indiquent explicitement ne pas chercher un emploi, ils sont recodés inactifs, sinon ils sont codés chômeurs.

Les "étudiant, élève, stagiaire non rémunéré" spontanés sont codés inactifs (du moins s'ils ne travaillent pas). Pour les autres cas ("retraité", "retiré des affaires", "femme au foyer" ou "autre inactif") on prend également en compte la réponse à la question 11 : ces inactifs spontanés sont recodés chômeurs s'ils indiquent explicitement rechercher un emploi (cela implique la précision d'une ancienneté de recherche); ils sont codés inactifs dans le cas contraire.

204 INSEE Méthodes n° 56-57-58

Page 208: actes des journées de méthodologie statistique

En résumé le classement spontané (INAC5) des personnes donne lieu à une reventilation dans le code final "type d'activité" (TACT3 ou TACT3H), qui modifie en particulier le partage chômage/inactivité, selon le schéma ci-dessous :

INAC5 (activité spontanée)

ANREC recherche d'emploi

TACT3 (ou TACT3H) (type d'activité)

occupé (verso bulletin renseigné) actif occupé chômeur (inscrit ou non) OUI ou BLANC chômeur chômeur (inscrit ou non) NON inactif étudiant, élève, stagiaire non rémunéré inactif retraité, retiré des affaires OUI chomeur retraité, retiré des affaires NON ou BLANC inactif

, femme au foyer, autre inactif OUI chômeur L femme au foyer_ autre inactif NON ou BLANC ..., inactif .__....._____. _...

La correction de concept à l'enquête emploi consiste à simuler à partir de l'enregistre-ment le codage du type d'activité selon les conventions du recensement, et non plus celles du BIT.

Nous avons pour cette étude codé le type d'activité à l'enquête selon une logique la plus • ajustée possible aux conventions du recensement, malgré une part d'arbitraire inévita-ble, en ne faisant intervenir que les questions dont la formulation est très proche de celles du bulletin du RP : d'abord deux questions posées en début de questionnaire à tous les enquêtés : la question Q2 (code regroupé FI5) dénommée ici "activité sponta-née", et dont les rubriques sont très proches de son homologue au recensement, et la question Q4a sur la recherche d'emploi (code RECHE) ne comportant cette fois que deux réponses possibles (OUI ou NON); ensuite la question B8 sur l'ancienneté de recherche d'emploi posée sensiblement plus tard et seulement aux enquêtés suscepti-bles à divers titres d'une recherche (code regroupé DREC en deux réponses possibles, OUI si une ancienneté est déclarée, NON dans le cas contraire, donc aussi si elle est non renseignée). Le classement spontané (FIS) des personnes donne donc lieu à une simulation du code final "type d'activité au sens du recensement" (TACT3EE), selon le schéma ci-dessous calqué sur le précédent :

F15 (act.spontanée) RECHE (recherche emploi)

DREC (ancienneté)

TACT3EE (type d'act.

actif occupé travaille, ou est militaire du contingent chômeur (inscrit ou non) OUI chômeur chômeur (inscrit ou non) NON OUI inactif chômeur (inscrit ou non) étudiant, élève, stagiaire non rémunéré

NON NON inactif inactif

retraité, retiré des affaires OUI OUI chômeur retraité, retiré des affaires OUI NON inactif retraité, retiré des affaires NON inactif femme foyer, autre inactif OUI OUI chômeur femme foyer, autre inactif OUI NON inactif femme foyer, autre inactif NON inactif

Les écarts d'estimation de la population française 205

Page 209: actes des journées de méthodologie statistique

Après correction de concept l'enquête emploi décompterait 22 361 000 actifs occupés (+ 39 000 par rapport au concept BIT), et 2 436 000 chômeurs ( + 182 000). La définition de "chômeur au sens du recensement" est naturellement plus extensive que celle du BIT. Le tableau I indique les ratios d'activité et de chômage les plus sensibles à la source, au champ et au concept retenus.

Tableau 1

Ratios d'activité et de chômage selon différentes définitions en %

Source RP Exhaustif Quart Quart Enquête Enquête

Champ/concept Total Total Ménages TOT/BIT MEN/RP

Taux d'activité 55,3 55,1 55,8 54,8 55,4

dont femmes 46,7 46,4 47,2 45,9 46,7

Jeunes 20 à 24 ans 63,8 63,6 65,1 61,3 63,3

Femmes 25 à 29 ans 80,5 80,2 80,6 77,7 79,2

Femmes 30 à 39 ans 76,3 76,0 76,2 73,8 75,2

Hommes 55 à 59 ans 70,0 69,7 70,1 67,7 69,3

Taux de chômage 10,8 11,0 10,9 9,2 9,8

dont Femmes 14,4 14,7 14,6 12,0 13,1

Correction de date sur l'EE l'évolution conjoncturelle

Les variations du niveau de chacune des catégories entre fin décembre et fin février 1990 peuvent être assez correctement estimées à la dizaine de milliers près à partir de sources conjoncturelles. On peut évaluer une augmentation de 30 000 actifs occupés, et une diminution de 40 000 chômeurs entre les deux dates.

Le tableau 2 résume les diverses corrections effectuées sur les données brutes (arrondies à la dizaine de milliers de personnes; la population de plus de 15 ans des ménages à l'enquête est calée sur le RP exhaustif par ajustement du nombre d'inactifs en tenant compte de 20 000 décès entre les deux dates).

En définitive, les écarts d'estimations à concept, champ et date comparables sur la population active occupée sont totalement admissibles entre l'enquête et l'exploitation exhaustive du recensement (+ 50 000 à l'EE par rapport au RP) et à la rigueur acceptables par rapport à l'exploitation lourde (+ 150 000) compte tenu de l'aléa de sondage de l'enquête. Mais les écarts sur le nombre de chômeurs ( - 270 000 et - 320 000) sont nettement hors de la marge d' incertitude admissible.

206 INSEE Méthodes n° 56-57-58

Page 210: actes des journées de méthodologie statistique

I. SOC le"

Tableau 2 Population adulte de 15 ans ou plus des ménages

En milliers

Type d'activité Source

Total Occupés Chômeurs lnactifs

EE Concept BIT 44 690 22 320 2 250 20 120

EE Concept RP 44 690 22 360 2 440 19 890

EE Actualisée 44 670 22 390 2 400 19 880

HP Exhaustif ménages 44 670 22 340 2 670 19 660

HP Quart ménages 44 700 22 240 2 720 19 740

Ilapproche " és

Cette approche utilise les enregistrements du questionnaire de l'enquête et du bulletin individuel du recensement concernant les 40 117 adultes appariés. Cependant l'absence de certaines variables brutes de saisie dans les fichiers dont sont tirés ces enregistre-ments oblige à raisonner sur les variables redressées et complique parfois l'interpréta-tion. L'analyse ne peut, pour l'essentiel, se baser que sur des déséquilibres de flux, puisqu'il demeure en général impossible de décider au niveau individuel si une divergence de codage est due ou non à un changement de situation de l'intéressé entre les deux dates.

La matrice de passage entre le type d'activité à l'enquête (TACT3EE) et à l'exhaustif (TACT3H) sur ces 40 117 adultes est donnée dans le tableau 3 :

Tableau 3 Type d'activité des adultes à l'enquête et au RP (exhaustif)

Type d'activité À l'enquête (TACT3EE) (Matrice observée)

à l'exhaustif Actifs Total (TACT3H) occupés

Chômeurs Inactifs

Actifs occupés 19 212 334 547 20 093 Chômeurs 322 1 454 419 2 195 Inactifs 506 244 17 079 17 819 Total 20 040 2 032 18 045 40 117

Les écarts d'estimation de la population française 207

Page 211: actes des journées de méthodologie statistique

L'effet protocole " sur les répondants à l'enquête

Ces 40 117 individus sont sensés représenter la population de plus de 15 ans des ménages en janvier soit 44 680 000 personnes. Un cas individuel doit donc à ce niveau être pondéré par un coefficient 1 114. Ainsi, après pondération, cette matrice mesure un effet global "protocole + date" : la rétropolation de mars à janvier (cf ci-dessous) permet d'estimer (avant-dernièr'e colonne du tableau 4) les effectifs qu'on aurait obtenus en faisant passer aux répondants de l'enquête le protocole du recensement (exploitation exhaustive):

Tableau 4

L'effet protocole "RP exhaustif" sur les répondants à l'EE

Matrice observée pondérée (milliers) TACT3EE Rétropolation Cible total

RP Exhaustif

Total

TACT3H Occupés Chômeurs Inactifs ( # Mars ) ( # Janv.)

Occupés 21 440 400 600 22 440 22 410 22 340

Chômeurs 360 1 750 460 2 570 2 610 2 670

Inactifs 560 290 18 820 19 670 19 680 19 660

Total (EE) 22 360 2 440 19 890 44 680 44 700 44 670

L'écart avec les effectifs réellement observés à l'enquête (dernière demi-ligne du tableau) montre que le codage à l'exploitation exhaustive du recensement (TACT3H) "produit" (sur les répondants de l'enquête) 50 000 occupés et 170 000 chômeurs en plus, 210 000 inactifs en moins que le codage supposé équivalent de l'enquête (TACT3EE).

Il demeurerait même après prise en compte de l'effet global "protocole + date" (4e colonne) un excédent net de 100 000 actifs occupés et un déficit net de 100 000 chômeurs à l'enquête par rapport à la population des ménages au recensement (cible).

Les biais dus aux non-répondants de l'enquête

Une partie de cet écart peut tenir à des biais éventuels introduits par les non-répondants à l'enquête. Nous en avons un échantillon représentatif avec les 2 410 adultes du rapprochement, recensés dans des résidences principales non enquêtées, auxquels on peut éventuellement ajouter les 943 recensés dans des résidences déclarées comme non principales par l'enquêteur (à tort ou à raison, il est difficile d'en décider).

208 INSEE Méthodes n' 56-57-58

Page 212: actes des journées de méthodologie statistique

Or la structure par type d'activité (TACT3) des 3 353 non-enquêtés, et plus encore celle des 2 410 non-répondants stricts, s'écarte assez sensiblement de celle des enquêtés : parmi eux plus de chômeurs (respectivement 7,0 % et 7,2 % au lieu de 5,0 %), et plus d'actifs occupés (53,6 % et 55,7 % contre 45,4 %).

La plus grosse partie de ces écarts est corrigée par le "calage" de l'enquête sur la pyramide des âges de la population des ménages (à partir du recensement). Ce calage ajoute en effet 333 000 actifs occupés et 23 000 chômeurs aux chiffres issus du redressement "brutal" des non-réponses. Il pourrait subsister cependant selon nos premières estimations un déficit de chômeurs non corrigé se situant entre 30 000 et 60 000 personnes. Pour les actifs occupés la correction pourrait en revanche avoir été excessive.

Les écarts résiduels inexpliqués se situeraient dès lors à l'intérieur de la marge admissible due aux aléas de sondage, ce qui achève le "bouclage" des deux évaluations.

Le déséquilibre porte sur le partage chômage/inactivité

On relève immédiatement dans la matrice de passage deux flux non diagonaux déséqui-librés : les "inactifs RP / chômeurs EE" ne compensent pas, et de loin, les "chômeurs RP/ inactifs EE". De fait, les soldes sur l'échantillon sont déficitaires à l'enquête de 163 chômeurs et 53 actifs occupés, et excédentaires de 216 inactifs.

Au total 2 372 cas de divergence se situent hors diagonale dans le tableau. On ne peut faire case par case la part des flux saisonniers et du protocole de collecte et de traitement des données. En particulier le redressement par calque sur un individu voisin (dit "hot deck") opéré au recensement sur les bulletins blancs ou incomplets pour coder le type d'activité (environ 900 000 au total) contribue à gonfler artificiellement les cas de divergence, si individuellement il s'est avéré malheureux. On peut cependant supposer en première approximation que les flux saisonniers sont équilibrés à quelques unités près, et que les redressements sont répartis au prorata des cases. On peut dès lors conclure que la source essentielle du déséquilibre "mésosocial" réside effectivement dans les échanges entre chômage et inactivité.

Le risque global de divergence est de 5,9 %. Il est plus élevé parmi les étrangers (10,1 %), et, plus curieusement, lorsque l'individu a répondu lui-même à l'enquête emploi (6,4 %).

Les écarts d'estimation de la population française 209

Page 213: actes des journées de méthodologie statistique

La logique du codage n'est pas en cause

On peut examiner sur les 2 372 adultes "divergeant" dans l'échantillon le jeu de réponses aux deux protocoles : le type d'activité déclaré spontanément sur le bulletin du recensement (INACS : le code à blanc regroupe malheureusement les "vrais" occupés spontanés, les non-réponses qui sont redressées ensuite et reventilées, et 26 élèves internes dits "réintégrés" qui ont rempli un autre type de bulletin), son homologue sur le questionnaire de l'enquête (FIS), la déclaration éventuelle de recherche d'emploi au RP (ANREC regroupé en 3 postes) et les déclarations homologues au début (RECHE) puis en milieu d'enquête (DREC). À l'issue d'un examen détaillé, on constate que le codage final des situations déclarées (sous réserve de bonne saisie) se déroule confor-mément à la logique prévue.

Le traitement paraît cohérent pour les actifs occupés

Un bilan des stocks et des flux sur les déclarations spontanées montre (après correction pour tenir compte des élèves internes réintégrés) un déficit de 63 occupés (ou éventuel-lement non-répondants) spontanés au recensement. Ce déséquilibre provient surtout de passages de l'emploi à la retraite entre janvier et mars (-70 nets) dont on ne retrouve pas la contrepartie parmi les flux en provenance des chômeurs (+ 6 nets), étudiants ou élèves (+ I net), ou "autres inactifs" (+ 0 net) spontanés.

Ce déficit d'emplois spontanés se transforme en excédent (53 cf supra) dans le codage final de l'exploitation exhaustive (grâce à l'indicateur d'emploi constitué par le rem-plissage au moins partiel du verso du bulletin individuel), ce qui va a priori dans le sens attendu par l'évolution conjoncturelle. Quoi qu'il en soit les trois estimations de l'emploi oscillent après pondération à l'intérieur d'une fourchette de 130 000 personnes.

L' "effet protocole " joue essentiellement sur la déclaration de recherche d'emploi

Le bilan montre en revanche un excédent de 39 chômeurs spontanés au recensement, dont l'origine majeure provient d'un flux d'anciens "autres inactifs" à l'enquête sans contrepartie équivalente ( + 47 nets). Le codage final accroît considérablement l'excé-dent (163 cf supra): c'est donc la déclaration de recherche d'emploi servant d'aiguillage pour reventiler les classements bruts spontanés, qui est surtout affectée par le protocole de collecte.

210 INSEE Méthodes n° 56-57-58

Page 214: actes des journées de méthodologie statistique

280 000 recherches comptabilisées en plus au RP

Nous avons analysé les réponses à la question sur la recherche d'emploi en isolant les deux catégories en cause de "chômeurs spontanés" et "autres inactifs spontanés", c'est-à-dire les 6 641 000 individus après pondération qui demeurent entre les deux sources dans une de ces deux catégories, ou qui passent d'une catégorie à l'autre. Ainsi les transitions avec l'emploi, la retraite ou la formation sont neutralisées, et les variations conjoncturelles a priori négligeables.

Sont comptabilisées en "hésitantes" à l'enquête, les chômeurs spontanés passant du non au oui et les inactifs spontanés du oui au non entre le début (RECHE) et le milieu (DREC) de l'entretien : codées finalement inactives "au sens du recensement" selon nos conventions (TACT3EE), elles constituent un "halo" autour du chômage stricte-ment défini constitué de 80 000 personnes à l'enquête emploi 1990. Au recensement, en revanche, l'abstention à la question (ANREC) maintient finalement au sein du chômage (TACT3H) les chômeurs spontanés "au bénéfice du doute", mais en exclut les inactifs spontanés. Au total (tableau 5) "joue" en faveur du chômage un solde net de 283 000 personnes, dont :

- sur les chômeurs spontanés aux deux sources 87 000 nets passant du "non" à l'enquête au "oui" au recensement, 66 000 passant du "non" à l'abstention, et 21 000 de l'hésitation au "oui" ou à l'abstention ;

- sur les transitions spontanées "chômage/inactivité" un solde net de 86 000 personnes (dont 29 000 du "non" au "oui") ;

- sur les inactifs spontanés aux deux sources 23 000 nets passant du "n n" ou de l'hésitation au "oui".

Tableau 5

Chômeurs ou inactifs spontanés à l'une des sources selon leur classement spontané et leur recherche d'emploi déclarée

Chiffres pondérés en milliers

Classement spontané (F15): Enquête emploi

Oui

Chômeur

Non/Oui Non Oui

Autre inactif

Oui/Non Non Recherche ennloi/ anc.(RECH/DRECL

Class.sponlan é Anc.rech. emploi Au RP (INAC5) Au RP (ANREC) Chômeur Oui 1 371 17 116 49 2 119 Chômeur Abstention 97 4 66 3 0 57 Chômeur Non 29 3 9 3 0 10 Autre inactif Oui 77 0 1 58 6 105 Autre inactif Non ou Abst. 90 0 25 88 0 4 235

Les écarts d'estimation de la population française 211

Page 215: actes des journées de méthodologie statistique

Là réside en dernière instance l'"effet protocole" : sur les bulletins du recensement sont exprimées explicitement 150 000 "recherches" (au moins attentes) d'emploi de plus que dans le face à face avec l'enquêteur et sont comptabilisées "au bénéfice du doute" un surplus de 130 000 recherches non démenties de personnes se déclarant spontané-ment chômeurs.

Parmi les cas de divergence ne laissant subsister aucune ambiguïté on relève en particulier 295 000 personnes indiquant une ancienneté de recherche supérieure à trois mois au RP (donc excluant a priori un changement de leur situation) qui n'ont pas déclaré chercher un emploi face à l'enquêteur, ou (pour 20 000 seulement) ont hésité à le faire (tableau 6 ):

Tableau 6

Cas de divergence sur les chômeurs ou inactifs spontanés avec recherche d'emploi déclarée au RP supérieure à 3 mois

Chiffres pondérés en milliers

Classement spontané (FI5)

Enquête emploi

Chômeur Autre inactif

Recherche emploi (RECHE/DREC): Non/Oui Non/Non Oui/Non Non/Non

Class. spontané Au RP (INAC5)

Anc. rech. emploi Au RP (ANREC)

16

0

102

1

1

3 .

100

72

Chômeur

Autre inactif

Au moins 3 mois

Au moins 3 mois

Le flou du partage "chômage/inactivité" porte sur les populations démunies vis-à-vis du marché du travail

On ne peut que s'interroger, face à des incohérences de cette taille, sur les caractéristi-ques des individus concernés. Dans l'exploitation exhaustive, nous ne disposons pratiquement que du sexe et de l' âge des personnes, mais à l' enquête le diplôme le plus élevé obtenu (déclaré) peut servir d' indicateur social puisque, à la différence de la catégorie socioprofessionnelle, il n'est pas construit su: le type d'activité. Le tableau 7 fournit, pour chaque catégorie (représentant une proportion suffisamment élevée de cas de divergence), le risque global de divergence, le type de risque majeur, les deux risques "Chômeur RP/Inactif EE" et "Inactif RP/Chômeur BE" qui nous intéressent et leur écart.

212 INSEE Méthodes n° 56-57-58

Page 216: actes des journées de méthodologie statistique

Tableau 7

Cas et risques de divergence entre les deux sources selon le sexe. La tranche d'âge et le diplôme le plus élevé obtenu

Sexe (EE)

Tr. Âge (EE)

Diplôm. (EE)

% Cas div.

Risque div.

RSQ. 1 RP/EE

Risque Cho/Ina

Risque Ina/Cho

Écarts Risque

Total Total Total 100,0 5,9 OCU / INA 1,0 0,6 0,4 Femme Total Total 64,4 7,3 OCU / INA 1,5 0,9 0,6 Total Total <=CEP 45,6 6,3 INA/OCU 1,3 0,8 0,5 Homme Total Total 35,5 4,4 CCU/CHO 0,6 0,3 0,3 Total 25 à 39 Total 33,2 7,1 OCU/INA 1,5 0,7 0,8 Femme 25 à 39 Total 24,6 10,3 OCU/INA 2,4 1 ,2 1,2 Total 15 à 24 Total 23,1 7,6 OCU/CHO 0,7 0,6 0,1 Total Total CAP.BEP 21,0 6,5 OCU/CHO 1,1 0,5 0,6 Total 50 à 59 Total 17,9 7,8 INA/OCU 1,7 0,9 0,8 Total 40 à 49 Total 17,5 6,3 INA/OCU 1,1 0,9 0,2 Total 25 à 39 <=CEP 12,8 9,6 CF10/INA 2,5 1,4 1,1 Total . 50 à 59 <= CEP 11,5 8,7 INA/OCU 2,0 0,9 1,1 Femme 50 à 59 Total 11,3 9,7 INA/OCU 2,0 1,0 1,0 Total Total N. D ecl. 10,2 5,4 OCU / INA 0,5 0,4 0,1 Femme 25 à 39 <= CEP 9,6 13,3 CHO/INA 3,6 2,3 1,3 Total Total BEPC 8,6 6,0 OCU/INA 1,2 0,4 0,8 Total 60 ou + Total 8,3 2,0 INA/ OCU 0,4 0,2 0,2 Femme 50 à 59 <= CEP 7,7 10,6 INA/OCU 2,3 0,8 1,5 Total Total BACC. 7,5 5,5 OCU / INA 0,8 0,6 0,2 Femme Total BEPC 6,5 7,6 OCU/INA 1,8 0,6 1,2 Femme 25 à 39 CAP.BEP 5,6 9,4 CHO/INA 2,4 0,9 1,5 Total Total BACC+2 3,9 4,3 OCU / INA 0,4 0,0 0,4 Femme 25 à 39 BEPC 3,3 11,8 OCU/INA 2,9 1,2 1,7 Total Total SUPER. 3,2 3,7 OCU/INA 0,5 0,3 0,2

Les femmes ont une probabilité nettement plus forte que les hommes d'être classées diversement chômeuses ou inactives, et la balance penche vers le classement "Chômeur RP/Inactif EE" (1,5 % de risque, 0,6 % de plus que le risque inverse). Les tranches d'âge se répartissent en trois catégories : les "50-59 ans" et les "25-39 ans" ont deux risques élevés et un solde sensible en faveur du chômage au RP ; les "15-24 ans" et les "60 ans ou plus" ont deux risques faibles s'équilibrant, les "40-59 ans" deux risques moyens s'équilibrant. Ce sont donc les femmes de 25 à 39 ans ou de 50 à 59 ans qui encourent le risque de classement "Chômeur RP/Inactif EE" à la fois le plus élevé et le plus déséquilibré.

Quant au "capital culturel" détenu, il s'avère un critère hautement discriminant : le risque "Chômeur RP/Inactif EE" est pratiquement décroissant avec le diplôme, du

Les écarts d'estimation de la population française 213

Page 217: actes des journées de méthodologie statistique

certificat d'études (ou moins), à un diplôme "de niveau intermédiaire" (BEPC seul, BEP ou CAP), au baccalauréat et à un diplôme supérieur (BACC + 2 ou plus). Le risque inverse "Inactif RP/Chômeur EE" place les diplômes intermédiaires avant le certificat d'études, et le baccalauréat après le niveau "BACC + 2", mais le bilan fait bien apparaître une dichotomie : les non-bacheliers présentent deux risques élevés et une balance favorable au classement en chômeurs (RP), les détenteurs du baccalauréat ou d'un diplôme supérieur offrent des risques et un déséquilibre plus faible.

Ainsi ce sont les femmes d'âge moyen, non bachelières et en particulier celles ne disposant que d'un bagage scolaire minimum qui font massivement "basculer" le bilan vers le chômage au recensement (autour de 1,5 point d'écart), le risque "Chômeur RP/Inactif EE" étant maximum chez celles de 25 à 39 ans n'ayant au mieux que le certificat d'études (3,6 %). On voit que 1' "effet protocole" joue de façon privilégiée sur des populations bien particulières et disposant de peu d'atouts sur le marché du travail.

L'examen de l'exploitation lourde ne modifie pas ces conclusions

La matrice de passage entre le type d'activité à l'enquête et le type d'activité dans l'exploitation lourde du recensement, observée sur les 9 979 adultes (sur 40 117) figurant dans le sondage au quart s'avère être peu représentative pour le croisement que nous avons étudié ci-dessus.

Nous avons pu cependant obtenir sur un échantillon beaucoup plus important (un peu plus de 74 000 adultes de la population des ménages) la matrice de passage du code provisoire du type d'activité à l'exhaustif au code définitif de l'Insee dans le sondage au quart (tableau 8). Les recodifications opérées par l'exploitation lourde sont très limitées en pourcentage et affectent surtout les partages emploi/chômage ou emploi/in-activité.

Tableau 8

Reclassement du type d'activité entre l'exploitation exhaustive et l'exploitation lourde du recensement

Type d'activité au quart(TACT3)

À l'exhaustif (TACT3H) (matrice Chômeurs

observée) Inactifs Actifs occupés

Actifs occupés Chômeurs Inactifs Total

98,88 0,36 0,76

100,00

1,19 98,09

0,72 100,00

0,62 0,05

99,33 100,00

214 INSEE Méthodes n° 56-57-58

Page 218: actes des journées de méthodologie statistique

Grâce à cette matrice on peut redresser grossièrement les cases affectées par l'aléa de sondage sur l'échantillon des 9 979 personnes figurant dans l'exploitation lourde. Les résultats confirment dans ses grands traits le tableau d'ensemble dégagé à partir de l'exploitation exhaustive.

L' "effet protocole" de l'exploitation lourde produirait par rapport à l'enquête emploi un surplus de chômeurs légèrement accru, mais en revanche rétablirait un déficit d' actifs occupés pratiquement opposé à l'excédent constaté à l'exploitation exhaustive. Ainsi le déséquilibre majeur ne porte pas sur le niveau de l'emploi mais reste dû à un partage différent entre chômage et inactivité induit par la question sur la recherche d'emploi.

La présence de la catégorie socioprofessionnelle dans l'exploitation lourde permet d'attribuer à tous les adultes une "position socioprofessionnelle" par mixage des deux sources. Le "capital économique" agit bien dans le sens attendu par le "capital culturel" : d'un côté les catégories ouvrière et employée se distinguent par deux risques "Chômeur RP/Inactif EE" et "Inactif RP/Chômeur EE" élevés (notamment chez les ouvrières) mais avec un bilan favorable au chômage au recensement; à l'opposé les professions intermédiaires ou supérieures offrent deux risques moyens ou faibles se compensant globalement ; enfin les agriculteurs et indépendants (non agricoles) pour qui le second risque est pratiquement nul, contribuent encore à infléchir la balance du côté du chômage au RP.

L'approche "microsociale"

Parallèlement à cette analyse statistique, nous avons fait procéder sur l'ensemble des individus dont les codes "type d'activité" (TACT3 et TACT3EE) divergeaient à l'en-quête et dans l'exploitation lourde du recensement à la recherche des bulletins et questionnaires de ces personnes, au report anonyme de leurs réponses aux questions essentielles sur deux maquettes simplifiées, et à un diagnostic qualitatif "à vue" sur le motif de la divergence selon une grille que nous avions proposée. Cette fois le retour direct aux documents conduit à une approche véritablement "microsociale" et évite les deux obstacles de l'analyse précédente, de l'utilisation de codes redressés et (en partie) du brouillage dû au décalage de dates.

Ce diagnostic, portant sur 553 adultes, est restitué dans le tableau 9. Chaque cas représente en moyenne 4 479 personnes (chaque colonne devrait en outre être redressée par le coefficient indiqué pour restituer la représentativité du risque afférent).

Les écarts d'estimation de la population française 215

Page 219: actes des journées de méthodologie statistique

Tableau 9

Analyse qualitative des cas de divergence entre l'EE et le RP (quart) selon type de divergence et diagnostic

Diagnostic PB.

Ty.e de divergence RPQUART / EE OCU/CHO OCU/ INA CHO/ OCU CHO / INA INA / OCU INA / CHO Total

codage, dont : 2,5 6,3 0,4 3,1 2,2 1,6 16,1 Saisie FI 0,0 1,1 0,0 0,0 0,4 0,0 1,5 Saisie INAC 0,2 0,9 0,2 0,4 0,2 0,0 1,8 Codage TACT3 0,9 2,0 0,2 1,5 0,7 0,7 6,0 Codage TACT3EE 0,0 0,0 0,0 0,7 0,0 0,2 0,9 Redres. BI 1,5 2,4 0,0 0,5 0,9 0,7 6,0 Changement de situation,dont: 10,9 12,5 11,2 3, 6 9,6 3,8 51,5 probable 4,9 2 ,0 9 ,0 2,4 2,0 0,0 20,3 possible 6,0 10,5 15,2 1,3 7,6 3,8 31,3 Flou décision,dont : 0,9 4,2 2,7 12,3 9,4 2,9 32,4 double situation 0,7 2,5 0,2 0,7 4,0 0,0 8,1 incohere. 0,2 1,6 2 5 11 6 5 4 2,9 24 2 (Coeff. RED.) 1,2 1,3 1,2 1,0 1,4 1,5 1,2

Problèmes de codages, changements de situation et flous déclaratifs

Les causes de divergence peuvent être regroupées en trois grandes catégories :

- les problèmes de codage (dus au chiffrement de l'Insee) sont, comme prévu, limités (un sixième des causes), minimes, en particulier les erreurs de saisie sur les codes bruts spontanés (FI ou INAC), ou les contestations possibles du code simulé à l'enquête (TACT3EE); les redressements "malheureux" sont, somme toute modestes (6 % des causes), du même ordre que les contestations du codage complexe au recensement (TACT3) ;

- les changements de situation, considérés comme probables lorsqu'on dispose de dates ou durées, comme possibles seulement lorsque rien ne permet d'en douter, expliqueraient la moitié des causes de divergence ;

- les "flous déclaratifs" de la part de l'enquêté, incluant les "doubles situations plausibles" (étudiant travailleur, retraité chômeur etc.) et surtout les "incohérences de réponses" traduisant des contradictions flagrantes. Est confirmée l'importance du flou déclaratif (environ un tiers des causes de divergence) et notamment des incohérences (environ un quart).

216 INSEE Méthodes n° 56-57-58

Page 220: actes des journées de méthodologie statistique

"Faux chômeurs " ?

Nous nous sommes intéressés particulièrement aux 64 "Chômeurs RP/Inactifs EE" déclarés incohérents (représentatifs de 288 000 personnes sans redressement néces-saire) dont nous avons examiné nous mêmes les maquettes. Globalement l'incohérence massive ne fait aucun doute, 63 ont indiqué rechercher un emploi (ANREC) au RP 61 depuis au moins trois mois, et 45 depuis au moins un an. 50 ont répondu eux-mêmes à l'enquêteur(trice). Or, si 44 se déclaraient spontanément chômeurs,1 seul a déclaré une recherche en début d'entretien (RECHE). 18 ont dit cependant "souhaiter travailler" (SOUFI) et 23 être inscrits à l'ANPE. 15 se déclaraient indisponibles pour travailler immédiatement, et 5 ont fini par donner une ancienneté de recherche (DREC) dont 2 avec des démarches. En outre leur exclusion du chômage au sens du BIT (un seul rescapé) est en droit légitime. D'ailleurs quelle définition extensive du chômage permettrait de les y inclure majoritairement ?

Pourtant nous n'éprouvons, sauf pour quelques cas suspects, guère de doute : ils n'inventent sûrement pas leur recherche (au moins attente) d'emploi.

Ces 64 individus sont bien la synthèse vivante de cette zone de l'espace social que nous avons cernée plus haut : des femmes surtout (49), en majorité âgées de 25 à 39 ans (26), des quinquagénaires (21), ouvriers (19) ou employés (31) très peu qualifiés : ouvrières dans la chaussure, la confection, l'alimentaire, manoeuvres, magasiniers ou manuten-tionnaires, aides-ménagères, femmes de ménage ou agents de service, maçons ou plâtriers, caissières ou vendeuses, serveuses ou barman, auxiliaires, employées de bureau ou secrétaires...

Pourquoi donc observent-ils le silence au cours de l'entretien sur une éventuelle recherche de travail, si discrète soit-elle ? Sans doute parce que le face à face avec l'enquêteur (en l'occurrence une enquêtrice la plupart du temps) obéit à "la logique du parti pris, qui, comme au tribunal, affronte non des jugements logiques, justiciables du seul critère de cohérence, mais des accusations et des défenses" [BouRDIEu 41]. Dès lors le dénouement relève de la formule de WEBER : "Les agents sociaux obéissent à la règle quand l'intérêt à lui obéir l'emporte sur l'intérêt à lui désobéir".

Question "d'habitus" et de "logique pratique" donc. Une expérience un peu prolongée de l' espace social, non plus abstraitement construit mais géographiquement réel de ces enquêtés, comme des contraintes auxquelles doit faire face sur le terrain une enquêtrice de l'enquête emploi, permet d'imaginer aisément que chacun des deux interlocuteurs a le sens à la fois de sa propre place et de celle de l'autre, qu'ils sont vraisemblablement tous deux pressés d'en finir, et comme "la logique de la pratique, c'est d'être logique jusqu'au point où être logique cesserait d'être pratique" [BouRD1Eu 43]....

Les écarts d'estimation de la population française 217

Page 221: actes des journées de méthodologie statistique

Cette logique n'est assurément pas celle du statisticien, et lui rend sans doute la tâche un peu plus difficile... Du moins s'il appartient à une "instance productrice de la statistique légitime" ne saurait-il méconnaître que son activité "parmi d'autres contribue à mettre en forme le monde social, c'est-à-dire à en fournir à la fois des représentations et des outils de description et de gestion" [DESROSIERES 32]. Il peut ainsi éviter de " simuler la rigueur quand les conditions réelles de la rigueur ne sont pas données" voire même s'essayer à "faire la théorie du flou (qui n'est pas une théorie floue) quand la réalité est floue " [BOURDIEU 41 ] .

NB : Une version plus complète de ce travail est disponible sous forme de "document de travail" (N° F9221, sous responsabilité de l'auteur) de la Direction des statistiques démographiques et sociales" de l'Insee sous le titre: "La population active d'après l'enquête emploi 1990 et le recensement de population". Une version définitive de ce texte distribué aux journées de méthodologie statistique 1993 est parue dans la revue Population 1993 n° 6 (novembre-décembre).

218 INSEE Méthodes n° 56-57-58

Page 222: actes des journées de méthodologie statistique

BIBLIOGRAPHIE

Sur l'enquête emploi de 1990 :

1) Conception de l'enquête, collecte et traitement des données :

in "Courrier des Statistiques" N° 53, Insee 1990 :

[1] J.-L. HELLER "Enquête Emploi : un nouveau questionnaire pour la série 1990"; [2] M.-C. DUTERIEZ "Enquête Emploi : une nouvelle chaîne de traitement" ;

2) Résultats publiés :

[4] "Insee Première", N°155, 1991, M. CÉZARD et N. ROTH "Premiers résultats de l'enquête emploi de mars 1991" (incluant les chiffres définitifs de 1990 avant calage démographique sur le dernier recensement) [5] "Insee-Première", N° 212, 1992, M. MÉRON, L. MEURIC, N. ROTH "Premiers résultats de l'enquête emploi de 1992" (incluant chiffres de 1990 après calage démo-graphique sur le recensement) ; [3] "Insee-Résultats, Emploi-Revenus" N°40-41, Insee 1992, "Enquêtes sur l'emploi de 1990-1991 : résultats détaillés";

3) Précision des résultats :

in "Économie et Statistique" N° 193-194, Insee 1986, "Emploi et chômage : l'éclate-ment" :

[6] J.-C. DEVILLE et N. ROTH, "La précision des enquêtes sur l'emploi" ;

Sur le recensement de la population de 1990 :

1) Collecte et chiffrement-saisie des données :

[7] A. LÉRY "Le 32e recensement de la population : la France s'est comptée en 1990" in "Courrier des Statistiques", N° 56, Insee 1990 ; [8] "Aide-mémoire de l'agent recenseur" Insee 1989 ; [9] "Aide-mémoire du colibriste" Insee 1990 ;

Les écarts d'estimation de la population française 219

Page 223: actes des journées de méthodologie statistique

2) Traitement des fichiers et codification :

[55] "Recensement général de la population de 1990", Guide d'utilisation, tome 3, description des traitements, exploitation exhaustive, Insee 1993; [56] "Recensement général de la population de 1990", Guide d'utilisation, tome 5, description des traitements exploitation lourde, Insee 1993;

3) Résultats publiés :

[10] A. LERY et O. MARCHAND " 25 millions d'actifs en mars 1990, Recensement de la population de 1990" in "Insee-Première" N°149, 1991; [11] "Logements-population-emploi évolutions 1975-1982-1990, Régions, départe-ments France", Insee 1991 (Résultats de l'exploitation exhaustive); [12] "Recensement général de la population de 1990, Population-activité-ménages", Insee 1992 (Résultats de l'exploitation au 1/4);

4) Contrôle de qualité :

Communications présentées aux "Journées de méthodologie statistique Insee DSDS - Ensae du 17 et 18 juin 1992", Insee Méthodes N° 46-47-48 :

[13] N. COEFFIC "L'enquête de mesure du degré d'exhaustivité du recensement de 1990" ; [14] J.-C. DEVILLE "Échantillonnages pour le contrôle de qualité du recensement de 1990" ; [15] G. BADEYAN "Le contrôle de production des phases de saisie-chiffrement du recensement de 1990" ;

Sur les récents rapprochements "Enquête emploi-recensement" :

1) Pour 1975 :

in "Archives et documents" N°38, Insee 1981 "Les catégories socioprofessionnelles et leur repérage dans les enquêtes" :

[16] M. CÉZARD "Le rapprochement de l'enquête emploi et du recensement de la population de 1975; résultats généraux" ; [17] M. CÉZARD "Les chômeurs selon le recensement et l'enquête emploi de 1975 ; examen de bulletins individuels" ;

220 INSEE Méthodes n° 56-57-58

Page 224: actes des journées de méthodologie statistique

2) Pour 1982, en l'absence de publication :

[18] N. COEFFIC "Enquête emploi : quelques points de méthodologie", Note interne Insee, Direction de la Production, Division collecte, le ler juillet 1988

3) Pour 1990, en préalable au présent travail :

[19] 0. MARCHAND "Note sur la mesure du chômage au RP 1990", Note interne Insee Direction des statistiques démographiques et sociales, division emploi, ler août 1991 ; [20] D. GUILLEMOT " Comparaison entre les estimations annuelles d'emploi (EA) et les observations du RP90", Note interne Insee, Direction des statistiques démographi-ques et sociales, Division emploi, 20 novembre 1991 ;

Sur les différents concepts d'emploi, de chômage et de population active :

Les notions de "halo" et de "continuum de situations", la problématique du "bouclage" et les projections de "ressources en main-d'oeuvre" dans la conjoncture de la fin des années 80 :

in "Économie et statistique" N°193-194, Insee 1986 ", Emploi et chômage : l'éclate-ment" : l'ensemble du numéro-dossier, et notamment :

[21] C. THÉLOT introduction ;

in "Données sociales 1990", Insee 1990 :

[22] T. LACROIX "Le marché du travail dans les années 80 : reprise de l'emploi, chômage stabilisé et diversification des statuts" ;

in "Économie et statistique" N°243, Insee 1991 :

[23] D. BLANCHET et 0. MARCHAND "Au-delà de l'an 2000, s'adapter à une pénurie de main-d'oeuvre" ;

in "Économie et statistique", N°249, Insee 1991 "Marché du travail" :

[24] 0. MARCHAND " Statistiques du chômage : les écarts se creusent depuis cinq ans" ; [25] M. CÉZARD, M.MÉRON, N. ROTH et C. TORELLI "Le halo autour du chômage" ; [26] S. DUMARTIN et 0. MARCHAND 1988-1990 :" 700 000 créations d'emploi, 300 000 chômeurs en moins" ;

Les écarts d'estimation de la population française 221

Page 225: actes des journées de méthodologie statistique

Sur les différentes phases du travail statistique :

Les notions d'observation, de nomenclatures, de codification, de données, de cons-truction et d'objectivation, de qualité, de "redressement des non-réponses", d'analyse et d'interprétation des données, bref de la problématique de la "mesure" en statistiques sociales au sein d'un "institut public doté de légitimité" :

[27] M. VOLLE "Le métier de statisticien" Hachette Littérature 1980 ; [28] A. DESROSIÈRES, A. GOY, L .THÉVENOT "L'identité sociale dans le travail statistique : la nouvelle nomenclature des professions et catégories professionnelles" in "Économie et statistique", N°152, Insee 1983 ; [29] L.THÉVENOT "L'économie du codage social" in "Critique de l'économie politique" n°23-24 1983 ; [30] C. THÉLOT "La statistique, science de la mesure in "Journal de la société de statistique de Paris" 127,2, 1986 ; [31] D. MERLIE "Que mesure la statistique ?" in "Actes de la recherche en sciences sociales", N° 73, 1988 ; [32] A. DESROSIÈRES "Les spécificités de la statistique publique en France : une mise en perspective historique" in "Courrier des statistiques", N°49, Insee 1989 ;

in "Construire les données sociales", Collections de l'Insee Série M, N°128, 1988 :

[33] M. L. LÉVY "Nommer pour compter" [34] J.-C. DEVILLE "Faut-il croire aux enquêtes 7" ;

in "Mélanges en l'honneur de J. DESABIE" Insee 1989 ;

[35] A. FOUQUET et A. CHARRAUD "L'activité féminine sous le regard du statisticien" ; [36] C.THÉLOT " L'erreur de mémoire sur la situation professionnelle" ;

Sur les rapports entre statistique et sociologie :

La suspicion du statisticien vis-à-vis de l'interprétation, la nécessité de "contextualiser", le dépassement du dilemme objectivisme/subjectivisme, les classements du sujet ob-jectivant et ceux des agents sociaux, la cohérence logique et la logique du parti pris, l'espace social et l'habitus...

in "Économie et statistique", N°168, Insee 1984 "Sociologie et statistique" : [38] F. DE SINGLY "Les bons usages de la statistique dans la recherche sociologique" ; [39] E HÉRAN "L'assise statistique de la sociologie" ;

222 Insee Méthodes n° 56-57-58

Page 226: actes des journées de méthodologie statistique

parmi les communications présentées à la journée d'études "Statistiques et sociologie" Société française de sociologie, Insee, Paris 1982 :

[40] J. -C. PASSERON "Ce que dit un tableau et ce qu'on en dit ; remarques sur le langage des variables et l'interprétation dans les sciences sociales" (repris dans "Le raisonne-ment sociologique" cf infra) ;

in "L'Ensae 25 ans après : que devient l'école et que deviennent les anciens élèves ?" brochure Ensae 1986 :

[41] interview de P. BOURDIEU ;

in P. BOURDIEU " La distinction" Collection "Le sens commun", Éditions de Minuit 1979:

[42] Conclusion : "Classes et classements" ;

in P. BOURDIEU "CHOSES DITES", Collection "Le sens commun", Éditions de minuit 1987 :

[43] "La codification" ; [44] "Objectiver le sujet objectivant" ; [45] "De la règle aux stratégies" ; [55] "Espace social et pouvoir symbolique" ;

in "Mélanges en l'honneur de J. DESABIE", Insee 1989 :

[37] C. SEIBEL "Statistiques sociales et recherche" ; [54] I. C. PASSERON "Le raisonnement sociologique. L'espace non poppérien du raisonnement naturel", introduction "Les sciences de l'homme et de la société" et ire

partie "Le raisonnement sociologique : un raisonnement de l'entre-deux" Collection Essais et recherches, Nathan 1991 ;

Les écarts d'estimation de la population française 223

Page 227: actes des journées de méthodologie statistique

de ta mairie IMPRIMÉ NUMÉRO

Cadre à remplir par riNsEF

LJ 2 3 mot

RECENSEMENT

DE LA

POPULATION

1i RÉPUBLIQUE FRANÇAISE

BULLETIN INL1VIDULL Ecrivez très lisiblement

Signez au bas de la page 2.

ANNEXES

Tirées du n°6 de la revue Population (novembre-décembre 1993)

Wr. Si vous êtes agent de l'État, d'une collectivité locale, d'un hôpital public, d'un service public (EDF. SNCF, etc.) ou militaire de carrière, PRÉCISEZ VOTRE CLASSIFICATION corps., grade, etc)

SEXE Masculin U 1

Féminin ❑ 2

0 ÊTES-VOUS? e Salarié

e À votre compte ❑ 2 (explonont agricote. on.an. commerçant inetutiriet projeasion aunaie ode familial non scion?. etc.)

NOM, Prénoms da/et le nom en capitales (exemple: ALIARD, épouse MAtiltlN, Françoise).

® DATE ET LIEU DE NAISSANCE

Ne(el le • (jour. mois. année)

a (commune)

Département • (pays pour rélruncer. territoire pour fel rami

D 2

e Retraité (ancien salarié) ou préretraité D 3

e Retiré des affaires (ancien agriculteur, ancien artisan, ancien commerçant, etc.) D 4

e Femme au foyer

e Autre Inactif (y compris les personnes ne percevant qu'une pension de réversion)

(2) TRAVAILLEZ-VOUS? e À temps partiel D 1

e À temps complet ❑ 2

0 Si vous êtes dans l'une des situations suivantes, cochez la case correspondant à votre cas:

e Apprenti sous contrat D e Exerçant un travail d'utilité collective (TIC, etc.) D 2

e Sous contrat d'adaptation ou de qualification D 3

e Stagiaire (principalement en entreprise: SIVP, etc.) ❑ 4

e Stagiaire (principalement dans un centre de formation: FPA, etc.) D 5

e Placé par une agence d'intérim D 6

e Sous contrat de travail à durée déterminée D 7

INAC 5

0 ÊTES-VOUS? e Élève. étudiant, stagiaire non rémunéré

e Chômeur (inscrit ou non é l'ANPE)

D 5

D 6

0 AVEZ-VOUS DÉJÀ TRAVAILLÉ?

OUI D 1 Civelle était votre profession principale ?

NON D 2

0 CHERCHEZ-VOUS UN EMPLOI? e Vous ne cherchez pas remploi D e Vous cherchez un emploi depuis:

o moins de 3 mois D 2

3 mois 3 moins de 1 an D 3 1 an a moins de 2 ans D 4 2 ans ou plus D

Cl..) PROFESSION EXERCÉE ACTUELLEMENT Soyez fris précis. Exemples: ouvrier électricien d'entretien, chauffeur de poids lourds, vendeur en électroménager, ingénieur chimiste, caissière de libre-service, etc

0 INDIQUEZ LA POSITION PROFESSIONNELLE DE VOTRE EMPLOI ACTUEL:

e Manœuvre ou ouvrier spécialisé (OS t, OS 2, OS 3, etc.)

e Ouvrier qualifié ou hautement qualifié (Pl, P2, P3, TA, 0Q, etc) D 2

e Agent de maîtrise dirigeant des ouvriers, maitrise administrative ou commerciale

e Agent de maitrise dirigeant des techniciens ou d'autres agents de maitrise

e Technicien, dessinateur, VRP (non cadre)

e Instituteur, assistant(e) social(e), infirmier(e) et personnel de catégorie 8 de la fonction publique.. D 6

e Ingénieur ou cadre (les employés. techniciens, agents de maîtrise n'ayant pas la qualité de cadre ne devront pas se classer ici, même s'ils cotisent d une comte de retraite des cadres) D 7

ANREC

0

D 3

D a

D 5

0 AIDEZ-VOUS UN MEMBRE DE VOTRE FAMILLE DANS SON TRAVAIL?

(Exploitation agricole ou artisanale, oui D commerce, profession libérale, elc) NON D 2

e Professeur et personnel de catégorie A de la fonction publique D 8

e Employé de bureau, employé de commerce. agent de service, aide Soignant(e), gardienne d'enfants, personnel de catégorie C ou 0 de la fonction publique D 9

e Autre cas. Précisez' D 0

224 Insee Méthodes n° 56-57-58

Page 228: actes des journées de méthodologie statistique

ol

o2

o3

u

— Cocher partie D si MOB ou si 1" enquête dans l'aire.

— Cocher partie B huis.... 0.5

111111

ANNEXE II ENQUÊTE SUR L'EMPLOI 1990

Mouvement de l'individu par rapport à l'enquête précé-dente (r, remplir directement par l'enquêteur à partir du code MOB de

la feuille de local)

Personne déjà enquêtée l'année précédente .. Personne non enquêtée l'année précédente

Quelle est l'occupation actuelle de M...?

Travaille 1. Exerce une profession, à son compte ou comme salarié, même à temps partiel.

Aide un membre de sa famille dans son travail même sans être rémunéré.

Est apprenti, stagiaire rémunéré, élève-fonctionnaire, intérimaire, TUC, etc.

• Y compris congés de maladie, de maternité. congés annuels, dispenses d'activité, congés de conversion. etc._

• Exclure les personnes au service national, en disponibilité, en pré-retraite, en invalidité.

— Cocher parties C2, C3, 5x013 E et F

— Cocher partie A puis 0.4

2 — Cocher partie B

3 4 5

6 7

8

Ne travaille pas (ou plus) actuellement

2. Chômeur (inscrit ou non à l'ANPE)

3. Étudiant, élève, en formation, en stage non rémunéré ...

4. Militaire du contingent 5. Retraité (ancien salarié) ou préretraité

6. Retiré des affaires (ancien agriculteur, ancien artisan, ancien commerçant...).

7. Femme au foyer 8. Autre inactif (y compris les personnes ne tou-

chant qu'une pension de reversion et les person-nes invalides)...

POUR CEUX QUI NE TRAVAILLENT PAS (OU PLUS) ACTUELLEMENT

La semaine dernière, du lundi au dimanche, M... a-t-il cependant travaillé ? Oui

Non

• Ne lût-ce qu'une heure, ne fût-ce qu'un travail occasionnel ou exceptionnel.

• Méme une activité non rémunérée en aidant un membre de sa famille dans son travail, par exemple.

o Les activités désintéressées ne sont pas prises en compte.

DEPUIS MARS DE L'ANNÉE DERNIÈRE M_ a-t-il exercé une activité professionnelle ? Oui

Non

. Exclure ici les activités purement occasionnelles. par exemple les jobs d'étudiant pendant les vacances.

rci SI NON. M... a-t-II déjà exercé une activité profession- nette même s'il y e longtemps ? . Oui

Non Exclure ici les activités purement occasionnelles, par ex emple les lobs d'étudiant pendant les vacances.

— Cocher partie A

— Cocher partie D puis w 0.4

04 M... cherche-t-il un emploi, une situation ? (ou un autre emploi, s'il en a déjà un) Oui

RECHE

Non

SI NON, M... souhaiterait-il cependant travailler ? ,ars objet les Peson,es déjà pourvues d'un emploi). Oui .....

Non . Sans objet

accu E

— Cocher partie B 1

2 3

225 Les écarts d'estimation de la population française

Page 229: actes des journées de méthodologie statistique

o9

D

D

Depuis combien de temps M... cherche-t-ii un emploi ou un autre emploi ?

Nombre de mois o SI M... cherche depuis moins d'un mois. Indiquer 00

a St M._ ne peut préciser le nombre de mois depuis lequel Il cherche un emploi, tenter de le classer dans la grille ci-dessous.

1. 1 mois à moins de 3 mois 2.3 mois à moins de 6 mois 3. 6 mois à moins de 1 an 4. 1 an à moins de 1 an et demi 5. 1 an et demi à moins de 2 ans 6. 2 ans à moins de 3 ans 7.3 ans et plus

Nature de l'emploi recherché.

M... cherche-t-11: 1. Un emploi salarié 2. Une situation à son compte 3. Indifféremment l'un ou l'autre

M... cherche-H1 un emploi : 1. A temps complet fi, l'exclusion du temps partiel)

2. A temps complet, mais à défaut accepterait à temps partiel 3. A temps partiel, mais à défaut accepterait à temps complet 4. A temps partiel (il‘ l'exclusion du temps complet)

M... cherche-t-il : 1. Un emploi permanent là l'exclusion d'un emploi à durée limitée)

2. Un emploi permanent, mais à défaut accepterait un emploi à durée limitée

3. Un emploi pour une durée limitée (à l'exclusion d'un emploi permanent)

4. Un emploi pour une durée limitée, mais à défaut accep- terait un emploi permanent

Profession (et qualification) cherchée : 1. Cherche une profession précise : indiquer laquelle... 2. Cherche plusieurs professions : indiquer la principale 3. Cherche dans une gamme large d'emplois : indiquer

des précisions éventuelles . 4. Cherche nImporte quoi : indiquer des précisions éventuelles

o8

DREC

n

I 1 I DREM

4

7 ORES

1 2 3

RE

1 2 3 4

MER

2

3

4 ROC

CHE

226 Insee Méthodes n° 56-57-58

Page 230: actes des journées de méthodologie statistique

LES OUTILS DE LA QU TÉ D'UNE ENQUÊTE

Conception de questionnaires et d'outils de saisie

F. Tsai

1. La qualité d'une enquête

La qualité d'une enquête peut être comparée à la qualité d'une chaîne de froid, toute rupture qualitative dans la chaîne détériore la qualité finale du produit. Il convient donc de prévoir les différentes phases, d'organiser leur enchaînement, de concevoir et surveiller chacune des phases de l'enquête sous l'angle qualité, pour l'optimiser lors de la conception, pour minimiser les dégradations lors des traitements. La qualité n'est pas le seul paramètre à prendre en compte lors de la préparation d'une enquête, il y a l'organisation, la formation des différents intervenants, mais la plupart des travaux participent de la recherche de qualité. Si, par exemple, l'accent est mis sur une organisation permettant l'obtention rapide des résultats, au-delà de l'aspect purement médiatique de la chose, il est clair que la qualité du produit "enquête" est, pour beaucoup, fonction de sa fraîcheur, car les chiffres se périment vite. Mais ce souci de rapidité peut impliquer certaines "impasses" au niveau de la qualité, la qualité a un coût, la rapidité aussi. Il faut trouver le bon compromis en fonction des objectifs visés.

D'après les statisticiens suédois, la qualité d'une enquête dépend de trois facteurs :

- la précision, fonction de la base de sondage (qualité, fraîcheur), fonction du sondage proprement dit, fonction du taux de réponse et de l'exactitude des réponses (sincérité, bonne volonté, compréhension des questions, accessibilité plus ou moins grande de l'information par recours à la mémoire ou à des documents), fonction de l'enquêteur (formation, compréhension des questions, compréhension et notation des réponses), fonction aussi de la qualité des traitements que l'on fait subir ou non à l'information collectée ;

- les délais entre observation et publication ;

- l'adéquation au problème posé (conformité à la demande et non pas conformité aux seules idées du statisticien).

Les outils de la qualité d'une enquête 227

Page 231: actes des journées de méthodologie statistique

Mon propos sera centré sur les enquêtes par sondage, auprès des ménages, qui sont réalisées auprès d'un échantillon représentatif de la population étudiée. Mais bien des considérations pourraient s'appliquer à des "recensements" exhaustifs, ou à des enquê-tes auprès d'entreprises ou d'autres entités ou bien encore à des enquêtes de type administratif ou à l'exploitation de documents issus de sources administratives.

J'ai distingué les phases suivantes dans le traitement d'une enquête :

- l'échantillonnage, puisque sondage il y a ;

- l'élaboration du questionnaire ;

- la collecte de l'information ;

- la saisie et ses différents modes ;

- les traitements manuels et l'assistance informatique ;

- les traitements informatiques.

Je développerai particulièrement tout ce qui implique une interaction entre le statisticien et l'appareil d'enquête, outils et acteurs de la collecte, de la saisie, de la codification, de la vérification et de la correction.

Je ne développerai pas les parties échantillonnage, et traitements informatiques qui sont hors de ce champ. Il convient simplement d'indiquer que la qualité générale d'une enquête commence avec la qualité de la base de sondage (qui doit être entretenue sous peine de mal vieillir) et la qualité du sondage qui doit être ajusté au plus près selon les informations recherchées dans l'enquête ; ajusté au plus près également pour minimiser les coûts de collecte.

Pour ce qui concerne les traitements informatiques ou "macro-traitements", ils inter-viennent normalement après les "micro-traitements" (la balance entre micro et macro traitements est à penser en termes de coûts, de délais, de complémentarité et de qualité globale de l'enquête).

Les traitements informatiques ont lieu dès livraison d'un fichier réputé "propre" par les Directions régionales ou par l'établissement centralisateur, donc après contrôles, apurements, codifications éventuelles. S'il y a encore des contrôles à ce stade, ils viseront plutôt à mesurer une qualité de l'enquête, donneront lieu le cas échéant à corrections automatiques mais se feront en principe sans retour aux dossiers. En principe seulement, car si, à ce stade, le statisticien trouve des anomalies qu'il ne peut expliquer, il y aura retour aux dossiers incriminés pour trouver l'explication ; soit explication correspondant à une réalité non prévue et qui permettra d'expliquer les

228 Insee Méthodes n° 56-57-58

Page 232: actes des journées de méthodologie statistique

tableaux, soit anomalie ou erreur réelle qui n'avait pas donné lieu à contrôle aux stades précédents et qui donnera lieu à correction adaptée à chaque dossier, ou à une correction automatique si cela est jugé préférable. On peut aussi, à ce stade, relever des erreurs systématiques de traitement, erreurs liées le plus souvent à une compréhension erronée de certaines consignes. Selon le taux d'erreur on pourra envisager une correction systématique et apurer manuellement les cas qui ne relèvent pas de ce traitement systématique, ou bien agir uniquement sur les seuls cas aberrants.

Une fois le fichier enfin "propre" au sens du statisticien, interviennent les " macrotrai-tements", les redressements, les procédures de remplacement des parties absentes ou aberrantes (Hot Deck par exemple, et là aussi il convient d'être prudent).

Et enfin, la production des tableaux tant attendus, pour analyse et publication.

Revenons au début de l'enquête, et donc aux phases élaboration du questionnaire, saisie, traitements manuels, contrôles et codification.

2. L'élaboration du questionnaire

La conception du questionnement est une étape vitale dans la recherche de qualité. Il semble évident qu'il faut poser les bonnes questions pour obtenir les bonnes réponses sur les sujets étudiés, mais ce n'est pas si simple.

Il faut d'abord que les entités interrogées comprennent les questions, que cela rentre dans leur domaine de compréhension, et que l'information demandée leur soit acces-sible.

Dans la plupart des "grandes" enquêtes on interroge une grande diversité de personnes, avec des situations professionnelles et personnelles, des niveaux d'études, des préoccupations, très différentes. Il faut savoir sortir du cadre de référence du statisticien pour que les questions soient compréhensibles par tous sans être hors de portée des uns et ridicules pour les autres.

Mais la liberté n'est pas totale, certaines questions ou enchaînements de questions doivent être relativement normalisés pour permettre si possible des comparaisons avec l'enquête précédente, avec d'autres enquêtes, avec des sources extérieures.

L'enchaînement des questions est délicat, il doit suivre une logique compréhensible par la personne interrogée, et avoir un lien logique avec le thème annoncé de l'enquête.

Les outils de la qualité d'une enquête 229

Page 233: actes des journées de méthodologie statistique

Cette logique doit aussi être accessible à l'enquêteur qui va piloter le questionnement et éviter qu'il ne s'égare dans un dédale de filtres, prenne de mauvais chemins et pose des questions inutiles tout en ne posant pas les questions utiles.

S'impose également un balisage clair et standardisé des filtres qui justifient que l'on saute telle et telle question sans objet dans le cas d'espèce.

S'il n'y avait que le questionnement, ce serait encore assez simple, mais il y a les réponses. Il faut prévoir toutes les réponses possibles et prévoir leur transcription ou mode de notation.

Cette complexité, et ce n'est pas fini, fait que doit intervenir une notion de "charte graphique et logique" pour les questionnaires, pour tous les questionnaires livrés au même réseau d'enquêteurs.

Il faut donc standardiser le graphisme des titres, des sous-titres, des questions et de la numérotation de ces entités. Standardiser les modalités de réponse (que par exemple le oui soit toujours I, le non toujours 2, le ne sait pas toujours 9, etc.) et les exclusions (les exclusions en italique par exemple), le graphisme et la logique des systèmes de notation des réponses (toujours cercler, ou toujours cocher les questions à choix multiple, toujours caler à droite ou toujours caler à gauche les quantités).

Standardiser le graphisme et la logique des renvois ou filtres qui dépendent des réponses faites, (toujours renvoyer sur des entités d'un niveau bien défini : question, chapitre, partie ...) et éviter autant que possible le jeu de piste des renvois soumis à des conditions complexes (si... et si..., sinon...), faisant référence à des réponses déjà lointaines et envoyant vers des destinations éloignées trop fines. Plus le filtre envoie loin, plus on doit viser gros (c'est-à-dire des parties importantes).

Le questionnaire est certes l'outil de questionnement, mais il doit aussi être un guide pour l'enquêteur.

Il faut donc prévoir un maximum d'indications pour éviter le recours à des documents annexes, cartes de codes, cahiers d'instructions, pas toujours faciles à mémoriser et peu manipulables lors de l' interview, ceci sans pour autant saturer l'enquêteur, donc aération du questionnaire. Aération qui, à quantité égale d'information contenue, diminue la densité, augmente la lisibilité, ce qui est positif, et l'épaisseur du questionnaire, ce qui est négatif, en le rendant plus pesant pour l'enquêteur et visuellement plus stressant pour l'enquêté. Il faut trouver le juste milieu.

Mais le questionnaire ne sert pas qu'à l'enquêteur, il va être vérifié, il faudra parfois visualiser les zones à vérifier en priorité, certains renseignements recueillis en clair devront être codifiés et ceci dans des zones réservées (zones "réservées" dans lesquelles

230 Insee Méthodes n° 56-57-58

Page 234: actes des journées de méthodologie statistique

l'enquêteur n'aura pas la tentation d'entrer - encore un graphisme particulier, bacs 'fermés" par exemple).

À moins d'opérer une transcription sur un document spécifique, opération coûteuse en temps et douteuse pour la qualité, car source d'erreurs de recopie, ce même question-naire va être saisi.

La "charte graphique et logique" doit être signifiante pour l'enquêteur et le "vérifica-teur" mais aussi pour la saisie. Il faut faire figurer sur le questionnaire les indications techniques liées à la logique de saisie (numéros de formats, compteur si format multiple, noms des variables, essayer d'indiquer par un graphisme particulier si tel filtre est programmé, si la machine va "sauter" ou si au contraire il faut saisir toutes les zones même vides, ceci servant de vérification).

Le questionnaire devient le document de référence, base de discussion lors de l'élaboration, puis base de travail pour toutes les parties prenantes, porteur de presque toutes les définitions de l'enquête. (sont "hors questionnaire", les instructions diverses écrites et orales à tous les intervenants, les cartes code éventuelles, les nomenclatures de chiffrement, les contrôles et traitements manuels et informatiques variés que l'on fait subir aux variables collectées, encore que la plupart des contrôles "mécaniques" -modalités, filtres - soit implicitement contenue dans le questionnaire).

Le problème se pose de manière presque identique pour la réalisation d'un question-naire "écran", c'est-à-dire d'un questionnaire qui sera collecté "en direct", soit lors d'une interview en face à face avec un ordinateur portable, ou par interview téléphoni-que avec questionnement "écran" et saisie directe des réponses (sur un ordinateur de bureau pour les agents qui réalisent ces interviews aux heures de bureau, ou sur un portable pour les enquêteurs chargés de réaliser les interviews, depuis leur domicile aux heures non ouvrables).

Dans ce cas, le nombre d'intervenants est diminué puisque la saisie est intégrée dans la collecte ainsi qu'une bonne part du travail de vérification manuelle et de contrôle informatique. Le questionnaire "écran" n'est plus un outil destiné au travail de plusieurs acteurs, mais destiné au seul "enquêteur-saisisseur-contrôleur".

Une charte graphique s'impose néanmoins avec force pour bien différencier ce qui est question et doit être lu, ce qui est modalité à lire pour faciliter la réponse, ou modalité à ne pas lire pour coder la réponse spontanée, ce qui est consigne ou explicitation destinée au seul enquêteur, etc.

Dans le cas du questionnaire "écran" intervient de surcroît une notion d'ergonomie fonctionnelle.

Les outils de la qualité d'une enquête 231

Page 235: actes des journées de méthodologie statistique

Même si la charte graphique et logique du questionnaire "papier" participe d'une certaine ergonomie de cet outil, il s'agit malgré tout d'un outil "passif'.

Le questionnaire "écran", lui, est "interactif', et l'ergonomie visuelle et logique est particulièrement importante. En l'état actuel, un écran est moins "lisible" qu'un document papier, et ceci milite d'autant plus fortement pour une ergonomie soignée qui permet de s'y retrouver.

Tout d'abord trouver le bon compromis entre aération et permanence de l'affichage, entre aération et défilement incessant des pages.

S'il est agréable d'avoir des écrans peu denses, il est néanmoins utile de garder sous les yeux les réponses aux questions précédentes si elles constituent un ensemble, et que ces réponses soient repérées par un nom de variable évoquant la question.

Cela semble un détail, mais il faut que, au fur et à mesure du défilement des "pages", les questions à lire à l'enquêté se situent toujours au même endroit de l'écran, avec, si possible, un certain type d'affichage ou de couleur, de même pour les modalités de réponse et les explicitations réservées à l'enquêteur, de même pour le système de notation des réponses. Les écrans qui "dansent" provoquent fatigue visuelle et erreurs.

A l'exception des noms de variables, tout ce qui concernait le graphisme lié à la logique et aux attributs de saisie disparaît. Par contre la logique de saisie, enchaînements, filtres et contrôles, bien qu'invisible, est "intégrée" dans le programme qui, en coulisses, fait "fonctionner" le questionnaire. Nous y reviendrons au chapitre "saisie directe".

Si le questionnaire écran contient toutes les informations voulues, il est par contre plus difficilement "le document de référence", base de discussion multi-partites pour la mise au point, ceci malgré les possibilités éventuelles de listage papier, car il ne suffit plus de lire et relire, il faut vérifier toutes les fonctions automatiques. Il ne s'agit plus de maquettage au sens traditionnel, mais de "programmation", et donc d'un produit moins "lisible" par le non informaticien pour ce qui concerne les moteurs de l'interactivité, et plus difficile à vérifier, car il faut vérifier par de multiples essais, tous les chemins possibles, toutes les logiques possibles.

La suppression de la phase "impression" permet de gagner deux bons mois et permet aussi des retouches de dernière minute (encore qu'il convienne de se méfier de ces retouches qui interviennent après les vérifications de fond).

Par contre, la préparation du questionnaire écran est un tout, plus complexe, puisque intégrant davantage de fonctions auparavant destinées à différents acteurs intervenant successivement, et dont on pouvait étaler la préparation dans le temps. La pièce est en un acte et on a donc moins le droit à l'erreur.

232 Insee Méthodes n° 56-57-58

Page 236: actes des journées de méthodologie statistique

Le problème se pose différemment pour les questionnaires auto-administrés, soit remis, soit envoyés aux enquêtés. Cas fréquent des "carnets" à renseigner sur une période de temps pour les enquêtes ménages, cas fréquent des questionnaires envoyés aux entre-prises. La charte graphique et logique doit ici être simplifiée au maximum pour être clairement lisible et donner une apparence de facilité au remplissage du document. Il doit y avoir donc, juste ce qu'il faut de consignes, des exemples, le minimum indispen-sable de surcharges "techniques" destinées au vérificateur-chiffreur et à l'opérateur de saisie qui auront à intervenir ensuite.

Bien évidemment, tous ces "questionnaires", papier, écran, auto-administrés, font l' objet d'un ou plusieurs tests auprès de mini échantillons, pour vérifier leur tenue face aux enquêtés, difficultés de compréhension, information difficile à retrouver, réticen-ces à aborder tel ou tel sujet ou à tenir tel carnet de compte, leur passation par les enquêteurs, complexité trop grande, temps d'enquête trop long, etc.

Les tests amènent parfois à des bouleversements profonds dans la structure du ques-tionnement, dans la rédaction des questions, dans le nombre de questions posées, mais donnent toujours lieu à des mises au point utiles. Les questionnaires-tests ainsi recueillis sont parfois utilisés pour tester la suite des traitements, du moins lorsqu'ils sont à un stade d'élaboration proche du stade final.

3. La collecte de l'information

En dehors de quelques enquêtes simples réalisées par téléphone et en dehors des enquêtes réalisées par voie postale - auprès des entreprises le plus souvent, les enquêtes "complexes" auprès des ménages sont réalisées par des enquêteurs pigistes et réparties dans les différentes Directions régionales.

Il s'agit d'abord d'assurer un bon "rendement" de l'enquête en évitant les refus. Refus qui, trop nombreux, risqueraient de biaiser les résultats en empêchant des redressements corrects. Il est clair que si l'on utilise des enquêteurs, solution relativement onéreuse, pour réaliser ces enquêtes, c'est qu'ils ont un meilleur "rendement" qu'une enquête par voie postale ou par téléphone (il est en effet difficile de contraindre des ménages à répondre, même si l'enquête est obligatoire ; la conviction est sans doute un meilleur garant de qualité et de sincérité dans les réponses que la contrainte).

L'emploi d'enquêteurs est aussi justifié par le caractère souvent très complexe des enquêtes, complexité moindre qu'il n'y paraît car tout le monde ne répond pas à toutes les questions, mais les questionnaires dans leur globalité sont souvent assez impres-sionnants, et un enquêteur "interface" est indispensable pour les administrer.

Les outils de la qualité d'une enquête 233

Page 237: actes des journées de méthodologie statistique

Ces enquêteurs sont formés. Formés d'abord à représenter l'organisme enquêteur, par une explication des missions générales de cet organisme, formés ensuite à une certaine déontologie, vis-à-vis des enquêtés (conviction et non menace), vis-à-vis des enquêtes en général (secret professionnel, principe du sondage aléatoire, souci de qualité), vis-à-vis de l'enquête en cours (utilisations, compréhension des questions et des réponses, compréhension des enchaînements, consignes particulières).

Les enquêteurs (terrain ou téléphone) sont (à l'INSEE) annoncés par une "lettre-avis" qui a pour but de prévenir le ménage, d'officialiser l'enquête, d'expliciter pourquoi cette enquête est réalisée, mais qui vise surtout à faire la différence entre l'enquêteur et un quelconque démarcheur.

Sont parfois joints, ou remis par l'enquêteur, quelques résultats tirés de l'enquête précédente, ce qui est très "motivant" et apprécié par les enquêtés, qui perçoivent mieux ainsi, l'utilité de leur participation.

4. La saisie

La saisie est un transfert d'information d'un support à un autre, transfert avec changement de forme (de la réponse transcrite sur papier au support magnétique, de la réponse orale directement au support magnétique).

Ce transfert constitue une rupture de charge dans la chaîne de traitement.

Ce transfert implique une intervention humaine, et donc, des risques d'erreur.

De quels genres de transferts peut-il s'agir ?

J'évoquerai à peine certains types de saisie peu utilisés pour les enquêtes statistiques.

La saisie des codes-barres par exemple, utilisée à l'INSEE pour lire avec un crayon optique le code SIREN des entreprises et établissements répondants (le code-barre ayant été imprimé sur le questionnaire envoyé). Ceci est fiable et évite les erreurs de saisie.

La lecture optique est également utilisée parfois. Soit lecture de cases cochées par la personne interrogée (procédé déjà ancien mais ne concernant que des documents très réduits), soit reconnaissance de caractères. Je ne sais pas si ceci est utilisé dans certaines enquêtes, en tout cas pas à l'INSEE, à ma connaissance, mais il est probable que, les progrès de la scannérisation ajoutés aux progrès logiciels en matière de reconnaissance optique des caractères (dactylographiés pour l'instant, manuscrits en balbutiements),

234 Insee Méthodes n° 56-57-58

Page 238: actes des journées de méthodologie statistique

permettront sous peu la "scannérisation-compréhension" de libellés, ceci sans saisie manuelle.

Revenons au présent.

Une saisie de qualité, est une saisie qui ne perd, ni ne crée, ni ne modifie l'information d'origine (si ce n'est dans sa forme).

La qualité de la saisie dépend éminemment du mode de transfert et des sécurités qui accompagnent ce transfert.

J'évoquerai :

La saisie de masse, la saisie assistée et la saisie directe

- Chaque type de saisie correspond à un certain "style"

- Les acteurs sont différents ;

- Les rôles sont différents ;

- Les actions automatiques de l'outil de saisie sont différentes ;

- L'organisation de la chaîne de traitement est différente.

4.1 La saisie de masse

La saisie dite "de masse" correspond à la saisie par des "opérateurs ou opératrices de saisie" de documents renseignés. Par "document" il faut entendre questionnaires ou formulaires imprimés sur lesquels certaines zones prédéfinies ont été renseignées ou cochées ou entourées par le répondant ou par un enquêteur. Ceci se pratique par frappe sur un clavier de terminal iniormatique - généralement relié à un système spécifique-ou sur un micro-ordinateur autonome ou relié par un réseau local à un serveur.

La saisie dite "de masse" correspond à un certain "style" de saisie. L'opérateur ou l'opératrice lit le document, ou plus exactement les renseignements portés dans les zones à saisir et saisit, avec une grande dextérité, en ne regardant l'écran que périodi-quement pour vérifier s'il en est bien là ou il croit être, ou lorsque son attention est attirée par un signal sonore d'anomalie

Les outils de la qualité d'une enquête 235

Page 239: actes des journées de méthodologie statistique

La saisie de masse souffre d'un handicap majeur, son manque de sécurité. Malgré le professionnalisme des opérateurs et leur faible taux d'erreurs de frappe, il convient d'éviter que des erreurs de frappe (et les touches sont terriblement voisines les unes des autres), ou des erreurs de lecture (et c'est souvent très mal écrit, lorsque ce sont les répondants qui ont renseigné le document) ne détériorent la qualité de l'information saisie. On a donc recours à différents procédés pour éviter ou éliminer, autant que faire se peut, les erreurs de saisie.

Premier procédé, coûteux mais efficace, qui requiert un logiciel adapté, la double saisie ou saisie-vérif. Un deuxième opérateur ressaisit le document et le système signale toute différence par un bip sonore. Ce deuxième opérateur doit alors juger si la divergence a pour origine une erreur lors de la saisie initiale ; il maintient alors sa frappe, ou une erreur lors de sa propre saisie ; dans ce cas, il doit se corriger. Au total aucune divergence ne doit subsister entre première et deuxième saisie.

Ce procédé est souvent mis en oeuvre au début de la saisie d'une enquête, des statistiques d'erreurs sont produites, avec indication des zones les plus touchées, et l'attention des opérateurs est attirée sur ces zones.

Lorsque, après rodage, le taux d'erreur est descendu suffisamment bas, le taux étant apprécié selon le caractère sensible ou non des variables, la double saisie peut être abandonnée. Elle peut aussi ne jamais être abandonnée lorsque les critères de qualité l' exigent.

On peut aussi prévoir une double saisie systématique mais réduite à certaines zones sensibles.

Pourquoi ne pas faire de contrôles pour éviter les erreurs, du moins pour les zones stratégiques ?

C'est possible, et il y en a, de type "mécaniques" (modalités des codes, fourchettes de valeurs admises, cohérence entre questions filtrantes et questions filtrées).

Mais si l'on prévoit que Sexe = 3 déclenche un message d'erreur en saisie, l'opérateur corrigera sa frappe si l'erreur lui est imputable, par contre il n'est pas habilité à interpréter le document s'il y est réellement noté Sexe = 3. Il devra donc "forcer" cette réponse erronée.

L'erreur devra être détectée ultérieurement par un programme de contrôle, listée et traitée par un gestionnaire qui tentera de déterminer si, d'après le prénom, Sexe = 1 ou 2. Si ceci s'avère impossible pour les Claude ou les Dominique, on laissera Sexe = 3 et ceci sera redressé ultérieurement par des procédés automatiques tel le Hot-Deck.

236 Insee Méthodes n° 56-57-58

Page 240: actes des journées de méthodologie statistique

Ces procédures automatiques sont à utiliser avec précaution, (on a découvert ainsi dans une enquête sur la santé, des Sexe = 2 (femmes) souffrant de la prostate ou des Sexe = 1 (hommes) enceintes...).

Pour la cohérence entre questions filtrantes et questions filtrées, la difficulté est la même ; il n'appartient pas à l'opérateur, au cas ou l'erreur ne serait pas de son fait, de déterminer si l'erreur se situe au niveau des questions filtrantes ou au niveau du chemin suivi par le répondant ou l'enquêteur. En tout état de cause la saisie de l'incohérence peut être utile pour juger de la qualité de la collecte.

Pour ce qui concerne la saisie de quantités par exemple, on peut prévoir un traitement manuel préalable qui consiste à indiquer le nombre de chiffres significatifs et donc permettre ainsi un contrôle, mais 92 765 au lieu de 29 765 ne sera pas détecté en saisie unique, sauf s'il existe un total qui permette une vérification.

S'il existe un moyen de détecter l'erreur par une cohérence, ce contrôle et sa correction seront reportés à une phase ultérieure. Tout contrôle en saisie qui détecte une erreur ou une anomalie qui peut être le fait soit d'une erreur de frappe soit d'une erreur de notation devra pouvoir être "forcé".

Compte tenu du "style" de la saisie de masse, et du rôle traditionnellement dévolu à l'opérateur, rôle tourné davantage vers la quantité et la rapidité de saisie que vers l'analyse des documents, et même si cela est techniquement possible, on évite de programmer des contrôles tels que l'opérateur face à une anomalie détectée ne sache quelle décision prendre. Il y a, là aussi, un compromis à trouver entre contrôles utiles à la qualité de saisie, pour éventuellement éviter une double saisie, et contrôles ralentisseurs, car ne pouvant généralement pas être corrigés par l'opérateur. Ce com-promis est fonction de la nature et de la qualité de remplissage des documents à saisir. Plus le document est renseigné de manière fiable, plus on pourra implanter de contrôles en saisie, puisque les erreurs détectées ne devraient pas provenir du document. Tel est le cas des enquêtes auprès des ménages collectées par des enquêteurs qui veillent à une bonne qualité et une bonne logique de remplissage puis vérifiées en bureau. Tel n'est pas le cas de documents de type administratif ou de documents renseignés directement par les répondants.

Une autre terreur de la saisie de masse est "le décalage", terreur car une longue séquence peut ainsi être complètement pervertie, pour un simple caractère en trop ou en moins.

Le décalage se produit lorsque de longues séries de chiffres sont à saisir (5467895428546, qui peut devenir 546895428546, cas des identifiants), ou lorsque il y a plusieurs chiffres identiques (25000 peut devenir 2500 ou 250000, cas des quanti-tés), ou bien encore lorsqu'il y a une alternance de chiffres analogues (1, 1, 2, 1, 1, 1, 2, 2, 1, 2, 1, 1 ... cas d'une succession de réponses par des oui, non).

Les outils de la qualité d'une enquête 237

Page 241: actes des journées de méthodologie statistique

Quelle que soit la cause, il faut se donner les moyens d'arrêter les décalages, et de les arrêter vite, pour éviter une reprise trop importante.

Soit on trouve, de-ci, de-là des solutions "naturelles" pour détecter les décalages : clé pour l'identifiant, succession logique de valeurs, variable ou code à modalités particu-lières, soit on repère dès la conception du questionnaire les zones dangereuses et on implante artificiellement des variables anti-dérapage. Les cases de contrôle du nombre de chiffres significatifs des quantités en sont un bon exemple. On peut enfin prévoir la saisie d'un caractère particulier " * " par exemple, ou exiger une frappe de type "entrée" à chaque fin de format.

Un autre proeédé a été mis en oeuvre, la vérification de la saisie par sondage (SVS).

Le principe était le suivant : saisie initiale complète. Reprise en double saisie de certains lots tests tirés aléatoirement par programme. Statistiques de divergences établies pour ces lots entre l re et 2e saisie.

Selon les taux de divergences constatés, soit l'ensemble des lots était réputé "bon", soit l'ensemble des lots était réputé "mauvais" et il fallait alors faire la double saisie de tous les lots, à l'exception des lots tests, déjà ressaisis.

Ceci induisait une gestion des lots assez compliquée qui a progressivement conduit à l'abandon de ce procédé.

Par contre, une vérification par sondage de la saisie lors des phases "population légale" et Colibri a été fort bien acceptée et a donné d'excellents résultats. Mais la gestion en était centralisée ; ceci explique peut être cela.

La saisie de masse traditionnelle est en train d'évoluer vers des saisies plus sophisti-quées, plus lentes mais plus analytiques, plus intégrées, donc au total plus performantes, pour se rapprocher du rôle du vérificateur manuel ou "gestionnaire d'enquêtes" qui de son côté évolue vers la saisie par l'utilisation interactive de l'outil informatique. Nous verrons ceci au chapitre saisie assistée

À terme, ces deux "métiers" devraient fusionner.

Ceci ne va pas sans poser de problèmes de tous ordres : statutaires d'abord, les opérateurs de saisie ont un statut particulier avec primes particulières et horaires aménagés, pauses ergonomiques. Lorsque les uns sont amenés à faire le même travail que les autres, ces statuts différents peuvent provoquer frictions et revendications.

Autre problème : celui des qualifications ; en l'état actuel, les opérateurs de saisie sont réputés non qualifiés pour "comprendre" les dossiers. Un programme de formation et de requalification est en cours.

238 Insee Méthodes n° 56-57-58

Page 242: actes des journées de méthodologie statistique

Dernier problème : celui des chasses gardées ; l'introduction de l'informatique dans presque tous les domaines a permis, d'une part la suppression de tâches fastidieuses et d'autre part des gains de productivité importants, chacun veille donc jalousement sur son travail, surtout si celui-ci a, précisement, été valorisé par l'outil informatique, et il est difficile de reprendre des travaux déjà "en main".

4.2 La saisie assistée

Autant la saisie de masse est une saisie peu assistée (les opérateurs ne regardent pas l'écran), et peu contrôlée puisqu'il ne sert à rien de détecter des erreurs que l'opérateur ne sera généralement pas en mesure de corriger, n' ayant pas une connaissance suffisante de l'enquête en général et du dossier particulier, autant la saisie assistée a pour mission première d'utiliser pleinement les possibilités de l'outil informatique pour réaliser une saisie-analyse contrôlée et assistée des dossiers.

Le "style" est ici très différent. Autant le questionnaire tente d'intégrer les contraintes de différents acteurs, autant ce style de saisie tente d'intégrer les fonctions des opérateurs de saisie, et du gestionnaire d'enquête. Le "gestionnaire d'enquête" est réputé avoir une bonne compréhension de l'enquête en général et du dossier qu'il traite en particulier, il a pour mission première d'analyser le document, de le vérifier, de le compléter, de le corriger.

Pourquoi ne pas le faire assister par l'ordinateur dans son travail ?

Il est déjà assisté par la fourniture de listings d'anomalies, qu'il doit corriger, et dont les corrections sont répercutées sur le fichier magnétique dans une phase d'apurement. Les phrases sont cependant dissociées.

Mais on peut pousser davantage l' intégration des tâches en intégrant les phases de saisie, d'analyse, de contrôle, de correction, d'aide à la codification.

La saisie par un "gestionnaire d'enquête", si elle est moins performante en terme de caractères frappés par seconde, si elle est moins fiable au niveau de la frappe, permet par contre une assistance et des contrôles interactifs beaucoup plus poussés et donc une plus grande intégration du travail de traitement du dossier et de son contrôle. On perd en vitesse pure, mais on gagne en délai global de traitement en évitant le découpage du travail en phases distinctes, avec les ruptures de charge induites, en évitant les itérations entre les phases. En évitant aussi, ce qui n'est pas négligeable, la mise au point des différentes phases d'une chaîne dissociée, la formation et le rôdage des différents acteurs, en évitant les redites aux uns et aux autres, en évitant les "couacs" liés aux incompréhensions et aux redites mal reprises d'une phase à l'autre.

Les outils de la qualité d'une enquête 239

Page 243: actes des journées de méthodologie statistique

On a donc des gains en délais de préparation, des gains en délais de réalisation, des gains en qualité en évitant les pertes en ligne.

Sur quoi peut porter cette intégration ?

Il peut s'agir de consignes purement visuelles, délivrées au fur et à mesure de la saisie, consignes destinées à attirer l'attention sur telle ou telle difficulté, et à vérifier s'il y a conformité du document à ces consignes.

Ceci est en fait peu utilisé puisque le conseil de vérification peut et est en général traduit par un contrôle programmé.

Dans le mode saisie assistée et contrôlée, on peut avoir une densité de contrôles importante : contrôles de structure, de modalités et de cohérence. Il convient à ce stade de bien faire la différence entre erreur et anomalie. Une erreur correspond à un cas réputé impossible, faute d'inscription ou de transcription qu'il convient de corriger, si possible ; il y a donc des contrôles qui détecteront des erreurs. Une anomalie corres-pond à un cas peu probable (en général lié à une cohérence), mais admis comme possible. Le contrôle d'anomalie vise à s'assurer qu'il n'y a pas eu erreur de transcrip-tion ; s'il y a conformité au document d'origine, l'anomalie sera confirmée. Il convient de bien différencier pour le gestionnaire les erreurs (à corriger), des anomalies (à examiner, et corriger ou confirmer le cas échéant), idéal est que le message comporte l'indication : Erreur : , Anomalie :

Il arrive parfois que, après étude des questionnaires, ce qui était réputé "erreur" s'avère correspondre à une réalité que l'on n'avait pas prévue a priori.

Le gestionnaire signalera ces cas et le statut du message devra être modifié en message d'anomalie.

Le gestionnaire doit être formé au traitement des messages issus de ces contrôles pour respecter l'information d'origine et ne pas opérer une mise aux normes à tout prix. Problème de déontologie, certes, mais la déontologie n'est pas innée, elle doit être inculquée et elle doit être surveillée.

Il ne faut modifier qu'à coup sûr, pour corriger une erreur d'inscription manifeste. Ainsi s'il y a incohérence entre la réponse à une question filtrante et la suite on peut penser à une erreur (par exemple : Êtes vous locataire ou propriétaire ? Réponse notée : locataire ; la suite des questions renseignées correspond pourtant à la partie Proprié-taire, remboursements d'emprunts, nombre de prêts, année d'acquisition, durée des remboursements, etc, tandis que la partie Locataire n'est pas renseignée, on peut raisonnablement penser que le filtre est erroné et le corriger). Autre cas : on annonce quatre individus dans le ménage et on en trouve cinq renseignés, on peut raisonnable-ment penser que le quatre était erroné. Si par contre on en annonce cinq et que l'on n'en

240 Insee Méthodes n° 56-57-58

Page 244: actes des journées de méthodologie statistique

trouve que quatre renseignés, il se peut que le cinq soit faux mais il se peut aussi que la description d'un individu ait été oubliée. Dans ce cas il convient d'abord de

- rechercher dans le document si d'autres données corroborent plutôt le cinq ou plutôt le quatre. Enfin, faute d'autre solution on peut tenter de revenir à la source - enquêteur ou ménage - ce qui implique une réaction rapide par rapport à la collecte (deux ou trois jours, au-delà l'enquêteur a vu trop d'autres ménages pour se souvenir, et le ménage risque d'être réticent face à cette "contre-enquête").

À défaut, on laissera subsister l'incohérence qui sera signifiante quant à la qualité de collecte.

Il est important de quantifier erreurs et anomalies pour mesurer la qualité de collecte et la qualité de saisie, ceci pour chaque contrôle. Ceci implique que les corrections soient, elles aussi, analysées pour déterminer quelle est la part de responsabilité des différents acteurs dans les erreurs et anomalies : enquêté, enquêteur, opérateur de saisie. La mise en oeuvre de ces analyses est malaisée mais souvent pratiquée lorsque le traitement est centralisé.

Par ailleurs, un contrôle qui ne ramène rien dans ses filets est soit inutile, soit mal programmé. Un contrôle qui ramène beaucoup dans ses filets a été soit mal programmé, soit révèle un défaut dans la conception de la question et de ses modalités de réponse. Le statisticien devra en être prévenu.

Autre type d'assistance : l'aide à la codification. Un ordinateur est très efficace pour enchaîner et afficher les pages d'une nomenclature (en arbre ou non) et réaliser le chiffrement (contrôlé pas à pas) par niveaux successifs, plus efficace que le recours au fascicule, souvent long à parcourir, et plus sûr car il évite le recours à la mémoire, plus rapide après une phase d'apprentissage, mais source d'erreurs, mémoire à laquelle on fera d'autant plus appel que le fascicule est épais et donc consommateur de temps de recherche.

Autre assistance possible : la codification automatique, soit "en ligne" soit "en différé".

L'utilisation de telles procédures de codification automatique ne s'improvise pas et implique une préparation de la base qui sera utilisée pour la reconnaissance des libellés et l'attribution du code. Ceci requiert des experts de la nomenclature considérée. Cette expertise est plus facile à acquérir et à mobiliser en centralisé.

À partir de la saisie d'un libellé en clair "carottes" l'ordinateur cherche et annonce un code, ou propose de choisir entre plusieurs codes possibles (sans doute faut-il retoucher la base pour éviter ces incertitudes), ou cherche et ne trouve pas, il faut alors envisager une codification manuelle, et "apprendre" ce nouveau cas au système, si la personne est qualifiée pour ce faire.

Les outils de la qualité d'une enquête 241

Page 245: actes des journées de méthodologie statistique

Autre difficulté, l'orthographe, soit du répondant, soit de l'enquêteur, soit du gestion-naire, soit de l'opérateur de saisie (car le problème se pose aussi en saisie de masse). Faut-il respecter ce que dit ou écrit le répondant, ou le traduire dans une forme qui semble correcte ?

Les variantes ne posent pas de difficulté technique. Le code (pour "carrote") devra simplement être "appris" par l' ordinateur en tant que nouveau produit et on lui indiquera le même code que pour le libellé correct ("carottes")

Ce qui pose problème est l'interprétation faite par les individus selon leur propre compréhension, et qui peut aboutir à des choses très différentes. On tombe ici dans un classique des stages de communication : il y a ce que l'individu a voulu dire, ce qu'il a dit, ce que l'autre a compris, et ceci à chaque stade.

Pour ce qui concerne la saisie des libellés, il faut donc établir une ligne de conduite : soit respect de ce qui est noté, respect coûteux car il faut veiller à la conformité de ce que l'on tape avec l'original, soit bien fixer les degrés de liberté pour "arranger", avec les risques d'interprétation que cela comporte, avec le bénéfice cependant de diminuer les variantes ; l'expérience montre que la conformité est préférable à la remise en forme qui peut aboutir à trop normaliser des cas apparemment absurdes, absurdes parce que non connus ou mal compris par l'intervenant.

Si le taux de réussite de la codification automatique atteint par exemple 80 %, on peut estimer que l'opération est rentable, puisque qu'il ne reste plus à assurer la codification manuelle que de 20 % des libellés.

Mais elle implique la saisie de 100 ero des libellés, saisie plus longue que la saisie d'un code.

Les libellés non reconnus, les "rejets", devront être codés manuellement, et "appris" au système, si leur occurrence le justifie, par un expert. Il convient donc de peser l'intérêt quantitatif et qualitatif de la mise en oeuvre de telles procédures.

Un intérêt annexe est que l'on disposera ainsi d'un catalogue de libellés ; on pourra mieux savoir ce qui "entre" dans tel ou tel code, avec quelle fréquence, quelle pondération, et donc permettre d'affiner la nomenclature, en isolant par exemple tels ou tels libellés dont on avait sous estimé l'importance ou la fréquence parce que "noyés" au sein d'une rubrique, ou en supprimant tel ou tel libellé qui n'est plus jamais rencontré. L'intérêt "marketing" d'un tel catalogue peut aussi entrer en jeu pour décider de pratiquer la saisie des libellés suivie d'une codification automatique, plutôt qu'à une codification manuelle.

242 Insee Méthodes n° 56-57-58

Page 246: actes des journées de méthodologie statistique

4.3 La saisie directe

La saisie directe par un enquêteur des réponses faites par l'enquêté, sans passer par l'intermédiaire du papier, permet de passer en une seule étape des réponses fournies par l'interviewé à un fichier magnétique "relativement" contrôlé.

Ce mode de saisie se rapproche, par sa technologie, de la saisie assistée et contrôlée du "gestionnaire d'enquête", avec un souci d'intégration plus poussé encore en terme d'intervenants, mais moins poussé en termes de contrôles et d'assistance. Donc un "style" très différent de la saisie assistée.

En effet, si pour le "gestionnaire" on peut pousser l'assistance assez loin, il faut par contre bien mesurer ce que l'on peut, et ce que l'on ne peut pas demander à un enquêteur qui opère "en direct", en situation parfois précaire vis-à-vis de l'enquêté, qu'il s'agisse d'une interview en face à face ou d'une interview téléphonique. À la différence du "style" saisie assistée, l'enquêteur ne peut "perdre le contact" avec l'enquêté en étant par trop absorbé par sa machine, comme le conducteur ne peut perdre le contact avec la route en étant trop occupé par ce que lui indique son tableau de bord.

Tout d'abord, nous l'avons évoqué lorsque nous avons traité des questionnaires "écran", le direct impose une ergonomie particulière, une ergonomie "simple" mais rigoureuse, des règles, peu de règles, pas d'exceptions aux règles.

La machine doit lui simplifier la tâche, et non la lui compliquer.

La logique de la saisie directe est, nous l'avons vu plus haut, "invisible". Elle peut théoriquement, à la différence du questionnaire papier, et comme la saisie assistée, devenir très complexe puisque l'enquêteur n'a plus à la gérer. Il faut néanmoins qu'il s'y retrouve et la comprenne.

S'il se retrouve dans un mauvais chemin dû à une erreur de frappe pour une question filtre, il faut d'abord qu'il s'en aperçoive, et qu'il s'en aperçoive rapidement.

Il est probable que les questions de ce "mauvais chemin" n'auront pas de sens si elles avaient lieu d'être "sautées", encore faut-il que l'enquêteur sache revenir, et revenir vite, car cela se passe "en direct", à l'erreur qui a provoqué ce déroutement, pour la corriger et retrouver ainsi la bonne voie.

La ou les questions filtres ne peuvent donc être trop lointaines (en arrière), ni trop nombreuses (pour limiter ses choix de marche arrière), ni trop complexes (ici aussi éviter les si... et si..., sinon...).

Cette difficulté milite pour une complexité "compréhensible".

Les outils de la qualité d'une enquête 243

Page 247: actes des journées de méthodologie statistique

Bien évidemment une explicitation des chemins pris par des messages permet à l'enquêteur de mieux comprendre pourquoi, c'est à dire en fonction de quelles réponses il suit tel chemin. Mais ceci "charge" l'écran et complique la programmation

La saisie directe permet, et c'est un de ses grands avantages, des contrôles "en direct" qui permettent de vérifier et corriger éventuellement des erreurs de frappe, de compré-hension de la question ou de la réponse.

Contrôle égale message, et message compréhensible, par l'enquêteur, mais aussi par l'enquêté auquel l'enquêteur devra lire ou traduire le message. Ceci limite donc la complexité possible des contrôles, vis à vis de l'enquêté mais aussi vis à vis de l'enquêteur, car si correction il doit y avoir, il faut que les variables incriminées soient facilement repérables et donc peu nombreuses, faciles d'accès donc peu lointaines (donc, ici aussi, éviter les si... et si..., sinon....).

Enfin le nombre de contrôles ne doit pas être trop élevé, sous peine de transformer l'enquête en interrogatoire contradictoire qui provoquerait un rejet de la part de l'enquêté. Les possibilités théoriquement étendues du "direct" ont donc leurs limites pratiques.

Ces limites font que l'on se bornera à tirer tout le parti possible du "direct", c'est à dire "soulager" l'enquêteur de tout ce qui est "fonctionnement" du questionnement et traiter tout ce qui, en cas d'erreur ou d'anomalie, pour être correctement traité, impliquerait un retour à l'enquêté. Par contre sera reporté sur une phase ultérieure, manuelle ou automatique tout ce qui peut, sans trop de dommage, être traité de manière différée.

Outre les avantages liés à la sécurité accrue (mais pas absolue) apportée par l'enchaî-nement automatique des questions et la vérification directe auprès de l'enquêté de certaines anomalies non récupérables après coup, la saisie directe offre l'énorme avantage de mettre à disposition des fichiers saisis, directement issus de la phase de collecte, et donc de raccourcir considérablement les délais entre collecte et exploitation, si tant est que l'on n'opère pas ensuite des contrôles et corrections manuelles nombreuses.

L'essentiel étant assuré lors de la saisie, on limitera les micro-traitements (manuels) pour préférer des macro-traitements (automatiques).

5. Les traitements manuels et l'assistance informatique

Avant ou après la saisie "de masse", après la saisie directe, peuvent intervenir différents traitements manuels. Lourds avant et/ou après la saisie de masse, légers ou inexistants après la saisie directe.

244 Insee Méthodes n° 56-57-58

Page 248: actes des journées de méthodologie statistique

Les traitements manuels, encore très pratiqués, correspondent à une conception déjà ancienne du mode de traitement des enquêtes, mais les prestations demandées et leur insertion dans la chaîne de traitement des enquêtes tendent à évoluer.

Autrefois, jusqu'au début des années 80, il y avait obligatoirement traitements manuels avant saisie, pour retranscrire et aménager l'information dans une forme lisible et logique acceptable par la saisie (les bordereaux de chiffrement), pour apporter les compléments nécessaires (compteurs, totaux, cases de contrôle des quantités, codes)

La recopie a disparu avec l'apparition des questionnaires intégrés et pensés en fonction de la saisie.

Il convient de distinguer deux filières pour le traitement des enquêtes :

- la filière décentralisée pure ;

- la filière mixte (décentralisée puis centralisée) ;

La filière décentralisée pure :

Dans cette filière, la saisie et les traitements manuels sont tous prévus dans les DR de collecte.

Les traitements manuels peuvent être décomposés en deux temps : avant et après saisie.

Les traitements manuels avant saisie sont de plus en plus allégés et ne portent en principe que sur la codification d'une ou deux variables (PCS des individus par exemple). Les vérifications manuelles destinées à faire un retour rapide aux enquêteurs ou enquêtés n'interviennent que si la saisie n'est pas prête ou pas disponible en temps voulu, pour permettre un listage programmé de ces anomalies.

Il peut y avoir traitements manuels avant saisie pour apporter quelques compléments techniques, précisément destinés à la saisie et qu'il n'était pas naturel de demander à l'enquêteur. Mais ceci est rare dans le décentralisé pur.

De plus en plus souvent, une bonne planification des tâches permet d'enchaîner collecte, saisie et listages d'erreurs et anomalies dans des délais compatibles avec le retour vers l'enquêteur et/ou l'enquêté.

On peut estimer que ce qu'il est urgent de contrôler à ce stade, correspond à ce qui est contrôlé ou géré en direct par la saisie directe, c'est-à-dire la structure, les grands filtres, et les variables sensibles liées au thème central de l'enquête.

Les outils de la qualité d'une enquête 245

Page 249: actes des journées de méthodologie statistique

Les retours vers les enquêteurs ont aussi des vertus pédagogiques pour leur démontrer que leur travail est suivi et qu'ils ne peuvent faire n'importe quoi, que ces retours fassent suite à un contrôle manuel ou automatique.

Des contrôles automatiques plus poussés qui ne justifient pas un retour à l'enquêteur peuvent avoir lieu dans la même phase de contrôle, mais ils sont généralement opérés dans un deuxième temps.

La filière mixte, décentralisée puis centralisée :

Cette filière mixte est plutôt retenue dans le cas des enquêtes complexes et peu répétitives.

Les travaux réalisés dans la partie décentralisée visent alors uniquement à assurer les vérifications pour lesquelles le retour à l'enquêteur ou l' enquêté est indispensable. Soit manuellement si la saisie est opérée par la partie centralisée, soit par des contrôles automatiques si la saisie est opérée au stade décentralisé.

Dans cette organisation, la DR n'opère aucune codification (à l'exception parfois de la PCS), et n'opère pas de contrôles approfondis.

Si la saisie n'a pas été déjà opérée, la partie centralisée va d'abord apporter les compléments nécessaires à la saisie (compteurs, cases de contrôle des quantités, codifications) et opérer une vérification manuelle globale préalable du questionnaire.

La partie centralisée interviendra également pour participer à la définition des contrôles nécessaires, et pour affiner les nomenclatures.

On trouve dans les enquêtes complexes de nombreux libellés notés en clair par l'enquêteur ou le répondant, libellés qui correspondent généralement au thème central de l'enquête, et qu' il faut codifier : produits alimentaires pour l'enquête Consommation Alimentaire, maladies pour l'enquête Santé, produits achetés et dépenses effectuées pour l'enquête Budget de Famille, motifs des déplaçements pour l'enquête Transport, etc.

Ces codifications, très spécifiques, basées sur des nomenclatures pas toujours fermées au départ et qui se complètent progressivement, sont généralement traitées de manière centra-lisée et ne bénéficient pas d'une base toute prête pour une codification automatique, précisément parce que la nomenclature n'est pas figée ou parce qu'elle a évolué depuis la dernière enquête du même type. C'est un atout pour le statisticien que de pouvoir affiner sa nomenclature à partir de l'observation de ce qui a été collecté. Ces codifica-tions sont faites manuellement, à l'exception des produits alimentaires de l'enquête Consommation Alimentaire qui a une fréquence telle (tous les deux ans) que sa nomenclature évolue peu d'une enquête à la suivante. Les autres grandes enquêtes ont

246 Insee Méthodes n° 56-57-58

Page 250: actes des journées de méthodologie statistique

une périodicité de l'ordre de quatre à sept ans qui fait que la nomenclature de l'enquête précédente, même si elle sert de base, est davantage remise en cause.

C'est généralement la présence de ces codifications qui justifie le recours à la partie centralisée, la centralisation permettant une meilleure interactivité avec le statisticien et une meilleure surveillance de l'homogénéité.

Pour ce qui concerne les contrôles, la correction des erreurs et anomalies détectées, lorsqu'elle a lieu, car elle n'est pas toujours possible ou pas toujours justifiée, est basée sur la compréhension approfondie du questionnaire en cause, par recoupements, par mise en cohérence. Ceci requiert beaucoup de soin pour ne pas "lisser" à tout prix les anomalies qui peuvent correspondre à une réalité. Ceci est réalisé de manière itérative jusqu'à obtention d'un fichier "propre", dans lequel ne subsiste plus aucune erreur, mais où peuvent se trouver des anomalies expliquées et confirmées.

Bien que par commodité de langage on parle d'apurement dès lors que l'on procède à la correction du fichier magnétique, il ne faut pas confondre l'apurement proprement dit qui consiste à modifier le fichier magnétique et la correction qui consiste à rechercher et indiquer quelle correction il convient d'opérer. La correction, hormis les cas de saisie-assistée, intervient généralement sur papier, soit sur le document d'origine (en veillant à ne pas faire "écraser" l'information d'origine), soit sur le listing d'anomalies et d'erreurs. L'apurement intervient après la correction.

L'apurement est généralement réalisé par les gestionnaires eux-mêmes, et concerne, soit les corrections d'erreurs, soit l'insertion des codes si la codification intervient après saisie, les zones correspondantes ayant été saisies "à blanc", soit la codification des rejets de la codification automatique.

L'apurement peut être opéré par les opérateurs de saisie, d'après les corrections faites par les gestionnaires, si cet apurement a lieu sur le matériel de saisie.

Les facteurs délais, moyens (disponibilité des moyens humains et matériels), com-plexité (des différentes phases), qualité (globale et donc qualité de chaque phase), interviennent sur les choix d'organisation, sur ce que l'on fait ou ce que l'on ne fait pas à chaque stade, dans quel ordre on le fait, qui le fait, avec quels outils.

À terme, les traitements manuels assistés par informatique ont vocation à disparaître au profit d'un poste de saisie assistée intégrant tous les traitements post-collecte.

Tout ceci correspond à un schéma relativement standard, mais ce schéma peut être morcelé. On peut, par exemple, exploiter une partie d'enquête (la première ou les deux premières vagues d'une enquête à vague) pour commencer à se faire une idée sur ce que donne l'enquête, détecter de macro-errements

Les outils de la qualité d'une enquête 247

Page 251: actes des journées de méthodologie statistique

Quoi qu'il en soit, réaliser une enquête est un processus long et complexe. Même si l'intégration de plus en plus poussée des phases (et la saisie portable représente actuellement le stade le plus intégré), permet de gagner sur les délais entre collecte et publication, ce qui est tout à fait essentiel pour la "fraîcheur" de l'information, il n'empêche que les délais hors-tout de réalisation d'une enquête sont très longs, de l'ordre de trois à quatre ans. Bien évidemment, plus l'enquête est répétitive, plus il y a amortissement et réutilisation des phases de préparation. Mais les enquêtes les plus répétitives sont aussi les plus simples...

248 Insee Méthodes n° 56-57-58

Page 252: actes des journées de méthodologie statistique

Session 5

Traitement des séries temporelles

Page 253: actes des journées de méthodologie statistique
Page 254: actes des journées de méthodologie statistique

ALIEN : Un outil pour modéliser la rédaction de diagnostics

économiques Jean-Louis Roos

Il existe deux façons d' aborder l'analyse d'une série numérique portant sur des données économiques : le statisticien réalisera sur celles-ci des traitements statistiques parmi l'éventail de ceux qui seront adaptés à cette série ; le résultat pourra en être une suite de coefficients, d'indices, de tableaux ou de graphiques. L'économiste, par contre, effectueia un traitement plus "textuel", il commentera les valeurs particulièrement significatives à ses yeux, ou les valeurs récentes, et les recadrera éventuellement dans le contexte économique qu'il connaît.

En fait l'économiste introduira dans son analyse les connaissances qu'il possède sur la signification des chiffres qu'il manipule. C'est-à-dire sur leur sémantique économique.

Un telle dichotomie apparaît évidemment un peu caricaturale : un statisticien-écono-miste mélangera les deux approches. Pourtant, elles sont fondamentalement différen-tes : l'analyse statistique relève d'une matière très formelle, peu liée au domaine abordé : on fera les mêmes types de traitement en médecine, en économie ou en météorologie ! ce n'est pas le cas de l'analyse économique qui est spécifique au domaine économique. La différence entre les deux approches est en partie la suivante : en statistique "pure" on introduit peu, ou pas du tout, de sémantique sur le domaine traité. En économie, c'est la sémantique qui prime sur les données.

Si les traitements statistiques sont maintenant bien formalisés, ce n'est pas le cas des discours d'analyse économique. Or, depuis plusieurs années, et un peu partout dans le monde, des chercheurs essaient de trouver une solution au problème suivant : l'être humain, face à une grande quantité d'information sur un sujet donné, est capable — en général — de faire un diagnostic sur ce sujet. Mais comment fait-il ? peut-on formaliser les raisonnements qui conduisent à un tel diagnostic ?

Dans le contexte de l'analyse économique, le problème devient : peut-on décrire, formaliser, modéliser, les mécanismes qui amènent un économiste à "rédiger" tel ou tel diagnostic à partir d'un ensemble de données quantitatives ? Si la réponse est oui, il

ALIEN 251

Page 255: actes des journées de méthodologie statistique

serait alors possible d'informatiser ce processus. Or, on vient de le dire plus haut, l'analyse économique littéraire est tout, sauf une science exacte. Donc a priori une telle formalisation ne devrait pas être pas possible !

Pourtant, si on observe des commentaires économiques simples, on ne peut qu'être frappé par leur aspect "stéréotypés" — et ce quelle que soit la langue dans laquelle ils ont été écrits — il semble bien qu'il existe des schémas d'analyse très répétitifs, et il devrait être possible de les modéliser. C'est une telle expérience qui a été tentée à l'Insee, d'abord il y a quelques années avec le logiciel Sam, puis actuellement avec le logiciel Alien.

Un tel logiciel fonctionne à ce jour, mais suscite de nombreuses et parfois de vives critiques. On peut classer les opposants à son utilisation en trois groupes :

- ceux qui sont certains que l'analyse économique faite par l'être humain ne peut, en aucune manière, être reproduite par une machine ;

- ceux qui pensent que la reproductibilité serait possible, mais qu'elle est encore trop complexe et trop mal connue. Donc, celle qui peut être faite actuellement restera insuffisante,

- ceux qui s'inquiètent d'un tel logiciel car il ne peut, à terme, que réduire l'intérêt du travail, voire supprimer des emplois.

Bien sûr, tous ces opposants ont partiellement raison. Aucune machine ne pourra égaler une analyse humaine faite par un spécialiste de haut niveau. Par contre, il est vrai qu'il est possible de formaliser des commentaires simples, mais qu'une telle méthode reste complexe et difficile. Enfin le problème des gains de productivité que cela pourrait entraîner reste entier.

Je vais ici aborder uniquement des questions liées aux critiques faites par le second groupe et montrer que s'il y a, certes, des difficultés, beaucoup d'entre elles (mais pas toutes) peuvent être résolues.

En fait Alien est un logiciel fortement paramétré, et si, par défaut, il peut rédiger un texte sur n'importe quelle série économique, il est cependant possible de modifier très fortement la rédaction en fonction des choix que fera l'économiste pour décrire les données qu'il manipule. C'est au niveau de ces choix, on va le voir, que résident les difficultés. Mais Alien n'est pas la cause de celles-ci, il n'en est que le révélateur si l'économiste ne possède pas la totalité de la connaissance initiale qui sera nécessaire.

Avant d'aborder la façon dont Alien construit donc ses jugements, nous ferons une présentation du logiciel.

252 Insee Méthodes n° 56-57-58

Page 256: actes des journées de méthodologie statistique

1. Présentation rapide du logiciel Alien

Alien repose sur l'idée que l'économiste ne manipule pas des séries statistiques, mais plutôt un ensemble de connaissances sur celles-ci, y compris de connaissances sur le vocabulaire associé à chaque série. Mien range la connaissance utile dans des "objets" que l'on nomme les "indicateurs", et qui possèdent toute l'information indispensable à la rédaction d'un diagnostic.

C'est Alien qui construit et renseigne de tels objets. Il effectue ensuite une série de traitements pour arriver à la phase de rédaction.

Ces deux points : la description de l'objet indicateur, et les traitements à réaliser, vont être détaillés ci-dessous. Ils seront complétés par une description du logiciel, et par une présentation des expériences en cours.

1.1 - La représentation de l'information

L'objet que manipule l'économiste est un indicateur, c'est-à-dire une structure où se trouve rangée toute l'information indispensable pour interpréter une (ou p)usieurs) série(s). En pratique, une grande partie de l'information étant partageable, un indicateur ne porte que l'information qui lui est spécifique. Le partage de l'information se fait principalement par héritage — ce qui impliquera une organisation hiérarchique des indicateurs — mais aussi par accès à des dictionnaires. Il existe ainsi une information commune à tous les indicateurs.

Le contenu d'un indicateur, et donc l'information qu'il peut porter, est susceptible de modifications d'une application à une autre, ou encore en fonction de développement du système ; les indicateurs sont donc construits à partir de prototypes, c'est-à-dire de modèles, aisément modifiables.

1.1.1 — Un découpage hiérarchique des indicateurs

Une application constitue un sujet qui est décrit dans un indicateur de type sujet. Le sujet possède des domaines. Chaque domaine, décrit dans un indicateur de type domaine, comprend une dizaine d'indicateurs quantitatifs ou qualitatifs dont certains possèdent des occurrences. En gros un domaine correspondra à un paragraphe de texte. La hiérarchie sujet, domaine, indicateur final peut être comparée à celle d'un modèle économétrique où les domaines sont des blocs et les indicateurs sont des équations.

ALIEN 253

Page 257: actes des journées de méthodologie statistique

1.1.2 — Les types abstraits

Ce sont des modèles de structure ; ils définissent un objet organisé d'une certaine façon, avec des attributs et des valeurs. Ces types sont abstraits car ils ne représentent jamais un objet réel, ce sont en quelque sorte des modèles ou des prototypes.

Le modèle "indicateur" décrit, sous une forme arborescente, ce que doit contenir un indicateur. Chaque noeud joue un rôle d'attribut. Ces attributs sont en nombre variable. À un attribut peut être associé un sous-arbre ou une valeur. Les valeurs associées dans les indicateurs instances sont aussi modifiables. Voici quelques-uns des attributs exis-tants :

- des types, permettant de classer chaque indicateur. À chaque groupe d'indicateurs sera associé des traitements, et parfois un discours possible particulier ;

- des noms pour l'indicateur ;

- des informations sur la périodicité de la, ou des séries, propre (s) à l'indicateur ;

- des formats d'impression de valeurs ;

- du vocabulaire particulier : verbes, adjectifs, adverbes, prépositions, et des règles grammaticales ;

- des listes d'indicateurs occurrences ;

- des équations ;

- des index de jugement, et des outils permettant de les construire ;

- la description des périodes à analyser en terme de variation et éventuellement d'accélération (ou de décélération) ;

les valeurs et les noms de la, ou des séries, propre (s) à l'indicateur ;

- des programmes et des traitements.

Cette liste n'est pas exhaustive. Chaque utilisateur peut rajouter de l'information. En pratique, plus d'une centaines d'attributs définissent ainsi la sémantique utile d'un indicateur.

254 Insee Méthodes n° 56-57-58

Page 258: actes des journées de méthodologie statistique

1.1.3 — Les dictionnaires

Ce sont des objets particuliers qui regroupent le vocabulaire commun aux indicateurs, mais aussi la majeure partie des règles grammaticales associées. Le contenu des dictionnaires est défini par un index qui est un type abstrait particulier.

1.1.4 — Les structures narratives stéréotypées

Si les indicateurs sont complètements renseignés, ainsi que les dictionnaires, il est possible d'obtenir une rédaction associée à un diagnostic. Un diagnostic est un ensem-ble d'informations "codé" dans un vecteur — ou séquence — d' informations que l'on a appellé le "vecteur narratif'. Il définit "quoi dire". Ce vecteur est traduit en langue naturelle à travers un vecteur d'ordres de rédaction. Il existe plusieurs vecteurs d'ordres, ou séquences d'ordres, ce sont les "schémas narratifs" ou "structures narratives". Chacun décrit un discours stéréotypé possible, avec ses variantes. Voici des exemples de tels discours stéréotypés relevés dans la presse :

"Sales ofnew cars in western Europe increased by 1.2 per cent last month, with higher demand in Germany and France compensating for a heavy decline in sales in Italy. Sales in the first 11 months of the year, at 12.53m, were 1.3 per cent lower than in the corresponding period a year earlier." Financial Times Friday December 18 1992

"L'indice composite, qui regroupe onze indicateurs de l'économie américaine, a augmenté de 0.8 % en novembre. Il s'agit de la seconde hausse mensuelle consécutive ( + 0.5 % en octobre) et de la plus forte progression de cet indice depuis le mois de janvier 1992. En novembre ce sont les commandes aux entreprises, les ventes au détail et surtout la confiance des consommateurs qui ont joué." Le Monde l er Janvier 1993

"Les ventes des détaillants progressent dans l'ensemble en septembre-octobre. Ce mouvement correspond en particulier à une amélioration de l'activité dans les secteurs de l'habillement-textile-cuir et du groupe culture-loisirs-luxe. En revanche les ventes sont stables dans le gros équipement du logement."

Insee Informations Rapides IV° 336

1.2 — Organisation des traitements

Pour obtenir la rédaction d'un texte de diagnostic, il est indispensable de fournir au système un minimum d'informations préliminaires ; ne serait-ce que le nom et les valeurs des séries à analyser ! À partir de là, quatre étapes de traitements se succèdent dans Alien : la construction de l'arborescence des indicateurs et le remplissage de

ALIEN 255

Page 259: actes des journées de méthodologie statistique

ceux-ci, des calculs sur les valeurs, une sélection de l'information pertinente, enfin la rédaction finale. Examinons ces étapes :

1.2.5 — La mécanique d'apprentissage

On comprendra aisément que renseigner un indicateur, avec la totalité de la sémantique qui sera nécessaire à la rédaction, peut être fastidieux (sinon impossible !). Un système d'apprentissage automatique est donc indispensable. Le principe d'une telle mécanique est assez simple : il s'agit d'un moteur qui, à partir d'une information sommaire sur chaque indicateur, et d' une information complète, mais commune à tous les indicateurs, peut construire simultanément les indicateurs et les liens entre ceux-ci ; autrement dit toute l'arborescence du système. Un semblable instrument est cependant forcément insuffisant car l'organisation ainsi construite sera souvent très rudimentaire ; elle ne prendra pas en compte telle ou telle particularité d'un indicateur. Celles-ci devront alors être introduites de façon complémentaire, en se substituant aux données construites automatiquement.

Informatiquement "parlant" l'apprentissage implique l'utilisation de trois fichiers de "connaissances" spécifiques au domaine traité : la description minimale des indicateurs, les informations communes à tous, et des compléments d'informations particulières.

Ceci étant, la phase d'apprentissage implique de nombreux choix a priori qui seront définis par l'économiste : entre autre des choix sur les types d'indicateurs, les périodes analysables, et les paramètres de calculs d'index de jugements.

1.2.6 — L'analyse numérique extensive

Une fois la base de connaissances construite, Alien réalise une analyse extensive des valeurs numériques qui consiste à appliquer sur toutes les périodes de temps analysables — celles-ci ont été définies lors de la phase d' aprentissage — des formules mathématiques prédéfinies. Ces périodes de temps ne correspondent pas à la périodicité de la série, mais aux périodes passées importantes à étudier : par exemple l'évolution à un mois, à trois mois, à un an, etc.

Il s'agit ici d'obtenir le maximun de données quantitatives pour chaque indicateur : les niveaux, mais aussi les variations et parfois les accélérations. Pour chaque information, un jugement qualitatif sera porté et codifié sur une échelle de sept valeurs : de "très faible" à "très fort". Ceci constituera des index de jugement. Ces sept tranches possibles peuvent être réduites, mais non augmentées.

256 Insee Méthodes n° 56-57-58

Page 260: actes des journées de méthodologie statistique

L2.7 — Les choix narratifs : savoir quoi dire

Après ces deux étapes, Alien dispose d'une masse consistante d'informations. Il est impensable de rédiger un texte à partir de TOUT ce qui a été observé ; un tri est indispensable pour ne conserver que ce qui est pertinent.

Cette étape est essentielle : pour chaque indicateur et domaine, Alien recherche l'infor-mation la plus substantielle. Il retient a priori l'information la plus "intense", par exemple il sélectionnera les périodes où les jugements portés seront les plus éloignés d'une situation normale. Les choix sur les périodes peuvent aussi se faire à partir de situations "graphiques" : retournement de tendance, accélérations, etc. Ou encore être fixés par l'économiste. Dans un certain nombre de situations, les choix sont faits par le résultat de règles, présentes dans des bases de règles, qui sont des connaissances complémentaires pour Alien.

Finalement le but de cette étape est de définir complètement la sémantique du futur discours d'analyse. Cette sémantique est codée dans le vecteur narratif.

1.2.8 — La rédaction

La dernière étape ne concerne plus que la rédact;on d'un texte. Le vecteur narratif est ici traduit dans une langue, par exemple le français — mais une autre langue est possible — à travers des schémas narratifs prédéterminés. L'assemblage du texte se fait à partir de fragments de texte. Alien ne travaille pas sur les éléments de base du langage : noms, articles, adjectifs, verbes,... mais sur des regroupements de ceux-ci : les fragments, qui sont des portions de phrases. Ainsi un fragment peut être un substantif, un adjectif, un groupe nominal ou verbal, ou même encore une proposition complète (groupe nominal et groupe verbal). Les fragments sont associés à une règle d'accord et à un "focus" qui permet de codifier leur signification.

Certains fragments peuvent être décrits directement par l'usager, mais dans la plupart des cas ils sont construits automatiquement à partir d'éléments disponibles dans les dictionnaires, ou dans le "squelette" de l'application. L'assemblage des fragments se fait, après gestion des accords et des conjugaisons, au sein des structures narratives. Celles-ci sont en fait des programmes écrits dans le langage de manipulation des connaissances d'Alien, donc aisément modifiables.

ALIEN 257

Page 261: actes des journées de méthodologie statistique

1.3 — Description du logiciel

L'organisation informatique d'Alien comporte deux niveaux : le langage C pour l'écriture d'un interpréteur de manipulation de connaissances, et des bases de connais-sances.

1.3.1 — Un interpréteur écrit en langage C

L'interpréteur a pour nom Cia et permet aussi bien un maquettage rapide que le stockage des connaisances. La version 2 actuelle est portée sur plusieurs gammes Unix [Su-nOs,UP/Ux, Aix, Sco, Coherent], MVS, Dos (uniquement 386 et 486). Le logiciel occupe 150 K et les sources 400K (8000 lignes de langage C). Un manuel est disponible en ligne. L'interpréteur est complété par un ensemble de traitements spécifiques à Alien et aussi écrits en langage C. La rédaction d'une page de texte, apprentissage inclus, prend de dix à cinquante secondes suivant les machines.

1.3.2 — Des fichiers de connaissances

Une application sous Alien repose sur l'utilisation de quelques fichiers spécifiques que l'on doit renseigner a priori, ainsi que sur des fichiers, collectifs, en général stables et partagés par toutes les applications.

Les fichiers collectifs.

Ce sont d'une part les dictionnaires, il y en a cinq, plus les bases de règles, et quelques fichiers généraux qui contiennent les prototypes et les structures narratives. Les dictionnaires sont :

- Les synonymes : à chaque entrée correspond six synonymes, les contenus ne sont pas seulement des mots isolés, mais parfois des groupes (nominaux, verbaux), voire des propositions complètes.

- Les conjugaisons : l'entrée est un verbe, ou un groupe verbal, à l'infinitif. Sont conjugués : le présent, le passé, et le conditionnel.

Les accords : à chaque mot, ou groupe de mots, correspond le même ensemble au masculin singulier, féminin singulier, masculin pluriel, féminin pluriel, neutre singulier, neutre pluriel (ces deux cas sont pour d'autres langues), ainsi que deux cas spécifiques (par exemple en français l'élision avec h).

258 Insee Méthodes n° 56-57-58

Page 262: actes des journées de méthodologie statistique

- Le vocabulaire complémentaire : il est constitué de mots isolés, principalement invariables : prépositions, conjonctions, adverbes, etc.

- Le vocabulaire du manuel : il est possible de disposer pour toute application, d'un manuel complet de celle-ci.

- Les déclinaisons (pour l'Allemand).

Les autres fichiers généraux sont les fichiers d' initialisation, de prototypes et les fichiers de schémas stéréotypés. Ce sont ces derniers qui commandent la rédaction. En principe l'usager ne les modifie jamais (mais il peut le faire). Ils sont liés à la langue utilisée pour la rédaction puisqu'ils commandent la structure des phrases.

Les fichiers propres à l'application

Ce sont ceux que l'usager doit renseigner, "à la main", ou à l'aide de ses propres traitements. on a ainsi :

- les fichiers de la base de données quantitatives : il s'agit des noms et des valeurs séries. On peut aussi associer à ces fichiers un fichier donnant la date pour laquelle on désire un diagnostic.

le squelette : c'est le descriptif minimal pour CHAQUE futur indicateur : on donnera ici les types de l'indicateur, son nom et la, ou les, série (s) à utiliser,

- le modèle d'indicateur renseigné : c'est un prototype, mais complètement garni avec des valeurs communes pour tous les indicateurs,

- le fichier de complément stylistique : il est facultatif et permet d'améliorer l'appren-tissage automatique.

1.4 — Les utilisations d'Alien

1.4.1. — Les enquêtes de conjoncture

Le logiciel est utilisé tous les mois pour l'enquête mensuelle dans l'industrie. Il a été intégré dans la chaine de dépouillement de l'enquête. Une version permettant de faire des sorties en Dcf/Gml est en cours de réalisation.

Parallèlement des tests sont en cours avec l'enquête Bâtiment et travaux publics (BTP) et ultérieurement auront lieu d'autres expériences avec l'enquête commerce de détail.

ALIEN 259

Page 263: actes des journées de méthodologie statistique

1.4.2. - équipements professionnels

29e projet ICARE

C'est un projet de retour aux entreprises d'un diagnostic conjoncturel sur secteur fin. À titre d'information Alien compose actuellement deux pages de texte pour 41 produits industriels en sept minutes cpu, et demande 12000K pour ce travail. Cependant tous les problèmes techniques ne sont pas encore résolus.

1.4.3. — Le projet IFO

À la demande d'Eurostat et dans le cadre d'un programme de recherche européen (Development of Statistical Expert Systems) l'Insee et l'Institut de recherche écono-mique Ifo à Munich, développeront le produit Mien pour l'adapter à la langue alle-mande. L'Ifo adaptera le produit à ses besoins, proposera des modifications pour l'améliorer et apportera son expérience des bases de règles dans l'analyse des cycles et dans l'analyse conjoncturelle. Eventuellement avec des propositions sur des méthodes de prévision. Les utilisations que proposera l'Ifo permettront de vérifier si le produit est réellement efficace. Le projet doit durer deux ans.

1.4.4. — D'autres applications

Alien a été prêté, ou est en test, au Central Statistical Office, à la Banque Nationale de Belgique, à la Banque de France et à Eurostat. D'autres expériences sont envisagées.

2. Connaissances, jugen e s et opinions

Lorsqu'un économiste rédige un diagnostic sur un ensemble de séries, il utilise principalement trois ressources :

des connaissances particulières sur ces séries : telle série sera un indice, telle autre une quantité absolue, une troisième sera un flux,...L' économiste doit savoir s'il peut, ou non, calculer des variations, et sur quelles périodes ; il connait, enfin, le vocabu-laire, parfois le "jargon", associé à chaque série.

- des connaissances sur la façon dont, pour chaque série, se forment des jugements : l'économiste sait quand il peut parler d'un fort recul de la production", d'"une hausse des prix vive",...

260 Insee Méthodes n° 56-57-58

Page 264: actes des journées de méthodologie statistique

- des connaissances complémentaires : notre économiste peut expliquer telle ou telle évolution par des informations "exogènes" qu'il possède : par exemple, il interpré-tera une évolution du prix du baril de pétrole par une certaine situation au Moyen-orient.

On aura noté que ces "trois ressources" apparaissent comme étant, relativement éloi-gnées les unes par rapport aux autres, de moins en moins ''objectives" : si on demande une analyse, sur un ensemble de séries, à plusieurs économistes, ils devraient avoir la même position en ce qui concerne les valeurs, peut-être des positions différentes pour ce qui est des jugements à porter, probablement des avis divergents pour ce qui touche aux commentaires et aux opinions.

Dans Alien ces trois ressources doivent être formalisées, et donc programmées. Il existe un paramétrage du système, avec des paramètres par défaut. Cependant il faut prendre conscience que le choix de paramètres différents peut, pour une même série, entrainer la rédaction de diagnostics différents !

2.1 — La connaissance particulière sur chaque série

Nous ne rentrerons pas dans le détail de toutes les connaissances qui sont intégrées dans un indicateur. Ainsi, à chaque série, ou indicateur, peut être associé d'une part un langage, un "dialecte", particulier ; mais aussi une forme, une structure de discours spécifique qui peut dépendre de traitements propres à l'indicateur. D'autres informa-tions, importantes, mais secondaires, ne seront pas abordées ici.

Les tournures et le vocabulaire propres sont introduits dans un fichier "stylistique" qui est utilisé à la phase d'apprentissage (par exemple "les stocks sont légers", "les prix grimpent", "le déficit s'est contracté"...). Les traitements et les structures narratives qui en découlent dépendent par contre de "types", simple codification à faire a priori. Ces types jouent un rôle fondamental que nous allons un peu plus détailler. Trois types principaux sont utilisés :

2.1.1. — Le type centras

Une série — dans Alien on parle plutôt d'indicateur, c'est à dire d'un ensemble d'infor-mations autour d'une ou plusieurs série (s) — se caractérise par un type central et des types secondaires. Le type central permet de rattacher la série (ou l'indicateur) à une famille parmi quatre possibles :

- type 0 et 1 : les valeurs de la série à analyser sont significatives d'un niveau, d'un stock, d'une quantité absolue, et ce niveau a une signification économique par lui

ALIEN 261

Page 265: actes des journées de méthodologie statistique

même. Par exemple : un effectif salarié, un stock de produits finis, un chiffre d'affaires. Dans le type 1 l'étude de la variation de ce niveau ne pourra être faite, car elle n'aurait pas de sens.

type 2 : les valeurs de la série à analyser sont significatives d'un niveau, mais celui-ci ne veut rien dire ; c'est le cas d'un indice, comme l'indice des prix, par exemple. On ne peut donc le commenter. Par contre, la variation de la série, entre deux périodes, est significative.

- type 3 : les valeurs de la série à analyser sont ici significatives d'une variation. Le niveau est inconnu. La variation, entre deux périodes, de la série implique une accélération (ou un ralentissement, ou encore d'une stabilité de la variation).

Le choix du type implique des commentaires, des analyses, parfois fort différentes. Voici une même série sur la production pour l'ensemble de l'industrie, et par sous secteur, avec les commmentaires associés rédigés par Alien. Ceci a été obtenu en ne modifiant que le type central dans le descriptif de l'application !

Janvier Février Mars Avril Mai Juin La production industrielle 18 17 15 11 10 5 Biens intermédiaires 13 11 11 10 9 4 Équipements professionnels 29 20 18 22 12 18 Branche automobile et transport 8 - 19 - 11 - 17 - 9 - 12 Biens de consommation 23 15 21 12 18 10

type 0

L'activité industrielle, selon les chefs d'entreprise interrogés à l'enquête mensuelle, reste maussade et connait une nouvelle fois une sensible baisse. Le recul se note dans les biens intermédiaires et dans les biens de consommation ; tandis que la situation est opposée dans les équipements professionnels.

type 1

L'activité industrielle, selon les chefs d'entreprise interrogés à l'enquête mensuelle, reste maussade pour le troisième mois successif.

type 2

Ce mois-ci, l'activité industrielle continue de reculer sensiblement. Le recul se vérifie dans les biens intermédiaires et dans les biens de consommation ; en revanche dans les équipements professionnels l'activité industrielle semble s'améliorer légèrement.

262 Insee Méthodes n° 56-57-58

Page 266: actes des journées de méthodologie statistique

type 3

En juin, la production industrielle a continué d'augmenter faiblement, mais tout au long du trimestre écoulé, plus lentement qu'au premier trimestre. L'augmentation a été observée notamment dans les équipements professionnels ; à l'inverse dans la branche automobile et transport, la production industrielle a reculé légèrement.

Si le type est mal choisi, le commentaire sera tout simplement faux ! mais ceci ne peut être reproché à Alien : un tel commentaire faux serait aussi bien fait par un être humain qui connaitrait mal son sujet !

2.1.2 — Les formes de variation

Le type que l'on vient de voir n'est pas le seul à jouer un rôle dans Alien, mais c'est le plus important. Il existe aussi un type pour définir quelles variations sont acceptables, ou valides, par exemple : à un mois, à trois mois, etc. Toutes ces variations possibles possèdent une sémantique particulière : en terme de vocabulaire, d'unité des variables, de forme d'équation de calcul, de définition de la période temporelle. Un cas particulier de variation est celui de la variation d'une série qui elle-même est une variation (le type 3 précédent). La signification que l'on donne au résultat dépend alors de la variation de départ et d'arrivée :

- variation de départ positive et variation d'arrivée supérieure ; on dira par exemple : "la croissance s'accélère"

variation de départ positive et variation d'arrivée positive mais inférieure ; on dira par exemple : "la croissance se ralentit"

variation de départ négative et variation d'arrivée inférieure ; on dira par exemple : "la chute s'accélère"

- variation de départ négative mais variation d'arrivée négative et supérieure ; on dira par exemple : "la chute se ralentit"

- variation de départ et d'arrivée en sens contraire ; le commentaire se fera dans le contexte de la série.

- les cas de stabilités dans la variation impliquent aussi un commentaire dans le contexte.

On le voit, les règles d'analyses sont plus complexes ici. A ceci s'ajoute le fait qu'il faut déterminer la façon dont on fait l'étude de la variation : moyenne mobile, comparaisons de périodes de tailles différentes,...

ALIEN 263

Page 267: actes des journées de méthodologie statistique

2.1.3 — Les occurrences

Une série, un indicateur, peut s'analyser aussi par ses élément constitutifs : par exemple l'évolution des prix est souvent étudiée, ou expliquée, par l'évolution de ses composants : les prix par grands groupes de produits. Ces composants forment des indicateurs occurrences qui complètent l'indicateur principal, appellé alors "indicateur maitre".

En pratique le traitement d'occurrences fait aussi intervenir une codification en type car il existe des situations différentes, qui impliquent des traitements et des discours différents.

Le type occurence distingue, entre autre, les occurrences instances des occurrences attributs : l'indicateur principal peut avoir des attributs : les stocks seront ainsi une occurrence attribut pour un indicateur principal qui serait un secteur ; mais les occur-rences peuvent aussi être des instances : les stocks, dans un secteur, forment une occurrence instance des stocks pour l'ensemble de l'industrie. Dans ces deux cas les discours associés seront différents.

Il existe aussi d'autres formes possibles du type occurrence : l'indicateur principal peut être vide, dans ce cas il n'y a que des occurences ; il peut aussi y avoir pour un même indicateur principal des sous-groupes d'indicateurs occurrences. Il s'agit toujours de cas particuliers que nous ne présenterons pas ici, mais qu'Alien sait traiter.

2.2 — La construction de jugement

Dans une analyse, un économiste portera généralement un jugement sur les valeurs qu'il observe. Ainsi une augmentation du chômage, des prix, de la production, sera qualifiée par un expert de faible, de moyenne ou de forte ! Comment de tels qualificatifs se forment-ils ?

En fait il n'y a pas de règles absolues. Ainsi entre 1976 et 1978 l'Insee qualifiait ainsi des hausses de prix :

en 1978 : faible, avec 7,9 %

en 1976 : vive, avec 9,6 % modérée, avec 7 % quasi-stable, avec 2,7 %

264 Insee Méthodes n° 56-57-58

Page 268: actes des journées de méthodologie statistique

Chacun aura constaté que la qualification d'un chiffe se fait souvent dans un contexte historique, mais doit-on toujours faire référence au passé ? ou doit-on avoir une référence absolue ? Dans Alien différentes options sont envisageables :

- l'usager peut proposer des tranches de valeurs permettant de fixer directement les qualifications des jugements ;

- les tranches peuvent être calculées automatiquement à partir de l'historique de la série.

Dans ce dernier cas, la "longueur" de la série est importante et influence les résultats.

Si les tranches sont calculées automatiquement, l'usager peut encore fixer certaines options : Alien définit une valeur centrale, correspondant à une situation moyenne. Pour une série du type 0 ou 1 vue plus haut, c'est la moyenne ; pour les autres c'est la variation nulle : 0 si on raisonne en différence, 1 en rapport, 100 en pourcentage. Mais l'usager peut aussi fixer ces valeurs centrales.

Ensuite, les valeurs proches de cette moyenne, feront parties de la tranche moyenne, et plus on s'éloignera et plus on déterminera les tranches permettant de qualifier : assez faible, assez fort — faible, fort — très faible, très fort (ces adjectifs sont bien évidement dépendants de la série traitée). L'éloignement de la valeur moyenne est aussi paramé-trable.

Alien choisit par défaut de découper en 20 tranches égales la quantité comprise entre la valeur centrale et le maximum (ou minimum) de la série, puis de les regrouper pour obtenir les trois tranches inférieures et les trois tranches supérieures correspondants aux qualifications possibles. Tout ceci peut être modifié "à la main" (en fait dans un fichier de paramètres).

Voici quelques résultats pour une série qui est une variation (le solde de réponse à l'enquête mensuelle dans l' industrie). Le texte qui apparait est généré automatiquement par l'outil de fabrication du manuel d'une application.

On recherche le maximum, le minimum. La valeur moyenne est fixée à 0. La différence entre le maximum et 0 est divisée par 20. Cette quantité forme un fractile du côté maximum. On agit de même pour définir un fractile du coté minimum. Ensuite trois limites sont calculées automatiquement de part et d' autre de la moyenne :

ALIEN 265

Page 269: actes des journées de méthodologie statistique

proche de zero : zéro + 2 fractile (s) minimum ou maximum. médian : moyenne + 11 fractile (s) minimum ou maximum. éloigné : moyenne + 18 fractile (s) minimum ou maximum.

Ceci défini donc automatiquement 6 bornes :

— 30.6 ; — 15.3 ; — 3.4 ; 2.6 ; 11.7 ; 23.4

sur les valeurs de variations suivantes :

3 —130 —3234563 —224477210111281413202418212420191920 2023 25 2524 2225 22 2621 20 2020 18 21 18 17 15 11 105 1085 48- 8— 12

14 13 17 16 16 12 11 10 11 9 12 21 6 2 6 4 5 6 10 14 21 19 24 27 28 31 34 33 30 42

Ce qui donne les résultats suivants :

Entre — 34. et — 30.6 : La production industrielle a diminué très fortement. Entre — 30.6 et — 15.3 : La production industrielle a diminué sensiblement. Entre — 15.3 et — 3.4 : La production industrielle a diminué faiblement. Entre — 3.4 et 2.6 : La production industrielle parait se stabiliser. Entre 2.6 et 11.7 : La production industrielle a augmenté faiblement. Entre 11.7 et 23.4

La production industrielle a augmenté sensiblement.

Entre 23.4 et 26. : La production industrielle a augmenté très fortement.

2.3 - L'opinion

A l'analyse et au jugement relativement objectif que peut faire un économiste sur un indicateur, s'ajoute fréquement une "opinion" qui lui est propre. Voici un exemple choisi dans la presse

"Consumer optimism about the economy rose slightly in August from July. But the gain was small : from 77 in July to 77.3 in August and economist said it did not represent the beginning of a trend."

NEW YORK TIMES, LE 28 AO UT 1993

Ce court diagnostic est bien représentatif de ce qui est fait habituellement. Il y a trois analyses successives : statistique d'abord : un indicateur d'opinions des consomma-teurs, qui passe de 77 à 77.3. Le texte stéréotypé aurait pu s'arrêter là. Il était alors parfaitement neutre. Un jugement économique complète cependant cette analyse sta-tistique : il s'agit d'une augmentation faible, de peu d'importance. On voit qu'a joué

266 Insee Méthodes n° 56-57-58

Page 270: actes des journées de méthodologie statistique

ici un mécanisme de jugement. Enfin s'ajoute une opinion d'économiste : on ne peut juger qu'il s'agit du début d'un trend "haussier".

Si les deux premiers types d'analyses peuvent aisément être automatisées dans Alien, ce n'est pas le cas de la troisième : l'opinion fait appel à trop d' informations extérieures. Par contre s'il s'agit de commenter des liens entre indicateurs, ou d'ajouter des "opinions" assez simples et "répétitives" il est possible d'utiliser des bases de règles qui se déclenchent en fonction d'un ensemble d'informations prédéfinies vérifiées. Ces bases sont bien sûr à construire spécifiquement à l'application.

3. Conclusion

Le logiciel Alien n'est pas parfait, loin de là. Tel quel, pourtant, il apporte plusieurs services à l'économiste-statisticien qui peut ainsi compléter utilement des analyses purement statistiques :

3.1 — Le rôle d'un assistant

Lorsqu'une application Alien est intégrée dans une chaine de dépouillement ou de traitement de données, elle fournit un "plus" à l'économiste : non seulement il a ses tableaux habituels, ses indices, ses coefficients, mais il a aussi un texte tel celui qu'aurait pu lui rédiger un assistant. Ce texte peut être construit directement dans un fichier qu'il pourra ensuite modifier à travers un traitement de texte. L'intérêt de ce premier texte tient dans le fait qu'Alien n'aura rien oublié d'important, mais surtout que ses analyses sont "stables" dans le temps, et totalement non influencées par des facteurs extérieurs.

3.2 — Le commentaire de données trop nombreuses

Il peut arriver d'avoir à analyser un trop grand nombre de situations : dans une analyse de secteurs fin par exemple, ou dans des champs géographiques détaillés. Dans de tels cas, l'être humain ne peut faire face à la rédaction de dizaines, voire de centaines de diagnostics. Alien peut écrire de tels textes, en grande quantité, et rapidement. Il peut aussi commenter automatiquement des tableaux de bords réguliers en faisant ressortir l'information importante.

Signalons enfin que, si dans sa forme actuelle Alien traite de séries chronologiques, toutes autres formes de données économiques peuvent être analysées. Moyennant bien sûr un complément d'analyse et de programmation.

ALIEN 267

Page 271: actes des journées de méthodologie statistique

3.3 — La définition de références

Les américains appellent guidline ("références" ?) la définition, dans des domaines divers, de recommandations de "bonnes pratiques". Une bonne pratique est ce qu'il faut faire, dire, écrire face à une situation donnée. Ces guidlines ont été surtout développés en médecine, à l'origine à partir de nombreux travaux de formalisation de diagnostics ou de traitements pour des logiciels d'Intelligence Artificielle. En gros un guidline permet de décrire un consensus formalisé par de nombreux praticiens. Ce consensus, certes très relatif, permet de fournir une réponse efficace et argumentée devant une situation donnée.

Alien permet, dans le domaine économique, de construire de telles références. C'est le cas à travers le projet de manuel automatique de descriptions de l'interprétation d'une application. Ce manuel, construit automatiquement, devrait permettre, pour chaque application dans Alien, de décrire celle-ci et ses règles d'interprétation et d'analyse.

3.4 — Statistique et sémantique des données

Le statisticien et l'économiste manipulent les mêmes chiffres, mais l'économiste a besoin de beaucoup plus de sémantique que le statisticien. Alien est un outil qui permet la constitution et l'utilisation d'une grande partie de la sémantique nécessaire au diagnostic économique. Mais il reste un outil insuffisant, le logiciel est tout petit : à titre d'information la totalité du produit représente 600 K sur une disquette. Des produits plus importants seront sûrement construits dans les années à venir, mais ils demanderont de plus en plus aux statisticiens et aux économistes de s'intéresser à la formalisation, et à la gestion, de la sémantique des données statistiques qu'ils manipulent. Ce sera sûrement un des plus gros défis auxquels ils seront confrontés dans les années à venir.

268 Insee Méthodes n° 56-57-58

Page 272: actes des journées de méthodologie statistique

BIBLIOGRAPHIE

J.L.Roos, Intelligence Artificielle en Langage C, Editions Eyrolles, (1992).

J.L.Roos, Un assistant logique pour l'interprétation experte de données numeriques, INSEE, Séminaire Recherche du 8 avril 1993.

PS : Une disquette de démonstration sous Dos est disponible (pour Pc 386 ou 486).

ALIEN 269

Page 273: actes des journées de méthodologie statistique
Page 274: actes des journées de méthodologie statistique

MOYENNES MOBILES CENTRÉES ET NON CENTRÉES

CONSTRUCTION ET COMPARAISON Michel GRUN-REHOMME, Dominique LADIRAY

L'analyse des séries temporelles a, de toute évidence, fait de gros progrès depuis une vingtaine d'années. Dans sa panoplie de méthodes pour aborder les problèmes du lissage et de la désaisonnalisation, le statisticien dispose aujourd'hui d'un outil un peu anachroni-que, qui résiste bien à l'usure du temps et aux innovations statistiques : les moyennes mobiles. Le succès de cet outil est essentiellement dû d'une part à son excellent rapport "qualité-prix" et, d'autre part, à l'hégémonie des logiciels de désaisonnalisation X11 et XI I -ARIMA qui en font un large usage.

Les moyennes mobiles sont en effet très simples de principe, n'impliquent pas a priori l'utilisation de concepts ou de modèles sophistiqués et se révèlent d'application particulièrement souple: il est possible de construire une moyenne mobile possédant les propriétés souhaitées en termes de conservation de tendance, d'élimination de la saisonnalité, de réduction du bruit, etc, et s'adaptant ainsi au problème traité. Bâti sur de tels outils, le mythique logiciel de désaisonnalisation X11 défie le temps. Au-jourd'hui encore, c'est une version de 1968 qui est utilisée et les améliorations importantes apportées à ce programme, notamment à travers le logiciel XI 1-ARIMA de Statistique Canada dans les années 75, n'en ont pas remis en cause le principe de base.

Force est de constater qu'aujourd'hui ces outils sont très largement utilisés, à tort selon certains qui pensent que de meilleures méthodes existent de nos jours, mais à raison selon les utilisateurs qui valident les résultats et emploient par exemple X11-ARIMA pour sa faculté de désaisonnaliser rapidement et correctement un grand nombre de séries.

Les moyennes mobiles sont de vieilles dames. De très importants efforts de recherche sur ce thème ont été faits au début de ce siècle par des noms aujourd'hui célèbres: Spencer, Henderson, Macaulay... et des résultats aujourd'hui oubliés ont été obtenus. Qui sait par exemple, que le fameux problème de la perte d'information aux extrémités de la série, et évoqué comme l'un des inconvénients majeurs de ces outils, a été étudié

Moyennes mobiles centrées et non centrées 271

Page 275: actes des journées de méthodologie statistique

et en partie résolu par Henderson dans les années 20? Et, par la suite, Macaulay, Kendall, Musgrave (pour le logiciel X11), Bongard ... s'y sont attaqué avec plus DU moins de succès.

Dans un premier temps, cet article présente une synthèse des propriétés connues des moyennes mobiles. Celles-ci sont présentées dans un cadre méthodologique général plus actuel: leur mode de construction est vu comme un problème de minimisation d'une forme quadratique sous contraintes. Les moyennes mobiles traditionnelles, symétriques ou non-centrées sont alors replacées dans ce cadre et comparées entre elles.

Cette présentation unifiée permet alors de généraliser les modes de construction et d'association et de déduire quelques résultats nouveaux. Le rôle central des critères de Bongard (réduction de la variance résiduelle) et de Henderson (pouvoir de lissage) est mis en évidence. On montre ainsi l'équivalence des approches de Kendall et de Bongard. Un nouveau critère, mélange convexe des deux critères précédents, est défini et étudié. Les moyennes mobiles asymétriques de Musgrave sont généralisées, amélio-rées et des règles de construction de moyennes mobiles non-centrées, permettant de résoudre le problème de l'estimation des points aux extrémités des séries, sont présentées.

Ce travail s'inspire bien entendu des résultats obtenus par les grands noms déjà cités mais aussi de travaux plus récents, comme ceux de DOHERTY [2] et GRAY et THOMSON [5].

I - Rappels et notations

Ce chapitre est une brève présentation des notions de base sur les moyennes mobiles. Pour un exposé plus complet, le lecteur pourra consulter KENDALL [6] ou, pour un ouvrage en français, GOUR1EROUX et MONFORT [4].

Dans la suite, on considérera une série temporelle (Xt). Xt désignera alors la valeur de la série à l'instant t. L(Xt) désigne la transformée de la série brute par un opérateur L et LXt sera la valeur de cette nouvelle série à l'instant t.

Par ailleurs, on fera souvent référence aux problèmes du lissage ou de l'ajustement saisonnier dans lesquels la série brute est supposée a priori se décomposer additivement :

• en une tendance ( Tt ) et un bruit (Et) pour le lissage: X t = Tt +

• en une tendance ( Tt ), une saisonnalité (St) et un bruit (t) pour la désaisonnalisation: Xt Tt +

272 Insee Méthodes n°56-57-58

Page 276: actes des journées de méthodologie statistique

1.1 Moyennes mobiles symétriques et asymétriques

On appelle moyenne mobile de coefficients feil, l'opérateur noté MM {8i), ou plus simplement MM, et défini par :

MM {0i} Xi = 0; xi + i

La valeur à l'instant t de la série brute est donc remplacée par une moyenne pondérée de p valeurs "passées" de la série, de la valeur actuelle et de f valeurs "futures" de la série. La quantité p+f+l est appelée ordre de la moyenne mobile.

Il est clair, pour des raisons de définition, que les p premiers points et les f derniers points de la série brute ne peuvent être transformés par l'opérateur MM. Lorsque p est égal à f, la moyenne mobile est dite centrée.

Si, en outre, on a 0_t = 0; pour tout i, la moyenne mobile MM est dite symétrique.

Par la suite, on notera le vecteur de dimension (p+f+1,1) dont les coordonnées sont les coefficients de la moyenne mobile :

8 -p

p+l

0 =

01 -I Of

Moyennes mobiles centrées et non centrées 273

Page 277: actes des journées de méthodologie statistique

1.2. Propriétés simples des moyennes mobiles

1.2.1. En termes de conservation de tendances :

Il est facile de montrer que pour qu'une moyenne mobile MM conserve les polynômes de degré d, il faut et il suffit que ses coefficients vérifient :

i=-11 i=41

= 1 et Vk {1, 2, 8i=0

i=-P

Matriciellement, ces contraintes s'écrivent : CO = a, où C et a sont des matrices (d+1,p+f+1) et (d+1,1) valant :

0

et C

1 1 1 1

—p —p+1 f-1 f

(—p)2 (-1)+1)2 (f_l)2 j2

• • • • • (_ _ p+i)d

d (f . _ 1)(1 f d 0 0

On peut remarquer à cette occasion que toute moyenne mobile symétrique qui conserve les polynômes de degré 2d conserve aussi les polynômes de degré 2d+1.

1.2.2. En termes d'élimination de saisonnalités :

Les saisonnalités sont souvent "modélisées" par des fonctions périodiques de période k (4 pour une série trimestrielle ....); dans le cas d'un modèle de composition additif, les coefficients saisonniers sont en outre supposés être de somme nulle. Ces fonctions engendrent alors un sous espace vectoriel de dimension k-1 dont il est facile d'exhiber une base. Ainsi, par exemple, dans le cas trimestriel, on trouve le sous espace engendré par :

[1 -1 0 0 1 -1 0 0 ...] il 0 -1 0 1 0 -1 0 ...1 D 0 0 -1 1 0 0 -I ...J

274 Insee Méthodes n°56-57-58

Page 278: actes des journées de méthodologie statistique

L'annulation de telles séries introduit donc des contraintes sur les coefficients de la moyenne mobile qui s'expriment matriciellement : C A = cx , où C est la matrice (k-1,p+f+1) dont les lignes sont les vecteurs de base ci-dessus et où oc est la matrice nulle de dimensions (k-1,1).

Par ailleurs, nous verrons plus loin (11.2.2 et Annexe 1) qu'il est possible de traiter le cas de saisonnalités variant linéairement (ou polynômialement) avec le temps.

1.2.3. en termes de réduction du bruit :

Le résidu, dans la décomposition de la série brute, est souvent modélisé sous la forme d'un bruit blanc, suite de variables aléatoires (et) ) d'espérance nulle, non corrélées, et de même variance 62. Ce bruit blanc est transformé par la moyenne mobile en une suite

de variables aléatoires ( et* ), de même variance égale à :

i=+f

G*2 = 0214 12 i=-p

Diminuer la composante irrégulière revient donc à diminuer la quantité :

Cette quantité figurera, dans les tableaux et exemples présentés par la suite, sous le nom de Bongard.

1.3. Quelques effets indésirables des moyennes mobiles

1.3.1 L'effet Slutsky-Yule

La transformation du bruit blanc (Et) par une moyenne mobile donne un processus

aléatoire (El ) corrélé dans le temps. En effet, le coefficient d'autocorrélation d'ordre k (k entier naturel non nul) est :

Moyennes mobiles centrées et non centrées 275

Page 279: actes des journées de méthodologie statistique

i = +f j =+f

E E oi 0; cov ( Et + i + k + j ) COv (E7 , et+k) i=-p j=--p p( k )

072 =+f 62 02

j ■

i = j =

E ei eJ E (Et + i, st+k+j)

( i-=+f

62

0;.'

j f - k

Ojej+k

i= i=+f

(3 i=-p

si k

O sinon

Cette corrélation entre p+f termes consécutifs du processus ( E!) introduit des oscilla-tions parasites. Il est impossible de les éliminer mais on peut les atténuer en réduisant la variance résiduelle. Par ailleurs, la "périodicité" de ces oscillations est aléatoire; il est cependant possible d'en estimer la valeur moyenne qui figurera, dans les tableaux et exemples présentés par la suite, sous le nom de PÉRIODE.

1.3.2 Effet d'amplitude et effet de phase

La transformation par une moyenne mobile d'une série géométrique d'amplitude variable produit des effets "parasites" d'amplitude et de phase.

27c Soit la série: Xt = p* ei t, où (1) = —T avec T >

alors on a, par transformation par la moyenne mobile MM :

276 Insee Méthodes n°56-57-58

Page 280: actes des journées de méthodologie statistique

k=f k=f

X*c = MMXt = Ok Xt k = 8k pk ei cok pt ei co t

k=-p k=-p

( k=f ok pk ei (.0 Xi

k= -p

k=f

Si a et cp désignent respectivement le module et l'argument de

obtient : X t* = a p' ei (w t

iwk ek pk e , on kz-p

On a donc un effet d'amplitude (a) et un effet de phase ((p). L'effet de phase est inhérent aux moyennes mobiles non symétriques, sauf à ajouter, dans leur construction, une contrainte sur leurs coefficients de la forme :

k=f

Ok pk sin w k = 0 k=--p

Pour une moyenne mobile symétrique (p=f=m) avec p =1, on a :

k=f k=m 8keiw(t+k)=(00+2

k=-p k=1

Ok cos w k) ei OE' t

Dans ce cas, on a cp = 0, c'est-à-dire pas d'effet de phase, ou cp =1-1, c'est-à-dire k=m

opposition de phase, et l'effet d'amplitude vaut 1(00 + 2 1 Ok cos w k)et œ t k=1

1.4. Résolution d'un problème de minimisation d'une forme quadratique sous contraintes

Soit 8 le vecteur de dimension (p+f+1,1) dont les coordonnées sont les coefficients inconnus de la moyenne mobile recherchée. Soient en outre les matrices connues w , S2, C , et a „et , de tailles respectives (p+f+1,1), (p+f+1,p+f+1), (k,p+f+1) et (k,1).

Moyennes mobiles centrées et non centrées 277

Page 281: actes des journées de méthodologie statistique

S2 est supposée symétrique, définie, positive et C est supposée de plein rang. On s'intéresse à la résolution du problème de minimisation sous contraintes du type :

(Min t (0 - w ) (0 - w)

sous C 0 =

La solution unique de ce problème classique est :

0 S2 -1 t C (CS2-1 eC) ( - Cw ) +

Bien entendu, la résolution de ce problème suppose que l'on n'ait pas plus d'équations que d'inconnues et donc que le nombre de contraintes indépendantes sur les coefficients résumées dans la matrice C (soit k) est inférieur ou égal à l'ordre de la moyenne mobile (soit p+f+l). Dans le cas où il y aurait égalité, la contrainte détermine pleinement la solution et il n'y a plus de problème d'optimisation ; d'ailleurs C est alors une matrice

inversible et 0 = C-1 a.

II - Génération de moyennes mobiles symétriques classiques

ILL Les moyennes mobiles arithmétiques simples

L'exemple de moyenne mobile le plus simple est classiquement obtenu en supposant que celle-ci conserve les constantes tout en diminuant au maximum l'importance de la perturbation. Cette réduction de la composante irrégulière est mesurée par la quantité i

02i .Cela équivaut, dans les termes du problème d'optimisation évoqué, à i = -p prendre une matrice 1-2 égale à la matrice identité. Par ailleurs, on a ici :

0 0

C=[11 11i , w= et a,[1]

278 Insee Méthodes n°56-57-58

Page 282: actes des journées de méthodologie statistique

On obtient alors les moyennes arithmétiques simples, dont tous les coefficients sont égaux à l'inverse de l'ordre de la moyenne mobile. La symétrie de la solution, obtenue dès que la moyenne recherchée est supposée centrée, permet en plus d'affirmer que ces moyennes mobiles conservent aussi les droites.

On peut aisément vérifier qu'une moyenne mobile arithmétique simple d'ordre m élimine les fonctions périodiques de période m, et qu'elle peut-être obtenue, en supposant toujours que la moyenne des coefficients saisonniers est nulle, avec :

1 1 1 .. 1 1 —1 0 0 .. 0

C= 1 0 —1 0 ... 0 et cx

0 ... 0 0

C'est cette optique qu'il est préférable de privilégier, comme nous allons le voir immédiatement, si on veut généraliser le mode de construction de ces moyennes.

11.2. Les compositions de moyennes mobiles simples

11.2.1. Les compositions de moyennes mobiles simples de type mxn

Dans le logiciel Census XI I, des moyennes composées à partir de moyennes mobiles arithmétiques simples sont utilisées pour estimer la série des coefficients saisonniers; elles sont notées 3x3, 3x5, 3x9 ...ces notations indiquant qu'une moyenne mobile arithmétique simple d'ordre 3 est appliquée à la série puis, sur cette série lissée, une moyenne mobile simple d'ordre 3 ou 5 ou 9.

Il suffit alors, pour construire ces moyennes, de choisir le même critère de réduction de la variance que précédemment en mettant dans la matrice C les contraintes d'annulation de saisonnalités ad hoc. On aboutit alors, par exemple, à des moyennes comme celles présentées dans le tableau 1.

11.2.2. Annulation de saisonnalités variant polynômialement avec le temps

L'hypothèse de stabilité de la saisonnalité dans le temps est parfois peu justifiée et on est amené à modéliser cette évolution de la façon suivante :

Moyennes mobiles centrées et non centrées 279

Page 283: actes des journées de méthodologie statistique

( a0 +a l t+ + ad t

d` ur

où (ut) désigne une fonction périodique de période b. Si l'on cherche alors une moyenne mobile d'ordre p+f+l annulant ce type de saisonnalités, on montre (voir annexe 1 pour un calcul général détaillé) que les coefficients de la moyenne mobile doivent vérifier, en supposant p+f+1=nb :

Vl<=f—b+ I,f—b+ 9 ,f —

= n - 1 j = n - I

Ok-jb — Oj --/b= 0 J=0 1=0

j = n- 1 j=n - I

( k - jb ) Ok- jb (f-jb) 01- jb

j=0

j=0

= n —1

k - jb ) d ek- jb j=0

j = n - 1

(f - ib) d Ok- jb = 0 k = 0

L'annulation de fonctions périodiques de période 4 variant quadratiquement avec le temps conduira donc à 9 contraintes. Le tableau 1 présente quelques exemples de telles moyennes mobiles composées à partir de moyennes mobiles simples. Trois moyennes notées M4x4x5 figurent dans ce tableau. Les deux premières ont les mêmes propriétés d'élimination des saisonnalités d'ordre 4 variant linéairement avec le temps et les saisonnalités d'ordre 5 : seul leur nombre de termes diffère. La troisième, outre ces mêmes propriétés, conserve les polynômes de degré 3 (voir ci-après).

Mnxp désigne la composée de deux moyennes mobiles arithmétiques simples d'ordre n et d'ordre p, Sp15 désigne la moyenne mobile de Spencer sur 15 termes, conservant les polynômes de degré 3 et annulant les saisonnalités d'ordre 4 variant linéairement avec le temps et d'ordre 5.

La quantité notée Henderson désigne la valeur du critère de Henderson (voir II-4).

280 lnsee Méthodes n°56-57-58

Page 284: actes des journées de méthodologie statistique

Tableau 1 : Moyennes mobiles simples composées éliminant diverses saisonnalités

I M3x3 M3x5 M3x7 M4x4x5

0,013 0,038 0,075 0,125 0,163 0,175 0,162 0,125 0,075 0,037 0,013

0,002 0,129

20,107

M4x4x5 (1)

0,045 0,058 0,083 0,120 0,080 0,072 0,084 0,072 0,080 0,120 0,083 0,058 0,045

0,066 0,084

16,284

Sp15 - 0,009 - 0,019 - 0,016

0,009 0,066 0,144 0,209 0,231 0,209 0,144 0,066 0,009

- 0,016 - 0,019 - 0,009

0,006 0,193

M4x4x5 (2) - 0,038

0,010 - 0,016

0,009 0,123 0,115 0,180 0,231 0,180 0,115 0,123 0,009

- 0,016 0,010

- 0,038 0,318 0,179

11,739

-7 - 6 - 5 - 4 - 3 -2 - 1 0 1 2 3 4 5 6 7

Henderson Bongard Période

0,111 0,222 0,333 0,222 0,111

0,148 0,235

11,030

0,067 0,133 0,200 0,200 0,200 0,133 0,067

0,036 0,164

15,496

0,048 0,095 0,143 0,143 0,143 0,143 0,143 0,095 0,048

0,018 0,125

18,936 Mn x p désigne la composéé de deux moyennes mobiles arithmétiques simples d'ordre n et d'ordre p. Sp15 désigne la moyenne mobile de Spencer sur 15 termes, conservant les polynômes de degré 3 et annulant les saisonnalités d'ordre 4 variant linéairement avec le temps et d'ordre 5. La quantité notée henderson désigne la valeur du critère de Henderson (voir 2-4)

11.3. Les moyennes mobiles de Kendall et Stuart

De façon tout à fait naturelle, on peut souhaiter généraliser le premier procédé de construction des moyennes mobiles arithmétiques simples en cherchant des moyennes qui conservent les polynômes de degré d, Il faut tout d'abord remarquer que cette propriété de conservation de polynôme est locale: il suffit qu'une série soit localement, c'est-à-dire sur toute période de longueur l'ordre de la moyenne mobile, assimilable à un polynôme de degré d pour qu'elle soit conservée par la moyenne mobile.

Kendall et Stuart se sont intéressés à ce problème en le resolvant par une technique de "régressions mobiles", Sur tout ensemble de 2p+1 points consécutifs de la série, on ajuste un polynôme de degré d : la valeur ajustée au centre de cet ensemble de points représentera la valeur de la série lissée à cet instant. Ils montrent par ailleurs que cette méthode revient à appliquer à la série de départ une moyenne mobile ad hoc, dont les coefficients ne dépendent que du degré du polynôme choisi et du nombre p.

En fait, et c'est l'objet de l'annexe 2, on peut montrer que cette approche est complè-tement équivalente à résoudre un problème de minimisation, le critère étant celui de

Moyennes mobiles centrées et non centrées 281

Page 285: actes des journées de méthodologie statistique

Bongard, de minimisation de la variance résiduelle, et les contraintes celles inhérentes à la conservation d'un polynôme de degré d. Comme précédemment donc la matrice est la matrice identité et on a par ailleurs, pour une moyenne centrée d'ordre 2p+1 :

0 1 0 1 1 1 1

0 - p+i p- 1 f

2 2

a= ,w C P)2 P +1 ) (p -1) f 2

py-1 _ p+1)(1-1 (p_1)d-1 pd - 1

0 0 (19-1)d pd

Là encore, on pourrait imposer en outre à la moyenne mobile d'éliminer par exemple certaines saisonnalités ; on retrouverait alors l'approche développée par Bongard en 1962 dont les résultats précédents sont des cas particuliers.

11.4. Les moyennes mobiles de Henderson

Les moyennes mobiles de type "Henderson" sont surtout utilisées pour lisser une série, L'estimation de la tendance doit donc être une courbe lisse, Une base de l'ensemble des séries étant constituée des séries définies par :

l si t = t

X t ( to ) si 10 tu t 0

il suffit d'imposer que les transformées de ces séries par la moyenne mobile soient souples, Ces séries transformées sont, à une translation des temps près, égales à la série des coefficients de la moyenne mobile :

. 0 0 0-p 0-p+1 Op -.1 Op 0 0 ...

Il suffit donc d'imposer à la courbe des coefficients de la moyenne mobile d'être souple, Henderson a proposé d'utiliser comme critère de "souplesse" la quantité :

-

282 Insee Méthodes n°56-57-58

Page 286: actes des journées de méthodologie statistique

1 —p+1

p +02

20 —15

6 —I

0

0

—15 20

—15 6

—1

0

1

P-1 (1,-1)2

6 —15

20—15

6

0

1

p p2

[11 loi w (3,1) = Loi (2p + 1)

0 0

6 —I 0 —15 6 —1

20 —15 6 —15 20 —15

0 —15 20

0

C • _ (3,2p + 1)

1 —p

(— /3)2

(2p + 1,2p + 1) =

( v 3 o)2

où V représente l'opérateur différence première,(VXi = Xt - X1-1)

Plus cette quantité est faible, plus la série transformée par la moyenne mobile est jugée souple. Cette quantité est notée Henderson dans les tableaux proposés. De plus, les moyennes mobiles de Henderson sont supposées restituer correctement des polynômes de faible degré. Ainsi, dans le logiciel Census X11, des moyennes mobiles de Henderson symétriques sur 5, 7, 9, 13 ou 23 termes, et conservant les polynômes de degré 2, sont utilisées selon les cas (et en particulier selon la périodicité de la série).

Si on cherche par exemple à retrouver la moyenne mobile de Henderson symétrique sur 2p +1 termes, qui conserve donc les polynômes de degré inférieur ou égal à 3, les paramètres de notre problème de minimisation seront :

11.5. De Bongard à Henderson

On peut avoir l'idée (comme dans [5]) de mélanger en quelque sorte les deux critères et de construire des moyennes mobiles "conciliant" la réduction de bruit et le pouvoir de lissage de la série, C'est ce que nous avons fait en considérant une combinaison convexe des deux critères, et en résolvant donc le problème :

Min — w ) [k + (1 — k)I](0 — C8= a

sous

Moyennes mobiles centrées et non centrées 283

Page 287: actes des journées de méthodologie statistique

où k est une constante comprise entre 0 et 1, I et S2 désignant les matrices associées respectivement aux critères de Bongard et Henderson. Ce programme se résoud de la même façon que précédemmént et, à titre d'exemple, le tableau 2 présente, pour des valeurs de k augmentant de 0,1 en 0,1, les moyennes mobiles centrées d'ordre 9 conservant les polynômes de degré 2. Sur cet exemple, on constate que le pouvoir de "lissage" représenté par le critère de HENDERSON s'améliore très rapidement dès que le degré de "contamination" du critère de BONGARD atteint 10 à 20%.

La notation Sp signifie que la moyenne mobile a été obtenue avec une valeur de k égale à p/10. La valeur i= 0 correspond à l'instant t présent.

11.6. Les moyennes mobiles de Spencer

Une moyenne mobile comme l'une des deux premières M4x4x5 présentées ci-dessus a de bonnes propriétés en termes d'élimination de saisonnalités mais, en termes de restitution de tendance, ne restitue que les droites. Au début de ce siècle, le problème du lissage préoccupait beaucoup les actuaires qui cherchaient en particulier à lisser les courbes de mortalité et ce, de façon simple, les contraintes matérielles de temps de calcul étant, à cette époque, fondamentales. Ainsi, Spencer a utilisé ce principe de composition de moyennes mobiles à coefficients simples, ce qui assure une succession de calculs simples, et a cherché une moyenne mobile qui, appliquée après une 4x4x5, corrigerait les défauts, en termes de lissage, de cette dernière. Remarquons en outre que si on utilise une moyenne symétrique qui permettrait à la composée de tout cela de conserver les paraboles, cette résultante conserverait naturellement aussi les cubiques.

Tableau 2 :

Moyennes mobiles centrées de Bongard et Henderson

I SO Si S2 S3 S4 S5 S6 S7 S8 S9 S10 -4 -0,091 -0,063 -0,055 -0,050 -0,04 -0,04 -0,044 -0,04 -0,044 -0,041 -0,041 -3 0,061 0,015 0,005 0,000 -0,00 -0,00 -0,006 -0,00: -0,00• -0,009 -0,01 • -2 0,169 0,154 0,142 0,135 0,13* 0,12 0,124 0,12 0,121 0,119 0,11: -1 0,234 0,252 0,257 0,260 0,26 0,26 0,264 0,26 0,26 0,266 0,26 0 0,255 0,284 0,300 0,310 0,31 ^ 0,32* 0,323 0,32 0,32: 0,330 0,331 1 0,234 0,252 0,257 0,260 0,26'4 0,26 0,264 0,26 0,26^ 0,266 0,26 2 0,169 0,154 0,142 0,135 0,13• 0,12 0,124 0,12 0,121 0,119 0,11: 3 0,061 0,015 0,005 0,000 -0,00 -0,00 -0,006 -0,00 -0,00• -0,009 -0,01 le 4 -0,091 -0,063 -0,055 -0,050 -0,04 -0,04 -0,044 -0,04 -0,044 -0,041 -0,041

HENDERSON 0,402 0,126 0,091 0,078 0,07, 0,071 0,069 0,06 0,06: 0,068 0,06 BONGARD 0,255 0,263 0,269 0,273 0,276 0,27: 0,279 0,281 0,28 0,283 0,28 MIXTE 0,255 0,249 0,233 0,214 0,194 0,17 0,153 0,13 0,11 0,089 0,06

PÉRIODE 10,13 11,27 11,32 11,26 11,20 11,15 11,10 11 ,0. 11,0 11,00 10,9:

284

lnsee Méthodes n°56-57-58

Page 288: actes des journées de méthodologie statistique

On peut montrer (voir [4] pour un calcul analogue) que si on cherche une moyenne d'ordre 3, symétrique, de coefficients (a,b,a) et qui, appliquée à notre M4x4x5, conduit à une moyenne mobile générale conservant les cubiques, il faut que a et b vérifient :

2a+b= 1 22a + 9b = 0

Ce qui conduit à la solution unique —1

[ -- 9, 22, — 9] correspondant à la moyenne notée 4-

M4x4x5 (1) du tableau I.

Les propriétés de lissage de cette moyenne n'ont pas paru suffisantes à SPENCER qui a cherché une moyenne mobile d'ordre 5 conduisant aux mêmes propriétés. Si cette moyenne, symétrique, admet pour coefficients (a,b,c,b,a), on peut montrer (voir [4] pour un calcul analogue) que a, b et c doivent vérifier le système :

2a+2b+c=1 34a + 22b + 9c = 0

Ce qui conduit à un ensemble moyennes mobiles de coefficients :

1 —12 [2c — 11, 17 — 8c, 12e, 17 — 8c, 2c — 11]

parmi lesquelles Spencer a privilégié la moyenne 12

[— 9, 9, 12, 9, —9] obtenue pour

c=1. La moyenne de Spencer sur 15 points ainsi obtenue figure dans le tableau 1, A titre de comparaison figure, dans ce même tableau, sous le nom M4x4x5 (2), la moyenne mobile sur 15 points ayant les mêmes propriétés que la moyenne de Spencer, et minimisant le critère de Bongard : elle est obtenue pour c voisin de -13. De même, la moyenne mobile sur 15 points ayant les mêmes propriétés que la moyenne de Spencer, et minimisant le critère de Henderson est obtenue pour c voisin de 0,7, ce qui montre la proximité des approches de Spencer et Henderson.

III - Génération de moyennes mobiles non centrées

Dans la pratique, les moyennes mobiles symétriques sont préférées aux moyennes mobiles asymétriques parce qu'elles présentent, dans leur application, moins d'effets pervers, notamment en ce qui concerne les effets d'amplitude et de phase. Malheureu-sement, si on lisse une série avec une moyenne mobile centrée d'ordre 2p+1, on ne disposera pas d'estimation de la série lissée pour les p premiers et les p derniers instants,

Moyennes mobiles centrées et non centrées 285

Page 289: actes des journées de méthodologie statistique

ce qui est pour le moins génant. Dans la pratique, on serait donc conduit à utiliser des moyennes non centrées pour effectuer ces estimations. Notons, dès à présent, que les problèmes d'amplitude et de phase évoqués ci-dessus sont dans ce cas moins cruciaux dans la mesure où il s'agit, non de lisser la série dans son ensemble, mais d'estimer quelques points. En fait, à notre connaissance, il n'y a que dans le programme de désaisonnalisation Census X11 et ses dérivés que des moyennes mobiles non centrées sont utilisées pour résoudre ce problème ; et encore faut-il reconnaitre que leur mode de génération n'a été que très récemment retrouvé (voir [2]), même s'il existe de bonnes études sur les propriétés de ces moyennes (voir LAROQUE [7] et WALLIS [1 1]).

III.1.Deux générations "naturelles" de moyennes mobiles non centrées

Une première idée très naturelle est d'utiliser, pour ces estimations, des moyennes mobiles centrées (et même symétriques) d'ordre inférieur, Par exemple, si notre série a été lissée par une moyenne mobile de Henderson sur 9 termes et si T est le dernier instant de la série, on pourrait estimer la valeur de la série lissée en T-4 par une Henderson sur 7 termes, la valeur en T-3 par une Henderson sur 5 termes . Malheureu-sement, cette idée se heurte à plusieurs problèmes. Tout d'abord, le cas du dernier instant d'observation n'est pas résolu et nous n'aurons toujours pas d'estimation pour cette date. Ensuite, si notre exemple permet d'utiliser des moyennes mobiles d'ordre

Tableau 3 :

Moyennes mobiles d'ordre 9 de Henderson conservant les polynômes de degré 2 et 3

I H4_4 D5 3 D62 D7_1 D8_0 T5_3 T6 2 T7:1 T8_0 -8 0,143 -0,132 -7 0,041 0,118 0,024 0,069 -6 -0,024 0,015 -0,121 0,055 0,012 0,278 -5 -0,051 -0,041 -0,071 -0,346 0,015 -0,026 -0,046 0,104 -4 -0,041 -0,049 -0,015 -0,114 -0,302 -0,037 -0,129 -0,086 -0,302 -3 -0,010 0,048 0,065 -0,025 0,046 -0,048 -0,064 -0,025 -0,403 -2 0,118 0,192 0,173 0,179 0,466 0,083 0,173 0,151 0,067 -1 0,267 0,292 0,260 0,369 0,622 0,292 0,389 0,344 0,672 0 0,331 0,289 0,279 0,393 0,373 0,398 0,393 0,396 0,648 1 0,267 0,195 0,211 0,214 0,292 0,197 0,231 2 0,118 0,077 0,092 0,065 0,013 3 -0,010 0,007 -0,059 4 -0,041

HEN DERSON 0,067 0,042 0,029 0,209 0,889 0,205 0,257 0,220 3,684 BONGARD 0,283 0,257 0,235 0,389 1,006 0,347 0,399 0,362 1,240 PÉRIODE 10,975 11,860 12,881 9,166 7,570 9,169 8,695 9,245 5,810

286

Insee Méthodes n°56-57-58

Page 290: actes des journées de méthodologie statistique

inférieur ayant les mêmes propriétés en termes de conservation de tendances, il n'en serait pas de même pour d'autres types de moyennes mobiles ; ainsi, des moyennes mobiles arithmétiques simples éliminent des saisonnalités différentes selon leur ordre. Et enfin, il est assez intuitif de comprendre que plus l'ordre de la moyenne mobile est grand, plus l'effet de rabot de la moyenne sera important; changer cet ordre conduit donc à moins lisser la fin de la série que la partie centrale et il n'est pas évident a priori que ce soit souhaitable.

Une seconde idée découle du fait que la résolution du problème de minimisation d'une forme quadratique sous contraintes qui permet de déterminer les coefficients d'une moyenne mobile ne nécessite pas l'hypothèse que la moyenne mobile soit centrée, KENDALL (voir [6]) puis BONGARD (voir [ 1 ]) avaient d'ailleurs déjà utilisé cette idée et imaginé de telles moyennes mobiles non-centrées, À titre d'exemple, le tableau 3 présente les coefficients des moyennes mobiles de Henderson non centrées d'ordre 9 qui permettraient d'estimer les 4 derniers points d'une série lissée avec une Henderson centrée sur 9 termes ; on a choisi d'y faire figurer des moyennes conservant les polynômes de degré 2 (notés D) ou 3 (notés T). La moyenne mobile centrée de Henderson conservant les polynômes de degré 2 étant symétrique, elle conserve aussi les cubiques, Il est curieux de constater que, sur cet exemple, il vaut mieux utiliser pour lisser une courbe, du point de vue des critères de Henderson et Bongard, une moyenne de type D6_2, donc non centrée, plutôt qu'une moyenne centrée.

La notation p_f signifie que la moyenne mobile est d'ordre p+f+l avec p termes dans le passé et f termes dans le futur. La valeur i=0 correspond à l'instant t présent. Les moyennes D (respectivement T) conservent les polynômes de degré 2 (respectivement 3).

111.2. Les moyennes mobiles non centrées de Musgrave

111.2.1. La démarche initiale de Musgrave

Musgrave a cherché à résoudre ce problème d'estimation des données les plus récentes dans le cadre de la désaisonnalisation et, plus précisément, pour la mise au point du logiciel X11 qui, entre autres, utilise pour estimer la tendance de la série, des moyennes mobiles de Henderson et des moyennes composées de moyennes mobiles arithmétiques simples pour l'estimation des saisonnalités. L'idée de base de Musgrave est que les estimations des derniers points, faites grâce à la moyenne mobile non centrée, devraient être le moins possible révisées lorsque sera disponible l'information à la date T+1.

Pour cela, il pose les hypothèses suivantes :

Moyennes mobiles centrées et non centrées 287

Page 291: actes des journées de méthodologie statistique

la série peut se modéliser linéairement sous la forme : X= a + bi + si où a et b sont des constantes, et les £i sont des variables aléatoires non corrélées, de moyenne nulle et de

variance 62.

On dispose d'une série de poids wi, w2, ,wN de somme égale à I (c'est en fait

par exemple notre moyenne mobile centrée de Henderson) et on cherche une série de poids ui, u2, ,u m, avec m < N, de somme égale à 1.

Cette nouvelle moyenne mobile doit en outre minimiser les révisions des estimations,

~i =m i =N 9

c'est-à-dire, par exemple, minimiser le critère : E uiXi -

i =1

Sous ces hypothèses, on montre (voir [2] pour le calcul détaillé) que les poids peuvent b2

être calculés en fonction du rapport D = Malheureusement, la valeur de D est a

inconnue mais Musgrave fait remarquer que le choix de l'ordre des moyennes mobiles

de Henderson dans X11 se fait à partir de la valeur du rapport M = I oui désigne la

moyenne des variations absolues au mois le mois dans la partie irrégulière de la série C et désigne la moyenne des variations absolues au mois le mois dans la tendance de la série, En supposant la normalité des E, , on montre alors que :

Tableau 4 :

Moyennes mobiles non centrées d'ordre 9 de Musgrave correspondant à une moyennes de Henderson

I H4_4 M4_3 M4_2 M4_1 M4_0 -4 - 0,041 - 0,031 - 0,023 - 0,049 - 0,156 -3 - 0,010 - 0,004 - 0,000 - 0,011 - 0,034 -2 0,118 0,120 0,120 0,126 0,185 -1 0,267 0,264 0,259 0,282 0,424 0 0,331 0,324 0,315 0,354 0,580 1 0,267 0,255 0,242 0,298 0,000 2 0,118 0,103 0,086 0,000 0,000 3 - 0,010 - 0,030 0,000 0,000 -0,000 4 - 0,041 0,000 0,000 0,000 -0,000

HENDERSON 0,067 0,00 0,060 0,432 2,750 BONGARD 0,283 0,266 0,248 0,312 0,576 PÉRIODE 10,975 10,786 11,253 9,064 6,451

288

Insee Méthodes n°56-57-58

Page 292: actes des journées de méthodologie statistique

4 i Y' D =—

TC M,

ce qui permet, pour des valeurs particulières de M, de déduire les moyennes mobiles non centrées solutions. À titre d'exemple, le tableau 4 donne ces moyennes mobiles pour une valeur de M égale à 1, valeur pour laquelle X11 choisit une moyenne mobile de HENDERSON centrée sur 9 ternies pour la partie "centrale" de la série.

La notation Mp_f signifie que la moyenne mobile est d'ordre p+f+1 avec p termes dans le passé et f termes dans le futur, La valeur i=0 correspond à l'instant t présent.

Cette approche est aussi valable, selon [9] et [10], pour les moyennes mobiles compo-sées utilisées dans X11 pour traiter les saisonnalités (moyennes 3x3, 3x5, 3x9 ...) ; il

suffit dans cette démonstration, de remplacer le rapport — par le rapport dit "ratio de

saisonnalité mobile où I désigne toujours la moyenne des variations absolues au

mois le mois dans la partie irrégulière de la série S et désigne la moyenne des variations absolues au mois le mois dans la saisonnalité de la série.

111.2.2. Généralisation de cette approche

Nous allons montrer à présent que cette démarche peut se généraliser et se mettre sous la forme envisagée dans cette note, Pour cela, on peut envisager une modélisation polynômiale de degré d de la série brute :

=ani+ali+a 2i 2 + + ad id + ei pour i { —p,—p +1, ,f- I ,./e l

Ce qui peut s'écrire matriciellement :

X = Ar3 +

avec

A (p+ f + d + I )

Moyennes mobiles centrées et non centrées 289

Page 293: actes des journées de méthodologie statistique

Ef

ap

ai

R (d+ lm

E = (p + +1,1)

Soient en outre w le vecteur des coefficients de la moyenne mobile d'ordre p+f+1 ayant servi à lisser la partie centrale de la série et u le vecteur des coefficients de la moyenne mobile non centrée recherchée. Comme le montre le tableau précédent, on peut toujours supposer que cette moyenne mobile est d'ordre p+f+1 si on ajoute une condition de nullité des derniers coefficients. Le critère de Musgrave s'écrit alors :

= i = f 2

E ui — wi Xi = E[ t(u—w) X' X ( u— w ) i= -p i= -p

E [t(u — wS2 ( u —w )

avec

= Xi X = E ((.,413 + E)i (43+ E)) = AR tR r A + 62 1

puisque E (E) = 0 et Var (E) = cs2 I

La matrice f2 est une matrice définie positive d'ordre p+f+l, comme il est immédiat de le vérifier.

Il suffit donc à présent d'inclure dans la matrice des contraintes C la nullité de certains coefficients ui ainsi que le fait que la somme des coefficients est égale à 1. La matrice C, de plein rang, s'écrit alors :

C = .0 ... 0 1 0 0 ... 0 0 1

ad_

290 Insee Méthodes n°56-57-58

Page 294: actes des journées de méthodologie statistique

111.2.3. Quelques remarques

On peut alors imaginer la démarche suivante : une fois fixé le degré du polynôme auquel est supposée s'adapter la série brute, on estime par les moindres carrés ordinaires les coefficients du polynôme, soit la matrice f3 et la variance des perturbations, soit la

quantité 62. La matrice 4 est alors déterminée et on peut calculer automatiquement les coefficients ui de la moyenne mobile non symétrique.

Reprenons le cas traité par Musgrave, où w est une moyenne mobile de Henderson. Il est facile de constater que si on impose à u de conserver, non plus les constantes, mais les droites, alors u ne dépend plus de la série initiale. En effet, on a alors, à cause des contraintes sur les coefficients de u et w imposées par leurs propriétés de conservation de tendances :

-2

tf . Ui

= -p

= Ar f

= -12

i=tf tif. i =tif i=+f =Hf

= a lui — a I + — b iwi E

-p i -p i= -p i = -p i= -p

-2

(ui - Wi) i -p

= 1( u-w)El E (u -

puisque = = 1 et 1 =E -=0 -17

Et, si on prend l'espérance de cette quantité, on trouve: 62 t (u-w) (u-w), La minimisa-

tion de ce critère ne dépend alors plus de 62e Par ailleurs, on retrouve ici une formulation du problème voisine de l'approche de Kendall et Stuart : on s'intéresse à un problème de régression locale (ici on ajuste à une droite) en imposant en outre à la moyenne

Moyennes mobiles centrées et non centrées 291

Page 295: actes des journées de méthodologie statistique

mobile d'une part d'avoir certains coefficients nuls et, d'autre part, d'être "proche" de la moyenne mobile w initiale.

Il est difficile de comprendre pourquoi, si ce n'est pour des raisons de calcul, Musgrave s'est cantonné à des hypothèses si "restrictives" qui l'amènent à construire des moyen-nes mobiles dépendant de façon un peu curieuse de la série : le critère M explicité plus haut est en effet calculé sur l'ensemble de la série et, si de ce fait il peut être utilisé pour choisir l'ordre de la moyenne mobile lissant la partie centrale de la série, il est par nature beaucoup moins robuste pour les données les plus récentes.

Dans le cas particulier donc où la moyenne "centrale" w est une moyenne mobile de Henderson, il nous parait donc plus efficace de chercher une moyenne mobile non centrée dont certains coefficients sont eventuellement nuls, conservant les polynômes de degré 2 (comme la moyenne w, ce qui équivaut à supposer que la série est localement assimilable à ce type de fonction) et "proche" de w au sens où elle minimise le critère t(u-w) (u-w).

111.3. En résumé

À partir d'une moyenne mobile MM donnée, d'ordre p+f+1, le problème des extrémi-tés de série se ramène donc à celui de la génération de moyennes mobiles non centrées permettant d'estimer les points manquants. Deux cas se présentent en pratique :

On ne connaît rien sur la moyenne mobile MM, c'est-à-dire rien d'autre que ses coefficients et en tout cas pas ses propriétés en termes de conservation de tendance, de lissage, d'élimination de saisonnalités, de réduction de variance. Dans ce cas, il parait assez naturel de chercher des moyennes Uk , (k=1 f si on s'intéresse aux 'instants les plus récents), les plus proches possibles de MM au sens où elles minimisent le critère t(u-w) (u-w), w désignant ici le vecteur des coefficients de MM, et ayant k coefficients nuls, Evidemment, il est toujours possible d'imposer à ces moyennes mobiles d'autres propriétés, par exemple celles de la moyenne "initiale" MM que l'on pourrait retrouver à partir de ses coefficients (vérifier que la somme des coefficients est égale à 1....).

Le second cas est plus simple dans la mesure où on suppose que l'on connaît, sinon le type de la moyenne mobile, au moins le pourquoi de son utilisation. On peut alors en connaissance de cause choisir les contraintes et éventuellement le critère.

Le tableau 5 montre le résultat, à partir d'une moyenne mobile de Henderson centrée sur 9 termes, de ces possibilités, en se restreignant aux moyennes mobiles permettant d'estimer le premier point manquant :

H4_4 désigne cette moyenne mobile conservant les polynômes de degré 2.

292 Insee Méthodes n°56-57-58

Page 296: actes des journées de méthodologie statistique

Tableau 5 : Moyennes mobiles non centrées d'ordre 9 associées à une moyenne de Henderson.

I H4_4 M1_4_3 M2_4_3 M3_4_3 D5_3 H4_3 -5 - 0,051 -4 - 0,041 - 0,046 - 0,031 - 0,056 - 0,049 - 0,063 -3 - 0,010 - 0,015 - 0,004 - 0,008 0,048 - 0,021 -2 0,118 0,113 0,120 0,131 0,192 0,147 -1 0,267 0,261 0,264 0,282 0,292 0,315 0 0,331 0,326 0,324 0,342 0,289 0,350 1 0,267 0,261 0,255 0,266 0,195 0,231 2 0,118 0,113 0,102 0,099 0,077 0,063 3 - 0,010 - 0,015 - 0,030 - 0,056 0,007 - 0,021 4 - 0,041 0,000 0,000 0,000 0,000

HENDERSON 0,067 0,090 0,101 0,173 0,042 0,112 BONGARD 0,283 0,271 0,266 0,300 0,257 0,305 PÉRIODE 10,975 10,853 10,785 10,135 11,860 10,154

M1_4_3 désigne la moyenne "la plus proche" de H4_4 au sens du critère précédent, n'utilisant que 3 points dans le "futur", et conservant les constantes.

M2_4_3 est calculée de la même façon en rajoutant la contrainte de conservation des droites.

M3_4_3 est calculée de la même façon en rajoutant la contrainte de conservation des polynômes de degré 2.

D5_3 est la moyenne mobile de Henderson non centrée sur 9 termes, conservant les polynômes de degré 2.

Enfin H4_3 est la moyenne mobile de Henderson non centrée avec un coefficient nul.

IV- Un exemple simple d'application

L'indice des prix de détail calculé mensuellement par l'Insee a récemment changé de méthodologie, Ainsi, les phénomènes de soldes, peu ou pas pris en compte par le passé, sont inclus aujourd'hui dans cet indice; les évolutions des prix des produits frais sont désormais prises en compte chaque mois, alors qu'elles étaient lissées auparavant. Ces phénomènes introduisent d'une part une saisonnalité dans l'indice des prix et, d'autre part, une discontinuité dans la série.

Une rétropolation a été possible jusqu'au début de 1990 mais on ne dispose à l'heure actuelle que de 3 ans et demi d'observations. Or, la plupart des logiciels de désaison-

Moyennes mobiles centrées et non centrées 293

Page 297: actes des journées de méthodologie statistique

INDICE DES PRIX DE DÉTAIL

Lissage par moyenne mobile de type Bongard 0,7

0,5

0,3

0,1

-0,1

-0,3

-0,5

(base 1990)

nalisation (dont X11 et X11-ARINIA) nécessitent au moins 5 années pleines d'obser-vations, Il faut donc effectuer une désaisonnalisation "à la main".

Ceci implique donc d'estimer une tendance "lisse", ce qui permet ensuite d'estimer des coefficients saisonniers selon une méthode assez naturelle : On part d'un schéma additif :Xt = Tt + St + Et. On estime Tt à l'aide d'une moyenne mobile appropriée, Par différence, on obtient une première estimation des coefficients saisonniers. Comme pour chaque mois on obtient ainsi plusieurs estimation d'un même coefficient saisonnier, ces valeurs sont synthétisées en une seule, la médiane par exemple, ce qui fournit une seconde estimation des coefficients saisonniers. Enfin, cette estimation est corrigée afin que les coefficients soient de moyenne nulle sur une année,

Les trois graphiques suivants montrent l'importance du choix du critère pour le calcul de la moyenne mobile et donc l'estimation de la tendance.

Le Premier graphique présente le résultat du lissage par une moyenne mobile sur 13 termes, conservant les polynômes de degré inférieur ou égal à 2 et minimisant le critère de Bongard, résultat noté DPRIX_B.

9001 9004 9007 9010 9101 9104 9107 9110 9201 9204 9207 9210 9301 9304

La méthode décrite ci-dessus permet de ne pas perdre d' information aux extrémités de la série. Le lissage est correct à ces extrémités mais semble un peu "chahuté" au milieu.

Le second graphique présente le résultat du lissage par une moyenne mobile sur 13 termes, conservant les polynômes de degré inférieur ou égal à 2 et minimisant le critère de Henderson, résultat noté DPRIX_H. Le lissage est correct au milieu mais un peu "brusque" aux extrémités.

294 lnsee Méthodes n°56-57-58

Page 298: actes des journées de méthodologie statistique

0,7

0,5

-0,1 -

-0,3

-0,5 " I i l l l i l l l I 1111111111_1

9001 9004 9007 9010 9101 9104 9107 9110 9201 9204 9207 92 f 10 9301 9304

111111/11111 111111

9 004 9007 f 9010 '9101 9104 9107 9110 9201 9204 9207 9210 9301 9304 -0,5

9001

INDICE DES PRIX DE DÉTAIL Lissage par moyenne mobile de type Henderson (base 1990)

Le graphique 3 présente enfin le résultat du lissage par une moyenne mobile sur 13 termes, conservant les polynômes de degré inférieur ou égal à 2 et minimisant un critère mixte (mélange de Henderson et de Bongard) dans des proportions 0,5 ; 0,5 résultat noté DPRIX_M. Le lissage parait plus régulier et c'est celui qui a été retenu pour la désaisonnalisation.

INDICE DES PRIX DE DÉTAIL Lissage par moyenne mobile de type mixte (0.5)

(base 1990)

0,7

0,5

0,3

0,1

-0,1

-0,3

Moyennes mobiles centrées et non centrées 295

Page 299: actes des journées de méthodologie statistique

BIBLIOGRAPHIE

[I] BONGARD, J. (1962) : "Quelques remarques sur les moyennes mobiles", dans "L'élimination des variations saisonnières à l'aide de calculatrices électroniques", OCDE.

[2] DOHERTY, M. (1990) : "Note on Musgrave's Method", note interne, Department of Statistics, Wellington, New Zealand.

[3] GOURIEROUX, C. LEGALLO, F. (1981) : "Construction de moyennes mobiles par minimisation sous contraintes d'une forme quadratique des coefficients", Annales de l'Insee, n°42.

[4] GOURIEROUX, C. MciNFORT, A. (1990) : "Séries temporelles et modèles dynamiques", Economica,

[5] GRAY, A., THOMSON, P. (1992) : "Design of Filters for Seasonal Adjustment", pre-print, Department of Statistics and Victoria University, Wellington,New Zealand.

[6] KENDALL, G., STUART, A. (1968) : "The Advanced Theory of Statistics", Griffin, vol,3, chapitre 4.

[7] LAROQUE, G. (1977) : "Analyse d'une méthode de désaisonnalisation : le programme XII du US bureau of Census, version trimestrielle, Annales de l'Insee, n°28, pp 105-127.

[8] MACAULAY, F. (1931): "Smoothing of Time Series", National Bureau of Economic Research.

[9] MUSGRAVE, J. (1964) : "A Set of End Weights to End all End Weights", note interne, US Bureau of Census, Washington.

[10] MUSGRAVE, J. (1964) : "Alternative Sets of Weights for Proposed X-11 Seasonal Factor Curve Moving Averages", note interne, US Bureau of Census, Washington.

[11] WALLIS, K. (1982) : "Seasonal adjustment and revision of current data : linear filters for the X11 Method,". Journal of the Royal Statistical Society A, 145, pp 74-85 .

296 Insee Méthodes n°56-57-58

Page 300: actes des journées de méthodologie statistique

ANNEXE 1

Contraintes sur les coefficients induites par des propriétés d'annulation de saisonnalités variant avec le temps

On cherche ici quelles conditions doivent vérifier les coefficients d'une moyenne mobile MM d'ordre p+f+l pour que celle ci élimine les fonctions périodiques de période b variant linéairement avec le temps. Si (ut) est une série périodique de période b, on supposera en outre qu'elle est de moyenne nulle sur toute période de b instants consécutifs. Le problème peut dans un premier temps s'écrire :

soit une série (Xt) telle que :

Xt = t Ut

(ut) fonction périodique de période b : ut+b = ut

k = b

Ut+ k = 0 Vt

k=1

on cherche une moyenne mobile M, de coefficients {il) i} telle que :

k=+j

MXt = O -k—t+k = 0

k=-p

La difficulté dans le calcul provient du fait que p+f+1 n'est pas forcément un multiple de la période b. On notera :

p+f+1 = nb + Y , où n et T sont les quotient et reste de la division euclidienne de p+f+1 par b,

On a:

k = f k=f-nb k=+f

MXt = Ok + Lit+ k = Ok (t+ ut + k Ok (t+ tit+ k

k=-p k=-p k=f-nb+ I

Moyennes mobiles centrées et non centrées 297

Page 301: actes des journées de méthodologie statistique

k' =f k=f

MXt = E nb (t + k' - nb) ut + k' = Ok (t + k) ut+ k

k=np-p k=f =nb+1

Ceci en posant k' = k + nb et en utilisant la périodicité de ut : ut+k' = ut+k

La première somme correspond aux coefficients Oi qui "débordent" dans le passé un multiple n de la période b (si Â, = 0, cette première somme ne figure pas dans l'expres-sion de MXt), La deuxième somme correspond aux coefficients Oi situés dans l'inter-valle de longueur nb, à partir de 0f, en allant vers le passé :

k=f j=n k=f(j-1)b

Ok (t+k)ut+k = E Ok (t+k)Ut+k

k=f-nb+1 j-1 k=f-jb+1

Si on pose: k' = k (j-1)b, on obtient :

j=n k'=f

E E Ok'- (j-1)b (t+r_(j_i)b)ut" j=I k'=f-b+1

puis, avec j' j-1 et k'=k :

k=f j=n-1 k=f

Ok (t+k)ut+k = Okjb (t+k-jb)Ut+k

k=f-nb+I j=0 k=f-b+l

k=f j=n

E Okjb (t+k-jb)ut+k

k=f-b+1 j=0

et comme :

k=f-1

u( t = - ut i-k

k=f-b+1

on en déduit :

298 Insee Méthodes n°56-57-58

Page 302: actes des journées de méthodologie statistique

k=f k=f j=n-1

Ok (t+ k)ut+k = Ok-jb (t+k-jb)ui+k k=f- nb+ 1 kf-b+1 j=0

k=f-I j=n-1 k=f-1 j=n-1

= z E Ok-jb (t+k-jb)ut+k - Of-jb (t+f - jb)ut+k k=f-b+1 j=0 kf-b+1 j=0

k=f j=n-1

= E Ok-jb (t+k-jb)Of-jb (t+f - jb) Ut+k (a) k=f-b+1 j=0

De même, pour la première somme :

k=f k=f-

Ok-nb (t+k-nb)ut+k = E Ok-nb ( t+k-nb ) Ut+k

k=-p+nb k-p+ nb

k=f-I

- Of- nb (t -nb) + k

k=f-b+1

k=f- I

= Ok-nb (1 k -nb ) ut + k k=f+ I -y (b)

k=f-I

- E O j-nb ( t-Ek - nb ) + k k=f-b+I

Si y= 1, la première partie de la somme ne figure pas, Il faut ensuite additionner (a) et (b), ce qui revient dans (a) à faire varier l'indice j entre 0 et n, en faisant attention de ne pas dépasser l'ordre de la moyenne mobile (ce qui revient à annuler les termes associés aux coefficients Ok-nb tels que k-nb < -p).

En conclusion :

1. Si = 0, on a simplement :

Moyennes mobiles centrées et non centrées 299

Page 303: actes des journées de méthodologie statistique

{ k= f -1 j=n-1 MX1 = E 1, 0k- jb ( t+k-jb) Of - jb ( t +f - jb) ut + k

k f -b+1 j=0

et on obtient donc, pour chaque valeur de k, k = f - b +1, contraintes :

j=n-I

E /0k- jb-Of - jb)= 0 (coefficient de t)

j =0

j = n -1 [ ( k — jb) Ok -jb - ( f-jb) Of - lb] = 0

=0

2. Si , y I on a, pour chaque valeur de k, k=f-b+1„ f-1 :

j =n j = n Ok- jb (p(k - jb ) - Of- jb-= 0 (coefficient de t) (1)

j =0 j=0

j =n j=n Ok - - (p. (k —jb) — jb f jb) = 0 (constante) (2)

1=0 j=0

tp (x)

lo si x < — p 1 si x — p

La généralisation à des polynômes de degré d se fait alors sans problème; on aboutit ,

dans le cas simple y= 0, pour i=1,2, d à b-1 équations :

j = n- I [(k-1b)i0 k- jb ( f-jb)10 -jb] = 0

j=0

On peut remarquer que les équations (1) assurent l'annulation des fonctions périodiques de période b. L'annulation du monôme d'ordre i dans le polynôme est assuré par l'équation "d'ordre i".

,f - 1, deux équations de

(1)

(constante) (2)

300 Insee Méthodes n°56-57-58

Page 304: actes des journées de méthodologie statistique

ANNEXE 2

Régressions rnGlaiies et minimisation sous contraintes du pouvoir de réduction

Il s'agit, dans cette annexe, de montrer que l'approche de Kendall et Stuart consistant à construire des moyennes mobiles à partir de régressions polynômiales locales est un cas particulier de l'approche de Bongard consistant à construire des moyennes mobiles par minimisation sous contraintes du pouvoir de réduction.

1- Optique régressions polynômiales mobiles

L'idée de base repose sur la définition suivante : Une série ( Xt ) est assimilable à un polynôme de degré d, sur tout intervalle de temps de longueur p+f+1,si , ajustant sur chacun de ces intervalles ( t-p, t-p+l, t t+f ) un polynôme de degré d à la série par la méthode des moindres carrés, la valeur ajustée est égale à la valeur vraie à l' instant t : Xt = Xt.

Le polynôme de degré d s'écrit:

api- i+a2i 2 + +adid pour i 1-p,-p+ 1, ...,f - 1,f

Les coefficients sont estimés par la méthode des moindres carrés ordinaires, c'est-à-dire en minimisant la quantité :

[ Xl+ i ao - ai i2 - - ad id ] i=-P

La condition Z = z se réduit alors à t = ao et, comme les estimateurs des moindres carrés sont des combinaisons linéaires des observations, 720 s'écrit sous la forme:

i=+f

a0= xt+i p

Moyennes mobiles centrées et non centrées 301

Page 305: actes des journées de méthodologie statistique

où les réels ni sont indépendants de t, Cette quantité peut être considérée comme la

valeur au point t de la série transformée par la moyenne mobile d 'ordre p+f+1 et de

coefficients 0i. Posons, pour n entier positif ou nul :

i=+f

A„ = in i—,7

Les estimateurs des coefficients s'obtiennent en résolvant le système des équations normales :

i=+f A A A ao Ao + ai Ai + adAd = Xf j

i=-p

A A A aoAl +ai A2 -1- adAd+1 = iX1 + i

i=-p i=+f

, , A , .2, ao al A3 + ad 1-Id+2 = 1 At+ i

i=-p

i= A A A v ao Ad+ ai Ad+1 + ad A2d Af i

i=-p

Soit, en désignant par la matrice colonne des seconds membres des équations, par

S2 la matrice symétrique des An , par A la matrice colonne des coefficients à estimer

et par tv la matrice (1,0,0, „,„0), on a :

S2 A =1-1 soit A = D-IE et donc 'an = I vQ-t om,

En posant enfin I ui =- [1 i i2 id ], on obtient :

0i = 1 v12 -1 ai

302 Insee Méthodes n°56-57-58

Page 306: actes des journées de méthodologie statistique

2 - Optique minimisation sous contraintes du pouvoir de réduction

Le problème à résoudre ici est : i=

Min E oi i._p

i=+f i=+f

sous I Oi = I et kË { I, 2„ dl ik 01=0 i=-p i=-p

Soit A le vecteur colonne des d+1 paramètres rio, Â(I. Le lagrangien du problème s'écrit :

i=+f ( i=+f

0i). +2 o 0i -1

i=-p i=+p

k=d

+ X k k=1

L(0,A )=

donc

k=d 5L =2 Oi+10+Iki k ="- 0 30;

k=1

En multipliant chacune de ces p+f+1 équations par ik, avec k=0,I, ...,d, et en faisant la somme sur i, on obtient alors le système matriciel suivant :

—2

1-2 A =

or

k=d I Oi=— —2 L .1(

k=0

et donc, avec les notations du paragraphe précédent : 0i = l ui Sri y, Ce qui, compte tenu de la symétrie de S2, prouve l'équivalence des deux approches.

Moyennes mobiles centrées et non centrées 303

Page 307: actes des journées de méthodologie statistique
Page 308: actes des journées de méthodologie statistique

ammairm, 11111111111MOM

IMMIII1111111111111 ee_'.'eM1111111111111111111111111111111

110 Jan-88 Jan-89 Jan-90 Jan-91 Jan-92

Source : INSEE, CA3 en valeur

130 France mi

Allibk4k.

110

00 LIM01,111,41111111

Zain UMM

III» UMM. Jan-80 Jan-83 Jan-86 Jan-89 Jan-92

Source : INSEE, OCDE

170

160

160

140

130

120

80

120

UN CADRE DE RÉFÉRENCE POUR CORRIGER LES EFFETS

DE COURT TE E : L'EXEMPLE DES CJO Vincent MAILLARD,

Département de la conjoncture Beaucoup dé séries économiques présentent de fortes irrégularités à très court terme. Ces

aléas se retrouvent la plupart du temps avec le même signe et la même intensité sur d'autres séries statistiques voisines. Ainsi, la comparaison des séries de chiffre d'affaires des supermarchés et des hypermarchés révèle exactement les mêmes mouvements au mois le mois alors que les évolutions de moyen-long terme sont divergentes. De même, l'examen des indices trimestriels de production industrielle en biens manufacturés de la France et de la RFA montre des fluctuations parallèles à court terme. En l'absence de liens directs de cause à effet entre les séries étudiées, ces exemples suggèrent l'existence d'une explication commune aux aléas de court terme qui n'ait pas d'incidence à long terme. En règle générale, les effets de structure journalière du mois -ou effets de "CJO"- constituent de bons candidats pour expliquer et estimer ces aléas.

Dans le cas des hypermarchés et des supermarchés, le simple examen du calendrier permet en effet de comprendre les fortes fluctuations de début 1992. Le pic de février 1992 correspond ainsi à un mois de février de 29 jours qui comprenait 5 samedis, jours forts pour les ventes de

ces secteurs. Une configuration aussi exceptionnelle ne se rencontre que tous les 30 ans!

Plus simplement, la présence d'un dimanche en plus ou en moins peut affecter très sensiblement la plupart des séries économiques (tout du moins les séries de flux) puisque le dimanche n'est pas ouvré et qu'il correspond à un point bas pour la plupart des activités. L'ampleur du phénomène peut être estimé naïvement à 4 % pour les séries mensuelles -resp. à plus de 1% pour les séries trimestrielles- ce qui correspond à l'impact d'un jour d'activité en plus ou en mois sur 25 jours ouvrables -resp. 75 jours-1. Même sur les données annuelles, l'effet de jours ouvrables ne peut être négligé. En effet, même si son impact est d'autant plus faible que la périodicité est longue, l'exigence de l'économiste sur la fiabilité et la pertinence des données est aussi d'autant plus forte.

Plus généralement, la structure hebdomadaire du mois c'est à dire le nombre de lundi, mardi etc. influe sur

le niveau mensuel. Pour la consommation des ménages par exemple, c'est souvent le nombre de

1 Cet impact dépend en réalité de la série concernée, il est en général inférieur à 4% sur les séries mensuelles. Sur quelques séries l'ordre de grandeur de 4% est cependant bien vérifié.

Un cadre de référence 305

Page 309: actes des journées de méthodologie statistique

samedis, jour fort des achats, qui explique une grande partie des fluctuations des séries CVS. Il faut donc souvent accorder un poids différent à chacun des jours de la semaine pour effectuer une correction efficace. Pour des raisons pratiques, ces corrections seront aussi dénommées "CJO" même si elles sont beaucoup plus générales que ce que suggère une appellation qui semble désigner une simple règle de trois sur le nombre de jours ouvrables du mois.

Les aléas climatiques peuvent aussi perturber nombre de séries économiques. L'exemple de la consommation d'énergie domestique et notamment d'électricité -énergie non stockable- vient naturellement à l'esprit ; mais les aléas climatiques affectent aussi la consommation en textile-habillement, en produits alimentaires à cause des boissons. Certains secteurs productifs comme le bâtiment ont une activité sensible au nombre de gelées... La correction des aléas de température permettrait ainsi de mieux comprendre les évolutions à court-terme de nombreux indicateurs.

Première partie : la correction pour jours ouvrables

Le problème des CJO peut-être abordé dans deux optiques différentes : - soit dans le but d'obtenir une bonne estimation de l'effet global CVS et CJO sans chercher

à décomposer précisément entre ces deux termes. - soit dans le but d'obtenir une bonne estimation de l'effet CJO seul

La deuxième optique ne va pas sans poser des problèmes conceptuels. Sur le principe il n'est pas en effet totalement évident de savoir si les effets moyens de calendrier -longueur des mois, nombre moyen de jours fériés du mois par exemple- doivent être intégrés dans la saisonnalité ou dans les effets de jours ouvrables. Le bon sens qui semble indiquer qu'il faut a priori plutôt ranger ces effets dans les CJO, est contredit par tous les praticiens des séries temporelles. En effet, toutes les séries CVS (non-CJO) intègrent des effets moyens de calendrier sans que cela n'ait jamais troublé personne. Notons simplement que les deux méthodes qui sont exposées ci-dessous divergent de ce point de vue : celle exposée en 1.a suppose implicitement que les effets de calendrier moyens2 font partie de la saisonnalité alors que le choix inverse est retenu en 1.b.

Dans la méthode proposée, les effets moyens de jours ouvrables sont de facto intégrés dans la saisonnalité. Mais le but est ici d'obtenir un bon indicateur global CVS et CJO. La décomposition proposée entre partie saisonnière et partie CJO non saisonnière se justifie parce qu'elle est plus simple et permet d'obtenir un bon indicateur global.

2 Plus exactement : les effets de calendrier de l'année de base (ex : le nombre de jours fériés de mai 1985 pour un indice base 1985) font partie de la saisonnalité de la série.

306 lnsee Méthodes n° 56-57-58

Page 310: actes des journées de méthodologie statistique

J.1 Les méthodes traditionnelles

I.1.a les méthodes non-économétriques

Je n'évoque que pour mémoire les méthodes traditionnelles de CJO qui partent en général d'enquêtes spécifiques sur le profil infra-hebdomadaire de production. Ces enquêtes attribuent des poids à chacun des jours de la semaine (poids sont la somme doit valoir 7, un poids spécifique est affecté aux jours fériés) et le coefficient de CJO d'un mois m est alors égal à la somme des poids des jours divisé par la somme des poids des jours du même mois de l'année de base. Ce coefficient correctif semble en général sur-correcteur et n'est pris en compte que partiellement, à 70% par exemple. Ce n'est qu'après que les séries sont éventuellement désaisonnalisées.

Ces méthodes on fait leurs preuves, elles sont néanmoins très coûteuses puisqu'elles nécessitent la réalisation d'enquêtes spécifiques sur le profil infra-hebdomadaire de la variable. Pratiquement, seules quelques séries de production sont ainsi traitées.

I.I.b Les méthodes économétriques traditionnelles

Il existe des méthodes d'estimation des CJO purement économétriques3. En général, elles estiment les coefficients journaliers en effectuant une régression directe de l'irrégulier de la série sur 7 régresseurs correspondant à chacun des jours de la semaine. L'article de DAGUM, QUENEVILLE, SUTRADHAR décrit le modèle le plus couramment employé (et même, à vrai dire, le seul que je connaisse à quelques variantes près). Il se résume ainsi :

1- Pour chaque mois t (on pourrait évidemment aussi prendre le trimestre) la variable de flux y, peut se décomposer comme la somme des flux journaliers selon la formule :

7

y, = EN„ x yu ( 1) /.1

où désigne le nombre de Dimanches (i=1) Lundis (i=2) ... Samedis (i=7) et y„ désigne la valeur moyenne de la variable sur les différents jours du mois

2- Dans ces conditions, on montre facilement que : 7

yr = (Ni, — — Yot ), Nt Yot 7

Avec: y = E 3 (3) ./

Ce qu' on note: y, = D, +N, y,, (4) N, représente la moyenne du niveau espéré de la variable sur le mois N, peut se décomposer en.N r yo,=T +S, +U, (5) T, = Tendance, S, = Saisonnalité, U, = Irrégulier

3L'option TDREG= de l'instruction MONTHLY de la PROC X11 utilise cette méthode. La procédure ne permet pas de corriger les séries trimestrielles.

(2)

Un cadre de référence 307

Page 311: actes des journées de méthodologie statistique

Si ./V,.370, peut être une variable intégrée4 ou non, il est supposé que D, est une variable stationnaire au moins à l'ordre 1 (souvent même de moyenne nulle). D, représente quant à lui l'effet de structure de jours ouvrables du mois.

Si on note 8, = (37, et x„—(N,,—N„) on obtient : 7

x,8, = x, 5, (6) 2 --

x, est une variable "extensive" qui mesure l'écart à une norme de référence (en l'occurrence l'écart entre le nombre de lundis, mardis, etc. et le nombre de dimanches du mois). é, est une variable "intensive" qui décrit l'impact de cet écart sur la variable totale, c'est le vecteur des différences entre la moyenne de chacun des jourF de la semaine et la moyenne hebdomadaire divisée par 7. Par exemple, si la production moyenne sur un lundi est de 3, que la production moyenne d'une semaine est de 14 on aura 52, = 3 — 14/7 = 1 et, pour un mois avec 5 lundis et 4 dimanches on aura x2, = 5 — 4 = 1 (contribution du lundi). Pour obtenir D„ il faut prendre en compte la somme de ces contributions pour l'ensemble des jours de la semaine qui ne sont pas indépendantes, on montre en effet que :

5,, = 0 (7)

I.1.c Les problèmes de cette méthode

L'estimation des 5, se fait généralement par des MCO, en régressant alors la série "détendancée" et éventuellement corrigée des variations saisonnières (c'est à dire, selon la terminologie habituelle l'irrégulier de désaisonnalisation) sur x,. En ce cas, 5, ne dépend pas de t. Quelques améliorations permettent d'utiliser des coefficients variables, c'est à dire que 8, dépend alors de t selon un modèle ARIMA d'ordre peu élevé, l'estimation utilise alors le filtrage de Kalman. Enfin, cette méthode est bien entendu utilisable avec des modèles multiplicatifs. Il faut néanmoins préciser deux hypothèses implicites très fortes de cette méthode.

- Il n'est jamais supposé que les 8,, peuvent être saisonniers : l'impact d'un lundi supplémentaire est par exemple supposé être le même quelque soit le mois considéré. Cette hypothèse peut sembler naturelle. Elle pourrait être contredite dans quelques cas : certains commerces ont le droit d'être ouverts les dimanches du seul mois de décembre et l'effet d'un dimanche supplémentaire peut en ce cas être différent en décembre.

- La méthode proposée effectue une correction selon trois critères : la tendance, la saisonnalité, puis les jours ouvrables. Or cette méthode n'est valable que si les critères de déflation sont orthogonaux entre eux5. En d'autres termes, cet algorithme n'est valable que si la saisonnalités ne prend pas déjà en compte une partie de l'effet jours ouvrables. Il est vrai qu'en

4 Une variable intégrée à l'ordre n est une variable temporelle dont la différence n-1 ème est instationnaire et dont les différences d'ordre supérieur à n sont stationnaires.

5 Ce résultat est connu dans le cas paramétrique par le théorème de Frisch-Waugh mais il est clair que le même problème se pose ici même si la désaisonnalisation n'est pas une régression paramétrique.

6 En toute rigueur, le même problème se pose pour le partage entre tendances et jours ouvrables, mais il parait raisonnable de supposer que ces deux composantes sont orthogonales.

Dt =

308 Insee Méthodes n° 56-57-58

Page 312: actes des journées de méthodologie statistique

dehors du problème des longueurs inégales des mois - qu'on peut facilement traiter- les phénomènes de calendrier sont orthogonaux aux phénomènes saisonniers : il n'y a pas de mois qui aient en moyenne plus de samedis ou de dimanches par exemple. Malheureusement cette hypothèse n'est plus valable dès que l'on veut traiter de manière symétrique les phénomènes de jours fériés : tout français sait que certains mois ont structurellement plus de jours fériés7. Ce problème est à mon sens à l'origine de beaucoup des déboires des utilisateurs de l'option CJO de X11.

2 La méthode proposée.

I.2.a Aperçu théorique.

En reprenant les mêmes notations qu'au paragraphe précédent, on ajoute aux 7 jours du modèle deux types de jours particuliers : les jours de semaine fériés et les samedis fériés. Les dimanches fériés sont assimilés à des dimanches normaux. Le nombre N, de jours de la période (mois ou trimestre) t se décompose ainsi en :

9 nt = ni., =71., (8)

Pour une date t, l'année est notée n et la période (mois ou trimestre) est notée p. t décrit le temps et peut varier sur toute la longueur de la série (t=1 à T). per désigne la fonction qui à t renvoie la période correspondante per(t)=p.

En s'inspirant du théorème de Frisch-Waugh, il faut modifier la méthode précédente. L'irrégulier de désaisonnalisation, par nature, ne prend pas en compte la structure moyenne en jours fériés de la période considérée : le fait qu'il y a structurellement plus de jours fériés en mai est incorporé dans le coefficient de CVS du mois et non dans l'irrégulier. Il ne faut donc pas régresser l'irrégulier de désaisonnalisation directement sur la structure du mois en jours fériés (i.e. les n‘,) qui contient aussi la structure moyenne mais plutôt sur la différence entre la structure du mois et la structure moyenne du mois qui lui est orthogonale. Si np(t) est le nombre de fois que la période (mois ou trimestre) considérée apparaît dans la série (approximativement la longueur de la séries en années).:

1 En., (9) np(t)

di„ = - (10)

9

On a généralement : di , = 0 (11)

Fii , est le nombre moyen de jours de type i sur la période (nombre moyen de dimanches en février par exemple...). d,, la différence à cette moyenne. La relation (11) est vraie pour presque toutes les périodes -sauf les mois de février et les premiers trimestres- puisque :

7 En revanche, ce problème peut n'avoir que peu d'impact pour la désaisonnalisation des séries américaines ou le problème des jours fériés est moins crucial.

Un cadre de référence 309

Page 313: actes des journées de méthodologie statistique

Eni,r = 9

ni.t = (12)

Le modèle correct à coefficients constants consiste alors à régresser l'irrégulier de désaisonnalisation (ou le log de l'irrégulier multiplicatif) sur les variables d,, selon le modèle :

9

id,, +e, (14)

Ce modèle est estimé par une procédure de moindres carrés ordinaires. Les coefficients dominicaux ne sont pas estimés puisque le modèle est "presque" mal spécifié à cause de la relation (13)8. L'interprétation des coefficients calculés est d'autre part délicate et sera discutée dans des cas particuliers. En première analyse les 5, s'interprètent comme ceux du paragraphe précédent, ils mesurent alors la différence entre le niveau moyen du jour considéré et le niveau moyen normal sur l'ensemble des jours. Plus il est élevé, plus le niveau de la variable étudiée est important sur le jour considéré, le niveau arbitraire de référence étant 0 pour les dimanches. 11 faut néanmoins garder à l'esprit que les régresseurs sont naturellement corrélés : le nombre de lundis est plutôt corrélé au nombre de mardis et anticorrélé au nombre de jeudis. Dans ces conditions, il faut se méfier d'une interprétation trop rapide des coefficients estimés (ce qui ne doit pas remettre en cause la pertinence de la régression) et ceci d'autant plus que la régression s'appuie sur peu de points, c'est à dire que la série est courte.

I.2.b L'algorithme choisi

Comme d'une part il est préférable d'opérer une désaisonnalisation sur des séries préalablement corrigées des jours ouvrables, et que d'autre part il est difficile d'estimer les coefficients de CJO avant d'avoir désaisonnalisé, une procédure itérative a été retenue.

Le principe consiste à désaisonnaliser par la PROC X11 la série (éventuellement) corrigée des jours ouvrables, on récupère alors un log-irrégulier de désaisonnalisation. Cet irrégulier comprend encore un effet de CJO résiduel, c'est pourquoi on l'ajoute aux coefficients de CJO estimés lors de l'étape précédente. Cette somme est régressée par MCO sur les d,, on obtient ainsi un nouvel estimateur de correction JO et un nouvel indice CJO. La boucle peut alors recommencer. Au départ, les coefficients de CJO sont initialisés à 0 (pas d'effet de CJO).

Comme on s'intéresse principalement à obtenir de bonnes estimations des coefficients de CVS-CJO, le critère de convergence retenu est la révision quadratique moyenne de ces coefficients. Ce critère peut être interprété comme une estimation de la précision finale des coefficients de CVS-CJO et donc de la série corrigée. En deçà d'un seuil paramétrable (fixé par exemple à 0,001 ce qui correspond à une précision de 0,1%) l'algorithme s'arrêtes. Ce critère se révèle, a posteriori, pertinent et robuste : il décroît quand le nombre de boucles augmente, il permet d'arrêter à un seuil raisonnable l'algorithme de CJO, et ce pour la quasi-totalité des séries qui ont été testées (environ une quarantaine).

8 Les coefficients dominicaux sont contraints à 0. Même si la relation (13) n'est pas vérifiée en février elle est proche de l'être les années non bissextiles (la somme vaut -0,25 au lieu de 0). De plus, comme le dimanche est en général un jour creux, il est clair que le coefficient dominical est proche de 0. Sur les séries étudiées, les multiplicateurs associés aux contraintes sur le coefficient dominical n'ont jamais été significativement non nuls.

310 Insee Méthodes n° 56-57-58

Page 314: actes des journées de méthodologie statistique

L'algorithme complet se schématise ainsi :

9. Il s'arrête également au delà d'un certain nombre (paramétrable lui aussi) d'itérations.

Un cadre de référence 311

Page 315: actes des journées de méthodologie statistique

I.2.c L'algorithme de calagen

Bien que les phénomènes de CJO puissent influer sur les niveaux annuels, il est parfois souhaité que les variables CVS-CJO soient calées aux données brutes sur l'année civile, c'est à dire qu'elles aient, en moyenne, la même valeur sur chaque année. 11 s'agit alors de redresser les données CVS-CJO de manière à ce que la somme des valeurs CVS-CJO et la somme des valeurs brutes soient égales sur chaque année civile. Il n'est pas du tout évident (et même presque sûrement faux) que cette contrainte assure également que les données CJO (non-CVS) et brutes seront calées ce qui constituerait pourtant une autre contrainte "naturelle". En général toutefois, le calage annuel des données CVS-CJO et brutes permet de réduire la différence entre les données brutes et les données CJO.

Cette contrainte fixée, il faut trouver un critère qui permette de sélectionner un redressement parmi tous ceux qui satisfont les contraintes imposées. Deux types de critères paraissent naturels : ils consistent à minimiser soit :

- la révision des indices CVS-CJO. - la révision des évolutions des indices CVS-CJO

En pratique, on se limite aux critères quadratiques qui permettent un formalisme mathématique plus simple et pour lesquels les problèmes de minimisation sont résolubles analytiquement.

La variable est notée x, la donnée brute x6 , la donnée CVS-CJO avant calage est notée x', la donnée CVS-CJO après calage x` avec x` =ax'. La date est notée avec le double indice (n,p) n étant l'année et p la période (mois ou trimestre). p(n) désigne le nombre de périodes connues de l'année n, en général n=12 ou 4 sauf pour la première et la dernière année. Pour des raisons de commodité la première année est supposée complète p(1)=P (4 ou 12), sinon l'année sera retirée ce qui est peu gênant pour les séries assez longues. La dernière année N pose un problème plus délicat quand elle est incomplète puisque le calage est alors impossible. Il est également impossible de caler partiellement les données CVS-CJO sur les n(N) premières données brutes puisque ces dernières étant saisonnières n'ont aucune raison de fournir une bonne estimation de la moyenne. Dans ce cas les données CVS fournissent un meilleur estimateur de la somme, l'avantage étant que ces données sont partiellement calées par le logiciel X11. De plus, la contrainte sur la dernière année est trop forte. Si la dernière année connue se termine en janvier par exemple la contrainte impose que les données CVS-CJO calées soient égales aux données CVS!. C'est pourquoi, il semble meilleur de caler les données CVS-CJO non sur les données CVS, mais sur une interpolation linéaire entre les données CVS-CJO non modifiées et les données CVS. Cette interpolation est de la forme :

xN,p (1- f(-EL:1))XZ P e {4,12}

0 < f ( 12-P-) < 1 t.q f (1) 0 et f (0) 1

f est doit normalement être décroissante . plus la dernière année est avancée, plus il faut se caler sur les données CVS. La forme de la fonction f(x) peut être choisie dans la classe des fonctions puissance :

f (x)= (1— x6 ) avec :13> 0

10Le calage est optionnel, il fait appel au module SAS/IIVELe

312

Insee Méthodes n° 56-57-58

Page 316: actes des journées de méthodologie statistique

L'interpolation linéaire (p = 1) est utilisée par défaut.

Pour simplifier les écritures, nous noterons pour la dernière année xN P pour 4,4.

I

'f

On résout : N

MinE

Vn, E = „„, p-1

, po —

e .P x p(n)

P=1

On en déduit (cf. annexe 2) :

— p=1 p=1 1,1)

(x,,„)2 p=1

Comme en première approximation lesxn sont égaux sur une année, cette formule montre ,, ,, que les a sont approximativement égaux sur une année. Autrement dit, cette méthode

conduit à modifier uniformément tous les moisi' d'une même année selon un même multiplicateur. Dès lors c'est au changement d'année, entre Décembre et Janvier dans le cas mensuel, que la rupture liée au calage va apparaître puisque ces deux périodes auront des multiplicateurs différents. Cette méthode paraît donc peu satisfaisante. C'est pourquoi un critère un peu plus symétrique qui minimise par exemple les révisions d'évolutions a été préféré.

Deuxième critère (moindre révision des évolutions)

On résout : {N Mn)

Min (1- az1)2 + E E(cc(„,„)..,1 — an,p )2 ,...1 p=1

le> Vn,fan

. px;',,, = 2 ., .x,,b

.,

p=1 p=1

(n, p) + 1 représente la date suivant (n, p)

Par convention: au,,,,,,,,,,,‘, = 1, le terme (1- au )2 s'explique par symétrie.

Les calculs complets figurent en annexe 2. Cette méthode donne de bons résultats. Elle est relativement rapide et on constate à l'usage que les profils sont peu modifiés. En revanche, le paramètre p n'a pas été optimisé, il se peut que sa valeur par défaut (1) ne convienne pas notamment pour les séries trimestrielles quand seul le premier trimestre de la dernière année est connu.

11 Une fois pour toutes, ce qui est valable en mensuel est adaptable au cas trimestriel

= 1+

Un cadre de référence 313

Page 317: actes des journées de méthodologie statistique

I.2.d La robustesse des résultats

La régression principale qui estime les coefficients journaliers utilise les ,MCO, qui ne sont pas robustes. Pour "robustifier" cette régression, les points aberrants tels que détectés par X11 ont été éliminés de la régression. Ceci a l'avantage d'être un critère transparent et automatique pour l'utilisateur. Il est vrai que la détection des points aberrants par X11 peut-être trop sévère, elle élimine un peu plus de 5% des données Néanmoins comme les points éliminés à tort sont distribués aléatoirement les estimateurs ne devraient pas être biaisés par cette méthode. Les paramètres par défaut de X11 se révèlent par ailleurs satisfaisants dans cette optique.

I.2.e La stabilité des résultats

La stabilité des équations peut être établie de deux manières :

- d'une part en s'assurant que le critère de convergence est bien rempli et qu'il a bien diminué au fil des itérations. Ce critère empirique teste en fait la stabilité de la convergence de l'algorithme.

- d'autre part en testant la stabilité des régressions de CJO, ceci est fait par un test de Cusurn en appliquant la méthode de Ploberger-Kramer. De fait, les équations sont en général relativement stables au moins depuis 1970. Ceci est lié au fait que la plus grande partie de la variance est liée au nombre de jours ouvrés (tous types confondus) et que les évolutions ont été faibles depuis cette époque.

LLAinéliox"seLuereee".

I.3.a La correction pour jour de Pâques

Pâques peut être fêtée soit en Mars (premier trimestre), soit en avril (deuxième trimestre). L'impact de cette fête n'est pas négligeable pour les séries de consommation alimentaire en général et plus particulièrement pour la consommation en produits de la meunerie et en épicerie sèche.

Si les achats liés à la fête Pascale sont de CP, ces achats peuvent se répartir sur deux périodes Mars et Avril (resp. : ler et 2ème trimestre). La clé de répartition de ces achats dépend de la position relative de la date de Pâques par rapport au 31 Mars. Un modèle simple paramétrable définit une classe naturelle de clés de répartition (voir annexe 2). Une fois ces clés mensuelles définies selon:

Vni. 3,4 kr, = = k k4 =1— k

L'effet de Pâques vaut krnCP, il est estimé par MCO, les déflateurs étant les k m,.

I.3.b Les coefficients variables

Les coefficients journaliers sont supposés constants tout au long de la série. En général, ces coefficients semblent stables tout au long de la série. Il peut être néanmoins nécessaire de calculer des coefficients variables. L'équation (13) doit alors être réécrite ainsi (avec les notations classiques)

314 Insee Méthodes n° 56-57-58

Page 318: actes des journées de méthodologie statistique

.ES„d„ +e, e, iid

Vi,311,,, bruit blanc indépdt des e, tq :(1)(L)8,,, = D(L)ni., Dans le cas markovien simple : = +11,1

Ce modèle ne peut être estimé par des procédures standard, il faut utiliser un filtrage de Kalman12. Faute de disposer d'un tel outil, ce développement ria pu être mise en oeuvre. Ceci n'est pas gênant pour l'instant, mais il se peut que l'extension progressive du travail dominical modifie quelque peu les coefficients journaliers dans un avenir proche, il sera alors utile de disposer d'une telle amélioration.

Deuxième partie : la correction des aléas de

température

11.1 Une formulation mathématique simple

Le problème de correction des effets de température est assez proche de celui de la CJO. Il s'agit d'un phénomène fortement saisonnier (d'ailleurs bien plus saisonnier que l'effet de jours ouvrables) qui doit donc être traité en même temps que la désaisonnalisation. De même que pour les CJO, l'impact de la température moyenne -dite normale saisonnière- sera intégré dans la saisonnalité moyenne de la série à corriger. Seuls les écarts à la normale saisonnière interviendront pour expliquer les irrégularités de la série. Les aléas climatiques ont en revanche un impact variable selon la période de l'année : un degré en moins par rapport à la normale saisonnière en décembre n'est pas équivalent à un degré en moins au mois en juillet.

Une idée simple consiste à poser que

= kpe)(T — fp„,)+ Et p(t) : période ( mois ou trimestre) 7; : température, : normale saisonnière k p,,) : impact d'un degré en plus par rapport à la normale

(15)

Ce modèle conduit à estimer 12 coefficients (k1 à k12 ) pour les séries mensuelles et 4 coefficients dans le cas trimestriel. Pour réduire le nombre de coefficients estimés il est possible de décomposer la série des douze coefficients en série de Fourier sous la forme :

k j = + a, sin(frt/6) + a, sin(jit/3) + po cos(j./6)± p cos(±43) (16)

12Qui n'est malheureusement pas disponible sur SAS,

Un cadre de référence 315

Page 319: actes des journées de méthodologie statistique

Les équations (15) et (16) sont alors résolues concomitamment par MCO. On peut encore restreindre le nombre de coefficients estimés en imposant Po=131=0.

ILIQuelsuinsreraarsiu. La correction pour aléas climatiques est d'un grand intérêt pour analyser nombre de séries

économiques, notamment les séries de consommation énergétique ou même de consommation en textiles habillement. Contrairement aux CJO -et le lecteur me pardonnera cette vérité première- elle ne permet en aucun cas de fournir une prévision de ces séries sauf à attendre que la météorologie fournisse des prévisions meilleures et plus lointaines que l'économiste. Il n'y de plus aucune raison de caler les données détempératurisées sur une moyenne annuelle.

Dans la pratique, on calcule directement les écarts à la normale saisonnière comme résidu de la désaisonnalisation de la série des températures brutes. Cette méthode est meilleure puisqu'elle utilise des filtrages proches pour estimer les aléas climatiques et les aléas de la série à corriger.

Dans le cas des séries trimestrielles l'équation (16) est mal spécifiée puisqu'il existe une relation linéaire entre les déflateurs, on impose donc en ce cas :131=0.

L'algorithme est exactement le même que celui décrit pour les CJO, notons que pour l'instant le programme ne permet pas d'effectuer la détempératurisation en dehors de la CJO, il est toutefois possible de séparer in fine les effets de CJO des effets climatiques.

Troisième partie : la mise en oeuvre informatique

La procédure. décrite est programmée sous forme d'une macro, SAS®. Sa syntaxe est la suivante :

%cjp(table,var, maxiter=5, seuil=0.00/ sortie=_cjo_ calage=o, beta=1 fullw=/.5,zerow=2.5, printout=standard, charts=none, csem=0, cfer=0, force=n, alppaq=0, betpaq=0, paques=n detemp=n,nh=1,

Paramètres obligatoires

Paramètres facultatifs Valeurs par défaut en italique

316 lnsee Méthodes n° 56-57-58

Page 320: actes des journées de méthodologie statistique

Avec:

table : table SAS où se trouve les données, cette table doit obligatoirement contenir une variable de nom da-te aux normes SAS de dates.

var : nom de la variable à corriger (une seule variable admise) maxiter : nombre maximal d'itérations (en général 5 ou 10 suffisent amplement). seuil : seuil de convergence, on prend 0.001 ou 0.0005 ce qui signifie que les

données corrigées sont fiables à cet ordre de grandeur relatif près. sortie : nom de la table en sortie calage : (o/n) calage sur les données brutes de l'année civile beta : coefficient p de l'algorithme de calage fullw : paramètre fullweight des demandes X11 zerow : paramètre zeroweight des demandes X11 printout,charts : paramètres de sorties de la demande X11 csem : (0/3/4) contraintes sur les coefficients hebdomadaires

0 : aucune contrainte 3 : Lundis, Mardis, Mercredis et Jeudis égaux 4 : Lundis, Mardis, Mercredis, Jeudis et Vendredis égaux

der : (0/1) contraintes sur les coefficients de jours fériés 0 : le samedi férié est distingué des jours de semaine fériés 1 : le samedi férié n'est pas distingué des jours de semaine fériés

force : (o/n) o si on veut que l'algorithme de CJO soit lancé même si le test de Fisher rejette l'hypothèse d'existence d'effets de CJO (lors du premier tour). n sinon.

alppaq.: (entier positif) paramètre a de correction du jour de Pâques betpaq : (entier positif) paramètre p de correction du jour de Pâques paques : (o/n) o si on veut corriger des effets de Pâques dtemp : (o/n) o si on veut corriger des effets de température, n sinon nh : (1/2) nombre d'harmoniques pour le calculs des coefficients climatiques

1 : po.pi.o, 2 sinon

La table en sortie contient la variable date, la variable initiale plus les variables suivantes : _kcjo_ Coefficient de CJO

Coefficient de CVS Coefficient de CVS et CJO (sauf si détempératurisation) Variable CVS et CJO (sauf si détempératurisation) Variable CVS au premier tour (avant CJO) Coefficient de calage sur données annuelles (des données CVS-CJO) Coefficient de correction de la température Coefficient de correction de CVS-JO et température Variable CVS-CJO et détempératurisée.

_kcvs_ _kcvsjo_ _icvsjo_ _image_ _calage_ kt_

_kcvsjt_ _icvsjt_

Un cadre de référence 317

Page 321: actes des journées de méthodologie statistique

Glissements trimestriels Comparaison du PIB marchand CVS et CVS-CJO

L.

marchand -PIB marchand CJO

Quelques exemples de correction des jours ouvrables et de

détempératurisation

Le PIB trimestriel

Le Produit Intérieur Brut marchand trimestriel (CVS) est affecté d'assez fortes fluctuations à court terme. L'application de la procédure de CJO est ici possible même si elle ne part pas de données brutes, en effet la régression se faisant sur des données "orthogonales" à la saisonnalité, les estimateurs ne seront pas biaisés.

1

0,6

-0,6

89T1 89T3 90T1 90T3 91T1 91T3 92T1 92T9

Une grande partie des fluctuations du PIE marchand est expliquée par les effets de CJO.

Les coefficients journaliers

montrent que le PIB marchand est maximal sur les quatre premiers jours de la semaine, il baisse sensiblement dès le vendredi et est fortement réduit le samedi. L'impact des jours fériés est positif : ceci s'explique par un transfert sur les autres jours du mois de la "production" qui ne sera pas effectuée lors de la fermeture. Ce transfert n'existant naturellement pas pour les dimanches, le coefficient des jours fériés est supérieur à celui des dimanches (qui vaut 0). Lecture : la substitution d'un vendredi à un

samedi induit une augmentation relative de 0.2% dv PIE marchand : Coef(Vendredi)-Coef(Samedi)=0,4-0,2.

318 Insee Méthodes n° 56-57-58

Page 322: actes des journées de méthodologie statistique

100 Jan-88

Jan-88 Jan-91 Jan-92 Jan-89 Jan-90

CVS CVS-CJO IPI

120

115

110

105

Jan-91 Jan-89 Jan-90 Jan-92

Comparaison des CVS-CJO de PIPI et économétriques

120

515

110

105

100

CVS-CJO économétriques

Comparaison de l'IPI CVS-CJO et de l'IPI CVS Champ de la production manufacturée, base 1980

L1.1"Ermch'Indil'IleManufaeilini4

Cet indice .est déjà corrigé des jours ouvrables aux niveaux fins selon des méthodes non-économétriques. La correction telle qu'elle est faite permet de réduire fortement la variabilité de la série mensuelle agrégée:

Un cadre de référence 319

Page 323: actes des journées de méthodologie statistique

En comparant cet indice CVS-CJO avec celui calculé par l'algorithme précédent, on constate que la méthode économétrique fournit une correction assez proche. Globalement, elle apparaît équivalente, la plupart des divergences provenant des mois d'été sur lesquels la section responsable de l'IPI opère un traitement particulier (les Indices CVS-CJO de Juillet et Août sont égaux, les indices bruts de ces mois font l'objet d'un traitement largement conventionnel).-

Les coefficients journaliers

ressemblent à ceux trouvés pour le PLI3 trimestriel sauf pour les jours fériés : la production est forte du mardi au jeudi, un peu moins élevée à la fois en début et en fin de semaine. Le samedi est relativement plus faible que pour le PIE ce qui s'explique partiellement par le fait que le champ ne comprend pas certains secteurs qui produisent le samedi (énergie, commerce).

Lundi

Mardi

Mercredi

Jeudi

Vendredi

Samedi

Sam férié

MB : Les jours fériés ont un impact comparable aux dimanches.

320 Insee Méthodes n° 56-57-58

Page 324: actes des journées de méthodologie statistique

Jan-91 Jan-92

Mercredi Jeudi

Vendredi Samedi

Samedi férié Dimanche

Jours fériée

Les mariaces

La série mensuelle du nombre de mariage est, on s'en doute, extrêmement sensible au nombre de samedis du mois. A titre anecdotique, la procédure de CJO a été testée sur cette série. Elle donne le résultat suivant :

CJO des séries de mariages célébrés Séries mensuelles en niveau

31000

29000

27000

25000

23000

21000

18000

17000

Jan-88

Jan-89

Jan-90

Les coefficients journaliers

montrent qu'effectivement les mariages ont souvent lieu le samedi (qu'il soit férié ou non). Les jours fériés ont aussi un coefficient particulièrement fort, plus élevé que celui des dimanches. Il faut sans doute interpréter ceci par le fait que les jours fériés sont souvent accompagnés de 'ponts" qui sont propices aux mariages. En ce cas, il n'est pas évident que les mariages aient lieu exactement le jour férié mais plutôt un jour proche (et peut-être un samedi).

Un cadre de référence 321

Page 325: actes des journées de méthodologie statistique

Consommation textile et aléas climatiques

I I Ecart naormale aaieonnière"

6 — 240

230 CVS détempératurieé

210

200

190 -4

Jan-90 Jan-91 Jan-93 Jan-92

,Consommation en textile-habillement et aléas climatiques

La consommation en habillement est marquée par un rythme saisonnier caractéristique que les phénomènes de mode entretiennent. Le renouvellement des collections se fait essentiellement selon une périodicité bisannuelle printemps-été et automne-hiver. En revanche, les dates d'achàt de ces collections dépendent fortement du climat. Un printemps précoce fait avec les premiers beaux jours d'Avril chanter les tiroirs-caisses des commerçants. Si l'automne est précoce, les premières rigueurs d'Octobre précipitent le chaland dans les magasins. La procédure de détempératurisation a ainsi été testée sur la consommation textile.

Le profil des coefficients climatiques montre d'ailleurs qu'une température supérieure à la normale saisonnière est favorable au printemps et défavorable à l'automne.

1.11

Jae Fer Men Arl. qd Jaiu Jull A0111 11.apt Ocl No. M.

Impact en % d'un degré en plus par rapport à la normale saisonnière, selon le mois.

322 Insee Méthodes n° 56-57-58

Page 326: actes des journées de méthodologie statistique

Consommation en électricité et aléas climatiuues

Consommation en électricité et aléas climatiques

4600

4400

4200

4000

3800

3600

3400

Le profil des coefficients climatiques montre d'ailleurs qu'une température inférieure à la normale saisonnière augmente presque toujours la consommation électrique, notamment au printemps.

Jan Fév Mar Avr Mai Jul Juil Aoû Sep Oct Nov Dec t t

Impact en % d'un degré en plus par rapport à la normale saisonnière, selon le mois.

Un cadre de référence 323

Page 327: actes des journées de méthodologie statistique

1 Bibliographie

BELL, W.R. & HILLMER, S.C., (1983), Modelling Times Series With Calendar Variations, Journal of the American Statistical Association, Volume 78, N° 383, 526-535

CLEVELAND, W.P. & GRUPE, M.R., (1983), Modelling Times Series When Calendar Effects Are Present, Applied Times Series Analysis of Economic Data, ed. A. Zellner, Washington D.C.: U.S. Dept. of Commerce, Bureau of Census, 57-73

DAGUM, E.B., (1980), The X11-ARIMA Seasonnal Adjustment Method, Statistics Canada, Catalogue N°. 12-564E

DAGUM, E.B., QUENNEVILLE, B. & SUTRADHAR, B., Trading-day Variations Multiple Regression Models with Random Parameters, International Statistical Review (1992), 60

LAROQUE, GUY, (1977), Analyse d'une méthode de désaisonnalisation : le programme X11, version trimestrielle, Annales de l'INSEE, N°28

Note INSEE / Service de la Conjoncture N° JPD 343/902 du 16 mars 1979 Le programme Census X11 et la correction des variations saisonnières

324

Insee Méthodes n° 56-57-58

Page 328: actes des journées de méthodologie statistique

Annexe 1 : les algorithmes de calage

Premier critère (moindre révision des niveaux)

On résout : n)

MinE ( a„,)2 p=

p),) 11( 10

Vn, an.Pxn.P = 6d xn.P

p=1 p=1

En dérivant le Lagrangien, on écrit les conditions du premier ordre (qui sont visiblement suffisantes) :

ae

1— 2(a — ) — = 0 aanP

Oç ,p = 1+

p(,,) n)

x„„,

P(+1) P(.)

P=1 p=1 11)

( xl „)2

P=1

=

— 1+

.1 lL r''

: g':

On résout :

Min (1- au )2

,,.), = 23 x„„, P P=1

n-1 p=

e4)

Vn, n.px

(aln,p41— an p )2 ..

(n,p)+1 représente la date suivant (n, p) Par convention : = 1, le terme (1- cc11 )2 s'explique par symétrie.

N

Un cadre de référence 325

Page 329: actes des journées de méthodologie statistique

0

0

On calcule de même les conditions de premier ordre sur le Lagrangien :

V(n, p) é 1(1,1),(N ,p(N))1

aaa .p - 2--aa,,p [(ac.p).1- a.. p)2 +(a..; - c4(..p)-1)21-

2(-a(.,p).1 + 2a .,p = 0

aP = _22_14 _ a )2 + (a - 1)2]- accu aazi 3.2 u z

= 2(2au - al2 - 1- X,:ci'.1) =0

a/' - [(an.p(q) c4(n.p(m)-1) +(a,v,pcn -1/ ]- 2Xivici).1

actn,p(v) N.p(n) = 2( 2C4 N,p(An a(N,p(N))-1 - 1- X /V4.p(N) ) = 0

Ce qui peut-être noté matriciellement :

2 -1 0 ••• 0 -1 2 -1 0 0

• R=

M = 0 • •

a = =

,OEN,p(N)

0 -• 0 -1 2 -1 , 0 ••• ••• 0 -1 2, 0

0 b 4.1 \

1=

„, Ona alors : Ra =MX+ / et Ma = b

Ces équations peuvent se résoudre en :

a = R -1M('MR -1M)-1(b-MR -11)+ R -11

Calcul qui peut être simplifié en remarquant que la matrice R (de taille T) est inversible analytiquement.

326 Insee Méthodes n° 56-57-58

Page 330: actes des journées de méthodologie statistique

Annexe 2 : l'effet "Pâques"

On associe à chaque mois13 une variable indicatrice km du ''poids" de l'effet Pâques. Par définition :

12 Va, Ek„, (ct) = 1,a représente l'année

.=1 Vm çe {3, 4}, k„, (a) = 0

Une modélisation simple de l'effet de Pâques journalier consiste à supposer que cet effet est nul jusqu'à un certain temps avant Pâques, qu'il augmente linéairement ensuite jusqu'à atteindre une valeur maximale le jour de Pâques, puis qu'il diminue linéairement. L'effet mensuel est calculé par sommation.

tO : jour de Pâques, p=31 Mars a=longueur de l'effet Pâques avant b=]ongueur de l'effet Pâques après c(t)=effet journalier M=effet journalier maximal

to rb

Par définition: Ecco= 1 wba

D'où: M Et — (to a) y, .(to +b)—t; 1

a

b

Soit: M = 2 a + b

Les poids rétrospectifs de Mars et d'Avril ) sont définis par:

Man = Ec(t),.„,, Si p < to —a alors fc,,,„ = 0

Sinon si p < to alors = 1 (p+ a — t,)(p + a +1—to ) a(a +b)

Sinon si p = to alors itm„ = a+b

Sinon si to + b alors it,„, — 1— 1 b(a +b)

(to +b p)(to +b— p— 1)

Sinon n,, = 1

Les paramètres a et b ont été recherchés par balayage à partir de certaines séries économiques sensibles telles que le chiffre d'affaires de l'ensemble du commerce de détail et de boulangerie-pâtisserie, en cherchant à améliorer à la fois le R2 et les students. a=8 et b=4 constitue un bon compromis. Les km sont ensuite ajoutés aux déflateurs de l'équation (13).

13 Pour des raisons de simplification , seul le cas mensuel est traité ici.

Un cadre de référence 327

Page 331: actes des journées de méthodologie statistique
Page 332: actes des journées de méthodologie statistique

Conférences spéciales

Page 333: actes des journées de méthodologie statistique
Page 334: actes des journées de méthodologie statistique

ANALYSE STATISTIQUE DES RÉPONSES

AUX QUESTIONS OUVERTES Ludovic Lebart

1 - Deux grandes familles de prc: 'èr tes dans l'étude statistique des textes

Dans les analyses statistiques de textes, on peut distinguer deux grandes séries de préoccupations fort différentes :

- les applications à des corpus littéraires (attributions d'auteurs, datation, par exemple) qui cherchent à s'affranchir du contenu pour saisir des caractéristiques de forme (souvent de style) à partir des distributions statistiques de vocabulaire, d'indices ou de ratios, ou encore à partir de corpus partiels de mots outil. Il s'agit de saisir les "invariants" d'un auteur ou d'une époque, dissimulés ou peu apparents, à des fins historiques, littéraires, dans le cadre d'études que l'on désigne sous le nom de stylomé-trie (cf. par exemple Yule, 1944, et : Holmes, 1985, pour une revue de ces travaux) ;

- les applications réalisées en recherche documentaire (information retrieval : cf. Salton, 1988), en codification automatique, dans le traitement des réponses à des questions ouvertes, qui s' intéressent principalement au contenu, au sens, à la substance des textes. Peu importe la façon dont une requête est rédigée, pourvu que l'on puisse atteindre dans la base de données les documents qui satisfont l'attente du requérant. Toutefois, il faut signaler que lors du traitement statistique de réponses à des questions ouvertes ou d'entretiens, le socio-linguiste peut être aussi intéressé par la forme, par les connota-tions véhiculées par exemple par certains synonymes, certaines tournures. Il s'agit de caractéristiques de formes qui peuvent en fait nuancer et infléchir le fond.

Les méthodes d'analyses de réponses libres dans les enquêtes relèvent de cette seconde famille de méthodes.

2 - Questions ouvertes et questions fermées

Il peut être intéressant, dans un certain nombre de situations d'enquête, de laisser ouvertes certaines questions, dont les réponses se présenteront donc sous forme de

Analyse statistique des réponses 331

Page 335: actes des journées de méthodologie statistique

textes de longueurs variables. Le traitement de ce type d'information est évidemment complexe. Les outils de calcul et les méthodes statistiques descriptives multidimen-sionnelles peuvent apporter une certaine aide à l'analyse de ces réponses libres.

On rappellera auparavant quelques uns des problèmes posés par la rédaction des libellés des questions dans les questionnaires d'enquêtes.

2.1 - Le libellé des questions

On sait que le libellé d'une question joue un rôle fondamental : il est très difficile de trouver deux libellés distincts, pour deux questions fermées dont les contenus sont similaires, donnant les mêmes résultats en termes de pourcentages.

La sensibilité des pourcentages de réponses vis-à-vis des libellés est bien sûr particu-lièrement forte dans le cas de questions d'attitudes ou d'opinions.

Ainsi, les travaux de Rugg, 1941, ont montré que la réponse yes à la question Do you think the United States should forbid public speeches against democracy? obtient 21 points (sur 100) de moins que la réponse no à la question Do you think the United States should allow public speeches against democracy?

Cette absence de symétrie entre les deux formulations, vérifiées sur d'autres thèmes, est d'autant plus forte que le niveau d'instruction de la personne qui répond est faible. Elle rend plus difficiles les études des phénomènes d'acquiescement systématique (cf par exemple Tabard, 1975). L'équivalence sémantique de deux questions qui appelleraient respectivement des réponses oui et non paraît impossible à atteindre.

À ces remarques sur la rédaction des libellés s'ajoutent d'autres considérations :

- l'ordre des questions, qui induit une sensibilisation particulière du répondant ;

- la longueur des libellés qui fait jouer, selon les cas, la mémoire auditive ou les capacités de lecture de la personne interrogée, et donc induit des biais en fonction de certaines caractéristiques de base comme l'âge, le niveau d'instruction (cf. la contribution de J.-P. Grémy dans ASU, 1992).

Le problème de la dépendance des résultats vis-à-vis des libellés se pose a fortiori dans le cas de deux questions dont l'une est ouverte et l'autre fermée. Un exemple classique concerne les réponses à la question "Quel est le problème le plus important auquel doivent faire face les USA ?", (Schuman et al., 1981). L'item "violences" obtient 16 % lorsque la question est ouverte, et 32 % lorsqu'il fait partie des items de la question fermée correspondante. Cet item de réponse étant considéré comme "un problème

332 lnsee Méthodes n°56-57-58

Page 336: actes des journées de méthodologie statistique

local" plutôt que "national" n'est pas toujours considéré comme une réponse permise lorsque la question est ouverte. En somme, les libellés complets de deux questions, l'une ouverte et l'autre fermée, ne peuvent être identiques, ce qui rend extrêmement difficiles les comparaisons entre les deux types de questionnement.

2.2 - Quand utiliser des questions ouvertes ?

Dans au moins trois situations courantes, l'utilisation d'un questionnement ouvert s'impose :

Pour diminuer le temps d'interview Bien que les réponses libres et les réponses guidées fournissent des informations de natures différentes, les premières sont plus économiques que les secondes en temps d'interview et génèrent moins de fatigue. Une simple question ouverte (par exemple : "Quelles sont vos activités de loisir habituelles") peut remplacer de très longues listes d'items.

Comme complément à des questions fermées Il s'agit le plus souvent de la question classique : "Pourquoi ?". Les explications concernant une réponse déjà donnée doivent nécessairement être spontanées. Une batterie d'items risquerait de proposer de nouveaux arguments qui pourraient nuire à l'authenticité de l'explication.

L'utilité de la question pourquoi ? a été soulignée par de nombreux auteurs, et ce sont en fait les difficultés et le coût de l'exploitation qui en limitent l'usage. Elle seule permet en effet de savoir si les différentes catégories de personnes interrogées ont compris la question fermée de la même façon.

Elle est particulièrement importante dans les enquêtes internationales, car elle permet de juger les éventuelles différences sémantiques des libellés selon la langue utilisée.

Prenons un exemple : à la question "Selon vous, la famille est-elle le seul endroit où l'on se sent bien et détendu", 93 % des personnes habitant en milieu rural, âgées et peu instruites répondent : oui, alors que ce n'est le cas que de 12 % des jeunes (moins de 25 ans) instruits (au moins le baccalauréat) de l'agglomération parisienne (cf. Lebart, 1986).

Cette dispersion considérable des pourcentages serait inférieure si l'on prenait en compte séparément les trois facteurs sous-jacents (âge, type d'agglomération et niveau d'instruction), ou si on ne les prenait en compte que deux par deux. À partir de ce fait statistique, plusieurs questions se posent. Des questions préliminaires telles que : l'assertion proposée a-t-elle le même sens d'une génération à une autre, d'un âge à un autre, d'une région à une autre, pour une personne ayant fait des études et pour une personne faiblement scolarisée ? Le mot famille, en particulier, a-t-il la même signifi-cation pour toutes ces catégories ?

Analyse statistique des réponses 333

Page 337: actes des journées de méthodologie statistique

Ici encore, une question ouverte complémentaire du type "Pourquoi T' est bienvenue, et les discours des différentes catégories précitées (discours obtenus en juxtaposant les réponses) sont intéressants à comparer. Interpréter des différences de pourcentages est une activité de base dans le traitement des données d'enquêtes : pourquoi ne pas inclure dans les matériaux à interpréter le point de vue des répondants eux-mêmes ?

Pour recueillir une information qui doit être spontanée Les questionnaires des enquêtes de marketing abondent en questions de ce type. Citons par exemple : "Qu'avez-vous retenu de ce spot publicitaire r, "Que pensez-vous de cette voiture T'.

Notons que les questions ouvertes sont considérées comme peu adaptées aux problèmes de mémorisation de comportement. "Quels sont les noms des magazines que vous avez lus la semaine dernière 7' "Quelles sont les dernières émissions de télévision que vous avu aimées ?" Pour ces questions qui font l'objet d'enquêtes périodiques, il a été prouvé maintes fois que les questions fermées donnent des taux d'oubli plus faibles (Belson et Duncal, 1962).

En reva,:,:lie. quand la quai i té de la mémorisation est en jeu (préoccupation très courante en inarketin:-_:. lorsqu'il s'agit d'évaluer l'impact d'actions publicitaires), la forme ouverte .és, indispensable.

Lazarsfeld, 1944. préconise l'usa.ÉL,.e des questions ouvertes principalement dans une phase pr,Taratoire ; leur finalité est alors la mise au point d'une batterie d'items de réporr pur une tion fermée. Cette utilisation est toujours recommandée, mais .asses_ F réalis,_'e en raison de son coût : obtenir une liste d'items incluant ceux qui soin N fncaentsn;j2essite en effet une pré-enquête pilote assez lourde.

2.3 - Tra.ttrinew' ragnatïque des questions ouvertes

" permettent de fermer a. posteriori les questions ou à construire une batterie d'items à partir d'un sous-ediamilionde epon s codifier ensemble des réponses de façon à remplace la uestio:1 ouvertcar une ,Du plusieu:•, ,tiestio:s fermées. ['cardes reporses simples. stereot:rocs era nombreuses..L-ette proeedure peu d'incon‘,..niu. .1/21entiLmons cep Jer Frmi dfer de cc u.ce de traitemont

.k

rïrcu:- pal dou: i.'rende de ses Ls car

33.4

Page 338: actes des journées de méthodologie statistique

La destruction de la forme La qualité de l'expression, le registre du vocabulaire, la tonalité générale de l'entretien sont des éléments d'analyse perdus lors d'un post-codage.

L'appauvrissement du contenu Les réponses composites, complexes, d'une grande diversité, sont littéralement lami-nées par le post-codage et c'est souvent dans ce cas que la valeur heuristique des réponses libres est la plus grande.

Prenons l'exemple de la question "Qu'est-ce qui vous inquiète en ce qui concerne l'avenir" et la réponse relativement simple : "J'ai peur de tomber malade et d'être seule, le reste ne me fait pas peur". Les deux thèmes maladie et solitude sont certainement ici en interaction, mais devront probablement être codés séparément comme premier et second items. La seconde partie de la réponse est impossible à coder, puisqu'elle se définit par rapport au "complémentaire" des deux premières, alors qu'elle contient une information importante.

Les réponses rares sont éliminées a priori Les réponses peu fréquentes, originales, peu claires en première lecture sont affectées à des items "résiduels" qui sont donc très hétérogènes et perdent de ce fait toute valeur opératoire.

Ces réponses relativement peu fréquentes peuvent cependant être émises par une catégorie d'individus très particulière, et présenter un grand intérêt au niveau de l'interprétation des résultats, ce qu'il n'est pas possible de savoir lors d'un traitement a priori" de l'information...

Ainsi, à la question mentionnée ci-dessus sur les inquiétudes concernant l'avenir, le thème justice n'est cité que six fois sur 1 000. Mais le fait qu'il soit cité cinq fois sur six par des agriculteurs suggère de coder l' information correspondante, malgré sa fréquence très faible.

Analyse statistique des réponses

Page 339: actes des journées de méthodologie statistique

3 - Les unités statistiques découpées dans les textes

3.1 - Les formes graphiques

L'unité de base sera la forme graphique définie comme une suite de caractères non-délimiteurs (en général des lettres) entourée par des caractères délimiteurs (blanc, points, virgules...). Un même mot pourra en général donner lieu à plusieurs formes graphiques, selon son cas ou son genre dans le texte. Une même forme graphique peut renvoyer à plusieurs mots (en français, LIT renvoie à un nom, mais aussi au verbe lire). Cela n'est pas toujours un inconvénient grave, car les formes graphiques ne seront pas traitées isolément.

Les traitements statistiques concerneront en effet les profils de fréquences de formes graphiques, c'est-à-dire les vecteurs dont les composantes sont les fréquences de chacune des formes utilisées par un individu ou un groupe d'individus. Ces profils contiennent une information extrêmement riche. Plus précisément encore, les techni-ques mettront en évidence les différences entre profils de formes graphiques (Lebart et Salem, 1988).

Si l'interprétation dans l'absolu d'un profil peut être délicate (i.e. : pourquoi telle catégorie socio-professionnelle utilise-t-elle tels mots avec telles fréquences?), l'inter-prétation des différences entre profils est plus aisée : sans spéculer sur la signification des profils, on peut très bien observer que, par exemple, les cadres et les employés ont des profils proches, éloignés de celui des ouvriers. En simplifiant à l'extrême, on peut résumer cette approche différentielle par la formule : il n'est pas utile de comprendre ce que deux catégories ont exprimé dans leurs réponses à une question ouverte pour savoir qu'elles n'ont pas dit la même chose.

3.2 - Les segments répétés

La notion de forme graphique peut être généralisée en procédant à des comptages portant sur des unités plus larges, composées de plusieurs formes : les segments répétés. On observe en effet dans les réponses les apparitions récurrentes d'unités comme je ne sais pas, sécurité d'emploi, justice sociale, dotées parfois d'un sens qui leur est propre et que l'on ne peut pas toujours déduire à partir du sens des formes qui entrent dans leur composition (Salem, 1987). Il est alors possible de reprendre les traitements avec les segments pour compléter les formes graphiques. Les résultats sont considérablement enrichis par l'introduction du contexte des formes, qui lève la plupart des ambiguïtés de sens.

336 lnsee Méthodes n°56-57-58

Page 340: actes des journées de méthodologie statistique

Pour sélectionner formes et segments, des seuils de fréquence vont intervenir. Ils permettront d'effectuer différents filtres sur l'information de base.

3.3 - Les unités lemmatisées

Un autre type de traitement préliminaire du texte consiste à procéder à une "lemmati-sation". Cette opération, très difficile à réaliser de façon entièrement automatique, consiste à remplacer les formes par l'entrée du dictionnaire correspondant (infinitif pour les verbes, masculin singulier pour les adjectifs, formes non élidées à la place des formes élidées, etc.), et parfois à supprimer certains mots-outils (articles, conjonctions, etc, cf. par exemple Reinert, 1986). En documentation automatique, cela permet de travailler avec un nombre restreint de mots-clés dont les occurrences sont fréquentes.

En traitement de questions ouvertes, cette opération n'est pas toujours souhaitable a priori car elle détruit les locutions et modifie assez profondément la forme des réponses, qui peuvent intéresser le socio-linguiste. En revanche, elle peut intervenir comme complément, car elle fournit un point de vue différent sur les textes. Dans le cas d'entretiens non directifs peu nombreux, la lemmatisation permet de travailler avec des seuils de fréquences plus élevés que ceux nécessités par l'analyse des formes graphiques.

Des formes graphiques différentes d'un même mot peuvent être liées à un contexte et à un contenu particulier, et certains mots-outils peuvent caractériser de façon élective des attitudes ou opinions. Ainsi, en réponse à une question sur la nature du mariage, les réponses traditionnalistes contiennent souvent quand : "quand on se marie c'est pour la vie", et se présentent fréquemment comme des discours à la première personne : "je suis contre le divorce", "nous sommes croyants", contrairement aux réponses plus modernistes, qui contiennent souvent parce que, et un ton plus impersonnel : "parce que le mariage est un contrat comme un autre".

Analyse statistique des réponses 337

Page 341: actes des journées de méthodologie statistique

Mot

A 2 Al 3 AIME

Num.

4 5 6 AUCUNE

AUX BEAUCOUP BIEN

DIRE DONNER DU EN EI.:FALi75 ENQUÊTE EST

ETRE FAIRE F AIT FAUDRAIT

T D ENS

IL ILS INTERESSANT

Num. Mots (formes)

MAL MANQUE ME

NE NON ON OU OUI PAR PARLE PARLER PAS PEU PEUT PLUS POUR PROBLÈME PROBLÈMES QU

69 QUE 72 IQUESTION 71 QUESTIONNAIRE 72 QUESTIONS 73 [ QUI 74 REMARQUES 75 . RÉPONDRE 75 RÉPONSES

RIEN RIGIDE e SENS

SONT SUR TEMPS TOUJOURS TOUT TR.AVAIL TRÈS TROP UN UNE

Fréq.

78 - 3D 35 70 48

557

25

11 CA • 12 CE

13 CELA 14 CERTAINES 15 CHÔMAGE

00M 11E . COMPLET

1F DANS DE

2 - DES DIFFICILE

(formes) Fréq]

378 35 23

ASSEZ 93 AU 45

108

49 50 51 52 53 54 55 56 57

59 60 61 62 63 64 65 66

,68

LEUR LONG MAIS

35 33 33

172 572 190 60 36 66 2 35

356 53 43 95

141 26 28 59

164 37

119 215

93 I 25

82. 81 ,,

Tableau 1 : Vocabulaire des formes apparaissant au moins 20 fois [ Question : Que pensez-vous de cette enquête ? cf. § 4 ]

Page 342: actes des journées de méthodologie statistique

4 . La numérisation du texte

Cette phase de traitement préliminaire consiste à affecter à chaque nouvelle forme graphique un numéro d'ordre qui sera associé à toutes les occurrences de cette même forme. Ces numéros seront stockés dans un dictionnaire de formes, ou vocabulaire, propre à chaque exploitation. Ce dernier permettra, à l'issue des calculs ou lors des impressions, de reconstituer le graphisme des formes mises en évidence par les calculs statistiques.

Les exemples qui suivent sont empruntés à une question ouverte de nature méthodolo-gique posée en 1984 (Enquête Conditions de Vie et Aspirations des Français, cf. Lebart, 1986) à l'issue de l'interview, dont le libellé était :

"Vous venez d'être interrogés longuement sur vos conditions de vie, y-a-t-il des sujets importants que vous auriez aimé voir aborder ? Avez-vous des remarques à formuler ?".

Le tableau I représente les 96 formes apparaissant au moins 20 fois dans un échantillon de 2000 réponses à cette question.

On observe comme prévu des formes se rapportant à un même mot (problème, problèmes), des mots-outils (dans. des, par, que, qui...). Comme cela a été dit plus haut, la lemmatisation et l'apurement ne s'imposent pas dans une approche différentielle portant sur des échantillons importants.

Si les mots-outils sont répartis de façon aléatoire dans les diverses catégories d'indivi-dus, ils ne sont pas gênants. S'ils ne le sont pas, ils sont au contraire intéressants. De façon analogue, si deux formes graphiques se rapportant à un même mot ont des comportements identiques, elles peuvent aussi bien être remplacées par ce mot. Si elles ont des comportements différents, c'est qu'elles renvoient à des contextes d'utilisation du mot différents, ce qui mérite d'être relevé.

Le tableau 2 décrit ainsi, toujours pour les 2000 réponses qui nous servent d'exemple illustratif, les différents segments observables, classés selon l'ordre alphabétique de la première forme graphique qui les compose, et sélectionnés en fonction de seuils de fréquences : les segments de longueur 2 (très nombreux, et pauvres du point de vue de leur apport sémantique) doivent apparaître au moins 50 fois, alors que ceux de longueur supérieure ou égale à 3 doivent apparaître au moins 6 fois pour figurer dans l'inventaire.

On voit qu'il s'agit d'éléments d'information auxiliaires, largement i rdépendant,.. pc2.- rrttant d'identifier les contextes des formes les plus fréquente, Une ,,électi(iri

il est, relativement aisé de choisir dans cette liste (établie â partir de ,iévé,re.,. port r limiter le volume des éditions) les segments porteurs d'une infory sémantique spécifique,.

,:tatisti que des

Page 343: actes des journées de méthodologie statistique

Seg j Freq Long Texte du segment

A 14 3 A CERTAINES QUESTIONS

2 12 3 A DES QUESTIONS 3 7 3 A PAS DE

BEAUCOUP 4 I 3 BEAUCOUP DE CHOSES

2 C' EST 3 C'EST ASSEZ 3 C' EST BIEN 3 C' EST INTÉRESSANT 3 C' EST LA 3 C' EST PAS 3 C' EST TRÈS 3 C' EST TROP 3 C' EST UN 4 C' EST TROP LONG 4 C' EST UN QUESTIONNAIRE

CE 3 CE N'EST 3 CE QUESTIONNAIRE EST 4 CE N'EST PAS 4 CE QUE L'ON CERTAINES

2 CERTAINES QUESTIONS 3 CERTAINES QUESTIONS SONT

DE 2 DE LA 3 DE LA VIE 3 DE QUESTIONS SUR 3 DE REPONDRE A

DIFFICILE 3 DIFFICILE DE RÉPONDRE

EST 3 EST ASSEZ COMPLET 3 EST DIFFICILE DE 3 EST TRÈS BIEN 3 EST TRÈS COMPLET 3 EST TROP LONG

ET 3 ET C'EST

FAIT 3 FAIT LE TOUR

IL 3 IL N'Y 3 IL Y A 4 IL N'Y A 4 IL Y ADES 4 IL Y A TROP 5 IL N'Y A PAS 5 IL Y A DES QUESTIONS

J

75 3 J'AURAIS AIMÉ

76 77

42

43

5 175

6 11

7 17

8 12

9 8 10 8 11 18

12 15

13 14

14 7 15

16 11

17 8

18 10

19 7

20 60 21 11

22 59 23 7 24 7 25 11

26 12

27 7 28 10 29 7 30 7 31 9

32

33 11

34 13 35 40 36 11 37 11 38 9 39 8 40

41 10

62 63 64

54 55 56 57 58 59

53

51 52

48 49 50

Se

Freq

55 11 10

10

21

56 16 23

81

9 22 8

19 7 7

9

7 7

191 3

8

11 28 12

18 3 8 4

Long Texte du segment

LA 3 I LA POSSIBILITÉ DE

LE 3 LE QUESTIONNAIRE EST 3 LE TOUR DE

LES 3 LES QUESTIONS SONT 4 LES QUESTIONS SONT TROP

MAIS 3 MAIS C'EST

N 3 N' A PAS 3 N' EST PAS 3 N' Y A

NE NE SONT PAS NE SONT PAS ASSEZ

NON NON C'EST

ON 3 ON A FAIT 3 ON NE PEUT 4 ON A FAIT LE 4 ON NE PEUT PAS 5 ON A FAIT LE TOUR 5 ON NE PEUT PAS REPONDRE

OUI OUI OU NON

PAR 3 PAR OUI OU

PAS 2 PAS ASSEZ 3 PAS ASSEZ DE 3 PAS DE REMARQUES

QUE 3 QUE C'EST 3 QUE L'ON

QUESTIONNAIRE 3 QUESTIONNAIRE EST BIEN 3 QUESTIONNAIRE TROP RIGIDE 4 QUESTIONNARE N' EST PAS

QUESTIONS 3 QUESTIONS SONT TROP

RÉPONDRE 4 RÉPONDRE PAR OUI OU 6 RÉPONDRE PAR OUI OU NON

SONT 3 SONT PAS ASSEZ

UN 3 UN PEU LONG

Y 2 VA 3 Y A PAS 3 Y A TROP

44 7

45

22 46

8

47

731 9

Tableau 2 : Inventaire partiel de segments répétés. Seuils minimum de fréquence de répétition : seuil général = 6,segments de longueur 2 = 50,segments de longueur 3 = 6

340

Insee Méthodes n°56-57-58

Page 344: actes des journées de méthodologie statistique

A-30 cen

REMARQUE

CA

FRANCAIS COMME

PEU

SERAIT

LONG SANS

DIFFICILE

-.10 .10

PAR OIS

AU e-30 ' bic er

TEMPS

FAUT

NOUS

30

PENSE

CHOIX

.50

Figure 1 : Visualisation par analyse des correspondances de la table de contingence croisant les formes avec la variable nominale à 9 modalités : Âge. Diplôme(Question ouverte posée à l'issue d'une enquête, cf. § 4 )

SUIS

BIEN

J'AI i 17 % DU DONNER AIME POSSIBILITÉ

ENFANTS REPONSE MESE I

--UL5212:22 I FAIT MAL

I s450 bac et PROBLEME

J'AURAIS CHOMEURS I DIRE CHOSES

LA MON AUX EN QUES VIE

H-30 ben.- PROBLEMES

REVENUS FAUDRAIT QUE I PEUT OU JEUNES

SI CE TRES ENQUETE I LE s30-50 bacr et 4

PARLER

AURAIT DE I EXEMPLE LEUR A I SOUVENT

VOUS CELA DES CES PLUS L'ON FEI9MES ON QUESTION OUI MAIS TRAVAIL SE CHOSE TRES PAS AMBIGUES

TOUTES JE A 30-50 cen I Cl' QUESTIONTROU DANS NE

Y

REPOASSEZ, PARLE

GENSQU'IL D 30-50 bPpç

UNE POUVOIR

TROP

.90

.00

TOUT FAIRE

TOUS

TOUR CrE

COMPLET

SIS

-.40 -.50 -.30

N'Y

TOUJOURS

RIGIDE

CERTAINES 25 %

MANQUE REPONSE

IEN

A+50 cep NON

BEAUCOUP C'EST

ME POUR REMARQUES

AUCUNE

LES QU'ON

CHONAGE UN

INTERESSANT

5 - Les tableaux lexicaux

Les réponses libres peuvent être numérisées de façon complètement transparente pour l'utilisateur. Le résultat de cette numérisation peut prendre deux formes différentes, matérialisées par deux matrices R et T. La matrice R a k lignes, k désignant le nombre de réponses, et un nombre de colonnes égal à la longueur de la plus longue réponse (nombre d'occurrences de formes dans cette réponse).

Pour une réponse ou un individu "i", la ligne "i" de R (tableau de pointeurs) contient les adresses (relatives à un dictionnaire ou vocabulaire) des formes graphiques qui

Analyse statistique des réponses 341

Page 345: actes des journées de méthodologie statistique

composent la réponse, en respectant l'ordre et les éventuelles répétitions de ces formes. R permet donc de restituer intégralement les réponses originales.

R n'est pas rectangulaire, car chacune de ses lignes a une longueur variable. Les nombres entiers qui composent R ne peuvent dépasser y, longueur du vocabulaire (nombre de formes graphiques distinctes).

La matrice T a le même nombre k de lignes que R, mais possède autant de colonnes qu'il y a de formes graphiques utilisées par l'ensemble des individus, c'est-à-dire

(v = vocabulaire) colonnes. A l'intersection de la ligne i et de la colonne j de T figure le nombre de fois où la forme j a été utilisée par l'individu i dans sa réponse. Il s'agit donc d'une table de contingence "Individus-Formes". T peut être aisément construite à partir de R, mais la réciproque n'est pas vraie : l'information relative à l'ordre des formes dans chaque réponse est perdue dans T.

En fait, R est beaucoup plus compacte que T : ainsi, une réponse contenant 20 occurrences (pour un lexique de 1 000 formes) correspond à une ligne de longueur 20 de R et à une ligne de longueur 1 000 de T (cette dernière ligne comprenant au moins 980 zéros...). Les calculs statistiques et algorithmiques qui mettront en jeu T sont en réalité programmés à l'aide de R, moins encombrante en mémoire.

Dans la plupart des applications, les réponses isolées sont trop pauvres pour faire l'objet d'un traitement statistique direct : il est nécessaire de travailler sur des regroupements de réponses.

On désignera par Z le tableau disjonctif complet à k lignes et p colonnes décrivant les réponses de k individus à une question fermée comportant p modalités de réponses possibles.

C = T' Z est un tableau à v lignes et p colonnes dont le terme général cij n'est autre que le nombre de fois où la forme "i" a été utilisée dans une réponse libre par l'ensemble des individus ayant choisi la réponse "j" à une question fermée.

Il est donc aisé, pour toute question fermée dont les réponses sont codées dans un tableau Zq , de calculer le tableau lexical agrégé Cq par la formule :

Cq = T'Zq

Ces comparaisons de profils lexicaux n'ont de sens, d'un point de vue statistique, que si les formes apparaissent avec une certaine fréquence : les hapax (formes n'apparais-sant qu'une fois), ou même les formes rares seront écartés de la phase de comparaisons de fréquences. Ceci a pour effet de réduire la taille du vocabulaire v. Pour une question ouverte posée à 1 000 personnes, une sélection des formes apparaissant au moins 8 fois peut, dans bien des cas, diviser par 10 la valeur de v (de 1500, pour fixer les idées, à 150).

342 Insee Méthodes n°56-57-58

Page 346: actes des journées de méthodologie statistique

Pour la question posée à l' issue d' une enquête qui nous sert d'exemple, il y a, au départ, pour 2 000 réponses 12 866 occurrences, avec 2 035 formes distinctes ; on a vu (tableau I ) qu'il n'y a pour cette question que 96 formes apparaissant au moins 20 fois.

Dans la table de contingence Cq dont l'analyse produit la figure 1, (qui correspond à une sélection des formes apparaissant au moins 14 fois) on retient 128 formes, qui totalisent 8805 occurrences.

Trois outils vont permettre d'aider la lecture des tableaux lexicaux agrégés : l'analyse des correspondances, les listes de formes caractéristiques, les listes de réponses modales.

5.1 - Analyse des correspondances des tableaux lexicaux

Les analyses des correspondances peuvent décrire les tableaux Cq qui sont des tables de contingence (dont les "individus" sont des occurrences de formes, et non plus des individus interrogés...). Elles permettent de visualiser les associations entre mots (formes) et groupes ou modalités. Ainsi, une visualisation des proximités entre mots et catégories socio-professionnelles pourra aider la lecture des réponses de chacune de ces catégories.

Avec ce type de représentation, la présence de mots-outils est parfaitement justifiée : si ces mots caractérisent électivement certaines catégories, comme le mot quand évoqué plus haut, ils se positionnent dans leur voisinage, et peuvent être intéressants à interpréter ; si au contraire leur répartition est aléatoire, ils s'abîmeront dans la partie centrale du graphique, sans en encombrer la lecture.

De même, la présence de plusieurs flexions d'un même verbe constitue un outil de validation. Lors d'une représentation des réponses à une question sur le mariage (Lebart, I 982b), les formes doivent, doit, devraient, s'opposent à peuvent, pouvoir, peut, ce qui valide l'opposition entre les deux notions sous-jacentes.

La figure 1 représente les positions des 128 formes apparaissant au moins 14 fois, (dont les plus fréquentes sont représentées sur le tableau 1) dans le plan factoriel principal de l'analyse des correspondances de la matrice C, qui est, dans cet exemple de dimension réduite, une matrice d'ordre (128, 9). Rappelons que l'individu statistique est "l'occur-rence d'une forme" (et non pas l'individu enquêté).

Pour les 9 classes de la variable Age-Diplôme, cette représentation donne une idée rapide des principales oppositions et associations entre profils de vocabulaires. Il s'agit, rappelons-le, d'une aide à la lecture des réponses regroupées suivant ces catégories. Pour les réponses à cette question, le niveau de diplôme est plus discriminant que l'âge (les trois catégories de niveau "Bacc et +" sont sur la droite du premier axe), bien que

Analyse statistique des réponses 343

Page 347: actes des journées de méthodologie statistique

Tableau 3 : Spécificités (formes caractéristiques) pour 4 catégories de la variable à 9 modalités : Âge - Diplôme

Libellé de la forme graphique

Pourcentage Fréquence V.test Proba

Interne Global Interne Globale Texte numéro 1 : Moins de 30 ans, sans diplôme ou CEP

1 INTÉRESSANT 1,43 0,49 7,0 43,0 2,373 0,009 2 NON 9,20 6,50 45,0 572,0 2,306 0,011 3 C'EST 3,27 1,99 16,0 175,0 1,829 0,034 4 CHÔMAGE 1,23 0,55 6,0 48,0 1,661 0,048 5 TROP 3,07 2,02 15,0 178,0 1,478 0,070 6 LE 3,48 2,39 17,0 210,0 1,436 0,076 7 LES 4,91 3,70 24,0 326,0 1,309 0,095 8 CHOIX 0,61 0,23 3,0 20,0 1,303 0,096 9 TOUT 1,02 0,56 5,0 49,0 1,107 0,134 10 AUCUNE 1,84 1,23 9,0 108,0 1,057 0 145

Texte numéro 3 Moins de 30 ans, Bacc. ou Université 1 MANQUE 1,07 0,37 10,0 33,0 2,932 0,002 2 TROP 3,41 2,02 32,0 178,0 2,875 0,002 3 CERTAINES 1,71 0,80 16,0 70,0 2,827 0,002 4 CHOIX 0,75 0,23 7,0 20,0 2,708 0,003 5 RÉPONSES 1,81 0,95 17,0 84,0 2,478 0,007 6 ASSEZ 1,92 1,06 18,0 93,0 2,386 0,009 7 QUESTIONS 3,62 2,44 34,0 215,0 2,266 0,012 8 RÉPONDRE 1,39 0,81 13,0 71,0 1,808 0,035 9 LONG 1,39 0,83 13,0 73,0 1,716 0,043 10 PAS 5,12 4,04 48,0 356,0 1,646 0,050

Texte numéro 7 : Plus de 50 ans, sans diplôme ou CEP 1 NON 8,39 6,50 161,0 572,0 3,663 0,000 2 ÇA 1,56 0,89 30,0 78,0 3,245 0,001 3 RIEN 1,56 0,92 30,0 81,0 3,034 0,001 4 BIEN 1,46 0,94 28,0 83,0 2,414 0,008 5 POUR 2,24 1,60 43,0 141,0 2,348 0,009 6 JE 2,03 1,48 39,0 130,0 2,118 0,017 7 TRÈS 1,20 0,78 23,0 69,0 2,106 0,018 8 ANS 0,36 0,16 7,0 14,0 2,087 0,018 9 COMME 0,52 0,27 10,0 24,0 2,005 0,022 10 REMARQUES 0,52 0,28 10,0 25,0 1,876 0,030

TEXTE numéro 9 : Plus de 50 ans, Bacc. ou Université 1 OUI 2,18 1,06 15,0 93,0 2,552 0,005 2 J'AI 0,73 0,24 5,0 21,0 2,046 0,020 3 EN 1,60 0,89 11,0 78,0 1,761 0,039 4 QUESTIONS 3,49 2,44 24,0 215,0 1,668 0,048 5 MAL 0,87 0,40 6,0 35,0 1,629 0,052 6 EST 2,03 1,29 14,0 114,0 1,554 0,060 7 PAR 1,31 0,75 9,0 66,0 1,477 0,070 8 AUX 0,87 0,43 6,0 38,0 1,460 0,072 9 QUESTIONNAIRE 2.03 1.35 14 119 1,406 0,080 10 IL 2.62 1.85 18 163 1,373 0,085

344

Insee Méthodes n°56-57-58

Page 348: actes des journées de méthodologie statistique

cet axe oppose principalement (opposition confirmée par les calculs de contributions non publiées ici), les deux catégories extrêmes S-30 (Jeunes instruits) et A+50 (plus de cinquante ans, aucun diplôme ou CEP).

5.2 - Les listes des formes caractéristiques (ou spécificités)

Il est tentant de compléter les représentations spatiales fournies par l'analyse des correspondances par quelques paramètres d'inspiration plus probabiliste : les spécifi-cités ou formes caractéristiques. Ce seront les formes "anormalement" fréquentes dans les réponses d'un groupe d'individus.

À ces formes caractéristiques sont attachées des "valeurs-tests" qui mesurent l'écart existant entre la fréquence relative d'une forme dans une classe avec sa fréquence relative globale calculée sur l'ensemble des réponses ou individus.

Cet écart est normé de façon à pouvoir être considéré comme une réalisation de variable normale centrée réduite, dans l'hypothèse de répartition aléatoire de la forme étudiée dans les classes. Dans cette hypothèse, la valeur-test a 95 chances sur 100 d'être comprise entre -1.96 et + 1.96. Mais ce calcul reposant sur une approximation normale de la loi hypergéométrique n'est utilisé que lorsque les effectifs concernés ne sont pas trop faibles.

Toujours pour la question posées à l'issue de l'enquête précitée, le tableau 3 donne les 10 formes les plus caractéristiques de chacune des 4 classes extrêmes de la partition en 9 postes Age-Diplôme (classes d'âges extrêmes croisées avec les niveaux de diplôme extrêmes).

Les seuils de probabilités qui figurent à côté des valeurs-tests sont des seuils unilatéraux à droite. On vérifiera le caractère complémentaire de l'information du tableau 3 par rapport aux compromis géométriques de la figure 1, établie à partir de la même table de contingence.

5.3 - Les sélections des réponses modales

Pour une classe donnée, et donc pour le regroupement de réponses correspondant, les réponses modales (ou encore phrases caractéristiques, ou documents-types, selon les domaines d'application) sont des réponses originales du corpus de base, ayant la propriété de caractériser au mieux la classe.

Analyse statistique des réponses 345

Page 349: actes des journées de méthodologie statistique

Tableau 4: Réponses modales pour 4 catégories de la variable à 9 modalités : Âge - Diplôme (10 réponses les plus caractéristiques) (Critère de sélection 1 : mots caractéristiques)

Critère Réponse ou individu

Texte numéro 1: Moins de 30 ans, sans diplôme ou CEP

2.306 - 1 NON 2.306 -2 NON 2.306 -3 NON 2.306 -4 NON 2.306 -5 NON 2.306 - 6 NON 2.306 - 7 NON 2.306 -8 NON 2.306 - 9 NON

2.306 - 10 NON

Texte numéro 3: Moins de 30 ans, Bacc. ou Université

2.296 - 1 TROP LONG 2.296 -2 TROP LONG 1.811 -3 QUESTIONNAIRE TROP RIGIDE 1.784 -4 RÉPONSES TROP ABSOLUES 1.506 - 5 QUESTIONNAIRE TROP LONG,PAS ASSEZ DE NUANCE POUR CERTAINES RÉPONSES 1.466 - 6 QUESTIONNAIRE PAS ASSEZ NUANCÉ POUR CERTAINES QUESTIONS 1.445 -7 QUESTIONS ASSEZ ÉVASIVES, PAS ASSEZ PERSONNALISÉES, TROP GÉNÉRAL 1.345 - 8 MANQUE DE POSSIBILITÉS DE RÉPONSES, RÉPONSES TROP TRANCHÉES 1.321 -9 CERTAINES QUESTIONS SONT SANS ALTERNATIVE

1.259 - 10 PAS ASSEZ DE QUESTIONS OUVERTES

Texte numéro 7 : Plus de 50 ans, sans diplôme ou CEP

3.663 - 1 NON 3.663 - 2 NON 3.663 - 3 NON 3.663 -4 NON 3.663 - 5 NON 3.663 - 6 NON 3.663 -7 NON 3.663 - 8 NON 3.663 - 9 NON 3.663 -10 NON

Texte numéro 9: Plus de 50 ans, Bacc. ou Université

0.632 - 1 IL Y A PLEIN DE QUESTIONS QUI SONT MAL POSÉES 0.600 -2 NON, J'AI L'IMPRESSION QU'IL EST COMPLET 0.576 -3 IL Y A PAS MAL DE QUESTIONS AMBIGUËS, QUESTIONS À PIÈGE 0.573 -4 QUESTIONNAIRE CONDITIONNÉ A UNE CONCEPTION ACTUELLE QUI EST FAUSSE PAR

RAPPORT A LA RÉALITÉ 0.556 - 5 DES QUESTIONS INDISCRÈTES 0.488 -6 IL EST TRÈS COMPLET, CHER MONSIEUR 0.459 - 7 QUESTIONNAIRE QUI EFFECTIVEMENT MANQUE DE NUANCES,ON IGNORE LE BUT

POURSUIVI PAR L'ENQUÉTE,DEUX TYPES DE QUESTIONS : QUESTIONS PERSONNELLES,QUI SEMBLENT INTÉRESSANTES ET QUI PEUVENT FINIR PAR DONNER UNE IMAGE DE LA SOCIÉTÉ ACTUELLE, QUESTIONS QUI NOUS DEMANDENT DE JUGER SUR L'ENSEMBLE, SUR LE GÉNÉRAL SONT DES QUESTIONS DIFFICILES A RÉPONDRE

0.418 -8 LA TRANSFORMATION DE LA SOCIÉTÉ PASSE PAR LA TRANSFORMATION DES MENTALITÉS 0.417 - 9 DES QUESTIONS D'ARGENT INDISCRÊTES 0.377-10 CE QUI MANQUE DANS CE QUESTIONNAIRE C'EST L'INTÉRÊT PORTÉ AUX PAYS EN

VOIE DE DÉVELOPPEMENT

346

lnsee Méthodes n°56-57-58

Page 350: actes des journées de méthodologie statistique

Critère de sélection 1 : mots caractéristiques

Un premier mode de calcul de réponses modales consiste à associer à chaque réponse la valeur-test moyenne des formes caractéristiques qu'elle contient : si cette moyenne est grande, cela signifie que la réponse ne contient que des formes très caractéristiques du groupement. Les réponses de plus grandes moyennes seront donc les plus caracté-ristiques de la classe ou du groupement de réponse concerné.

Dans le cas du corpus qui nous sert d'exemple, le tableau 4 représente, pour les mêmes quatre catégories que le tableau 3, les 10 réponses (effectivement présentes dans le recueil de base) les plus caractéristiques de chaque catégorie.

Avec ce critère, les réponses seront courtes et caricaturales.

Quand un mot très caractéristique apparaît seul dans une réponse, cette réponse est évidemment bien classée. La présence d'autres mots peut bien entendu faire baisser la moyenne des valeurs-tests, d'où cette tendance à sélectionner des réponses courtes.

Critère de sélection 2 : Distances du Chi-2 entre profils

Le principe de ces sélections est schématiquement le suivant : une réponse est une ligne de T, donc un vecteur à v composantes. Si cette réponse est formée de 25 formes différentes, seulement 25 de ces composantes seront différentes de zéro.

Un groupement de réponses (les réponses des ouvriers, par exemple) est un ensemble de vecteurs-lignes, et le profil lexical moyen de ce groupement est obtenu en calculant la moyenne des vecteurs-lignes de cet ensemble.

Si ce regroupement se fait selon les modalités d'une question fermée dont les réponses sont codées dans un tableau Z, on a vu que le tableau lexical agrégé C se calcule par la formule :

C=T'Z

Il est donc possible de calculer des distances entre des réponses et les regroupements de ces réponses. Réponses (lignes de T) et regroupements de réponses (colonnes de C, ou lignes de C', transposée de C) sont tous représentés par des vecteurs d'un même espace.

Ces distances expriment l'écart entre le profil d'une réponse et le profil moyen de la classe à laquelle cette réponse appartient. La distance choisie entre ces profils de fréquences sera la distance du Chi-2, en raison de ses propriétés distributionnelles.

Analyse statistique des réponses 347

Page 351: actes des journées de méthodologie statistique

Tableau 5 : Réponses modales pour 4 catégories de la variable à 9 modalités : Age - Diplôme (10 réponses les plus caractéristiques) (Critère de sélection 2 : Distances entre profil lexical de chaque réponse et profil moyen de la catégorie)

Critère de classification Réponse ou individu caractéristique

TEXTE NUMÉRO 1 : Moins de 30 ans, sans diplôme ou CEP

0.920 - 1 NON C'EST INTÉRESSANT DE RÉPONDRE À DES QUESTIONS

0.931 - 2 LES RÉPONSES SONT UN PEU TROP LIMITÉES, TROP DIRECTIVES, PAS ASSEZ DE CHOIX

0.936 - 3 NON

0.936 - 4 NON

0.936 - 5 NON

0.936 - 6 NON

0.936 - 7 NON

0.936 - 8 NON

0.936 - 9 NON

0.936-10 NON

TEXTE NUMÉRO 3 : Moins de 30 ans, Bacc ou Université

0.848 - 1 QUESTIONNAIRE TROP LONG, PAS ASSEZ DE NUANCE POUR CERTAINES RÉPONSES

0.855 - 2 CE QUESTIONNAIRE PASSE SUR CERTAINES QUESTIONS SANS LES APPROFONDIR ET OBLIGE À RÉPONDRE DE FACON TROP DIRECTIVE, IL N'EST PAS TOUJOURS ASSEZ NUANCÉ

0.858 - 3 COMME VOUS LE DITES, QUESTIONNAIRE UN PEU TROP RIGIDE, UN MANQUE DE CHOIX POSSIBLES POUR CERTAINES QUESTIONS, QUESTIONS PARFOIS TATILLONNES ET DIFFICILE D'EN VOIR L'INTÉRÊT ET L'EXPLOITATION. EX : LES VOYAGES SUR LES PROBLÈMES DU TEMPS LIBRE, ON N'INSISTE PAS ASSEZ SUR LE CONTENU DU TEMPS LIBRE

0.869 - 4 LES QUESTIONS SONT TROP CATÉGORIQUES, ELLES NE PERMETTENT PAS DE NUANCER LES RÉPONSES

0.881 - 5 POUR CERTAINES QUESTIONS, L'ÉVENTAIL DES REPONSES N'ETAIT PAS ASSEZ LARGE

0.891 - 6 CERTAINES QUESTIONS N'ONT PAS UN ASSEZ LARGE ÉVENTAIL DE CHOIX, ON EST OBLIGÉ DE RÉPONDRE SANS ÊTRE VRAIMENT D'ACCORD

0.892 - 7 J'Al EU DES DIFFICULTÉS A RÉPONDRE À CERTAINES QUESTIONS QUI ME SEMBLAIENT NE PAS LAISSER UN GRAND CHOIX DE RÉPONSES, S'ADRESSE AU FRANCAIS MOYEN TYPE, LES QUESTIONS CONCERNANT LES RÉFORMES SOCIALES NE SONT PAS COMPARATIVES AVEC D'AUTRES PAYS, AVEC CE QUI A ÉTÉ FAIT ET CE QUI RESTE À FAIRE

0.893 - 8 LE QUESTIONNAIRE EST BEAUCOUP TROP LONG ET UN PEU ENNUYEUX ON NOUS OBLIGE À RÉPONDRE À CERTAINES QUESTIONS QUI NE NOUS INTÉRESSENT PAS

0.898 - 9 QUESTIONNAIRE PAS ASSEZ NUANCÉ POUR CERTAINES QUESTIONS

0.904 - 10 OUI CE QUESTIONNAIRE N'EST PAS BIEN FAIT, IL NE PERMET PAS TOUJOURS DE S'EXPRIMER ET PARFOIS IL OBLIGE À RÉPONDRE DANS UN SENS OÙ ON NE LE VOUDRAIT PAS, PARFOIS IL MANQUE DE NUANCES

348

Insee Méthodes n°56-57-58

Page 352: actes des journées de méthodologie statistique

Tableau 5 (suite)

TEXTE NUMÉRO 7: Plus de 50 ans, sans diplôme ou CEP

0.912 - 1 NON JE N'AI RIEN A DIRE DE PLUS, C'EST BIEN

0.917 -2 LA RETRAITE À 60 ANS POUR LES AGRICULTEURS, UNE PRIORITÉ DE MAINTIEN DE TRAVAIL POUR LES HANDICAPÉS EN CAS DE LICENCIEMENT, DONNER UN MINIMUM DE REVENUS DÈS 50% DE HANDICAP ET S'OCCUPER UN PEU PLUS DES HANDICAPÉS LÉGERS

0.919 - 3 JE SUIS CONTENTE DE CET ENTRETIEN, LES QUESTIONS JE LES Al TROUVÉES À MA PORTÉE, C'EST SYMPATH!QUE,ÇA DEVRAIT SE FAIRE PLUS SOUVENT, EN PLUS C'EST UN CONTACT AGRÉABLE

0.923 - 4 NON C'EST BIEN , ÇA PARLE UN PEU DE TOUT, IL Y A DES QUESTIONS UN PEU INDISCRÈTES SUR L'ARGENT ET LA SANTÉ

0.934 -6 AUCUNE, ÇA NE SERVIRAIT À RIEN

0.934 - 7 NON, RIEN À FORMULER

0.942 - 8 NON, ÇA NE VIENT PAS A L'IDÉE COMME ÇA

0.943 - 9 IL EST BON , CE QUESTIONNAIRE, IL EST BIEN CONSTRUIT, IL Y EN A POUR TOUS LES GOÛTS, LE DÉROULEMENT S'EST TRÈS TRÈS BIEN PASSÉ

0.943-10 NON, C'EST TRÈS BIEN

TEXTE NUMÉRO 9: Plus de 50 ans, Bacc. ou Université

0.831 - 1 CE QUESTIONNAIRE EST BIEN FAIT, J'AURAIS AIMÉ DONNER MON POINT DE VUE SUR LA PEINE DE MORT SURTOUT AVEC CE QUI SE PASSE EN CE MOMENT CERTAINES DE MES RÉPONSES SERAIENT PLUS EXACTES SI J'AVAIS EU LA POSSIBILITÉ DE RÉPONDRE AVEC DAVANTAGE DE NUANCES, J'AI ÉTÉ TRÈS INTÉRESSÉE MAIS JE SUIS SÛRE QUE CE SOIR J Y REPENSERAI EN RÉFLECHISSANT PLUS LONGUEMENT ET QUE CERTAINES DE MES RÉPONSES SERONT DIFFÉRENTES APRÈS PLUS DE RÉFLEXION

0.879 -2 JE TROUVE QUE CERTAINES QUESTIONS SONT INCOMPLÈTEMENT POSÉES :TROUVEZ VOUS QUE L'ÉLECTRICITÉ EST CHÈRE? OUI, POURQUOI? , CELA VEUT IL DIRE POURQUOI EST ELLE CHÈRE? OU BIEN POURQUOI LA TROUVEZ-VOUS CHÈRE? HEUREUSEMENT QUE LA JEUNE PERSONNE A FAIT PREUVE DE PATIENCE AVEC MOI, CAR J'AIME BIEN VOIR LES CHOSES CLAIREMENT, D'AUTRE PART LE QUESTIONNAIRE EST PAR MOMENT ORIENTÉ POLITIQUEMENT PARLANT.

0.888 - 3 QUESTIONNAIRE QUI EFFECTIVEMENT MANQUE DE NUANCES,ON IGNORE LE BUT POURSUIVI PAR L'ENQUÊTE, DEUX TYPES DE QUESTIONS : QUESTIONS PERSONNELLES, QUI SEMBLENT INTERÉSSANTES ET QUI PEUVENT FINIR PAR DONNER UNE IMAGE DE LA SOCIÉTÉ ACTUELLE, QUESTIONS QUI NOUS DEMANDENT DE JUGER SUR L'ENSEMBLE, SUR LE GÉNÉRAL SONT DES QUESTIONS DIFFICILES À RÉPONDRE

0.899 -4 C'EST PAS SI MAL QUE CA,J'AI ÉTÉ TRES INTÉRESSÉ PAR LA PERSONNE QUI A POSE LE QUESTIONNAIRE, J'AI FAIT RAJOUTER MON OPINION PERSONNELLE POUR QUELQUES SUJETS N'AYANT PAS D'ALTERNATIVE, AUTRE QUE OUI OU NON PAS D'INDISCRÉTION C'EST BIEN TRÈS BIEN MÊME CONTINUEZ

0.902 - 5 IL EST PAS MAL, IL EST CONCRÊT À LA PORTÉE DE TOUT LE MONDE, ON N'A PAS PARLÉ DE LA MOBILITÉ DE L'EMPLOI, DE LA FORMATION PROFESSIONNELLE ET DU RECLASSEMENT DES GENS, LES PROBLÈMES DES FEMMES NE SONT PAS SUFFISAMMENT ABORDÉS

0.912 - 6 IL Y A PLEIN DE QUESTIONS QUI SONT MAL POSÉES, IL Y A TROP DE QUESTIONS, TROP GÉNÉRALES

Analyse statistique des réponses 349

Page 353: actes des journées de méthodologie statistique

Tableau 5 : (suite et fin)

0.918 - 7 LES QUESTIONS NE SONT PAS TOUJOURS SUFFISEMENT PRÉCISES, LES QUESTIONS SE RECOUPENT POUR MOI IL Y A DES QUESTIONS QUI SE SUPERPOSENT IL Y A PEUT ÊTRE CERTAINES QUESTIONS QUI PEUVENT ÊTRE SUPPRIMÉES ON A L'IMPRESSION DE RÉPONDRE PLUSIEURS FOIS À CERTAINES QUESTIONS

0.924 - 8 J'AURAIS AIMÉ SAVOIR PLUS PRÉCISEMENT À QUI SONT DESTINÉES CES INFORMATIONS, QUANT À L'EMPRISE DE L'ÉTAT PAR RAPPORT À L'INDIVIDU J'ESPÈRE QUE CE TYPE D'ENQUÊTE N'ABOUTIRA PAS À FAIRE EN SORTE QUE JE SOIS FICHÉ

0.925 - 9 QUESTIONNAIRE CONDITIONNÉ A UNE CONCEPTION ACTUELLE QUI EST FAUSSE PAR RAPPORT A LA RÉALITÉ

0.925 - 10 LE QUESTIONNAIRE N'EST PAS TRÈS BIEN REDIGÉ, CERTAINES QUESTIONS SONT AMBIGUËS AINSI D'AILLEURS QUE L'OBJET DE L'ENQUÊTE

La distance entre un point-ligne i de T et un point-colonne m de C est alors donnée par la formule :

d2 (ï, in) =Ei(t /t .1) . — cim /c .m )2

avec les notations usuelles :

t désigne la somme globale des éléments de T, c'est-à-dire le nombre total d'occurrences ;

t • désigne la somme des éléments de la colonne j de T (nombre d'occurrences de la forme j) ;

ti.la somme des éléments de la ligne i de T (longueur de la réponse i) ;

c.mla somme des éléments de la colonne m de C (nombre total d'occurrences de la classe ou du groupement m).

On peut, pour chaque regroupement, classer ces distances par ordre croissant, et donc sélectionner les réponses les plus représentatives au sens du profil lexical, qui corres-pondront aux plus petites distances.

Le tableau 5 nous montre, toujours pour les quatre catégories extrêmes, les 10 réponses les plus caractéristiques selon ce critère.

On voit qu'il s'agit de réponses beaucoup plus riches et nuancées que celles du tableau 4, mais moins caricaturales. En fait, les deux critères sont assez complémentaires : résumé dense dans un cas, portrait plus impressionniste dans l'autre.

350 Insee Méthodes n°56-57-58

Page 354: actes des journées de méthodologie statistique

6 - Stratégie de traiteriez l

On a vu qu'il était souvent nécessaire de regrouper les réponses pour pouvoir procéder à des analyses de type statistique. Les profils lexicaux d'agrégats de réponses ont plus de régularité et de signification que ceux des réponses isolées. Ce regroupement a priori peut être réalisé à partir des variables disponibles, retenues en fonction de certaines hypothèses. Mais ceci suppose une bonne connaissance préalable du phénomène étudié, situation qui n'est en général pas réalisée dans les études dites exploratoires.

6.1 - Regroupement par noyaux factuels

La technique dite des "noyaux factuels" va permettre de donner des éléments de réponse à ce problème.

Etant donnée une liste de descripteurs ou de variables caractérisant les individus, le problème est de regrouper les individus en groupes les plus homogènes possibles vis-à-vis de ces caractéristiques... sans en privilégier certaines a priori.

C'est précisément le type d'opération que permet de réaliser un algorithme de classifi-cation, appliqué aux lignes du tableau disjonctif Z décrivant les individus à partir d'une sélection de leurs caractéristiques.

La partition obtenue est une sorte de "partition moyenne" qui résume les principales combinaisons de situations observables dans l'échantillon, et qui permet donc de procéder à des regroupements de réponses les moins arbitraires possibles.

6.2 - Analyses directes sans regroupement

Si les réponses ne sont pas regroupées, mais paraissent suffisamment riches pour être traitées isolément, une analyse directe du tableau lexical T croisant formes graphiques et réponses peut être opérée.

Une telle analyse produit une typologie des réponses, en général assez grossière, et produit de façon duale une typologie de mots ou de formes graphiques.

Il est donc possible d'illustrer ces typologies par les caractéristiques des individus interrogés qui auront le statut de variables supplémentaires ou illustratives. Ce traite-ment direct des réponses pourra conduire à la réalisation d'un post-codage partiellement automatisé.

Analyse statistique des réponses 351

Page 355: actes des journées de méthodologie statistique

Notons que la proximité entre deux formes graphiques, c'est-à-dire entre deux colon-nes du tableau T sera d'autant plus grande que les formes apparaîtront dans une même réponse (et non plus seulement dans un même texte), ce qui Permettra de mieux représenter les voisinages syntagmatiques. L'analyse directe rendra mieux compte des contextes que les analyses de tableaux agrégés.

Le traitement d'un tableau aussi grand et "clairsemé" impliquera en général la mise en oeuvre d'algorithmes de calcul particuliers, utilisant le tableau réduit R au lieu du tableau T, et évitant le calcul et le stockage d'une matrice à diagonaliser d'ordre v (cf. par exemple, Lebart, 1982a).

Notons que l'on peut également projeter en éléments supplémentaires les caractéristi-ques des k personnes interrogées (colonnes de la matrice Z) sur ces graphiques d'analyse directe et comprendre ainsi "qui a répondu quoi".

6.3 - La classification directe des formes

Cette technique permet de représenter la façon dont les formes graphiques se regroupent dans les réponses, et donc de compléter les plans factoriels comme ceux de la figure 1, qui ne présentent que deux dimensions à la fois.

C'est une façon très systématique de décrire les principales associations de mots et donc les principaux thèmes abordés.

6.4 - Juxtapositions de tables de contingences

Lorsqu'il n'existe pas de critère de regroupement a priori, on peut également analyser, non pas une table de contingence, mais une juxtaposition de tables de contingences. Cette juxtaposition C = Z s'obtient toujours à partir de la matrice T, mais Z est maintenant le tableau disjonctif complet :

Z , Z2, . . )

décrivant les réponses aux variables nominales à juxtaposer.

Dans les lignes de C figurent toujours les unités statistiques de base (formes graphiques, segments, ou lemmes), en colonne figurent, juxtaposées, les partitions correspondant à différentes variables.

352 Insee Méthodes n°56-57-58

Page 356: actes des journées de méthodologie statistique

Il ne s'agit pas d'une partition de synthèse (comme les noyaux factuels) car il y a simplement juxtaposition et non croisement. Les distances entre formes graphiques sont donc des distances moyennes, pour lesquelles chacune des partitions a la même importance. Il faut donc que ces partitions ne soient pas trop hétérogènes, pour que l'interprétation des proximités entre formes reste possible. Cette stratégie d'analyse proposée par Benzécri, a été implémentée dans le logiciel SPADT (1988). Son intérêt dans le cas ou les partitions sont constituées par de nombreuses questions fermées a été souligné par Cibois (1990).

7 - Commentaires sur l'exemple : enquête sur une enquête

On reprend la question posée à l'issue d'une interview sur les appréciations des personnes interrogées sur l'enquête elle-même et son questionnaire.

Les listages des formes et des réponses caractéristiques nous donnent un panorama des différentes réponses possibles sans que l'information de base soit pré-interprétée. Ce panorama montre que l'enquête n'est pas perçue de la même façon par les différentes catégories de personnes interrogées. En particulier, il y a un lien profond entre l'intérêt manifesté envers l'enquête, la qualité des réponses, et le contenu même de ces réponses. Ce lien est fâcheux pour ce que l'on souhaiterait être un instrument d'observation. Que dirait-t-on d'un thermomètre qui fonctionnerait plus ou moins bien selon la température qu'il est censé mesurer ?

Illustrons ce propos par les réponses modales et les formes caractéristiques de quelques catégories de répondants :

Les personnes âgées (formes caractéristiques : aucune, retraite, impôts, jeunes) s'ex-priment peu, prennent leurs distances par rapport à l'enquête, ou mentionnent des problèmes personnels. Parmi les réponses modales, citons :

"C'est plutôt des jeunes qu'il faut interroger, à mon âge, on n'attend plus grand chose, on a fait sa vie", ou encore : "Je trouve que ce n'est pas bien qu'on vous enlève des impôts sur une retraite, on ne devrait payer d'impôts que sur une retraite élevée, pas sur les petites retraites".

Les réponses des plus jeunes (formes caractéristiques : questionnaires, réponses, questions, indiscret, long, société) sont fort différentes : elles sont en général assez critiques. Citons les deux premières réponses modales :

"Ce questionnaire est vraiment trop long, je suis gêné par la formulation de certaines questions fermées, c'est trop directif, pas assez souple", "C'est trop long, ça manque

Analyse statistique des réponses 353

Page 357: actes des journées de méthodologie statistique

de nuance, j'aurais aimé donner mon avis sur la place des dépenses pour les équipe-ments militaires nuisant à l'environnement".

Autre ton et autres préoccupations chez les ouvriers (avec enfants), (formes caractéris-tiques : salaire, enfants, pourquoi, allocations). Citons les réponses modales :

"Pour deux enfants, avec la mère au foyer, les allocations familiales sont trop faibles par rapport au troisième, vu le coût de la vie, j'espère que l'enquête fera changer quelque chose.",

"Il y a trop d'injustice au niveau de la répartition des allocations familiales, pour un enfant, on devrait avoir la même chose".

Les femmes au foyer se sentent négligées par le questionnaire (formes caractéristiques : famille, foyer, femme). Réponse modale :

"011 aurait pu aborder le sujet de la femme au foyer, pour la prendre davantage en considération, on ne parle que des femmes qui travaillent."

Cette lacune ou cette orientation du questionnaire est aussi dénoncée par les femmes actives aux revenus modestes :

"Penser un peu plus à la femme qui travaille, j'aimerais beaucoup que la femme touche un salaire tout en restant à la maison pour s'occuper de ses enfants".

Cette analyse, simplement résumée ici, met en évidence une mosaïque d'attitudes par rapport à l'opération statistique elle-même : réserve, récrimination, doléances, intérêt, critique distante, hostilité, agacement... qui illustrent la complexité des "fonctions de prélèvement d'information" que constituent les interviews d'une telle enquête.

8. - Conclusions

Cette approche différentielle, distincte de l'analyse de contenu classique, est avant tout une confrontation de l'ouvert et du fermé. Elle ne vise en effet qu'à décrire les contrastes entre plusieurs textes, que ces textes soient des réponses originales ou des regroupe-ments de réponses réalisés à partir des questions fermées de l'enquête.

Pour une question ouverte et pour une partition de la population (par exemple une partition en noyaux factuels, résumant les principales catégories d'individus), on obtient donc, sans traitement préalable ni médiation :

354 Insee Méthodes n°56-57-58

Page 358: actes des journées de méthodologie statistique

-Une visualisation des proximités entre formes et catégories, par analyse des corres-pondances du tableau lexical agrégé, éventuellement complétée par une visualisation similaire des proximités entre segments et catégories ;

-Les formes (et/ou segments) caractéristiques de chaque catégorie ;

-Les réponses modales de chaque catégorie.

Ces résultats sont obtenus sans codification ni intervention manuelle.

Ils fournissent des compléments et donnent des éléments critiques nouveaux pour juger à la fois la cohérence et la pertinence du questionnement, la compréhension des réponses, ainsi que le niveau d'implication ou de participation des répondants.

lls peuvent donc participer à l'amélioration de la qualité de l'information.

Analyse statistique des réponses 355

Page 359: actes des journées de méthodologie statistique

BIBLIOGRAPHIE

ACHARD P. (1993) - La sociologie du langage. Oue-sais-je? PUF, Paris.

ASU (1992) [LEBART L., ed.], La qualité de l'information dans les enquêtes, Dunod, Paris.

BARDIN L. (1989) - L'analyse de contenu, PUE, Paris.

BESSON W.A. DUNCAN J.A.(1962) - A Comparison of the Check-list and the Open Response Questioning System. Applied Starisées n° 2, p 120-132.

BENZÉCRI J-P.& col]. (1981a) - Pratique de l'Analyse des Données, tome 3, Linguisti-que & Lexicologie, Dunod , Paris.

CIBOIS P. (1992) - Éclairer le vocabulaire des questions ouvertes par les questions fermées : le tableau lexical des questions. Bull. de Method. Sociol., 26, p 24-54.

HOLMES D.I. (1985). The Analysis of Literary Style - A Review J.R.Statist.Soe., 148, Part 4, 328-341.

LAFON P., Salem A. (1983) - "L'Inventaire des Segments Répétés d'un Texte", Mots N° 6 , p. 161-177.

LAZARSFELD P.E. (1944) - The Controversy over Detailed Interviews - An Offer for Negotiation. Public Opinion Quat. n°8, p 38-60.

LEBART L. (1982a) Exploratory Analysis of Large Sparse Matrices, with Application to Textual Data. COMPSTAT, Physica Verlag, p 67-76.

LEBART L. (1982b) L'Analyse Statistique des Réponses Libres dans les Enquêtes Socio-économiques. Consommation, n°1, 39-62, Dunod.

LEBART L. (1987) - Conditions de Vie et Aspirations des Français, Évolution et Structure des Opinions de 1978 à 1986. Futuribles , sept 1987, p 25-56.

LEBART L., Salem A.(1988) Analyse Statistique des Données Textuelles, Dunod, Paris.

REINERT M. (1986) - Un Logiciel d'Analyse Lexicale . Les Cahiers de l'analyse des données, 4, p 471-484, Dunod, Paris.

RuGG D. (1941) - "Experiments in Wording Questions" Public Opinion Quat. 5, p 91-92.

SALEM A. (1986) - "Segments Répétés et Analyse Statistique des Données Textuelles, Étude Quantitative à propos du Père Duchesne de Hébert", Histoire & Mesure, Vol. I-n° 2, Paris, Ed. du CNRS.

356

Insee Méthodes n°56-57-58

Page 360: actes des journées de méthodologie statistique

SALTON G. (1988) Automatic Text Processing : the Transformation, Analysis and Retrieval of Information by Computer, Addison-Wesley.

SCHUMAN H., PRESSER F. (1981)- Question and Answers in Attitude Surveys. 370p , Academic Press, New York.

TABARD N. (1975) - "Refus et approbations systématiques dans les enquêtes par sondage", Consommation, n°4, Dunod.

YU LE G.U.(1944) The Statistical Study of Literary Vocabulary, Cambridge University Press, Reprinted in 1968 by Archon Books, Hamden, Connecticut.

Analyse statistique des réponses 357

Page 361: actes des journées de méthodologie statistique
Page 362: actes des journées de méthodologie statistique

PONDÉRATION ET ESTIMATION DANS LES ENQUÊTES-ENTREPRISES M. A. Hidiroglou, E. Sarndal, et D. A. Binder, Statistique Canada

1. Introduction

La fréquence des enquêtes-établissements peut être infra-annuelle (mensuelle, trimestrielle) ou annuelle; ces

enquêtes visent à produire des estimations de totaux, de moyennes et de rapports de même que des estimations de

variations d'une période à l'autre. De façon générale, l'objectif des enquêtes-établissements annuelles à Statistique

Canada est de produire des données structurelles sur des variables comme la fmance, la production, l'emploi et la

propriété. Ces estimations sont publiées pour le plus bas niveau de détail pour lequel il existe une demande, pourvu

qu'elles soient appuyées par des sources de données et que l'organisme statistique dispose des ressources nécessaires pour

produire de telles estimations. Par ailleurs, les enquêtes infra-annuelles ont pour but de mesurer à point nommé les

tendances économiques. Ces estimations sont publiées au niveau national et pour divers niveaux d'agrégation

géographique ou industrielle. Cet article expose brièvement les plans de sondage le plus souvent utilisés pour les

enquêtes annuelles et infra-annuelles. Nous étudions aussi des méthodes d'estimation ponctuelle et d'estimation de la

variance pertinentes.

Au Canada, les enquêtes annuelles étaient auparavant réalisées à la manière d'un recensement; on effectuait une

multitude d'envois postaux et de suivis dans le but d'obtenir le plus haut taux de réponse possible. Aujourd'hui, ces

enquêtes prennent de plus en plus la forme d'enquêtes par sondage à cause des coûts prohibitifs et du lourd fardeau de

réponse rattachés aux recensements. Dans les enquêtes annuelles, on procède généralement à un échantillonnage

aléatoire simple stratifié de grappes (groupes d'unités) ou d'unités. Les strates sont définies en fonction d'un niveau

d'agrégation industrielle et géographique approprié (strates primaires), puis en l'onction de la taille des unités (strates

secondaires). Les strates secondaires consistent en une strate à tirage complet et en plusieurs strates à tirage partiel, où

se fait un échantillonnage. La strate é tirage complet est nécessaire parce que les distributions des variables économiques

sont fortement asymétriques. Duos le cas des unités de la strate à tirage complet, les données sont recueillies au moyen

d'une enquête faite directement auprès des établissements. Pour les unités des strates à tirage partiel, on recueille les

données par enquête directe ou on consulte les fichiers administratifs pertinents.

Les plans d'échantillonnage utilisés pour les enquêtes infra-annuelles ressemblent à ceux des enquêtes annuelles.

Cependant, à cause de la nécessité de produire des estimations justes de la variation entre deux périodes et d'alléger le

Pondération et estimation 359

Page 363: actes des journées de méthodologie statistique

fardeau de réponse, il faut envisager une forme quelconque de renouvellement de l'échantillon. Les plans

d'échantillonnage qui tiennent compte du caractère dynamique des bases de sondage et de la nécessité de réduire le

fardeau de réponse ont été analysés dans Sunter (1977), Brewer, Early et Hanif (1984), Schiopu-Kratina et Srinath

(1991), et Hidiroglou, Choudhry et Lavallée (1991). Le lecteur peut aussi consulter le chapitre rédigé par Nash et

Monsour. •

La plupart des enquêtes-entreprises ont pour objectif principal de produire des estimations ponctuelles non

biaisées ou quasi non biaisées pour des variables telles que des totaux, des moyennes ou des rapports, ainsi que pour les

mesures de précision correspondantes. Les estimations ponctuelles sont normalement nécessaires pour des domaines

particuliers que l'on veut étudier. Un domaine peut être la population tout entière ou une sous-population particulière.

Les domaines étudiés peuvent se confondre avec les strates d'échantillonnage ou peuvent les chevaucher partiellement

On mesure habituellement la précision des estimations pour domaines au moyen du coefficient de variation basé sur le

plan, que l'on calcule en divisant l'écart-type estimé de l'estimation ponctuelle par l'estimation ponctuelle proprement

dite et en exprimant le résultat en pourcentage. Les méthodes de pondération et d'estimation correspondantes reflètent

le plan d'échantillonnage. Si cela convient, on peut se servir d'information supplémentaire pour accroître l'efficience des

estimations. L'information supplémentaire peut provenir de fichiers administratifs mis à jour régulièrement ou peut être

constituée de totaux annuels établis au moyen d'une enquête indépendante. Si les données auxiliaires tirées des fichiers

administratifs sont corrélées raisonnablement avec la ou les variables étudiées, on peut intégrer cette information

supplémentaire au processus d'estimation, celui-ci pouvant prendre plusieurs formes : méthode du quotient, méthode de

stratification a posteriori, méthode de régression ou méthode itérative du quotient. Le calcul de ces estimateurs consiste,

en clair, à déterminer, suivant une métrique particulière ou une fonction de distance, de "nouveaux" poids qui se

rapprochent le plus possible des poids initiaux. Cela se fait de manière que si on applique ces nouveaux poids aux

variables auxiliaires, on obtiendra des totaux d'échantillon qui concordent parfaitement avec les totaux auxiliaires pour

la population. À ce propos, nous décrirons sommairement la théorie qu'ont élaborée Sarndal, Swensson et Wretman

(1992) et Deville et Sarndal (1992). Nous illustrerons cette théorie par plusieurs techniques de pondération d'usage

courant, en nous servant comme exemple d'enquêtes-entreprises annuelles et infra-annuelles de Statistique Canada.

L'estimation du niveau ou de la variation dans les enquêtes infra-annuelles soulève plusieurs questions

méthodologiques, comme i) la non-réponse et ii) l'exactitude du calcul de la variance du rapport de deux estimations

infra-annuelles (tendance), compte tenu de ce que la hase de sondage et l'échantillon évoluent constamment. Ces

questions seront aussi traitées dans cet article.

Pour calculer la variance et le coefficient de variation du rapport de deux estimations de niveau mensuelles

(tendances), il faut connaître la covariance des deux estimations. Dans cet article, nous allons décrire une méthode pour

calculer cette covariance suivant trois hypothèses : i) la population a changé dans l'intervalle à cause des créations et des

disparitions; n) la composition de l'échantillon a aussi changé à cause des créations, des disparitions et du

renouvellement; et in) aucune information supplémentaire n'est intégrée au processus d'estimation. Notons que cette

covariance est aussi utile pour calculer le coefficient de variation d'agrégats comme les totaux annuels et pour faire

concorder les totaux infra-annuels estimés avec les totaux annuels observés. L'opération qui consiste à harmoniser des

séries infra-annuelles avec des valeurs annuelles s'appelle "étalonnage".

360 Insee Méthodes n° 56-57-58

Page 364: actes des journées de méthodologie statistique

Le plan de l'article est le suivant : la section 2 expose la notation et les définitions nécessaires à l'étude de la

pondération et de l'estimation dans les enquêtes-établissements. Dans la section 3, il est question de pondération au

moyen de totaux auxiliaires; la théorie générale exposée par Sàmdal, Swensson et Wretman (1992) y est illustrée à l'aide

de cas particuliers bien connus, comme l'estimateur de régression, l'estimateur de stratification a posteriori et l'estimateur

de la méthode itérative du quotient. Nous examinons aussi des techniques de pondération appliquées dans le but de

compenser la non-réponse totale. L'importante question de l'estimation par domaines est traitée dans la section 4. Quant

à la section 5, elle traite la pondération et l'estimation dans les enquêtes à passages répétés; nous donnons l'exemple de

l'estimation de la variance de l'écart entre deux totaux estimés, étant donné une population et un échantillon variables.

Cette théorie peut s'appliquer à l'estimation de la vanance dans le cas de l'étalonnage ainsi qu'à l'estimation composite.

Enfin, la section 6 sert de conclusion.

2. Population, échantillon et croupes de modèle

Posons U = k, Ar} comme l'ensemble d'indices pour les N unités d'une population finie

d'établissements. Une enquête est réalisée; nous désignons par s un échantillon probabiliste d'unités prélevé dans U au

moyen d'un plan d'échantillonnage donné. Les probabilités de sélection qui découlent de ce plan sont désignées par sr,

= P cs) et ni,= P e s). Nous supposons que ces probabilités sont connues et positives. Posons a, = 1/g„ c'est-

à-dire le poids d'échantillonnage de l'unité k. En règle générale, on a recours à l'échantillonnage aléatoire simple stratifié

dans les enquêtes-entreprises qui ont pour base de sondage une liste. Dans ce cas, a, = 1/1, pour tous k cie la strate h, où

f,,= est la fraction de sondage de la strate. Posons y, comme la valeur, pour l'unité de population k, de la variable

• étudiée y. Le total de y pour la population est désigné par Y = E y,. (Si A est un ensemble d'unités, on écrit E, pour

représenter E„„; par exemple, Y= y, = E u y„) lin des objectifs de l'enquête est d'estimer Y. On a aussi besoin,

en règle générale, d'estimations de totaux pour divers domaines à l'étude; les questions spéciales que soulève l'estimation

par domaine sont traitées dans la section 4.

c,

L'estimateur de Horvitz-Thompson (estimateur HT), peut être souvent amélioré grâce à l'utilisation

d'information supplémentaire. L'information supplémentaire dont il est question dans cet article est constituée de totaux

connus pour une ou plusieurs variables auxiliaires. Ces totaux peuvent se rapporter à la population entière ou à des sous-

populations particulières. L'effectif d'une sous-population est un exemple simple de total connu. Notre objectif est

d'utiliser le plus efficacement possible cette information dans le processus d'estimation.

Nous employons le terme groupe de modèle pour désigner une sous-population au sujet de laquelle on connaît

un ou plusieurs totaux de variable auxiliaire. Nous désignons généralement le groupe de modèle par le symbole Cp, où

U. Soit x„ la valeur pour l'unité k d'un vecteur auxiliaire x1, rattaché à Up. Plus précisément, nous appelons Cr un

groupe de modèle si

la valeur auxiliaire x„ peut être observée pour chaque unité k s L7, et

Pondération et estimation 361

Page 365: actes des journées de méthodologie statistique

le total auxiliaire pour le groupe, c.-à-dire. est connu.

Nous supposons que pour chaque unité k. es, il est possible de déterminer le groupe de modèle auquel appartient

k et de calculer la paire de valeurs (yk, x„), de sorte que l'on puisse effectuer une régression linéaire de y par rapport à

x, dans chaque groupe. Le vecteur x„ pour lequel le total X, pour le groupe de modèle est connu, peut être composé de

différentes variables dans les différents groupes, d'où la présence de l'indice p dans x„. Pour une population

d'établissements commerciaux par exemple, nous pouvons avoir x,, = revenu brut de l'entreprise k dans le groupe de

modèle = nombre d'employés de l'entreprise k dans le groupe de modèle 115 , et ainsi de suite. La condition est

que l'on connaisse le revenu brut global des entreprises qui constituent que l'on connaisse le nombre total des

employés des établissements qui constituent U,, t ainsi de suite. Idéalement, x, est un bon prédicteur de la variable y

dans le groupe de modèle. Dans le cas élémentaire où x„ = I pour tous k e U,,, nous avons X p x,,5 , où est l'effectif du groupe de modèle. Les groupes de modèle correspondent donc à des strates formées a posteriori (voir

section 3.1). La connaissance de l'effectif des groupes, N„ peut accroître considérablement la précision des estimations,

3. Pondération d'observations à l'aide de totaux auxiliaires connus

L'utilisation d'information supplémentaire dans les enquêtes-établissements peut contribuer à accroître la

précision des estimations ou bien à réduire la taille effective de l'échantillon. Cela est possible lorsque les variables

auxiliaires sont bien corrélées avec les variables étudiées. Prenons, par exemple, l'Enquête sur l'emploi, la rémunération

et les heures de travail (EERH), qu'effectue mensuellement Statistique Canada, Cette enquête repose sur un

échantillonnage aléatoire simple stratifié avec renouvellement, la stratification étant faite selon la province (PROV), la

branche d'activité (CTI) et ia tranche d'effectif (TAILLE). Les strates qui servent à l'échantillonnage sont définies selon

le niveau à 3 chiffres de la Classification type des industries (CTI3), par province et par tranche d'effectif (4 tranches).

Schiopu-Kratina et Srinath (1991) décrivent en détail la méthode d'échantillonnage de l'EERH. Les échantillons de

l'EERH sont tirés dans une population fortement asymétrique. Par conséquent, un des groupes de taille correspond à

une strate à tirage complet qui renferme de grands établissements. Les autres groupes de taille correspondent à des

strates à tirage partiel qui renferment de plus petits établissements et dans lesquelles se fait un échantillonnage. On s'est

servi de l'estimateur HT pendant plusieurs années pour cette enquête. Maintenant que l'on dispose de variables

auxiliaires bien corrélées provenant des fichiers administratifs, de nouvelles techniques seront utilisées après le

remaniement de l'enquête.

Nous allons maintenant décrire une méthode générale de pondération pour des enquêtes où l'on dispose

d'information supplémentaire. Nous supposons qu'il existe P groupes de modèle Ur, p = 1, P, formant une partition

de U, c'est-à-dire un ensemble de sous-populations disjointes et entières. Notons que l'on peut obtenir des totaux

auxiliaires pour des niveaux d'agrégation plus détaillés que la partition ci-dessus. Cependant, cette partition représente

un compromis de telle sorte qu'aucun groupe de modèle ne contient un trop petit nombre d'unités échantillonnées. Si

362 Insee Méthodes n° 56-57-58

Page 366: actes des journées de méthodologie statistique

P = I, la population entière constitue le seul groupe de modèle. il suffit alors de connaître les totaux auxiliaires pour

l'ensemble de la population.

L'échantillon s, tiré de la population U suivant le plan d'échantillonnage donné, peut être divisé en groupes de

modèle de la façôn suivante : s = s2, où s p = s n U2 est la portion de l'échantillon qui correspond au groupe de modèle

p. Le poids d'échantillonnage a,= 1/z, n'est pas le seul poids rattaché à k; il y a aussi le poids g. Celui-ci reflète

le total auxiliaire connu E, relatif a groupe de modèle auquel appartient l'unité k. Le poids g pour l'unité

k est défini par l'expression

g k 1 - (X 5 - X,,, )'( E , k x pk .v'k,k c k ) xek /c, (3.1)

si k e sk , X 5t E r a k X pk où est l'estimateur HT du total auxiliaire connu X2 pour le groupe. (Dans cet

article, les estimateurs identifiés par un "chapeau" et l'indice inférieur e sont des estimateurs HT.) Les constantes

connues c„ sont déterminées par la structure de variance du modèle de régression hypothétique défini en (3.3) ci-dessous.

Le poids total attribué à l'unité k est le produit des deux poids, a, (selon le plan) et gk (selon les données auxiliaires).

En faisant tout d'abord la sommation à l'intérieur des groupes, puis pour l'ensemble des groupes, nous obtenons

l'estimateur du total pour la population entière, 1' = E , y, c'est-à-dire

3.. GREG Epl'

(3.2)

La série de poids g calculés selon la formule (3.1) pour p = I, ..., P renferme l'information supplémentaire qui

se rattache à l'ensemble particulier de groupes de modèle utilisés dans l'estimation.

Nous allons maintenant présenter deux méthodes de calcul qui aboutissent à l'estimateur (3.2).

3.1 Régression

Supposons que la population a été divisée en P groupes de-modèle

p = 1,...,P. Dans le cas de l'EERH par exemple, ces groupes pourraient être formés des strates d'échantillonnage

onginales ou pourraient correspondre à des sous-groupes de la population formés arbitrairement et pour lesquels il existe

des totaux auxiliaires. Pour le groupe p, considérons le modèle de régression selon lequel :

pour k EU, (3.3)

Pondération et estimation 363

Page 367: actes des journées de méthodologie statistique

où Et (E,) = 0, Vali (e,‘ ) = c, Dr', et Cov, (E, ,s,) = 0 pour tous k x A, l'indice inférieur e désignant les moments par

rapport au modèle. Dans le modèle ci-dessus, A, est estimé au moyen de l'échantillon s par B » , qui est défini

comme la solution de

X' pk lek)

x pk Yk Ick

C'est ce qui représente le système d'équations normales lorsque les données {(v,,, x p,) : k es p } servent

à l'ajustement du modèle (3.3). Le but des poids a, dans ce système est de faire de B» un estimateur convergent selon

le plan du vecteur des coefficients de régression, 13, , pour la population -- en ajustement optimal (au sens des moindres

carrés généralisés) -- lorsque toutes les unités de Up sont observées. L'ajustement par régression produit aussi les

résiduels ek = y s - x pk B» pour k es= s 05, p = 1, P. Le total pour le groupe de modèle, est estimé par

p „ p-. p Ê p la somme de l'estirnateir HT, Y» n = E,, a k y,, et d'un facteur de correction de régression,

(X p -. p „)'li p . Si nous voulons connaître l'estimateur du total pour la population entière, nous faisons une

sommation par rapport aux groupes, c'est-à-dire

E" ij 1- G REG p- pn - p - y p (3.4)

Si cet estimateur est exprimé comme une somme linéaire pondérée appliquée à l'échantillon, E, irky, on peut

vérifier facilement que le poids w, est précisément w, = a,g,, où g, est défini en (3.1).

Les résidus de la régression, ek, sont nécessaires pour calculer l'estimation de la variance de fl( ) ou

de V tout court. Cet estimateur de la variance est défini par l'expression

= EE,(4,,In k „)(g k e k l n k )(g r e r in,) (3.5)

où 4 k r = ru 5. et E E, est une forme abrégée de la double sommation E., E,,,.

La justification théorique de la pondération des résidus par des poids g dans la formule (3.5) est donnée dans

Sàmdal, Swensson et Wretman (1989). Bien que 1' soit défini comme une double sommation dans (3.5). il n'est pas

calculé comme tel ordinairement dans ta pratique. On ramène plutôt, pour chaque plan d'échantillonnage. le membre

de droite de l'équation à une fonne qui se prête au calcul. Prenons, par exemple, le cas de l'échantillonnage aléatoire

364

Insee Méthodes n° 56-57-58

Page 368: actes des journées de méthodologie statistique

simple stratifié sans remise (ÉASSR). Alors, s UH s n , où sh est un ÉASSR tiré de la strate h, h = I,. H.

Dans ce cas, (3.5) devient

E,`,1 , ( I E,(g k e k - ge,) 2 1(n - 1) (3.6)

où ge k = E,g,e k Ink et f, = n,/N, est la fraction de sondage pour la strate h. Comme autre exemple ayant rapport

à l'EASSR, voici

N 2 1(1 - f)1 E,(gA, e k ) 2 1(n-1) (3.7)

où f=n/N et gE = Eg k e,In est supposé égal à zéro. Notons que ge = 0 lorsque e,, dans la structure de variance

du modèle, satisfait l'équation e„ = À xt pour tous k et pour un vecteur constant À. Par exemple, pour la structure de

variance homoscédastique, frar,(e k )= a` pour tous k, nous avons E, g, ek = 0 si le modèle de régression

contient un terme d'ordonnée à l'origine.

Une mesure de précision qu'utilisent couramment les organismes d'enquête est le coefficient de variation (de

plan) estimé, que l'on désigne en abrégé par c.v.. On calcule le av. de l'estimateur GREG défini en (3.2) à l'aide de

l'estimateur I,' défini en (3.5), c'est-à-dire

cvri )1 '2 / GREG (3.8)

Exemple 3.1 : Estimation par régression pour l'EERH

Tous les employeurs ont l'obligation de remettre les retenues sur la paye à Revenu Canada. Les données

mensuelles correspondantes sont offertes à l'usage de Statistique

Canada. Il existe une forte corrélation entre les versements mensuels (x) et les principales variables étudiées dans

l'EERH, par exemple la rémunération et l'emploi (y). Cependant, cette corrélation est quelque peu amoindrie par

l'irrégularité avec laquelle sont rapportées les données relatives aux versements. Lee et Croal (1989) concluent dans leur

étude que, si les versements mensuels des déductions salariales servent de variable auxiliaire, l'estimateur par régression

donnera de bien meilleurs résultats que l'estimateur HT pour les petites strates de l'EIERH. Ils constatent cependant que

l'estimation par régression convient pour un groupe PROV x CTI2 donné (qui est une agrégation de niveaux à quatre

chiffres de la Classification type des industries) uniquement si deux conditions sont satisfaites : i) la taille de l'échantillon

est au moins de O. et ii) le degré de corrélation entre le nombre d'employés et les versements mensuels dépasse un

certain seuil

Pondération et estimation 365

Page 369: actes des journées de méthodologie statistique

Les groupes de modèle sont définis au niveau PROV x CTI2 pour les strates de petite taille, c'est-à-dire que pour

chaque groupe PROV x CTI2, un modèle de régression simple y, — tf3x„ e, est ajusté. On peut décrire l'estimateur

du total y au niveau PROV x CTI2 comme un estimateur par régression composé parce que les strates sont combinées

pour l'ajustement du modèle. Pour une province (PROV) donnée, posons h comme l'indice du groupe de taille

(TAILLE), i comme l'indice du groupe de la CTI (CTI2) et sh, comme l'échantillon du groupe hi (TAILLE x CTI2).

Les poids d'échantillonnage sont a, /i„, pour tous k dans la strate hi, où N„, et nh, désignent,

respectivement, la taille de la population et la taille de l'échantillon pour la strate hi. Le coefficient de régression B pour

la population est estimé par

B E,, a, (y, -)(x5 - aA. -

où / , avec N, = E,, Ek,,,ak l'expression pour 2, est analogue.

L'estimateur par régression du total Y pour un groupe PROV x CTI2 donné est

f„,„; = , Ê(x - j>,,)

où 4, 4 41,,,,,akYk et X k sont les estimateurs 1-1T des totaux

Y et X respectivement.

Les poids g sont définis par l'expression

g, t ( X - z)(x, - / E,E,E,, ,. ,( x, - fn lz

L'expérimentation de cet estimateur révèle des gains d'efficience appréciables par rapport à l'estimateur Ill,

366 Insee Méthodes n° 56-57-58

Page 370: actes des journées de méthodologie statistique

3.2 Stratification a posteriori

La stratification a posteriori est un cas particulier de la méthode de régression. Elle est souvent utilisée dans

les enquêtes de grande envergure, principalement dans le but d'accroître l'efficience des estimateurs (voir Holt et Smith,

1979; Rao, 1985; Sarndal et Hidiroglou, 1989; et Vantant, 1993). La stratification a posteriori peut contribuer à réduire

sensiblement la variance, par comparaison à l'estimation 1-1k ordinaire. L'exemple classique que l'on donne dans les

manuels est celui de l'é.a.s. (échantillonnage aléatoire simple). Dans ce cas, l'estimateur de stratification a posteriori

engendre des gains d'efficacité appréciables lorsque les moyennes des strates formées a posteriori sont très dispersées.

De plus, il suscite l'intérêt des statisticiens par ses propriétés avantageuses dans le contexte de l'inférence conditionnelle

(a ce sujet, voir Holt et Smith, 1979).

L'estimateur de stratification a posteriori est un cas particulier de (3.2). Il vient d'un modèle qui est un cas

particulier de (3.3) en ce sens que xii„ = I pour tous k e U p. Autrement dit, ce modèle est

..11 k » pour k e 1.1,„ (3.9)

où E i, (e k ) 0,Var,(e k ) o p , et (c t, , e ) » 0 pour k Les groupes de modèle

sont alors appelés «strates formées a posteriori». L'information supplémentaire dont il faut disposer dans ce cas est

l'effectif des strates formées a posteriori, N p x P , pour p = 1, ..., P. La formule générale (3.2) donne donc

l'estimateur de stratification a posteriori

Y E N POST I P I (3.10)

, avec AT P = >12, o » et s s nu,, . On déduit es mateur de la variance de ,

,,,,,, de l'expression (3.5) en posant, pour p=1,...,P, e A = y t, -fi s for k E s p pour k es». Les poids

g sont définis g . N p / N p for all k e s ri , pour tous k c s p. La stratification a posteriori est souventti

utilisée dans les enquêtes-entreprises dés qu'on dispose d'une classification industrielle ou d'une classification selon la

taille plus détaillées. Considérons une enquête où des strates sont constituées en fonction d'une "ancierme" classification

et où d'autres strates, formées a posteriori, sont constituées en fonction d'une classification récente. Supposons que le

plan est appliqué avec une fraction de sondage n,,/N,, dans la strate h, h = 1, H. Alors, cl,,= N„In., pour tous k dans

la strate h En règle générale, les strates formées a posteriori recoupent toutes les strates d'échantillonnage. Posons N,,,

comme la portion de l'effectif de la strate d'échantillonnage h contenue dans la strate "a posteriori" p (case hp),

de sorte que Ni, Nhp , et posons Nt, Ni,p . Par conséquent, si nous supposons qu'il existe de l'information

supplémentaire dans chaque strate formée a posteriori pour toutes les strates d'échantillonnage, de sorte que nous

connaissons avec exactitude les effectifs N,„ mais que les effectifs N„ sont inconnus. l'estimateur (3.10) devient

Pondération et estimation 367

Page 371: actes des journées de méthodologie statistique

A h. n n h „, 1

Patin . p r

L'avantage que présente (3.11) par rapport à l'estimateur LIT, Z 1 , est que si les strates sont

considérablement périmées parce que de nombreux établissements ont changé de catégorie, l'estimateur (3.11) aura une

variance beaucoup plus faible.

La situation est tout autre lorsqu'il existe de l'information supplémentaire pour chaque case, de sorte que les Al„,,

sont connus. Dans ces circonstances, il faut connaître les effectifs qui découlent de la répartition des établissements de

l'ancienne" et de la "nouvelle" classifications selon la tranche de taille.

Le modèle pertinent dans ce cas est

Yk = Php

pour les unités k de la case hp. En supposant de nouveau un ÉASSR à l'intérieur des strates, nous déduisons de (3.2)

un autre estimateur de stratification a posteriori

H P

Y POST 3 = N h p hIpl

(3.12)

Exemple 3.2 : Stratification a posteriori pour l'EERH

Avant octobre 1990, l'échantillon de l'EERH provenait d'une hase de sondage qui s'appuyait sur l'ancien registre

des entreprises (12E) de Statistique Canada. En octobre 1990, la nouvelle «Base de données du registre central» (BDRC)

était substituée au RE. L'ancienne et la nouvelle bases diffèrent l'une de l'autre sur plusieurs plans, notamment en ce qui

concerne le système de classification des industries. Le codage des unités de l'ancienne base reposait sur la Classification

des activités économiques de 1970 (CAÉ 1970), tandis que le codage des unités de la nouvelle base repose sur la

Classification type des industries de 1980 (cri 1980). En outre, les codes de taille et les codes géographiques appliqués

aux unités de la nouvelle base sont plus à jour que ceux appliqués aux unités de l'ancienne base. En octobre 1990, un

premier échantillon était tiré de cette nouvelle base. Une analyse a montré que cet échantillon reflétait mal la

modification qu'avaient subie les codes de taille dans le processus de conversion. En effet, tandis que l'échantillon

comptait 1.8% d'unités avec un code de taille plus élevé qu'auparavant, la nouvelle hase de sondage en comptait 2.3%.

Les unités de l'échantillon dont le code de taille était plus élevé qu'auparavant avaient des effectifs inférieurs a la

moyenne observée pour les unités du groupe de taille correspondant. Puisque ces unités de taille relativement moins

élevée étaient sous-représentées et qu'on a utilisé l'estimateur de Horvitz-Thompson, un biais par excès conditionnel a

été introduit dans les estimations. La nouvelle base de sondage comptait 1.9% d'unités avec un code de taille moins élevé

qu'auparavant. Or, d'après l'échantillon, on estimait cette proportion à 6.1%. Les unités de l'échantillon dont le code

(3.11)

EN„ . nhp l nh hi

368 Insee Méthodes n° 56-57-58

Page 372: actes des journées de méthodologie statistique

de taille était moins élevé qu'auparavant avaient des effectifs supérieurs à la moyenne observée pour les unités du groupe

de taille correspondant. Puisque ces unités de taille relativement plus élevée étaient surreprésentées, un biais par excès

conditionnel a été introduit dans les estimations. C'est pourquoi on a décidé de recourir à la stratification a posteriori

pour produire des estimations, en se servant des nouvelles caractéristiques de la population. Pour plus de détails sur la

méthode de stratification a posteriori, voir Gossen et Latouche (1992).

Les unités contenues dans chacune des trois strates à tirage partiel (selon la nouvelle classification) ont fait

l'objet d'une stratification a posteriori. Celle-ci était basée sur une comparaison de l'ancien code de taille du RE en

vigueur en septembre 1990 et du nouveau code de taille en vigueur à compter d'octobre 1990. Les unités ont été réparties

entre les strates selon que leur code de taille avait augmenté, avait diminué ou était demeuré le même pour chaque groupe

CT12 s TAILLE au Canada.

3.3 Calage

La méthode de régression décrite dans la section 3.1 est un moyen d'intégrer des données auxiliaires dans les

estimations. Il y a aussi la technique du calage, qui consiste à trouver de nouveaux poids, w„, qui se rapprochent le plus

possible des poids initiaux, a,. Ces nouveaux poids sont assujettis aux contraintes

w k X pk , X , p (3.13)

pour p = 1, P, où X, est le total auxiliaire observé pour le groupe de modèle Autrement dit, nous faisons en sorte

que les poids w, reproduisent x1 , pour chaque groupe, de manière que le total X pondéré pour tout l'échantillon

corresponde au total de groupe, observé, i,,

Le calage crée une classe d'estimateurs qui comprend, entre autres, l'estimateur GREG (3.4). Il permet aussi

de déterminer de nouveaux poids dont la valeur est limitée par des bornes inférieure et supérieure. Par exemple, on peut

exclure la possibilité de poids négatifs, bien que l'addition de telles contraintes contribue à accroître l'écart entre les

nouveaux poids et les poids initiaux.

Une métrique doit être spécifiée dans le but de quantifier la distance entre w, et a, Plusieurs fonctions de

distance possibles sont considérées dans Deville et Sendai (1992). Notons-en deux en particulier :

la fonction de distance des moindres carrés généralisés (MCG)

/--( in:, /a1 ) , I 2 (3.15)

la fonction de distance de la méthode itérative du quotient (MIQ)

Pondération et estimation 369

Page 373: actes des journées de méthodologie statistique

F(w k /ak ) (n'Oa k ) log (ic k /a k ) - ityak -O (3.16)

D'autres fonctions de distance envisagées par ces auteurs garantissent l'existence de limites inférieure et supérieure pour

les poids. On peut donc éliminer les poids négatifs et les poids positifs très élevés.

Une fonction de distance F (w„lak ) doit répondre à une condition comme

F0) = 0, de sorte que si w, = a,' la distance sera nulle. Soit f(z) = FYz), la dérivée première de F. Nous devons

appliquerla condition f0) = O. Nous minimisons donc la distance pondérée totale pour l'échantillon

s, E,e„F(14, ,/ a,) étant donné la contrainte (3.14). Autrement dit, nous minimisons

E, c k F (w k la k ) - ( E,w k x k -X)

par rapport à w„, où le vecteur X est un multiplicateur de Lagrange. La constante c, est nécessaire dans l'équation ci-

dessus pour tenir compte des résidus qui découlent de l'ajustement de y par rapport à x et qui peuvent avoir des variances

différentes. La pondération uniforme (c, = I) est susceptible d'être la plus courante dans les applications. En calculant la dérivée par rapport à wk, en posant le résultat égal à zéro, puis en résolvant l'équation en fonction de w5, nous obtenons

w, = a, g (t x„/c.,), où g =f' est la fonction inverse de f. Pour calculer les poids, nous commençons par déterminer

la valeur de ), en résolvant le système d'équations de calage déduit de (3.14),

a k g 1 )x = X (3.17)

En ce qui concerne la fonction de distance des MCG, cela donne w, = a,g,, où g, désigne les poids g pour

l'estimateur GREG définis en (3.1). En ce qui a trait à la fonction de distance de la MIQ, eu) = e", les équations de calage (3.17) peuvent être

résolues itérativement. Il existe des logiciels conçus à cette fin. Par exemple, le programme CALMAR (Deville, Sarndal

et Sautory, 1993) résout les équations de calage par la méthode de Newton et calcule les poids

a,g, = a,g(),:x k ie„) pour plusieurs fonctions de distance, dont les deux mentionnées plus haut

(MCG et MIQ). D'autres programmes conçus à cette fin sont M-WE1GHT, de Huang et Fuller (1978), et BASCULA (Cirittgens et coll., 1991).

La théorie du calage peut s'appliquer lorsque l'information supplémentaire consiste en des fréquences marginales connues dans un tableau de fréquences de n'importe quelle dimension La famille des fonctions de distance produit alors

des estimateurs "généralisés de la méthode itérative du quotient". Lorsque la fonction de distance M1Q est utilisée, nous

370 Insee Méthodes n° 56-57-58

Page 374: actes des journées de méthodologie statistique

obtenons l'estimateur de la méthode itérative du quotient défini par Deming et Stéphan (1940). Prenons l'exemple d'un

tableau à double entrée formé de r lignes et de c colonnes où les effectifs marginaux de population r x c sont et = E' j = 1, c. Dans ces équations les Ni représentent les effectifs de case inconnus.

Le x,i -vecteur correspondant peut s'écrire X k ( I " ô r I , où

égale 1 si l'unité k fait partie de la ligne i et zéro dans le cas contraire. De même, ô, égale 1 si l'unité k fait partie de

la colonne j et zéro dans le cas contraire. Dans ce eas„Y Nr ce qui correspond

au vecteur des effectifs marginaux de population connus qui ont servi au calage.

Sinous posons X. . ( X , alors X' x5 = si l'unité k appartient a la case

(i, j). De plus, si nous posons c1, = 1 pour tous k, alors g( X'x i,/e,,) = g (X, et (3.17) amène le

système d'équations suivant qu'il faut résoudre en fonction de X, et

E , g(x x ) N , i t

g

où E a A est l'effectif estimé pondéré ordinaire de la case (1,j), si, représentant la portion de l'échantillon

incluse dans la case (i,j). Si nous résolvons (3.18) en fonction de 3,, comme dans Deville et Samdal (1992), nous obtenons l'estimateur généralisé de la méthode itérative du quotient :

N (3.19)

Pondération et estimation 371

Page 375: actes des journées de méthodologie statistique

où ( X; g ( A est l'effectif de case estimé révisé et

Notons que les poids g sont définis g / IÇ:7 pour toutes les unités k incluses dans la case (i,j).

Dans le cas particulier où la fonction de distance M1Q est utilisée, de sorte que

g( X, - X exp (X - A , ) , l'estimation ..1■7:, contenue dans (3.19), peut être calculée par la méthode de

l'ajustement proportionnel itératif de Deming et Stephan (1940). Cependant, la méthode de Newton converge plus rapidement que l'ajustement proportionnel itératif.

Exemple 3.3 Estimation par la méthode itérative du quotient dans l'Enquête sur le commerce de détail au Canada

L'estimation par la méthode itérative du quotient a été expérimentée dans l'Enquête mensuelle sur le commerce

de détail au Canada. On forme un échantillon stratifié d'entreprises. Les strates sont définies selon trois critères :

province, branche d'activité et taille de l'entreprise. Chaque province constitue un groupe de modèle (dans l'exposé qui suit, nous omettrons l'indice de la province). On cherche à estimer le total pour la province, E mi. Les branches d'activité

économique sont identifiées par l'indice i = 1, r tandis que les tranches de taille le sont par l'indice/ = 1, c. De

plus, posons x comme une variable auxiliaire pour laquelle il existe des totaux par branche d'activité

, i=1,...,r, et des totaux par tranche de taille 4, j = 1, ..., c. (Même s'ils sont connus, les totaux Xti pour chaque

combinaison de branche d'activité et de tranche de taille n'ont pas servi au calage a cause du trop petit nombre d'unités

que peuvent contenir certaines cases.) Nous voulons utiliser cette information supplémentaire dans la régression décrite

dans la section 3.1. Le vecteur x figurant en (3.3) est de dimension r x c et est défini

(x1.5 •

où xi , = x, si k fait partie de la branche d'activité i et x„ = 0 dans le cas contraire, et où x, = x, si k est compris dans la

tranche de taille j et xi, = 0 dans le cas contraire. Posons Pi •( f• , P, • 7,• 'Y )

Nous avons

rk p p, - y , pour k= t'a Notons que E,, x, ( X, V, , ce qui correspond exactement à

)'information utilisée pour le calage dans cet exemple. Dans le cas présent, la formule (3.3) s'écrit

pour k où nous supposons E,1 e ,) O. (' t c J u que pour tous k e U. 1,e "balayage" (ou calage)

produit des poids g qui peuvent être définis par l'expression

372 Insee Méthodes n° 56-57-58

Page 376: actes des journées de méthodologie statistique

gk _ Xw

k e U, . où est l'estimation du total par case X, calculée au moyen du balayage. Le cas se complique par

le fait qu'une correction de poids est nécessaire pour tenir compte des disparitions d'entreprises dans la base de sondage.

Nous multiplions chaque poids g dans la case ij par ,où est l'estimation du

nombre réel d'unités, N„, contenues dans la case fi et A-, est l'effectif de la case d'après la base de sondage; si des

disparitions sont survenues parmi les unités d'une case, N, < Le poids final pour chaque k e 1J, est

{ 1 t~ti. i x,11, et l'estimateur correspondant du total pour la province est

Cet estimateur se révèle beaucoup plus efficace que l'estimateur LIT habituel. En effet, le coefficient de variation passe de 0.08% à 0.05% au niveau national.

3.4 Non-réponse

Même si l'on fait des efforts raisonnables pour obtenir un taux de participation de 100% dans les enquêtes, on

enregistre toujours un certain niveau de non-réponse dans la pratique. Dans certains cas, la non-réponse est totale (non-réponse au questionnaire) alors que dans d'autres cas, il manque des données sur quelques-unes des variables étudiées

(non-réponse partielle). En règle générale, la non-réponse partielle est compensée au moyen de l'imputation (voir le

chapitre de Kovar). Dans le présent rapport, nous concentrons notre attention sur la non-réponse au questionnaire. Même dans les cas de non-réponse totale, il arrive souvent que l'on dispose dure information supplémentaire utile pour

améliorer l'estimation. Il peut s'agir d'une information d'ordre typologique ou géographique, d'une information relative

à la taille des unités ou encore d'une information sur la base de sondage. Cette information sert habituellement à réduire

le biais de non-réponse. Dans le cas d'un échantillon aléatoire stratifié, la méthode de compensation de la non-réponse la plus simple consiste à modifier les fractions de sondage de strate en fonction du nombre total de répondants. Cela

revient à imputer des moyennes de strate ou à effectuer une correction par pondération à l'intérieur des strates. Cette méthode équivaut aussi à la stratification a posteriori, où les strates formées a posteriori correspondent aux strates

initiales. D'une manière générale, toutes les méthodes de traitement de la non-réponse sont en quelque sorte une forme de correction par pondération. Par exemple, dans les enquêtes à passages répétés, on recourt souvent à l'imputation par

quotient; dans ce cas, on applique le quotient (ou le ratio) à une valeur historique relative à l'unité non répondante. Le ratio est estimé à l'aide des données fournies par les unités qui ont participe à l'enquête dans la période courante et pour

lesquelles il existe des données relatives aux périodes précédentes. Là encore, ce procédé peut être assimilé à une

correction de poids.

En analysant la correction de poids pou: non-réponse, Oh et Scheuren (1983) recommandent de considérer le

mécanisme de réponse comme un autre volet du plan de sondage probabiliste. Cette idée est reprise par Sarndal et Swensson (1987). qui voient le mécanisme de réponse comme une seconde phase d'échantillonnage. Comme modèle

Pondération et estimation 373

Page 377: actes des journées de méthodologie statistique

d'échantillonnage simple et efficace, supposons un échantillonnage de Bernoulli (résultats indépendants et identiquement

distribués) dans des classes de pondération pour les résultats de réponse. Cette hypothèse nous amène à repondérer

chaque classe de pondération en fonction de la probabilité de réponse estimée. Samdal et Swensson (1987) examinent

l'estimation de la variance suivant ce scénario en se référant à la théorie de l'échantillonnage à deux phases. Oh et

Scheuren (1983) soulignent aussi que cette repondération équivaut à des ajustements de stratification a posteriori.

Bethlehem (1988) soutient que l'utilisation de l'estimateur f„„„„ en (3.4), où les probabilités de sélection

sont corrigées en fonction des probabilités de réponse, aura pour effet de réduire le biais de non-réponse. De fait, si les

coefficients de régression sont les mêmes pour les répondants et les non-répondants, le biais disparaît. Ce phénomène

est également souligné par Thomsen (1973) en cc qui concerne l'estimateur de stratification a posteriori

Ces observations sont importantes dans la pratique puisque la modélisation du mécanisme de non-réponse est une notion inconnue pour de nombreuses enquêtes. On suppose plutôt que les probabilités de réponse sont les mêmes

pour tout l'échantillon, ce qui explique que l'on doit compter sur des estimateurs de régression comme J'„„ pour réduire

le biais. Little (1986) souligne qu'une modélisation explicite des probabilités de réponse peut avoir pour effet d'amplifier

la variance des estimations. Il propose qu'on examine la relation entre les variables étudiées et la probabilité de réponse estimée et qu'on utilise une méthode empirique de Bayes pour l'estimation. C'est une approche peu courante dans la

pratique. De toute évidence, on obtiendrait ainsi des poids différents selon les variables, une pratique peu recommandée

pour les enquêtes de grande envergure.

La modélisation des probabilités de réponse est utile lorsqu'on n'est pas sûr de la validité du modèle de régression tant pour les répondants que pour les non-répondants. Elle est aussi commode lorsqu'il s'agit de vérifier si

les méthodes plus simples peuvent donner des résultats satisfaisants. En règle générale, les méthodes de régression

logistique offrent une classe variée de modèles pour l'estimation de la probabilité de réponse; l'échantillonnage de

Bernoulli dans des classes de pondération est un exemple particulier de ces modèles. Ceux-ci sont spécialement utiles lorsque les données auxiliaires offrent un bon pouvoir discriminatif par rapport aux probabilités de réponse. L'utilisation

des poids initiaux dans l'ajustement de ces modèles pour les probabilités de réponse n'a pas fait l'objet de suffisamment

de recherches jusqu'à maintenant.

Estimation de tatars de domaines

Les domaines sont des sous-populations pour lesquelles on cherche à obtenir des estimations ponctuelles de totaux, de moyennes ou d"autres paramètres et les mesures de précision correspondantes. 11 ne faut pas confondre les

domaines avec les groupes de modèle ou les strates. Les groupes de modèle et les strates sont aussi des sous-populations

mais ils différent des domaines sur le plan conceptuel. Comme avant, s désigne l'échantillon prélevé dans la population

finie L' k, selon un plan d'échantillonnage. donné. Les probabilités de sélection sont n, et .itr, et. comme précédemment, ei = 1/,e, désigne le poids d'échantillonnage de l'unité I,

Désignons par s s la portion de l'échantillon s qui fait partie du domaine t.1„ Sauf dans de rares

situaùoris,conditions sont contrôlées (par ex , lorsque(. ua~équivaut à une strate), la taille de a1 „ sera aléatoire.

Les données s' observées dans le domaine sont Dans beaucoup de cas. on peut allier de

l'information supplémentaire à ces données dans le but de produire des estimations plus precises. Nous considérons ici

le problème d'estimation suivant. Supposons que x,,„, est un vecteur auxiliaire dont le total d'y, ' .u• ,,kest connu pour

374 Insee Méth(

Page 378: actes des journées de méthodologie statistique

des groupes de modèle déterminés Ur, p = 1, P, qui forment une partition de la population U. Nous servons des données {(y5, x5 ) : k c-sid,) et des totaux Xe p = 1, ..., P, pour estimer le total de domaine Y(,)

Un domaine U,,, peut se rapporter aux groupes de modèle de diverses façons. Par exemple, supposons qu'une enquête nationale' vise à établir des estimations pour plusieurs domaines définis comme des divisions de recensement. Supposons aussi qu'un échantillon national s est tiré dans la population entière. Quatre situations sont possibles a) domaine = division de recensement = groupe de modèle; b) domaine = division de recensement; groupe de modèle = population entière = pays;

Dans la situation (a), le total auxiliaire connu se rapporte à un niveau de détail particulier, notamment as domaine proprement dit, tandis que dans la situation (b), le total auxiliaire se rapporte au niveau d'agrégation maximum, c'est-à-dire à la population totale. Entre ces deux extrêmes, il existe des situations intermédiaires comme les suivantes

c) domaine = division de recensement; groupe de modèle = région qui englobe la division de recensement; d) domaine = division de recensement; groupes de modèle = deux régions non chevauchantes qui, si elles sont réunies, englobent la division de recensement.

Bien que, dans les situations (c) et (d), l'information supplémentaire ne porte pas sur les groupes de modèle proprement dits, cette information est utile et ne doit pas être laissée de côté. La question est de savoir comment l'utiliser le mieux possible dans le calcul d'estimations pour le domaine (division de recensement).

Dans de nombreuses applications, on trouve D domaines Ute, d = I, D, qui forment une partition de U. L'échantillon global s peut donc, lui aussi, être divisé

S U S (d) d1

On peut aussi définir les cellules d'échantillon. La cellule d'échantillon dp est définie comme s fl u1„,, n c'est-à-dire l'ensemble des unités de l'échantillon qui appartiennent au domaine1 ,

au groupe de modèle i,d1„. Passons maintenant à l'estimation du total de domaine, = E y„, Une pratique courante dans l'estimation pour

domaine est d'introduire une variable de domaine désignée par y,e, dont la valeur pour l'unité k est définie comme suit

{

r,, ke U151 o k

(4

Pondération et estimation 375

Page 379: actes des journées de méthodologie statistique

On peut alors exprimer le total de domaine Y(,) comme la somme, pour la population U, des valeurs de la variable de domaine y14, c'est-à-dire,

Y (d ) E U)! (d )1,

On peut alors exprimer le total de domaine Yu) comme la somme, pour la population U, des valeurs de la variable de domaine yo,, c'est-à-dire

La procédure d'estimation de Y1,1 décrite ci-dessous est tirée de la communication de Estevao, Hidiroglou et Sendai (1992); il s'agit d'une estimation de type GREG fondée sur un plan. On calcule d'abord une série de poids g, g,' selon la formule (3.1) pour chaque groupe de modèle, p=1,...,P. On applique ensuite les poids a,g, aux valeurs y, observées pour le domaine afin de calculer l'estimateur GREG pour domaine

- ( ) GREG - p E , a kg kY (d)5 (4.2)

Notons que les poids g sont des fonctions de totaux auxiliaires connus pour un niveau d'agrégation quelconque (niveau du groupe de modèle); ce peut être un niveau supérieur au niveau du domaine. Une manière simple de décrire l'expression (4.2) est de dire qu'elle équivaut à (3.2), à la différence que y, est remplacée par la valeur de la variable de domaine, y(d),. On peut aussi décrire (4.2) de la façon suivante, en supposant que tous les poids g ont été calculés à l'avance selon la formule (3.1)

1. Déterminer les groupes de modèle sécants pour le domaine U„,, c'est-à-dire les groupes de modèle Up tels que (.11,1 O up est non vide;

2. Si („(i, est un groupe de modèle sécant pour appliquer le poids cze, à la valeur y155, faire la somme pour tous les éléments kes p=s ntip;

3. Faire la somme pour tous les groupes de modèle sécants; on obtient alors l'estimateur GREG pour domaine, f,,,„„G, défini en (4.2).

Le concept des groupes de modèle qui se recoupent est important pour l'estimation de la variance de

L'estimateur de la variance I' ( io)°,,,,,) est désigné en abrégé par ti, d I . On le calcule par la formule

EE, (Zi 51 / IT. 51){g5 c, ilik / 7i 5} (4.3)

376 Insee Méthodes n° 56-57-58

Page 380: actes des journées de méthodologie statistique

où e, d ,k ytd ik - k lj )p pour k es. Nous reconnaissons dans cette formule l'expression (3.5), à la différence

que y, est remplacée par la valeur de la variable de domaine, y„,. Notons que cette substitution implique que l'on

remplace bp par Î3idip , qui est défini comme la solution de

(E. a, pk C ( 1P E, Y 10,1 ck (4.4)

Trois types de résidus e( ,), entrent dans le calcul de (4.3). Les deux premiers types se rapportent aux unités-

échantillon k qui appartiennent à des groupes de modèle sécants; le troisième type se rapporte aux unités k qui appartiennent à des groupes de modèle non sécants. Plus précisément, étant donné si, =s nt.), nous avons

{4., - ,r,,,, B,,,1,, si k ES )). L,, ,,„ n U,, si non vide, et ke ())(,,,;

eii.iii ' - .:érk .à )),),) Si k c sr . U1a) n U,, si non vide, et kti (a) ; 0 si k e s p . U w) n I.1,, si vide

(4.5)

Le fait que etdi, est nul pour tous les k appartenant à des groupes de modèle non sécants simplifie le calcul de

). Par exemple, si l'échantillon s est prélevé par ÉASSR, (4.3) devient

fiv= N 2 (1-Î)ln E, (g,t eid)5 - F(a))21(n- I)

:Egk efd,k in •

Le coefficient de variation de plan est calculé exactement comme en (3.8), c'est-à-dire,

CVid { 12141} °nId 4010(0

Dans la pratique, il est important de calculer cv pour tous les domaines étudiés. Dans certains cas, il arrive que le coefficient de variation excède le maximum acceptable pour publication, par exemple cit „ > 25%. Cela peut se

produire lorsque le domaine contient peu d'observations ou que l'information supplémentaire n'est pas suffisante. Si on

décide de ne pas publier les estimations i,,,GREG pour tous les domaines ou pour quelques-uns, on peut envisager des

méthodes d'estimation non fondées sur un plan, comme l'estimation synthétique. Cependant, si on publie des estimations ponctuelles et des estimations de la variance qui ne sont pas basées sur un plan, il faut prendre soin de mentionner que

des méthodes non standard ont été utilisées. Plusieurs remarques s'imposent ici.

I. Principe de calcul. Les calculs faits pour un domaine imitent ceux qui sont effectués pour la population

entière. Dans le cas de l'estimation ponctuelle, la substitution de y,„1, à y, pour k es implique que (3.2) devient (42) En ce qui concerne l'estimation de la variance, la substitution de ti„, à r, pour k e s suppose:

Pondération et estimation 377

Page 381: actes des journées de méthodologie statistique

automatiquement k remplacement de ei par etda pour k e s, et (3.5) devient (4.3). Autrement dit, le calcul de

l'estimateur pour domaine (4.2) et de l'estimateur de la variance correspondant (4.3) s'effectue de façon formelle

en remplaçant la variable étudiée y par la variable de domaine _vo), définie en (4.1). -Le calcul gagne ainsi en

simplicité.

2. Nature des équations normales. Les équations normales (4.4) correspondent systématiquement à l'ajustement

de la droite de régression de y(5, (la variable dépendante pour domaine) en xi , (la variable explicative) au moyen

des données-échantillon du groupe p. Cet ajustement peut être médiocre parce que yo, n'est pas une variable

dépendante naturelle : elle équivaut à la variable y à l'intérieur du domaine mais elle a toujours une valeur nulle à l'extérieur. Cependant, la qualité de l'ajustement au niveau du domaine n'est pas notre principale

pr&iccupation ici. Ce que nous visons plutôt, c'est de pouvoir utiliser des poids g qui, premièrement, produisent

des estimations pour domaine additives (voir la remarque 4) et, deuxièmement, ne varient pas d'un domaine à

l'autre, ce qui crée des avantages sur le plan du calcul et permet de calculer d'autres estimations pour domaine que celles publiées par l'organisme statistique. Pour connaître d'autres estimateurs pour domaine, veuillez vous

référer à Samdal, Swensson et Wretman (1992, p. 408).

3. Convergence selon le plan. Si l'on obtient des estimations précises pour les domaines, c'est grâce à la propriété de convergence selon le plan. Nous savons que 12GREG, défini en (3.2), est un estimateur convergent

selon le plan du total Y pour la population. Cela signifie en gros que, peu importe la configuration des valeurs de population finie (y,, ..., y5), Ÿcaec se rapprochera très vraisemblablement de Y si la taille de l'échantillon est grande, parce que g, tend vers 1 pour de grands échantillons. Cette propriété vaut donc en particulier pour le vecteur pour domaine Ainsi, f<pagEo, défini en (4.2), est un estimateur

convergent selon le plan du total pour domaine l'o). - De la même manière, ri, défini en (3.5), est un estimateur

de la variance convergent selon le plan, c'est-à-dire que se rapprochera' très vraisemblablement de la variance

de fo , si l'échantillon est grand, quelle que soit la configuration des valeurs y. Par conséquent, si nous

calculons la formule V pour le vecteur pour domaine (y,,, y,„„,), ce qui donne f'„), en (4.3), nous

avons un estimateur de la variance convergent selon le plan pour

4. Propriété d'additivite. Supposons que nous voulons estimer un total pour l'un et l'autre de D domaines

d = 1,...,0, formant une partition de U. Alors, Ê(.„,„.„ Sr;)/ , lfrd „i„„.„ , f„„„„ et f"-„, ,„„„„ sont définis en

(3.2) et en (4.2) respectivement. Cette relation signifie que la somme des estimations par domaine est égale

à l'estimation calculée pour la population. La propriété d'additivité a été introduite pour répondre aux besoins

des utilisateurs de statistiques officielles. On la déduit facilement de la relation 5: =y,. pour tous k e

Pour connaître d'autres estimateurs utiles qui répondent à cette propriété, veuillez vous référer à Samdal,

Swensson et Wretman (1992, pp. 397-413).

%einitale 4.1 Echarnillonnag_e à deux phases de dossiers fiscaux pour les enquêtes économiques

Page 382: actes des journées de méthodologie statistique

On établit les estimations annuelles de la production économique au Canada en combinant des estimations qui

proviennent de deux sources : les grandes entreprises et les petites entreprises. En ce qui concerne les grandes

entreprises, on procède par enquête postale. Dans le cas des petites entreprises, l'estimation repose sur un

échantillonnage à deux phases de dossiers fiscaux, que nous décrivons ici et que traitent Choudhry, Lavallée et

Hidiroglou (1989) et Armstrong, Block et Srinath (1993). Les principales caractéristiques du plan de sondage sont les

suivantes :

échantillonnage de Bernoulli dans chacune des deux phases;

stratification a posteriori des échantillons prélevés dans chacune des phases;

calcul d'estimations pour la population des entreprises et pour divers domaines définis selon la cri, la province, le revenu et l'actif.

Il y a un poids d'échantillonnage et un poids g pour chacune des phases. Nous verrons plus bas que ces poids sont indispensables pour l'estimation ponctuelle comme pour l'estimation de la variance.

L'échantillon de première phase, désigné par s,, est un échantillon aléatoire stratifié de déclarants tiré d'une base de sondage qui a été créée à partir de données de Revenu Canada, Les strates de première phase sont définies selon la

province (PROV), la branche d'activité (C I2 ou CTl3) et la taille de l'entreprise (TAILLE). Pour effectuer l'échantillonnage de Bernoulli, on attribue à chaque déclarant un nombre aléatoire compris dans l'intervalle (0,1). Ce

nombre ne change pas d'une année à l'autre. Les probabilités de sélection de la première phase, désignées par n „, peuvent être mises à jour d'année en année pour tenir compte des créations d'entreprises et des changements dans la

composition des strates. L'échantillon de première phase est longitudinal, c'est-à-dire qu'il dure d'une année à l'autre, L'échantillonnage de Bernoulli facilite la formation d'un tel échantillon. On peut ajouter des déclarants dans l'échantillon

de première phase à chaque année dans le but d'accroître la précision et de remplacer des unités déclarantes qui ne font plus parue du champ de l'enquête.

Désignons par L',„ p = 1, P, un ensemble de strates formées a posteriori dans la première phase. Ces strates sont formées par le morcellement des strates d'échantillonnage de la première phase. Soit Jk,, le nombre de déclarants

connu dans la strate a posteriori Le poids du déclarant k pour la première phase est

pour k e s ln ç l 1 L. , ou a , - 11 r, l y est le poids d'échantillonnage de l'uni p

première

vec = E I I si est le poids g de première phase pour chaque k es,- La taille effective

de l'échantillon dans une strate a posteriori est aléatoire ai cause de l'échantillonnage de Bernoulli, et les poids y jouent un rôle important en ce qui concerne la stabilisation de la variance_

Nous cherchons à obtenir des estimations pour là population des entreprises et non pour 1,

Certaines entreprises sont des sociétés en nom collectif', et les estimateurs esugeril trn afilltStlen...

sur les ,..C!,Cléé+, en nom collectif sont couplées à des données sur les déclarants. t Is. • no occlure:- de cc détail technique puisque nous cherchons surtout a illustrer l'estimation ur uornaine apr. .

Pondération et estimation

379

Page 383: actes des journées de méthodologie statistique

d'information supplémentaire. Dans les formules ci-dessous, chaque déclarant est considéré comme une entité commerciale.

L'échantillon de seconde phase, désigné par s„, est un sous-échantillon aléatoire stratifié, s11 c s,. Les strates de seconde phase sont définies selon la province, la branche d'activité (CTI4) et la taille de l'entreprise. Les codes CTI4 sont attribués par Statistique Canada à l'échantillon de première phase. Posons n0 comme la probabilité de sélection de la seconde phase pour l'unité k.

Désignons par 11,, q = I, ..., Q, un ensemble de strates formées a posteriori dans la seconde phase. Celles-ci sont définies selon la branche d'activité (CTI4), la province et la taille de l'entreprise. Désignons par A', le nombre (inconnu) de déclarants dans la strate a posteriori de seconde phase On peut estimer ce nombre de deux manières.

Si nous utilisons l'échantillon de première phase, nous obtenons l'estimation E w k où s, n U, et w,r

est le poids de première phase. Si nous n'utilisons que les unités de l'échantillon de seconde phase, nous obtenons une

autre estimation, Al,/ = w k a„ Dans ce dernier cas, s, n et o„ = 1/n„ est le poids

d'échantillonnage de k pour la seconde phase. Le poids du déclarant k pour la seconde phase est donc

itt 25 a 2 , g ,,. = ( I / ) ( / A7 ,1 ) pour k e s (1,, où g,,. est le poids g de seconde phase

pour chaque k e Notons que les poids sont étalonnés à la première phase, de sorte que

E., ,pour p = I, P. De plus, ils sont "étalonnés conditionnellement" à la seconde phase, étant

donné s,,, de sorte que ,k ,/ pour q = 1, ..., O. Le poids total de l'unité k, désigné

par w,, est w„ = w,, w,„ et le total y pour le domaine (10,, c.-à-d. est estimé au moyen de la formule

N 1■7 -1' ei) k ( p I )( i g 1 g ) EkE, a lk a 2k-v (d)k

oùs,ny 2, ri (Inn u, . y, y k si k e Ut,, et 0 dans le cas contraire. L'estimateur de la variance correspondantJ , k est défini par l'expression

E E ( / )'(N / ) E p P

- E I, E ( //t2 ( / 1■71 L A

a (a , 1

(o lk )2 0 2k(a 2k )(e,a) 2}

Les résidus contenus dans cette expression sont une extension des résidus définis en (4.5) pour le cas de l'échantillonnage

à deux phases. Nous avons

„r pour k e s

380 Insee Méthodes n° 56-57-58

Page 384: actes des journées de méthodologie statistique

et

e i d - ( k

W

pour k e szy =si n

/(E , ri t.)

L'estimateur de la variance,Î'rdt , peut être considéré comme une extension de (4.3) pour le cas de

l'échantillonnage à deux phases, étant donné, en l'occurrence, un échantillonnage de I3ernoulli dans chacune des phases.

5. Estimation dans le temps

Les données qui servent à constituer les séries économiques, et que recueillent périodiquement les organismes

gouvernementaux, sont le plus souvent des données mensuelles, trimestrielles ou annuelles. Deux types de mesures trés

courants qui résument ces données sont les mesures de niveau et les mesures de variation. La variation peut se définir

comme l'écart entre des totaux pour deux périodes différentes ou comme le rapport de totaux de périodes différentes. L'e(Aimation de la variance pour les mesures de niveau a été traitée dans les sections précédentes. En ce qui concerne

l'estimation de la variance pour les mesures de variation, il faut calculer des covariances pour deux périodes qui nous

intéressent. Ces covariances doivent refléter la nature changeante de l'univers (créations et disparitions d'entreprises) comme de l'échantillon (créations, disparitions et renouvellement). Tam (1984) a défini des formules de covariance

suivant des plans d'échantillonnage répété -- échantillonnage aléatoire simple -- en conservant la même population finie.

Hidiroglou et Laniel (1986) ont étendu les résultats de Tam à des échantillons avec renouvellement (selon un plan d'échantillonnage aléatoire simple en grappes stratifié) dans une population changeante. Pour une période t donnée et

un domaine d, posons l'estimateur du total pour domaine comme

ry, ) ( ) E E Y■aihk(f)

tl s, nh (I) (5.1)

où Ah (t) et n, (t) sont, respectivement, l'effectif de la population et de l'échantillon au temps t; Iff est définie comme en (4.1). La variance de fa (f) est estimée selon la formule énoncée plus tôt. La covariance estimée des estimations

Ptd (11 et 1'„ }( s ), s <t , est définie

( )1 n k t I ),1,(s ) N,(1.$)

k i 11 ,% .,(s n k (1..$)

11 nt I.S tr st (S))

k t I (5.2)

Pondération et estimation 381

Page 385: actes des journées de méthodologie statistique

N h (t) 1.) n h ( t

où N, (1,$) et n, (t,$) représentent, respectivement, le nombre d'unités de la population et le nombre d'unités

échantillonnées présentes dans l'échantillon aux deux périodes, t et s. Notons que

et ) est la moyenne d'échantillon de (t) basée sur ii,()

observations. Les résultats ci-dessus sont le prolongement d'un des scénarios d'échantillonnage élaborés par Tam (1984).

Laniel (1988) pousse encore plus loin un autre des scénarios d'échantillonnage de Tain (1984). Montrons maintenant comment ces covariances entrent dans l'estimation de la variance pour les mesures de

variation. La différence de totaux estimés pour deux périodes t et s est

et la variance estimée de cette différence est

is 1 (5.3)

v(ii(t„s)). v ()",i(t ))- 2cov O~d(t) , fd ( s))- v( fd (.ç )) (5.4)

Pour le rapport , la variance estimée est

v( t,$))., (1,$))/ f(s)2 (5.5)

Le calcul de ces covariances est aussi nécessaire pour des méthodes qui, comme l'estimation composite par

exemple, exploitent le caractère temporel des estimations tirées d'enquêtes répétées. On a aussi besoin des covariances

pour le calcul de facteurs de pondération optimaux qui réunissent des estimations de totaux pour plusieurs périodes ainsi que les variances estimées correspondantes. Le raisonnement sur lequel s'appuient ces méthodes est que s'il existe une

bonne corrélation entre les données tirées de passages répétés d'une enquête pour de mêmes unités, les estimateurs qui

réunissent ces données seront plus fiables que ceux qui ne les réunissent pas.

Une série économique donnée peut être construite avec des valeurs infra-annuelles ou annuelles à l'aide de

méthodes de collecte de données différentes. Ces deux sources de données différeront nés vraisemblablement si les

données infra-annuelles sont agrégées dans le but de produire des données annuelles. On appelle habituellement "étalonnage" l'opération qui consiste à corriger des données infra-annuelles tirées d'une source donnée dans le but de

les faire concorder avec des données annuelles tirées d'une autre source. La source de données annuelles est considérée

comme sûre. A titre d'exemple, Statistique Canada publie des estimations mensuelles des ventes au détail pour un certain nombre d'industries du secteur. En outre, l'organisme effectue une enquête annuelle indépendante qui permet de

connaître le total des ventes au détail annuelles. Si la source de données annuelles est considérée comme sûre, l'étalonnage permet de corriger la séne infra-

annuelle de manière que la somme des éléments de la série corrigée (pour une période donnée) corresponde à une valeur donnée de la série annuelle (repère) pour la même période. Cette question a été traitée par Denton (1971), lielfand.

382 Insee Méthodes n° 56-57-58

Page 386: actes des journées de méthodologie statistique

Monsour et Trager (1977), Monsour et Trager (1979), Fernandez (1981) et Cholette (1984). Supposant que les données

infra-annuelles sont des données mensuelles, ces auteurs révisent ces chiffres en recourant à une minimisation avec

contrainte de forme quadratique des différences entre la série révisée et la série non révisée. Ils visent ainsi à limiter au

maximum les variations d'un mois à l'autre et à réduire le plus possible la distorsion que peut introduire dans les données

le mouvement saisonnier. L'approche de ces auteurs fait abstraction de ce que i) les deux séries (infra-annuelle et annuelle) peuvent être

entachées d'erreurs (conséquence de la variabilité d'échantillonnage et de la variabilité non due à l'échantillonnage) et

que ii) la série infra-annuelle peut être biaisée. Reconnaissant que les séries peuvent comporter des erreurs, Hillmer et

Trabelsi (1987) ont utilisé des méthodes d'analyse chronologique pour produire une solution. Ils ont montré aussi qu'une

fois étalonnées, les estimations avaient une erreur quadratique moyenne moins élevée. En élargissant la méthode de Hillmer-Trabelsi de manière à tenir compte de la possibilité de séries infra-annuelles biaisées, Laniel et Fyfe (1989) ont

obtenu des séries étalonnées en appliquant la théorie des moindres carrés à un système d'équations qui contient des

modèles reflétant le caractère stochastique des séries infra-annuelles. Ces auteurs s'étaient servis à cette fin de la

procédure de Gauss-Newton, en tenant compte des contraintes non actives.

6. Conclusions

Cette étude nous a permis d'exposer un certain nombre de méthodes d'estimation et de pondération qui peuvent être appliquées dans les enquêtes-établissements. Nous avons montré comment l'utilisation de données auxiliaires

pouvait s'inscrire dans un modèle d'estimation. À l'aide de ce modèle général, nous avons exposé plusieurs estimateurs parmi les plus courants. Nous sommes aussi servis de ce modèle pour traiter l'importante question de l'estimation par

domaine et nous sommes intéressés à l'estimation de la covariance de totaux de population estimés pour deux périodes distinctes lorsque la composition de la population et celle de l'échantillon peuvent avoir changé. Le calcul de cette

covariance est utile pour des estimations obtenues par étalonnage ou par des méthodes d'estimation composite.

BIBLIOGRAPHIE

Armstrong, 1., Block, C., and Srinath, K.P., (1993), "Two-phase sampling of tax records for Business Surveys," to

appear in the Journal of Business and Economic Statistics.

Cholette, P.A. (1984), "Adjusting sub-annual scries to yearly benchmarks," Survey Methodolog-v Journal, 10, pp. 35-49.

Choudhry, Lavallée, P., and 1-lidiroglou, M.A. (1989), " Two-phase sample design for tax data," American

Statistical Association, Proceedings of the Section on Survey Research Adethods, pp. 646-641.

Deming. W.E. and Stephan, F.F. (1940) , "On a least squares adjustment of a sampled frequency table when the expected

marginal totals are known..4nnals of Mathematical Statistics, 11, pp. 427-444.

Pondération et estimation 383

Page 387: actes des journées de méthodologie statistique

Denton, F.T. (1971), "Adjustment on monthly or quarterly series to annual totals: an approach based on quadratic

minimization," Journal of the American Statistical Association, 46, pp. 99-102.

Deville, J.-C., and Sàmdal, C.E. (1992), "Calibration estimators in survey sampling," Journal of the American Statistical

Association, 87, pp. 376-382.

Devine, J.-C., Sàmdal, C.E., and Sautory, 0. (1993), " Generalized raking procedures in survey sampling," To appear

in Journal of the American Statistical Association.

Estevao, V., Hidiroglou, MA., and Sàmdal, C.E. (1992), "Requirements on a generalized estimation svstem al Statistics

Canada," paper presented al the Workshop on Uses of Auxiliary Information, Statistics Sweden, Orebro.

Fernandez, R.B. (1981), "A methodological note on the estimation of time series," Review of EC0110MiCS and Statistics,

63, pp. 471-476.

Gossen, M. and Latouche, M. (1992), "Post-stratification to reduce sample bias in an establishment survey," paper

presented at the American Statistical Association Meetings, Business Surveys Section, in Boston.

Géttgens, R., Vellen, B., Odekerken, M., and Hofman, L. (1991), "Bascula, version 1.0. A Weighting Package under MS-DOS, User Manual," CBS-Report, Netherlands Central Bureau of Statistics, Voorburg, The Netherlands.

Helfand, S.D., Monsour, N.J., and Trager, M.L. (1977), "Historical revision of crurent business survey estimates,"

Proceedings of the Business and Economic Statistics Section, American Statistical Association, pp. 246-250.

Hidiroglou, M.A., and Laniel N. (1986), "Specifications for the estimation system of the Wholesale and Retail Trade Suives'," Statistics Canada internat document.

Hidiroglou, M.A., Choudhry, G.H., and Lavallée, P. (1991), "A sampling and estimation methodology for sub-annual

business surveys," Survey Methodology, 17, pp. 195-210.

Hillmer, S.C. and Trahelsi, A. (1987), "Benchmarking of economic rime series," Journal of the American Statistical

Association, 82, pp. 1064-1071.

Huang, E. and Fuller, W.A. (1978), "Normegative regression estimation for sample survey data," Proceedings of the

Social Statistics Section, American Statistical Association, pp. 330-305.

Holt, D., and Smith, T.M.F. ( I 979), "Post-stratification," Journal of the Royal Statistical Society, Sec A., 142, pp. 33-46.

l..anicl. N. (1988). "Variances for a rotating sample from a changing population," Proceedings of the Business and

Econonne Stansucs Section. American Stanstical Association, pp. 246-250

384 Insee Méthodes n° 56-57-58

Page 388: actes des journées de méthodologie statistique

Laniel, N., and Fyfe, K. (1989), "Benchmarking of economic Urne series," Analysis of Data In :Cime, Proceedings of

the 1989 International Symposium, held at Statistics Canada, pp 125-130.

Lee -I. and Croal, J. (1989), "A simulation study of var ous estimators which use auxiliary data in an establishment

survey," Proceedings of the Section on Survey Research Methods, American Statistical Association, pp.

336-341.

Monsour, N.J., and Trager, M.L. (1979), "Revision and henehmarking of business time serins," Proceedings of the

Business and Economic Statistics Section, American Statistical association, pp. 333-337.

Rais, J.N.K., (1985), " Conditional Inference in Survey Sampling," Survey , Methodology,11, pp. 15-31.

Sarndal, Swensson, B. and Wrennan, J.H. (1989), "The weighted residual technique for estimating the variance

of the general regression estimator of the finite population total," Biometrika, 76, pp. 527-537.

Samdal, C.E. and Ilidiroglou, M.A. (1989), "Small domain estimation a conditional analysis," Journal of the American

Statistical Association, 84, pp. 266-275.

Samdal, C.E., Swensson, B., and Wretman, J.H. (1992), "Mode! Assisted Sutvey Sampling. New-york, Springer-Verlag.

Schiopu-Kratina, and Stinath, K.P. (1991), "Sample rotation and estimation in the Survey of Emplayrnent, Payrolls and

Hours," Survey , Methodology, 17, pp. 79-90.

Sunter, A.B. (1977), " Response btatden, Sample rotation and classification renewal in economic surveys," International

Statistical Review, 45, pp. 209-222.

Tans, S.M. (1984), "On covariances from overlapping samples," The American Statisticien, 38, pp. 288-292.

R. (1993), "Poststratification and conditional variance estimation," Journal of the American Statistical

Association, 88, pp. 89-96.

Pondération et estimation 385

Page 389: actes des journées de méthodologie statistique

TARIF 1996 LES PUBLICATIONS

INSEE

L'INFO ATION SUR L'INFO ATION

INSEE ACTUALITES

"INSEE ACTUALITÉS magazine° est un catalogue trimestriel des nouveautés de l'INSEE : publications, banques de données... ; il est adressé à toute personne ou organisme désireux de suivre l'actualité de l'INSEE. Abonnement gratuit sur simple demande à : lnsee - Direction générale Abonnement à lnsee Actualités - Timbre H533 18 bd A. Pinard - 75675 Paris cedex 14

BLOC-NOTES DE INSEE INFO SERVICE

A la fois un répertoire et un guide de l'information économique. Le "thème du mois" fournit des repères sur un sujet d'actualité. Abonnement', an (11 numéros) France 168 FF - Étranger : 210 FF - Étranger par avion : 330 FF

LES P L

LE BULLETIN MENSUEL DE STATISTIQUE

10 000 séries mensuelles, trimestrielles et annuelles concernant l'ensemble de la vie économique, complétées par les séries rétros-pectives des principaux indices et par le bilan démographique. Abonnement 1 an (12 numéros) France : 346 FF- Etranger 433 FF - Étranger par avion : 562 FF

ÉCONOMIE ET STATISTIQUE

Chaque numéro est un recueil d'articles sur un grand thème du débat social proposant des commentaires, des tableaux et des graphiques ainsi qu'une bibliographie. Abonnement 1 an (10 numéros) France 414 FF Etranger : 518 FF - Étranger par avion : 633 FF

ANNALES D'ECONO1VHE ET DE STATISTIQUE

Ce trimestriel publie des travaux originaux de recherche théorique ou appliquée dans les domaines de l'économie, de l'économétrie et de la statistique. Abonnement 1 an (4 numéros) France 447 FF- Et ranger : 559 FF - Étranger par avion : 600 FF Pour les particuliers : France : 162 FF - Étranger : 202 FF - Étranger par avion : 243 FF

INSEE METHODES

La méthodologie des travaux de l'INSEE et les modèles.

Abonnement (15 numéros) France : 1 091 FF- Étranger: 1 364 FF- Étranger par avion : 1 557 FF

COURRIER DES STATISTIQUES

Quatre fois par an cette revue interministérielle vous informe sur l'ensemble des activités du système statistique public et sur l'évo-lution des outils et des méthodes. Abonnement 1 an (4 numéros) France : 135 FF- Étranger : 169 FF- Étranger par avion 234 FF

SCRIBECO

Une revue bibliographique reflet du fonds documentaire de l'INSEE. Abonnement 1 an (6 numéros) France : 657 FF - Étranger : 821 FF - Étranger par avion : 892 FF

IQUES

INSEE PREMIERE

Le '4 pages° qui, chaque semaine, présente les analyses et les commentaires des experts de l'INSEE sur un thème de l'actualité économique et sociale. Abonnement (60 numéros) France : 485 FF- Étranger : 606 FF- Étranger par avion : 770 FF

INSEE RESULTATS

Cette série présente les résultats détaillés des enquêtes et opéra-tions statistiques menées par l'INSEE. Elle s'articule en 5 thèmes :

Économie générale (20 numéros) France : 1 454 FF- Etranger : 1 818 FF- Étranger par avion r 2 075 FF

Démographie - Société (7 numéros) France : 509 FF - Étranger : 636 FF - Étranger par avion : 726 FF

Consommation - Modes de vie (15 numéros) France : 1 091 FF- Étranger : 1 364 FF- Étranger par avion : 1 557 FF

Système productif (15 numéros) France : 1 091 FF Etranger : 1 364 FF- Étranger par avion : 1 557 FF

Emploi - Revenus (13 numéros) France : 945 FF- Étranger 1 181 FF - Étranger paravion :1344 FF

Ensemble des 5 thèmes (70 numéros) France : 5 090 FF- Étranger: 6 363 FF- Étranger par avion :7 259 FF

Page 390: actes des journées de méthodologie statistique

TARIF 1996 LES PUBLICATIONS

COLLECTION SYSTÈME STATISTIQUE PUBLIC INSEE

RECUEIL D'ETUDES SOCIALES

Une sélection d'études sur l'actualité sociale les plus récemment publiées par différents organismes publics français d'études et de statistiques.

Abonnement 1 an (3 numéros) France : 286 FF - Étranger : 358 FF - Étranger par avion : 385 FF

SYNTHESES

Cette nouvelle collection présente des études et des enquêtes faites par les organismes du système statistique public.

Il n'y e pas d'abonnement particulier ; les numéros sont livrés actuel-lement avec l'abonnement INSEE-Résultats - série Emploi - Revenus principalement.

LA CONJONCTURE COLLECTION "INSEE CONJONCTURE"

INFORMATIONS RAPIDES

Série de 350 numéros par an, présentant dès leur disponibilité les demiers indices el les résultats les plus récents des enquêtes de conjoncture de l'INSEE.

Elle inclut les 105 numéros des °Principaux indicateurs' (chiffres essentiels de l'économie) qui peuvent faire l'objet d'un abonne- ment à part par courrier ou par télécopie.

Abonnement Principaux Indicateurs (105 numéros par an): . par télécopie : France 2 000 FF— Europe 2 500 FF - Reste du monde : 3 000 FF par courrier:

France : 800 FF Europe : 1 000 FF - Reste du monde : 1 250 FF

Abonnement Informations Rapides (245 numéros par courrier) les principaux Indicateurs par télécopie France : 2 900 FF -Europe 3 625 FF- Reste du monde 4 500 FF

Abonnement à l'ensemble de la série par courrier: France : 1 670 FF- Europe 2 088 FF- Reste du monde : 2 591 FF

TABLEAU DE BORD HEBDOMADAIRE

Un panorama complet et actualisé de la conjoncture économique française et internationale. Le supplément °Série longues ` donne des tableaux et des graphiques sur 25 ans.

Abonnement 1 an (50 numéros + 1 supplément Séries longues) France : 1 500 FF - Étranger 2 000 FF

NOTE DE CONJONCTURE

Trois notes de synthèse et un point de conjoncture pour suivre la situation et les perspectives à moyen terme de l'économie fran-çaise. Le supplément °Séries longues° donne des tableaux et des graphiques sur 25 ans.

Abonnement 1 an (3 notes 1 point + 1 supplément Séries longues) France : 180 FF - Etranger : 225 FF Étranger par avion : 271 FF

CONJONCTURE IN FRANCE

Deux fois par an une synthèse de la conjoncture économique de la France rédigée en anglais.

Abonnement 1 an (2 numéros) France : 44 FF Étranger : 55 FF - Étranger par avion : 67 FF

NOTE DE CONJONCTURE INTERNATIONALE

DIRECTION DE LA PRÉVISION

Deux fois par an, un panorama de la conjoncture mondiale dressé par la Direction de la Prévision. En supplément, deux points de conjoncture internationale.

Abonnement 1 an (2 notes + 2 points) France : 137 FF - Etranger : 171 FF - Étranger par avion : 222 FF

BULLETIN D'ABONNEMENT À RETOURNER À : INSEE - CNGP BP 2718 - 80027 AMIENS Cedex 01

Veuillez noter mon abonnement aux publications suivantes :

Nom ou raison sociale :

Activité • Tél : Fax •

Adresse :

Ci-joint un chèque de ( total des abonnements) à l'ordre de rinsee.

Date : Signature :

'pour l'étranger libellé en FF.

Page 391: actes des journées de méthodologie statistique

AMIENS

-AROUEN A. REIMS NANCY CAEN À. PARIS A STRASBO RG

RENNES A DIJON ORLÉANS NANTES

BESANÇON

POITIERS CLERMON1 ,' FERRAND LYON

LIMOGES BORDEAUX MONTPELLIER

.6%, MARSEILLE TOULOUSE

A

LE SERVICE INSEE 2411/24

36 68 07 60 * • indices

• informations

• adresses

et sur minitel 36.15 - 3616 INSEE 2,23 F/mn

AJACCIO

L'INSEE DANS VOTRE RÉGION

VOUS Y TROUVEREZ : • Salle de documentation en libre

consultation • Bureau de vente des publications

de l'INSEE • Adresses des entreprises

et établissements (S1RENE). • Accès au fonds documentaire

et aux banques de données de l'INSEE. • Travaux à la demande...

ALSACE Cité administrative, rue de l'Hôpital Militaire, 67084 STRASBOURG CEDEX Tél. : 88 52 40 40

AQUITAINE

33, me de Saget, 33076 BORDEAUX CEDEX Tél.: 57 95 05 00

AUVERGNE 3, place Charles de Gaulle, BP 120. 63403 CHAMALIERES CEDEX Tél. : 73 31 82 82

BOURGOGNE 2, me Hoche, BP 1509. 21035 DIJON CEDEX

80 40 67 48

BRETAGNE "Le Colbert", 36 place du Colombier, 35082 RENNES CEDEX Tél. : 99 29 33 66

CENTRE 43, avenue de Paris, BP 6719. 45067 ORLÉANS CEDEX 2 Tél. : 38 69 53 35

CHAMPAGNE-ARDENNE 1, rue de l'Arbalète, 51079 REIMS CEDEX Ta : 26 48 61 00

CORSE 1, résidence Cardo, me des Magnolias. BP 907, 20700 AJACCIO CEDEX 9 Tél. : 95 23 54 54

EN OUTRE - MER : ANTILLES-GUYANE INSEE : Direction Inter-Régionale Tour Secid, 7ème étage, Place de la rénovation, BP 300 97175 POINTE-A-PITRE CEDEX Tél. : 19.590 91 59 80

GUADELOUPE INSEE : Service Régional Rue Paul Lacavé, BP 96, 97102 BASSE-TERRE Tét. :19.590 81 42 50

FRANCHE-COMTÉ Immeuble "Le Mater", 83, rue de Dôle, BP 1997, 25020 BESANCON CEDEX Tél. 81 41 61 61

ILE-DE-FRANCE INSEE Info Service, accueil, librairie, consultation, travaux Tour "Gamma A". 195, me de Bercy. 75582 PARIS CEDEX 12 Tél. : (1) 41 17 66 11

Direction Régionale 7, rue Stephenson, Montigny-le-Bretonneux 78188 ST-QUENTIN-EN-YVELINES CEDEX Tél. : (1) 30 96 90 99

LANGUEDOC-ROUSSILLON 274, allée Henri Il de Montmorency, "Le Polygone", 34064 MONTPELLIER CEDEX 2 Tél. : 67 15 70 00

LIMOUSIN Adresse postale : 29. me Beyrand, 87031 LIMOGES CEDEX Accueil : 50, avenue Garibaldi, 87031 LIMOGES CEDEX Tél. : 55 45 20 07

LORRAINE 15. rue du Général Hulot, BP 3846, 54029 NANCY CEDEX Tél. : 83 91 85 85

MIDI-PYRÉNÉES 36, me des 36 ponts, 31054 TOULOUSE CEDEX Tél. : 61 36 61 13

GUYANE INSEE : Service Régional 1, rue Maillard Durresle, BP 6017, 97306 CAYENNE CEDEX Tél. : 19. 594 31 61 00

NORD-PAS-DE-CALAIS

130. avenue du Président 1.-E. Kennedy, BP 769, 59034 LILLE CEDEX Tél. : 20 62 86 66

BASSE-NORMANDIE 93-95 me de Géôle, 14052 CAEN CEDEX Tél.: 31 15 11 11

HAUTE-NORMANDIE 8, quai de la Bourse. 76037 ROUEN CEDEX Tél. : 35 52 49 11

PAYS DE LA LOIRE 105, rue des Français Libres, BP 2189, 44204 NANTES CEDEX 02 Tél. : 40 41 75 75

PICARDIE I, me Vincent Auriol, 80040 AMIENS CEDEX 1 Tél. : 22 91 39 39

POITOU-CHARENTES 6 rue du Bois d'Amour, BP 557 86020 POITIERS CEDEX Tél. : 49 88 38 71 •

PROVENCE-ALPES-CÔTE D'AZUR 17 rue Mcnpenti, 13387 MARSEILLE CEDEX 10 Tél. : 91 17 57 57

RHÔNE-ALPES

165. rue Garibaldi. BP 3196, 69401 LYON CEDEX 03, (Cité administrative de la Part-Dieu) Tél. : 78 63 22 02

MARTINIQUE INSEE : Service Régional, Centre Delgrès Boulevard de la Pointe des Sables Les Hauts de Dillon. BP 641 97262 FORT DE FRANCE CEDEX Tél. : 19. 596 60 73 60

RÉUNION INSEE : Direction Régionale, 15, me de l'Ecole, BP 13, 97408 ST DENIS MESSAG CEDEX 9 Tél. : 19. 262 48 89 21

INSEE - DIRECTION GÉNÉRALE Unité Communication Externe

Timbre 11501 - 18, bd Adolphe-Pinard 75675 Paris Cedex 14 - FRANCE

INSEE INSTITUT NATIONAL DÉ LA STATISTÉQur

ET 9E Mlle ÉCONOMIQUE

Tél. renseignements : (1) 41 17 66 11 Tél. administration : (1) 41 17 50 50 Fax : (1) 41 17 51 77

Page 392: actes des journées de méthodologie statistique
Page 393: actes des journées de méthodologie statistique

9 782110 663795

INSEE MÉTHODES N° 56 - 57 - 58

ACTES DES JOURNÉES DE MÉTHODOLOGIE

STATISTIQUE

15 et 16 décembre 1993

Ce volume rassemble les communications des "journées de méthodologie" qui se sont tenues à Paris les 15 et 16 décembre 1993.

Les thèmes abordés sont l'analyse des données, les corrections pour la non-réponse, les données de survie, le contrôle et la qualité des données et le traitement des séries temporelles.

Les journées poursuivaient un double but :

- présenter des travaux actuels réalisés à l'insee à un large public ;

- bénéficier du regard critique d'experts venus de l'étranger qui, en retour, présentaient leurs travaux.

On appréciera donc spécialement le texte présenté par Michel Hidiroglou, Erik Sârndal et D.A. Binder de Statistique Canada.

ISSN 1142 - 3080 ISBN 2.11-066379-0 IMET056 Août 1996 - Prix : 228 F

A

INSEE IL Ni1ç 113N SI

UE 1..A. AT iST 1(jUF OES TUDES

ÊCONOM111QUES

(