228
· ' ...: .·i,' Gr6upède Travail r .N. s. E.E. - 1. N. E . D. - ORSTO M Ma nue l de d' enquê tes (v er si on pr ovis oire) Avril 1977

Manuel de dépouillement d'enquêtes (version provisoire)horizon.documentation.ird.fr/exl-doc/pleins_textes/divers16-10/... · PLAN de l'OUVRAGE Introduction - Objectifs du manuel

Embed Size (px)

Citation preview

  • ' ..~.:.i,'

    Gr6upde Travail r .N. s. E. E. - 1. N.E. D. - ORSTOM

    Manuel de dpouille~ent

    d' enqutes

    (v ersion provisoire)

    Avril 1977

  • Ch. 1 -

    Ch. 2 -

    Ch. 3 -

    Ch. 4 -

    Ch. 5 -

    Ch. 6 .! :~I

    Ch. 7 -

    Ch.' 8 -

    Ch. 9 -

    Ch.10

    Ch.11

    PLAN de l'OUVRAGE

    Introduction - Objectifs du manuel

    Contrles et corrections d'erreurs

    Codification

    Organisation de l'atelier manuel

    La saisie des donnes

    Le questionnaire

    Organisation des fichiers squent~els

    La chaine d'apurement

    La tabulation

    L'informatioh en sortie

    La planification des travaux et la documentation des traitementsle cahier des charges

  • Rdacteurs

    Chapitre 1

    Introduction - Objetifs du. manUel

    L. BREAS,

    JLJ3.BODIN

    Etat de la rdaction

    Plan du Ch&pitre

    complte - provisoire

    - Objectifs du manuel,

    - Plan du manuel,

    - Organi~ation gnrale du dpouillement

  • CHAPITRE

    INTRODUCTION

    Le dpouillellont des enqu~tes statistiques relve, par nature, du.

    tra;itement automatique de l'information: traitement clairement dfini et

    e~gnral assez simple appliquer un grand nombre do dossiers (ici des

    qUGstionnaires)au stade du contr~le, de la correction et de'la codification

    des donnes ; comptages no~breux, selon des critres trs varis au stade de

    l'exploitation des rsultats, etc

    On rencontrera lors ~~ l'lllformatisation du dpouillement d'une enqute

    des problmes de mme nature que lors de l'informatisation d'un processus ~i

    nistratif avec une difficult supplmentaire qui tient ce que le systme

    mis en place ne f'onc tdonner-a que pndarrt un laps de temps limit (sauf pour les

    enqutes rptitives) alors qu'en gestion administrative les systmes sont gn-

    ralement destins f'ono td.onne.r pendant plusieurs annesjce qui laisse le temps

    demienx les tudier puis de les; perfectionner si, Il'tlSuge, il appara'i.t

    qu'ils prsentent des laCtUles.

    A quoi tiennent les difficults ? Essentiellement au fait que vont tre

    amens a::travail1er ensero.ble des honaes dont la formation, les centres dfin-

    trts, les nthodes de trav:1' les langages techniques sont diffrents. Il

    faut craindre qu'ils ~e comprennen't mal, que chacun enferm dans Sa spcia-

    lit ne prelule pas suffisrunment conscience des objeotifs et des contraintes de

    travail des autres.

    Dans le cas du dpouillement des enqutes, trois types dl 'acteurs" sont

    en prsence :

    1. Les statisticiens,

    2. Les agents chargs de la codifioation, de la saisie et de la gestionde lrenqu~te,

    (ci-aprs qualifis de lI ges t i onna i r es ll),

    3. Les informaticiens.~ * ./0..

  • (En principe, la distinctiol1l1 lest pas toujOUl'S faite entre le statisticien

    et l'inforMaticien, soit qu'il s'agisse effectivement de la m~me personne, soit

    que le statisticien soit amen e.mpt~ StIT le domaine de comptence de l'in-

    formaticien)

    Le statisticien est l'initiateur, il dfinit Itenqu~te ou prcise les

    objectifs et o0ID11ande le travail. C'est pour 11 essentiel 1L.'1. l'lomne d'tudes,

    un cherchet hautenent qualifi dont le souci est d'analyser les structures

    conomiques et socinles ; l'enqu~te est pOUT lui un moyen d'y parvenir.

    Les JIges tiolli.1.aires" et 11 Lnf'ormaticien sont dos pres tatairas de service

    qui mettent au srvice du statisticien des techniques et des moyens humains

    et matriels propres rsoudre son problme. Tecm1iques et moyens t~s dif-

    frents de l'un l'autre

    pour la partie "gestion" de l'onqu~te, les moyens matriels sont assez fru.s-

    tes et les moyens humed.ns importants ; la technicit est assez faible le tra-

    vail est rptitif et simple; le problme essentiel est de prvoir les charg~s,

    d'organiser les tQches, de les planifier; de les rpartir entre les agents,

    dl veiller au respect des consignes de travail (le nombre d'agents ooncerns est

    important), et au rendement de l'atelier,

    - pour l'inforillaticien les moyens ~~triels sont trs sophistiqus,les

    moyens humains peu nombreux, la tec~icit leve avec une tendance lsot-

    risne; les t~ches'sont d'une grande complexit; le dlai de ralisations est

    souvent important; la possibilit de les fractionner est limite; le contrle

    de leur fiabilit est trs dlicat la prvision des oharges est difficile

    et reste le plus souvent assez floue car elle dpend largement du niveau intel-

    lectuel et technique de ceux qui ralisent. L'informatique reste un "mtier

    d'art" avec tous les llpondrables que cela suppose~

    Donc, trois types d'agents dont les profils sont trs diffrents. Si

    le dialogLw ne s'instaure pas, si chnctm ne fait pas l'effort ncessaire pour

    acqurir tU~e connaissance sOIDL1aire des techniques, des problmes et des contrain-

    tes des deux autres, le risque de conflit, voire d'chec est srieux. Par eX8uple,

    il est tout fait ncessaire que

    - le statisticien admette que la prsentation du questionnaire peut avoir

    !... / ...

  • des incidences importantes sur le travail du gestiolUlaire dt de l'informaticien ~

    qu i il accepte, autant que faire se peut, les modifications quecceux-cL lui propo-

    seront afin de fnodliter leurs tQches ; qu'il adnett:e aussi qu'un systme infor-

    no. tic;.ue es t une cons traction d.Lf cate que des modifications, qui lui paraissent

    de dtail, peuvent compr-onebtrre trssrieusnent.

    - llinfornaticien prenne conscience de ce que la logique informatique est

    souvent bien loin du sens CODIlun et qu'il 'lui faudra apprendre, s'il souhaite

    .' ~tre conpr i s , dcoder li Lnf'o'rmation qu'il transnettra 3. ses partenaires sous

    forne c18 notes, d'tats infol'Datiques, de messages d l anoma.Les , qu'il se pntre

    du~'oblne traiter afin d'tre en mesure de juger de la pertinence de ce que

    l'on lui demande, et de proposer des solutions alternatives qui pernettent d'aboutir

    au m~ile rsultat moindre coOt.

    cJr"

    Le but principa~ que se sont fixb les auteurs de ce manuel est de fac~liter

    l'ouverture du dialogue entre le statisticien et l'informaticien en fm.s3l1t le

    point des problmes et des nthodes de dpouillement cl' enqutes , On n' y trrouvoa-a

    rien d'original, ni de rvolutionnaire. Il s'agit seulement d'un point, sal~ aUClli~

    doute incomplet, de s acquis ( de l'LN.S.B.E. pour l'essentiel) en la matire.

    Un informaticien rompu au traitement des enqu~tes statistiques trouvera salm doute

    les chapitres relatifs au ttaitement sur ordinateur bien banals. Un praticien

    de lastatiGtique aur.:t probablement la m@ue raction devant les chapitres gui

    b'aiten-c de contrle et de codification.. L'inportant est qu'il dcrive l'en-

    semble du processus de dpouillement dlenqu~te, oe qui, notre cOlulaissance, n'aval

    jo~ais t fait. Certains chapitres stadressent'd'abord aux statisticiens, d'au-

    tres au:c gestionnaires, d'autres encore aux informaticiens. Il nous parait essen-

    tiel qU'il soit lu entirement par tous afin que ohacun ait une vue globale du

    processus et acquiert cette connaissance minimale des techniques et problmes1 .

    de ses partenaires qui nOl parait indispensable lm. travail d'quipe fru~.

    Un aspeot du travail a t pratiquement pass SOl silence dalm ce manuel

    cJest celui des oprations de collecte sur le terrain (par enqu~te). Bn effet,

    dlune part il existe de nombreux manuels traitant de cet aspect du problme, et

    d'autre part, il y a une certaine indpendance entre les oprations de collecte

    et les oprations de dpouillement d'enqu~te qui font l'objet de ce manuel. I~

    point de rencontre entre ces deux ~Jpes de proccul~tions est le questionnaire qui

    / / 4;

  • 4.

    doit ~tre adapt aux impratifs de la collecte (progression des questions,

    libell, pr6sentation, etc .. ) comme ~l ceux du dpouilleBent ; le statisticien

    sera le "contact" avec l' homme du terrain, mis trs gnralement, ce sera lui

    le responsable de la collecte.

    PHESENTATION GE1TERALE DU IvL:'\.NUI~L

    1. La dernire partie du prasent chapitre dcrit les diffrentes phases de la

    conoeption, de la ralisation et du dpouillement dlw~e enqute. Elle en prsente

    sOill1airenent le contenu et dcrit les liens fonctiOIDlels qui les unissent.

    2~ Les chapitres 2 (contrles et redressements) et 3 (~odifications) l~sen

    tent les principaux ty:;?es ce corrtr-.Les , redresseLlents et codifications utiliss, d'If"',

    dans le trai 'temerrt des enqutee statistiques : Point de vue/ statisticien. j C'est

    tUl sujet qui peut~tre, et a t (rfrences bibliographiques ?), plus largement

    dvelopp qu'il ne l'a t ici. On siest volontairement liL1it file description

    relativoment son1aire destine sel~ir d'aide-lnemoire au statistiien et de

    prsentation du pr'ob.l me au II ges t i onna i r tl et 11 Lnf'or-matdcf.en , Pour ce dernier

    notaLUlent, lorsqu'il est habitu traiter des problmes de gestion administrativ,

    il tait ncessaire de prsenter les caractres trs spcifiques des contrles

    et cor~ctions statistiques.

    3. Les chapitres 4 & 5 sont consacrs l'organisation de l'atelier de

    traitement Banuel et la saisie des donnes. C'est l le domaine de comptence

    propre des ll ges t i onna i r es ll

    On s'est attach mettre en vidence les interactions qui existent entre

    cette phase du traitement et la phase proprement informatique. Eni effet, l'appott

    des techniques informatiques dborde de plus eh plus du dbmaine traditionnel

    des corrtr-Lee "batch" et de la tabulation dj pris en coopte par la mcanographie

    classique. Il convi en t donc dl organiser les travaux des "ges td.onnairea'' en tenant

    compte de ces nouvelles possibilits: messages dlanoNalies expdis par le cen-

    tre de traitement informatique llatelier"onnulfl 1 nouvelles possibilits offer-

    tes par les mthodes oodernes de saisie etc

    .../ ...

  • 5.

    4. Le chapt hoe 6 (forne et contonu du ques tdonnaf.r-e ) est un chapitre pivot

    entre le traitement manuel et le traitenent infornatiquoo. Il n'a pas pour objetl

    de dcrire la ou les mthodes de cons truction d 'ml questionnaire, ce qui a souvent

    t fait par ailleurs (rfrences bibliographiques ?) uais seulement de prsen~

    ter les amnagements de mise en forme, prsentation, prcodification, primpres-

    sion de donnes d'identifications issues du fichier de lancenent, etc qu'il

    peut ~tre souhaitable d'apporter auquesti01Lnaire afin do faciliter et simpli-

    fier las ,ttlchos des gestionnaires et des Lnf'orraa'ti.cLena , accr1tre la fiabili.t

    des oontr81es, etc

    5. Les chapitres 7 (organisation des fichiers squentiels), ( 8 (la chaine

    d'apl1rement) et 9 (la tabulation) prsentent les traitemnts informatiques clas-

    siques~ . Ils fornent le noyau central de ce manuel.

    5~1~ Le chapitre 7 pr6sente somnairement la notion de fichier. Son principal

    objectif est de mettre en valeur l'interaction entre structure des fichiers et la

    structure des progratrrleS ; si la structure des fichiers est dfinie par des rgles

    cohrentes et gnirales, il en ira de m~D.e de la structure des programmes dont

    la construction se trouvera ainsi facilite. C'est pourquoi on s'est limit

    la description d'un seul type de structte qui se rvle particulirement

    exenp'lu.re ,

    ,.5.2. Le chapitre 8 dcrit la chaine d'apurement c'est-dire l'enseml)le des

    op~~tions qui, partir des donnes, sur car-tes OU support magntique, en. .

    provenance de la saisie concourent l'laboration d'~~ fichierexhaastif et

    apur de ses erreurs, c'est--dire susceptible dt~tre exploit statistiquement.

    La dmarche consiste nettre en valew: le fcdt que le nombre de ces oprations i

    est limit et connu, que cer-tafnes posent des problmes types auxquels on peut

    appliquer des solutions-types. Une fois tout ceci recens, il apl~rait que

    construire une chaine d'apLement consiste assembler logiquement un ensemble

    de modules, dont le nombre varie selon les caractristiques de l!enqute, dont

    certains sont entirement standards dlLLne enqute l'autre, d'autres sont

    partiellement standards, d'autres encore entirement spcifiques

    .. .1.. . .

  • 6.

    5.3. Le chapitre 9 traite de la fabrication des tableaux statistiques.

    L'objectif est double:

    a) prsenter la notion de tableau ou dcrire les concepts, proposer un

    vocabulaire sans ambiguits qui puis~;e ~tre utilis par les statisticiens COillle

    par les informaticiens. Cet aspect est essentiel: les statisticiens savent,

    certes, ce qu'est un tableau statistique, mais cette connaissance acquise, un

    peu sur le tas, au fil de l'apprentissage de lem' Iltier, est, bien souvent,

    Bal forDalise, sans soubassement thorique i il en rsulte une certaine diffi-

    cu.lb Il exposer de raand.r-e comp.L te et cohrente. Quant aQ~ infornaticiens

    non hp,bitus au trniteuent des snqutes statistiques, il sIen font une ide lirc1i-

    toe ce qu'ils ont eu l'occasion de raliser lors dlE,pplications administratives,

    c'est--dire des tats trs simp13s, le plllS souvent une seule dimension, trs

    loin de la complexit que peuvent atteindre les tableaux utiliss par des

    s tatis ticiens.

    b) de la mne nanj..re que dans le chapitre prcdent, faire appara i, tre que la

    fabr.ication des tableaux repose sur la mise en oauvre d'un ensemble bien dfini

    d'ol,rations qu'il stfit d'agencer correctement pour laborer des programmes

    de tabulation qui rpondent des rgles de construction bien prcises.

    6. Le chapitre 10 (llinforilation en sortie) traite de problmes qui sont

    la frontire de l'informmtique et de llimprimerie et de la diffusion. L'informa-

    tion produite lors de llexploitation des rsultats devra tre diffuse, reproduite,

    nrohiv6e, Le chapitre recense les mthodes et les moyens dont on peut dis-

    poser pour ce faire. Il est rare que l'informaticien et le statisticien se proc-

    cupent des problmes matriels de diffusion. Il est vrai que llimportance de ces

    l)roblrc,es est lie l'iL.l1,ortance du volume de "sorties" envisag6es. Il n ' en

    est p~8 noins apparu ncessaire eQ~ auteurs de consacrer lm chnpitre ce sujet.

    '7~ Le chapitre 11 (cahier des charges et documentation) prsente l'instrument

    de corunurri.cati on entre les parties associes au dlJouillenent de 11enqute (sta-

    tisticiens, "gestionnaires", inform~ticiens). Nous prsentons dons ce chapitre

    lme 801ution, le cahier des charges, qui doit, aVl1nt tout, permettre le dialogue

    ellt~ce ces lXtrtenaiTes. Il f'aut que ce dialogue soit olair, sans ambiguits ;

    il fe..ut que soient cLa.iremen t lJrc;ses les t 6011es 'a ' l' l l cl~ ~ u rea lser, es c1arges e

    .. -/ .. ~

  • trayail qu'elles induisent, les dlais de ralisation; que ce soit entre les

    quipes (statistiques, gestion DanuG~~nforillatique), ou au sein des quipes. Il

    faut donc qu'il y en ait une trace crite laquelle on pourra se rfrer en

    cas de litige. Le chapitre 11 propose ~~ schma d'organisation du cahier des

    charges ont le but est de prciser les responsabilits de chacun, l'affecta-

    tion des t~ches, les charges et dlais de ralisation, indique COnflent ses dif-

    frentes par-t'Les POlIT1'Ol sr laborer au fil de 11 avancement des travaux, dcrit

    le oontenu des diffrents dossiers (dlanO-lyse, do progrrunnation, d'exploitation

    qui, viendront le conplter. Le schma propos n rest certes paa uni.que ; di.eons

    simplenent qu' i.l c.. concrtement fait la pre.uve de son efficacit dans un cer-

    tain nonbro d'applications.

    8. On trouvera enfin, en annexe, une prse:.'ltation commente de quelques

    logiciels de dpoUillementd'enqutes. L non pl~g on nIa pas cherch l'exhaus~

    tivit. On s'est liLt 3 exemples, connus des. auteurs du nanue l , qui sont

    re)rsentatifs de 3 grandes classes de logiciels 1

    - Le 1er est trs puissant nais requiert des Doyelw maclnes importants

    (LEDA) - 256 k-octets de DBbire,

    - Le 2ne est plus j~ste mais peut fonctiolliler sur des machines de faible

    capacit (GROULT + CEI~S),

    - Le 3mo enfin est un systne ouvert dont les fonctions de base sont re1.:::__

    tiv8nent rduites mais conu pour intgrer aisment des fonctions complnentail'os

    (qulil faut progrillllller en FORTRA1J) propres . telle ou telle application

    (SLiXE - INED) ~

  • ORGM~ISATION GE~RALE DU DEPOUILLEMENT

    L'organisation gnral du dpouillement consiste faire un descriptif

    global des diffrentes phases et de leurs liaisons fonctionnelles, dfini~

    le lI chemin critique" c'est--dire, notamment, reprer les pha.ses pour les-

    quelles un retard de ralisation entrainera ipso-facto un retard pour le

    travail dans son ensemble. La mise au point d'un "graphe des contraintes"

    faisant apparaitre les interactions et la dure prvisible de chaque phase

    pour-ra aider mettre au point le sbhma gnral du dpouillement de l t enqute.

    La liste des phases indique ci-aprs est donne titre purement indi- -

    catif. Il conviendra de l'tablir pour chaque nouveau travail.

    A - Dfinition des objectifs

    AO - Objectifs gnraux,

    A1 - Ebauche du plan de tabulation,

    A2 - CHoix des questions poser,

    A3 - Choix des codes et nomenclatures utiliss pour le chiffrementet la saisie,

    A4 - Plan drchantillc~nage - Effectif enqut,

    A5 - Priodicit.

    B - Analyse des moyens disponibles et souhaitables

    B1 - Moyens humains (personnels de chiffrelllent, de gestion, desaisie des donnes, d'analyse~programmation, ),

    B2 - Moyens matriels (saisie, traitement, )

    C - Dfinition des contrles et red~sement~

    C1 - Avant la saisie (contrles "manuels"),

    C2 - Pendant la saisie,

    C3 - Sur ordinateur,

    C4 - Recours au redressement manuel

    D - Chgix d..u mode de sai~ie

    ... / ...

  • R - Choix du mod.s> de CQllectE;l (par enqu teur , par voie "postale. par-------s-ous-.::produit dl oprabons administra tives, )

    F - Dfinition du questionnaire,

    G - Droulement de l'enqute "sur le terrain" (collecte) 9

    NB - E~ fait, cette phase peut se dcomposer en un grand nombre de sous-

    phases lmentaires. De nombreux ouvrages ayant t consacrs la collecte,

    on ne cherchera pas dtailler la prsentation de cette phase.

    H - Ongallisation d9 la saisie et de l'apurement du fichier

    Ilt -

    R2

    R3 -R4 -

    H5 -

    Organisa~ion et dfinition des tches de l'atelier de chiffrement:

    Organisation et dfinition des ttches de l'atelier de saisie etcodage des formats de saisie,

    Analyse et progra~ation des traitements sur ordinateur,

    Organisation de llexpLoitation sur ordinateur,"~;

    Dfini don des liens f'oric t.LcnneLs entre atelier de chiffrement"atelier de saisie et ordinateur,

    l - Exploitation des rsult~

    11 - Plan de tabulation dfinitif,12 - Dfinition des codifications,

    13- . Analyse et programmation des codi~ications,

    14 - Analyse et programmation des tableaux,

    J - Analyse des rsultats.

    La phase A est de la responsabilit du statisticien qui devra ce stade

    dfinir les objectifs gnraux de l'enqute et montr~en quoi elle peut

    satisfaire les besoins exprims,

    - rdiger 1U1 avant-projet prcisant la liste des questions et les tableaux ~U'OD

    espre laborer, le nombre d'units interroger, le mode d'enqute, etc

    - essayer de prciser les lments de cot,

    - soumettre le proje~ aux diffrentes administrations ou at~~ diffrents

    organismes intresss, par le canal ventuel des commissions ou comits prvus

    le cas chant cet effet (comme, par egemple, en France, le Conseil Natiol1al

    de la Statistique).

  • La phase B est galement de la responsabilit du statis~cien, mais

    il aura besoin du concours des techniciens-informaticiens ou autres - pour

    amliorer ses estimations et valuations. Dans cet~ phase, interviennent

    aussi les reRponsables administrati!Set financiers de l'organisme dans

    lequel travaille le statisticien. En fait, pendant toute la prparation de

    l'enq.t3, il y aura 'feed-back" entre les phases oprationnelles (telles que

    C, D, il, I, etc ) et cette phase B, dans la mesure o il s'avrera nces-

    saire d'ajuster les choix techniques aux moyens humains et financiers disponiblA R .

    Seules certain~ des phases C J font l'objet de ce manuel ainsi qu'il

    e t dj expos. Les phases D, Es et F, ae seront abordes qu'en ce qui

    concerne leurs interactions avec les autres phases du dpouillement. Les phaues

    G et J ne seront pas abordes.l'CT

    On t~Quvera ciap~s, titre purement illustratif, un exempl d'analyse

    sous forme de t.ableau des interactions entre les diffrentes phases et sous-

    phases, ainsi que le graphe des contraintes qu'on peut dduire de ce tableau.

  • - 1 -

    MANUEL DE DEPOUILLEMENT n'ENQ.UETES

    F. PRADEL de LAMAZE

    Chapitre II : Contrales et Corrections d'Erreurs

    Une enqute statistique prsentera invitablement un ~ertain nombre d'e'rreurs,

    les unes fondamentales et d'autres ngligeables. Il importe au plus haut point d'-

    viter les erreurs fondamentales qui mettent en cause la validit mme de l'enqute

    et son int~t, mais ce serait une grave faute de ngliger au dpart les erreurs mi-

    nimes. Si, en effet, de petites erreurs n'ont pas, du point de vue statistique, d1im-

    portance cap!tale, elles entraneront tout au long de la cha!ne dt exploitationj y

    compris dans les tableaux: de rsultats, des dboires considrables allant de cer-

    taines inctlhrences des rejets purs et simples par les chanes informatiques.

    L'opration de contrale et ventuellement de correction des erreurs doit donc @tre

    tudie avec beaucoup de soins, en vue de plusieurs objectifs.

    fu. strict point de vue de 1 r exploitation d'une enqute, qui nous retiendra

    dans cet ouvrage, le but de~ contreles est relativement clair : il . s'agit 'd'obte-

    nir un fichier tel que la production de tableaux se fasse sans difficults. Cela.

    se traduit par quelques notions simples : aucun enregistrement ne doit manquer (ou

    fortiori se trouver en trop !), chaque enregistrement doit tre complet, toutes

    les modalits d'un caractre rencontres dans un enregistrenent (y compris 0, non

    dclar, ne sait pas, etc ) doivent @tre prvues et avoir leur place dans les ta-

    bleaux des rsultats.

    Au statisticien toutefois, d'autres objectifs s'imposent ; un fichier intor-

    matiquement parfait risque, en effet, de recouvrir une enqute dplorable et il

    importe videmment d'viter ce risque, d'autant plus grave que l'informatique per-

    met la production rapide d'une trs grande quantit de tableaux dont on n'a pas

    toujours le loisir d' examiner la valeur avant de les diffuser. Les responsables

    dtenqu~tes devront donc avoir souci d'utiliser les ressourses de l'informatique

    pour les aider prciser certains points.

    1LIimportant sera en particulier de dtecter le plus rapidement possible les

    erreurs les plus graves, et de savoir en tirer les consquences m~me les plus

    lourdes: retour sur le terrain. limination de certaines parties du questionnaire,

    restrictions sur la dif:f'usion des rsultats, etc Il est, en effet, presque tou-

    jours possible de donner une "propret" formelle un fichier, mais, aussi bien

    exploite t une mauvaise enqute ne saurait devenir bonne par la magie de l'exploi-

    tation informatique.

    En dehors des cas f heureusement assez rares, ou la val1dit mme de l' enqu~te

    peut tre remise en cause, l' objectif du statisticien sera pour 1 t essentiel :

    ... / ...

  • - 2 -

    d'liminer des erreurs de dtail sans intr~t statistique mais souvent

    ~nants ;

    - d'assurer la cohrence des rsultats, en particulier d'un tableau 1'autre.

    Ce dernier point rev8t une certaine importance et amne fournir des tableaux d'u-

    ne grande prcision (souvent 7 ou 8 chiffres significatifs) comptable. On doit te-

    nir compte de l'utilisateur qui sera souvent un peu perdu par divers concepts, en

    particulier le champ sur lequel porte un tableau, et pour lequel l' exactitude comp-

    table peut servir de point de repre, voire de boue de sauvetage.

    Cet ouvrage s'intressant essentiellement l'exploitation informatique des

    enqu~tes, nous n'insisterons pas davantage sur la ncessit de contrles trs ser-

    rs sur le terrain, contrles pour lesquels l'intervention de l'informatique est

    priori assez faible. Mais il nous parat essentiel de rappeler au dbut de ce

    chapitre, et de ne jamais le perdre de vue, qu'une enqu~te se passe d'abord et

    avant tout sur le terrain, et que les erreurs initiales se retrouveront, peut ~tre

    trop souvent masques, dans les rsultats.

    Par ailleurs, il est toujours possible, souvent souhaitables, de dcompter,,.fr'

    les erreurs et les corrections apportes au' cours de l' exploitatian. Mais il se-

    rait illusoire de penser que toutes les erreurs soient pour autant limines, ni

    fortiori dcomptes. On doit toujours savoir au mieux ce que l'on a fait en ce

    sens (nombre d'erreurs repres, mthode de correction, biais ventuel indroduit

    par ces corrections), mais ne pas se leurer l'excs. La seule indication relle

    que donneront des tableaux de dcomptes d'erreurs est subjective : si un bon fil-

    trage ne laisse appara1:tre que peu d'erreurs, l' enqu-te est probablement Donne,

    s'il laisse appara1tre beaucoup d'erreurs on doit ~tre trs prudent.

    A - Contrles des enregistrements.

    Les donnes de lfenqu~te tant enregistres sur support magntique, on devra

    procder deux types de contrles : contrele de la forme des enregistrements et

    contrles logiques des liaisons internes ces enregistrements ; ventuellement si

    le fichier est organis selon une rgle prtablie (fichiers hirarchiss, fichiers

    chronologiques, etc ) on procdera de plus un contrle de structure. Ces contr-

    les se feront bien entendu selon un ordre dfini, priori le suivant : contrOles

    de structure, contrOles de forme, contrrl.es logiques. Mais en fait pour chaque

    enqute et ventuellement chaque type de corrtrl,e , cet ordre peut 8tre chang. Le

    contrle n'tant pas une fin en soi mais ayant pour but essen~lel la correction

    des erreurs, par un procd quelconque (correction manuelle par retour au dossier,

    correction automatique ou alatoire, etc ), on devra aussi effectuer ces correc-

    tions selon un ordre dtermin, gnralement le mme que celui adopt pour les

    corrtr-'l.ea , La dimension du fichier aura une grande importance dans le choix de la

    ... / ...

  • . ..1...

    - 3 -

    1

    stratgie, chaque programme de dtection et de correction d'erreur ncessitant un

    passage de la totalit du fichier i sur de petits fichiers on pourra donc envisa-

    ger plusieurs programmes successifs, et m~me ventuellement des corrections par

    itrations: sur de gros fichiers par contre il y aura intrt utiliser un pre>--

    gramme unique, permettant au cours du droulement du fichier de procder toutes

    les oprations de contrle et de correctim1S i un tel programme est videmment

    beaucoup plus difficile mettre au point qu'une succession de programmes lgers,

    et parfois, mais pas toujours, moins satisfaisant. En tout tat de cause plus le

    fichier sera important meilleures pourront ~tre les corrections apportes, non au

    niveau individuel mais dans leur ensemble.

    1 - a) Contr81es de forme

    Un fichier d' enqute se prsente comme une suite d'enregistrements, chaque

    enregistrement correspondant un questionnaire. Nous verrons plus tard comment

    doit ~tre contrle la structure du fichier.

    - a.a) Exhaustivit

    Le premier contrale doit porter sur l'exhaustivit du nombre d'enregistre-

    ments. Gnralement ce nomb~re est connu et il suffira de dcompter les enregis-

    trements.

    Comme en cas de non coincidence on ne saurait pas quels sont les enregistrements

    manquants, ou excdentaires, on davra avoir avoir pris soin de numroter les ques-

    tionnaires soit selon un ordre naturellement ascendant (de 1 n) soit selon des

    squences successives (de 1 n

  • .../ ...

    - 4 -

    Troisime cas : on a interrog 10 000 personnes caractrises par un numro

    d' identi t 10 chiffres. On confrontera alors la liste des numros de personnes

    interroges celle des onregistrements.

    De tels contr~les, extrmement sin~les, permettent d'viter souvent de trs

    graves erreurs : lots de questionnaires oublis (voire saisies deux fois), bandes

    magntiques incompltes, enregistrement erron non effac, etc La correction est

    alors vidente.

    Nota : Il arrive assez souvent, dans le cas correspondant aux exemples 1 et 2,

    que les nombres n , n', etc ne soient pas connus priori. Dans la mesure o l'on

    a adopt une numrotation squentielle, cela ne sera pas trop grave, le numro le

    plus lev rencontr dans les enregistrements fournissant postriori cc ~tgbren,

    les "trons" dans la squence restent vidents. Le seul risque est alors que ce

    soient les derniers numros qui manquent, mais lorsqu'il ne manque que quelques

    enregistrements il est rare que ce soient IGS derniers, lorsqu'il en manque un lot

    important on a toujours une indication du nombre approximatif de questionnaires,

    - a. b .) l Q-e: ~tifiantsJ-'

    Chaque enregistrement doit ~tre reprable par un numro. Dans les cas simples

    un numro d'ordre suffira (voir 1-a.a), dans d'autres cas plus complexes il sera

    judicieux d'identifier l'enregistrement par un numro analytique. Par exemple,dans

    un questionnaire auprs des mnages chaque individu sera identifi par son numro

    propre, son numro de mnage et ventuellement son appartenance une unit gogra-

    phique donne. L' exactitude de ces identifiants est d'une trs grande importance

    car c'est sur eux que se feront certains rapprochements (attribution d'un salaire

    un individu, puis un mnage, rapprochement des dates de naissances des enfants

    avec celle de leur mre, etc ). Une vrification des identifiants 'est possible si

    ceux-ci ont t construits de faon obir certaines lois relativement simples,

    souvent appeles "cls de contrle".

    Exemple : on identifiera un individu par son numro de commune de rsidence,

    son numro de mnage l'enqute et son numro d'ordre l'intrieur du mnage.

    A cet identifiant comprenant 8 chiffres on aj~utera systmatiquement un 9me chif-

    fre tel par exemple que la somme des chiffres constituant l'identifiant

    soit paire:

    205 623 01 , la somme est impaire, on adjoint 1

    205 623 02 ,la aontae est paire ,on adjoint 2

    Les identifiants complets deviennent :

    205 623 01 1 et 205 623 02 2

    En vrifiant la parit on voit qu'on dtectera immdiatement les identifiants

    somme impaire donc errons.

  • - 5 -

    . La 'bl" prise comme exemple est d'une grande simpliit, mais malheureusement

    de ce fait insuffisante. Une erreur transformant un 3 en 5 par exemple passera

    inaperue. Selon l'importance attache l'identifiant on devra donc rechercher

    des cls plus ou moins complexes, une grande simplicit rendant la cl assez fra-

    gile, une grande complexite la rendant plus difficile tablir et surtout cal-

    culer. Un peu plus dlicate manier que la prcdente, mais beaucoup plus sre

    serait par exemple la condition "la somme des chiffres de l'identifiant doit ~tre

    divisible par 7". On a alors :

    205 623 01 2

    205 623 02 1

    205 623 03 0

    205 623 04 6

    1 - a;c) Valeurs itlpossibles. :

    En examinant une par une les rponses enregistres on dtectera aisment cer-

    taines inpossibilits, soit naturelles (un sexe ne saurait ~tre que masculin ou

    fminin), soit imposes parl'enqu~te (une enqu~te sur des lves d'une cole de.#'

    garons ne saurait comprendre de filles). L'examen question par question est la-

    borieux mais les moyens informatiques pernettentde la raliser trs rapidement;

    sans prjuger de l'attitude adopter en cas de dcouverte d'une erreur, on s'ef-

    forcera de dtecter ces erreurs en tablissant une liste de tous les cas possibles.

    Parmi ces cas possibles certaines ventualits sont parfois envisager bien qu'el-

    les paraissent priori invraissemblables, par exemple pour le sexe on peut avoir

    trois cas : masculin, fminin et non dclar, ce troisime cas tant distinct dru.ne dclaration er-rone (traduit en code on pourra ainsi accepter un sexe = 1 (It18S-'"culin) = 2 (fminin) X (non dclar), mais on refusera tout code diffrent(0, 3, 4, z . ) pour un salaire on doit vrifier qu'il soi t situ dans unecertaine fourchette, mais on peut accepter qu'il soit nul (si par exemple l'enqu.3te

    ne relve que les salaires reus au cours d'une priode donne, etc ).

    D'une faon gnrale il importe de bien distinguer parmi les ventualits

    "anormales", celles qui correspondent une absence de rponse (non dclar, refus

    de rponse) et celles qui sont effectivement nulles. Un zro rel est souvent

    acceptable tel quel alors qu'un "non rponse" ne correspond que rarement un tat

    rel nul.

    Cette opration de dtection des "dpassements de code" prsente un grand in-

    trt mais aussi un certain danger. C'est, en effet, lors de cette tape que lIon

    va dtecter le plus grand nombre d'erreurs apparentes, et l'on s'efforcera ensuite

    de les corriger. Mais en fait ne sont dtectes que les erreurs souvant minimes,

    surtout lorsque les ventualits acceptables sont nombreuses. Les cas IIhors code"proviennent plus souvent d'erreurs de perforation, relativement rares, que d'er-

    .../ ...

  • - 6 -

    reurs de chiffrement, beaucoup plus frquentes : une difficult lors du chiffre-

    ment est en effet rarement rsolue par une codification "hors norme ll mais le plus

    souvent par le recours une codification "fourre tout" (autres cas, non dclar" )

    voire par une codification arbitraire mais formellement acceptable.

    1 - b) Contrles de structures :

    Les contrles formels dont nous avons parl dans les paragraphes prcdents

    peuvent s'effectuer sur un ficl1ior en dsordre, ds lors que sur ce fichier chaque

    enregistrement est bien individualis. Mais le plus gnralement on aura tout int-

    rt travailler sur des fichiers ordonns, selon des rgles simples ou plus labo-

    res. (A noter que les contrles de structure peuvent selon la ncessit prcder

    ou suivre les contrales formels, mais gnralement il vaut mieux qu'ils prcdent).

    - b.a) Fichiers ordonns simples

    Nous appelerons f'Lcho.r ordonn simple un fichier dans lequel les enregistre-

    ments sont distincts les uns des autres et se suivent selon une loi simple : ordre

    chronologique, ordre ascendant des numros do questionnaire, ordre gographique,etc

    -De tels fichiers prsente dt'l' intr~t dans la mesure o ils permottent d'isoler

    trs simplement une portion du fichier (donnes portant sur telle anne, sur telle

    unit gographique, etc ). Leur contrle est relativement simple, et peut aisment

    tre coupl avec le contrle d'exhaustivit: l'ordre tant dfini (par exemple clas-

    sement des enregistrements selon l'ordre alphabtique des communes dans des rgions)

    on classe le fichier selon cet ordre et on vrifie que chaque enregistrement se trou-

    ve bien sa place. Lors de ces oprations on trouvera souvent, soit rejete en fin

    du fichier soit isols au coeur du fichier quelques enregistrements inclassables.

    Il pourra s'agir simplement, dans le caS le plus frquent, d'erreurs d'identifica-

    tion (numros mal perfors, erreur sur la commune de rsidence, etc ) ; parfois

    on dtectera des erreurs plus graves absence complte d'une anne (confusion en-

    tre la date de l'enquSte et celle de l'vnement observ par exemple), prsence de

    deux lots de questionnaires sur une mme commune (confusion par exemple entre lieu

    de rsidence et lieu de travail, ou erreur systmatique sur le chiffrement de la

    rgion, ete ).

    1 - s.u.) Fichiers hirarchiss :

    Il est souvent commode de classer les fichiers en utilisant les "facteurs

    communs ll Par exemple, lors d'une enqu~te dmographique les individus seront obser-

    vs travers les mnages et dans une commune de rsidence. Les caractres propres

    l ' individu lui sont personnels, mais il partage avec d'autres indivf.dus certains

    caractres communs (appartenance un mnage de n personnes, rsidence dans un

    logement sans eau, rsidence dans une commune de n habitants, etc ). Plut8t que

    de rpter dans chaque enregistrement individuel des caractristiques communes on

    ... / ...

  • - 7 -

    prfrera souvent enregistrer sparment les donnes individuelles et les donnes

    collectives, et organiser le fichier de faon pouvoir rattribuer chaque indi-

    vidu ses caractres collectifs. En conservant l'exemple prcdent on pourra organi-

    ser un fichier trois niveaux hirarchiques :

    niveau commune de rsidence

    niveau 2

    niveau 3

    mnage

    individu

    . . .1...

    Les enregistrements de niveau 1 comprendront toutes les caractristiques utiles

    de la commune: caractre urbain ou rur.al, taille, situation gographique, prsence

    d'une cole, d'Uk~ hpital, etc

    Les enregistrements de niveau 2 porteront sur les caractristiques du mnage :

    nombre de personnes (ventuellement par sexes), ge du chef de mnage, profession et

    catgorie socio-professionnelle du chef de mnage, nombre d'actifs, caractristiques

    de l'habitat, etc

    Les enregistrements de niveau 3 enfin ne concerneront que les caractres pro-

    pres l ' individu sexe, ~, tat matrimonial, revenu individuel, etc

    On voit que, condition de disposer d'un identifiant commun parfaitement sr,

    il est loisible de rapprocher les caractristiques d'un individu de celles de sa

    commune de rsidence, mr dans le cas o les enregistrements de niveau 1 sont

    "physiquement" loigns de ceux de niveuu 3. On prfre toutefois le plus souvent

    fondre les 3 niveaux selon une rgle simple :

    A la suite du premier enregistrement de niveau 1 (commune de rsidence) on ran-

    ge le premier enregistrement de niveau 2 (mnage rsidant dans cette commune) puis

    les enregistrements de niveau 3 (individus appartenant ce mnage) correspondBnts,

    ensuite le second enregistrement de niveau 2 suivi des enregistrements de niveau 3

    correspondants, etc... Ainsi la suite de chaq"':le mnage sont rangs tous les indi-

    vidus lui appartenant, la suite de chaque commune tous les mnages et tous les

    individus y rsidant.

    L'adoption d'une telle hirarchisation des fichiers prsentera des avantages

    considrab~es pour la confection des tableaux (plus grande rapidit, facilit des

    tris, cohrence des rsultats,etc ) mais ncessitera un contrle trs troit de la

    structure du fichier, toute erreur entra1nant une rupture de 11quilibre recherch.

    Le contrele devra reposer sur des principes aussi simple que possible. Dans

    l'exemple choisi ces principes sont les suivants

    - aucun enregistrement de niveau 3 ne peut exister sans ~tre prcd des niveaux

    2 et 1 auxquels il doit se rattacher,

    - tout enregistrement de niveau 2 doit ~tre suivi d'au moins 1 enregistrement deniveau 3 (il n'existe pas de "nage" vide, mais il peut exister des mnages dt"lme

    seule personne),

  • ...1...

    - 8 -

    - tout enregistrement de niveau 1 doit tre (sauf si explicitement on a prvul'existence de commune sans population enqu te ) suivi d'au moins 1 enregistrement

    de niveau 2 et d'au moins 1 enregistrement de niveau 3.

    A ces principes de base on pourra adjoindre, ce qui peut permettre de dtec-

    ter certaines erreurs, des principes complmentaires : ordre dans la numrotation

    des mnages (niveau 2) et des individus (niveau 3), nombre maximum des mnages par

    communes et d'individus par mnage, etc ...

    1-b.c.) Rapprochement des fichiers~

    Proche dans son principe du cas prcdent, le rapprochement de 2 fichiers

    priori indpendants pose certains problmes complmentaires. Supposons par exemple

    que l'on dispose d'une part d'un fichier concernant des salaris d'une entreprise

    (sexe, ~ge, niveau professionnel, etc ) d'autre part, d'un fichier donnant les

    salaires de ces employs. Le rapprochement n'est videmment possible que si l'on

    dispose sur l'un et l'autre fichier d'un identifiant commun et sr (nom de l'em-

    ploy par exemple) (cet identifiant n'est pas toujours suffisamment sr, les cas

    d'homononymies tant relativement frquents). Mais cette condition n'est pas suf-

    fisante, il faut de plus qt' chaque individu figurant sur le fichier 1 corres-

    ponde un enregistrement sur le fichier 2 et rciproquement. Il sera donc ncessai-

    re pour permettre ce rapprochement de vrifier que cette concordance existe et

    sinon de la crer artificiellement (soit par limination des individus ne figurant

    que sur l'un des fichiers, soit par cration, ventuellement grce un complment

    d'enqute, d'un fichier supplmentaire).

    Dans le mme ordre d'ide le rapprochement de 2 fichiers de population des

    dates diffrentes pourra ncessiter la cration d'enregistrements concernant des

    individus fictifs ( natre ou dcds) afin d'viter la recherche indfinie d'un

    individu disparu du fichier pour une cause connue (dcs), videmment distiIlte de

    celle d' un individu disparu par erreur.

    1- c.) ContrOles logiques:

    Tous les types de contrles envisags jusqu'ici ne concernaient que la forme

    idu fichier, il s'agissait de s'assurer que rien ne viendrait troubler la produc-

    tion de rsultats formelleme~t acceptables. Dans la mesure du possible les contr8-

    les doivent tre pousss davantage, la cohrence de forme risquant de cacher des

    incohrences de fond.

    - c.a.) Cohrence interne:

    A l'intrieucr' d'un questionnaire les questions sont rarement indpendantes, et le

    rapprochement des rponses pourra permettre soit d'liminer des erreurs de dtail

    soit ventuellemeut de dtecter des questionnaires inexploitables (rponses volon-

    tairement incohrentes, incertitudes trop nombreuses, etc ).

  • - 9 -

    Il sera d'ailleurs ncessaire lors de la rdaction mme du questionnaire de

    prvoir certaines questions redondantes ou apparemment inutiles, dont le but est

    prcisment de vrifier la qualit des rponses. Ce rapprochement est une opra-

    tion extrmement dlicate, car souvent les contradictions n'apparaissent que par

    la confrontation de 3 ou 4 rponses, voire davantage. Il importera donc de limi-

    ter ces contr81es, d'une part sur les incohrences simples et videntes, d'autre

    part sur les questions fondamentales.

    Rarement les incohrences sont rigoureusement inacceptables (du type avoir

    15 ans et avoir eu 5 enfants, habiter une maison sans eau courante et avoir une

    douche, etc ) mais le plus souvent elles se situent dans une marge plus ou moins

    large d'acceptabilit (avoir 18 ans et 5 enfants, ~tre chef de mnage et n'avoir

    aucun revenu, ).

    Nous pensons qu'en fait ces problmes doivent tre rsolus sur le terrain,

    la rigueur lors des contrOles en bureau mais non au moment de l'exploitation.

    Le seul rle, au demeurant important, d'une recherche d'incompatibilits inter-

    nes sur les fichiers dj$nregi.strs doit se limiter notre avis l' limina-

    tion d'erreurs matrielles (erreurs de chiffrement, erreurs d'units), on a une

    aide aux contrles en bureau (liste de questionnaires suspects, de cas particu-

    liers trop nombreux, etc ).

    Gnralement donc on examinera question par question les incohrences inad-

    missibles d'une part, les incohrences fortement suspectes d'autre part, par r-

    frence un ou deux critres choisis comme dterminants. Si, par exemple, on tu-

    die le nombre de naissances survenues dans l'anne pour une femme, le critre d'-

    ge pourra faire ressortirfcomme situ~~ion impossible une naissance poun6ne mred'ge infrieur 10 ans ou suprieur 60 ans, comme suspectes les naissances

    parmi les mres d'ge 10, 11 ou 12 ans ou 50 59 ans, comme suspectes aussi les

    naissances suprieures 2 dans une anne. Selon le cas on adoptera des mthodes

    de correction sans recours au fichier manuel ou au contraire avec retour au dos-

    sier.

    La liste des incohrences inadmissibles doit ~tre tablie avec grand soin,

    et sera gnralement assez brve. Celle des incohrences suspectes aura plutOt un

    caractre de test sur la validit de l'observation, et sera donc relativement brve

    elle aussi, ne portant que sur les caractres mal observs, et souvent davantage

    pour avoir une ide de la qualit de l'enqute que pour en rechercher une correc-

    tion tout prix.

    -c.b.) Cohrence externe

    S'il existe des liaisons entre des diverses questions figurant dans un ques-

    tionnaire, il eY~ste aussi des liaisons d'une enqute l'autre, ou d'un fichier

    ... / ...

  • - 10 -

    un autre, L' exis tence de donnes extrieures peut constituer un guide prcieux

    pour l'examen de quelques questions pour lesquelles on ne dispose sans cela d'au-

    cun critre objectif. Si, par exemple, lors d' une enqute antrieure on a pu

    constater que les salaires se hirarchisent selon l'ge et qu'ils voluent, un

    ~ge donn, dans une certaine fourchette on pourra utiliser cette fourchette (ven-

    tuellement mise jour) comme critre 'acceptabilit d'une rponse.

    1 - d) Hirarchie des contr~les :

    Les cont.rl.es ont un double but : d'une part liminer du fichier toute impro-

    pret formelle qui rendrait impossible la confection des tableaux, d'autre part

    liminer les cas les plus invraisemblables qui risquent de fausser les calculs

    (moyennes carts, etc . ). Une enqu~te se droulent en plusieurs tapes, terrain,

    chiffrement expIaitation et analyse, lors de chaque tape devront avoir lieu des

    conbres et chaque fois selon une himrdhie diffrente. Sur le terrain et lors

    du chiffrement l'important est dl obtenir des renseignements les meilleurs possi-

    bles. L'intervention trs rapide des moyens informatiques peut permettre une aide

    ces contreles, essentiellement parce qu'elle permet alors des retours sur le

    terrain. Par contre lors de l' exploitation proprement dite Cl est essentiellement

    sur le plan formel que pourront et devront se drouler les contrles. Nous avons

    essay de donner la liste des principaux contrales en~r. En pratique un

    certain nombre de choix devront tre fait tant dans la quantit de contr~les que

    dans leur ordre. Cet ordre n'est en effet pas iIllBiffrent, d'autant plus que

    souvent l'on effectuera les corrections au fur et mesure que seront dtectes

    les erreurs. Llorganisation qui nous semble la meilleure pour une grande enqube

    pourrait tre la suivante :

    - mise en ordre du fichier avec contrele des identifiants, correction des iden-

    tifiants errons et remise en ordre dfinitiv'? (surtout pour les fichiers hi-

    rarchiss). (Le contir'le d!e:lha.ustivit peut aisment se faire au cours de

    cette tape),

    - contrles logiques des principales variables, avec retour au fichier manuel

    pour les cas les plus aberrants, rejet dans la catgorie "non dclare" pour les

    cas certainement errons, mais de peu de consquence (ventuellement correction

    automatique sur critre interne de ces cas),

    - contrle de validit de la totalit des codes et correction simultane.

    B - Corrections des erreurs.

    Dans la partie consacre aux contreles nous avons dfini deux ~es d'objec-

    tifs : vrifier qu'aucune erreur de forme ne subsiste dans le fichier afin d'en

    permettre l'exploitation et dtecter dans la mesure du possible, les erreurs fon-

    damentales, que celles-ci soient systmatiques ou accidentelles. Ces oprationsde contreJ.e sont indispensables, mais ne se suffisent pas en elles-mdmes : d'une

    .../ ...

  • - 11 -

    faon ou. dl une autre les erreurs de forme devront ~tre corriges, et les erreurs de

    fond devront au moins ltre connues, m~me si elles restent difficiles .corriger.

    Divers types de corrections peuvent ~tre envisags, soit directement par ordi-

    nateur ( on parle alors de "correction automatique"), soit manuellemeut par substi-

    tution dlun enregistrement rput exact un enregistrement erron. On utilisera

    llun ou l'autre de ces types do corrections, souvent les deux, selon les contrain-

    tes propres llenqute : importance du fichier, possibilit du travail en atelier

    ou de retour sur le terrain, dure des oprations.

    - Co~rections automatiques.-_._------_......::--Ce type de cor-rectaon sc fait par ordinateur, en principe sans intervention

    manuelle. Les errours rencontres lors de la lecture d1un fichier pourront ~tre sys-

    tnatiques (erreurJ d;units, dcalages ) ou alatoires. Dans la mesure o elles

    pourront tra dtoctos et ou lIon dispose des lments permettant de les rectifier

    leo eTI~eUl'S systm~tiques peuvent ~tre corriges par procds automatiques (change-

    ment dl~~t par e~Gmple), mais le plus souvent on prfrera soit les traiter ma-

    nuaLl.emerrt , soit Jes consid~r comme alatoires. Dans certains cas dl ailleurs une

    erreur syntmatiqua pourra subsister dans le fichier, aucune correction raisonnable

    nI tant possible: sous estimation vidente des salaires, oubli d'vnements trop

    anciens, etc ; lors de l'analyse des rsultats il sera bien entendu ncessaire

    de connatre llexistence de ces biais, ventuellement d'en estimer l'importance.

    Les orreurs alatoires pourront ~tre de tous les genres ; faute de frappe,

    omission dlun renseignement, code erron, etc Elles se trouveront disperses

    dans le fichier sans ordre apparent. On fera donc gnralement l'hypothse que ces

    erreurs touche~t des units statistiques quelconques (il importe de s'en assurer)

    et les modes delcorrec~.'.ons seront alors bass sur des principes de probabilit.

    Finalement les procds de corrections automatiques que nous allons exposer

    s'appliqueront donc a~cr erreurs alatoires et ventuellement certaines erreurs

    systmatiques ou des biais considrs connue alatoires. En d'autre terme tout ce

    qui est considr comme suspect et pour lequel on ne dispose pas d'informations va-

    lables (et dans la mesure o on ne recours pas la correction manuelle) sera d'a-

    bord rej8t en "non dclar" puis trait comme tel.

    Il est noter que le rejet en "non dclar" de tout renseignement erron ou

    susnect l'cut tre considr comme suffisant sur le plan formel, puisqu'on peut alors

    produire des tableaux la soul,e condition que des cases "non dclar" y figurent.

    Nous reviendrons eL conclusion sur cette possibilit.

    1 - a) Corrections alternatives.Ce procd est le plus simple, mais il n'est satisfaisant que quand des erreurs

    sont r:.l.s.tivement rares. En cas d1erreurs on attribue alternativement chacune des va-

    valeurs possibles.

  • b ) Correction par le conterie.

    - 12 _.

    Exemple 1 : sexe non dclar ; lorsque l'on rencontre un errre ~i8 i::remcnt pr-

    sentant ce dfaut on lui attribue le code 1 (masculin), puis la seconde rC:lcontre

    le code 2 (fminin), puis alternativement 1,2,1,2, etc On voit qu'on obtient

    une rpartition par sexe en principe proche de la rpartition rGlle, les ho-::::::s et

    les femmes tant en nombre voisin dans la population, (il s'agit bien sCr d'lL10 en-

    qu~te sur la population totale).

    Exemple 2 : tat matrimonial non dclar ; comme dans le C5.S prcdent 0:1 at-

    tribue alternativement des valeurs 1 (clibataire), 2 (mari), 3 (VC\l:f) et 4 (di-

    vorc, spar) Puis nouveau 1, 2, 3,4, 1, 2, etc Ce cas est dj lgrement

    diffrent du 1er puisque la rpartition dans l'ensemble de la population n'est pas

    aussi rgulire. ON peut perfectionner le systme en adoptant une pondration dif-

    frente des corrections, par exemple 1, 2, 2,3, 1, 2, 2,4, etc , soit 2 cliba-

    taires et 4 maris pour 1 veuf et 1 divorc, rpartition dj plus proche de la r-

    alit. Cette pondration pourra de plus ~tre diffr~nte selon l'ge.

    L'inconvnient vident de ce procd,' par ailleurs de mise en oeuvre ext~me

    ment simple, est ~ue la fr~quence relle des tats possibles n'9t&~t pas ~CDLue

    priori on doit en prjuger. Par ailleurs rien ne prouva que les erreurs soient ef-

    fectivement alatoires, donc que la population corrige, artificiellement rendue

    semblable au reste de la popul.ataon, l'tait effectivement.

    Pour l'application de ce procd on prend gnralement comme rfrence la r-

    partition attendue dans l'ensemble de la population. Si une indication mme sub-

    jective, permet de penser qu'en ralit les erreurs touchent une catgorie parti-

    culire de population on peut choisir une rpartition volontairement biaise. Si

    par exemple on a constat chez les divorcs une tendance ne pas dcl~~r leur

    tat matrimonial on pourra adopter le cycle de correction 1, 4, 2, 4, 3, 4, etc

    faisant appara!tre 3 divorcs pour 1 clibataire. 1 mari et 1 veuf. Ce jeu a ce-

    pendant ses limites, en particulier du fait que dans le cas envisag la tendance

    sera plus frquemment pour un divorc de se dclarer mari que de ne pas rpondre.

    1

    Pour certains caractres les liaisons entre plusieurs questions figurant dans

    l'enregistrement permettent de fixer de faon peu prs certaine la rponse exacte.

    Par exemple certains ges l'tat matrimonial ne peut ~tre que clibataire, ou le

    statut d'occupation qu'inactif (ou colier). La correction est alors vidente.

    Ce procd ne peut toutefois qu'@tre assez partiel, car il est rare que plu-

    sieurs questions soient strictement redondantes ; mme dans ce cas d'ailleurs se

    posera une question de priorit car s'il y a contradiction entre deux rponses la-

    quelle doit ~tre considre comme exacte?Coupl avec la correctionalternative il al' avantage d'liminer d'ventuelles

    incohrences inteJlmes. /... ...

  • - 13 -

    1 c ) Correction par ratiou.

    Si les liaisons certaines entre caractres d'un m~me individu sont relative-

    ment rares, les liaisons entre un caractre et une quantit, ou entre 2 quantits

    sont beaucoup plus frquentes. Ainsi par exemple la relation entre salaires et

    charges sociales (assurances, retraites, etc ) est assez rigide, celle entre ~ge,

    catgorie socio-professionnelle et salaire est plus eouple mais relle, etc

    On peut alors ventuellement calculer l' 4J.mment manquant partir de ceux d.ont

    on dispose ; connaissant le sexe, l'~ge et la catgorie socio-professionnelle d'un

    individu on peut lui attribuer un salaire correspondant au salaire moyen des in-

    dividus de mmes caractristiques.

    Ce procd est relativement difficile mettre en oeuvre, par les calculs

    qu'il exige et par ses limites propres ; il est en effet ncessaire de disposer

    des "ratios" permettant les corrections. Parfois une source extrieure peut per-

    mettre de savoir p:dori quels seront les ratios et il suffit alors de les appli-

    quer mais dans le cas le plus gnral on devra les extraire de l' enqute elle-

    mme un premier passage ~u fichier permet de calculer par exemple le salaire

    moyen par C.S., sexe et ge , ppur les individus ayant dclar ces 3 lments et on

    applique lors d'un second passage ce eal.ai.re moyen aux individus ayant seulement

    dclar CS et ge , On voit que s'il manque l'un de ces lments on est arrt, sauf

    les "corriger" eux-mnes.

    d ) Correction par "profils types"

    Semblable dans son principe au cas prcdent, mais portant aussi sur les ca-

    ractres qualitatifs, on peut dterminer un tat moyen pour un individu sur lequel

    on a assez peu d'informations : par exemple un homme de 45 ans sera lien moyenne"

    mari, salari, etc A partir de quelques donnes de base on pourra donc affec~

    ter un individu des caractristiques moyennes, qui auront surtout l'avantage

    d' ~tre .parfaitement banales.

    L'tablissement des cew profils types prsente videmment los m~mes inconv-

    nients que prcdemment : ou bien on les tire de renseignenents extrieuxs l'en-

    qute, mais alors corrbspondent-ils la population tudie, ou bien on les extrait

    de l'enqu~te elle-mme, d'o ncessit de plusieurs passages.

    1. e) Mthode du "HOT DECKll

    Dans les quatre types de redressement automatique prcdents la correction

    consistait remplacer le renseigneme~t erron par un renseignement en moyenne exact,

    les mthodes 1a et 1b supposant que la distribution de rfrence soit connae (ou im-

    pose), les mthodes 1c et 1d se rfrant la distribution rellement observe.

    Al' exception de la premire ces mthodes sont relativement difficiles mettre .en oeuvre, sans que cette difficult soit compense par une qualit incontestable

    .../ ...

  • - 14 -

    Le procd du "Hot Deck'' allie les avantages d'une bonne mthode et d'une mise en

    oeuvre aise.

    Dans son principe le "hot deck" consiste, lorsque l'on rencontre unenregis..;

    trement erron, le remplacer par un autre enregistrement exact pris au hasard

    dans le fichier. Sur un f;ich!-er important les lois des _probabilits pourront .

    jouer, et l'enregistrement de remplacement correspondra en esprance mathmatique

    au cas moye:J.. On aura donc pat' rapport au redressement alternatif supprim les

    incohrences (tout enregistrement erron est remplac par un enregistrement exis-

    tant au fichier et non erron; donc cohrent) et. 1farbitraire (la loi de remplace-

    ment n'est pas fixe par l' oprat(;,::-~r mais par le hasard).

    En pratique, et cela constituera un avantage supplmentaire, on pourra pro-

    eder au redressement au fur et mesure du droulement du fichier : lorsque l'on

    rencontrera une erreur on prendra parmi les renseignements prcdents l'enregis-

    trement correctif.

    On peut corriger soit la totalit de 11 onregistrement , soit seulement une

    partie ou un seul ,lment.,. Le procd reste sensiblement le mme partir de

    2 ou 3 caractres simples de rfrence (gui alors drd,vent tous ~tre sans erreur)

    on slectionne parmi les units statistiques prcdant celle corriger celle qui

    en est le plus proche (par exemple mme sexe, mme ge et mme tat matrimonial)

    puis on attribue l'enregistrement erron le ou les caractres de l'unit ainsi

    slectionne.

    L'inconvnient dans la mise en pratique est qu'il est alors ncessaire soit

    de revenir en arrire sur le fichier soit de conserver en mmoire quelques enr&-

    gistrements parmi lesquels on procdera la slection. Cet inconvnient sera

    supprim si l'on se fixe les rgles simples :

    a) remplCement d'un enregistrement erron par un enregistrement complet :

    la prsence d'une seule er-reur dans Il enregistrement justifie alors son rejet to-

    tal il' enregistrement remplaant pourra ~tre caluile prcdant immdiatement

    (il suffit donc de conserver toujours en mmoire un seul enregistrement, l'avant

    dernier lu). Si les erreurs sont rparties alatoirement dans le fichier, les cor-

    rections sont aussi alatoires, puisque dtermines par leur place.

    b) correction d'un seul caractre erron : si un caractre es t erron (par

    exemple le salaire) on recherche dans les enregistrements prcdents le salaire

    d'un individu prsentant par exemple mme sexe, mme groupe d'ge et mmecatgo-

    rie socio-profesBiopn~~~~. JI faut alors co~tt~ex, et ronserver en m~moire,un

    tableau "df'ormab.le" donnant pour chaque sexe, groupe d'ge et CS, le dernier sa-

    lair.e rencontr dans le fichier (tableau :rempli arbitrairement avant le dbut du

    ... 1...

  • - 15 -

    droulement du fichier, et qui se dformera de lui-mme au fur et mesure de

    la lecture). Lorsque l'on rencontre un salaire erron on lit l'ge, le sexe et

    la CS de l'individu concern, on recherche dans le tableau un individu de mme

    sexe, ge et CS et on remplace le salaire erron par celui lu dans le tableau.

    Si l'on adopte cette correction d'un seul caractre, il faudra faire

    plusieurs opr-atri.onajr une pour chacun des caractres susceptibles d'tre corri-

    gs, ce qui peut entra1ner la construction d'un nombre assez considrable de

    tableaux de rfrence, donc un encombrement non ngligeable de la mmoire.

    Le rapporchement de la mthode du hot deck avec la mthode des sondages

    est vident: les corrections sont prises au hasard dans l'ensemble des rponses

    exactes. Pour respecter strictement ce hasard on aurait intrt travailler

    sur des fichifrs les plus dsordonns possibles; en ralit un "bonI! ordre du

    fichier est souhaitable, correspondant l'ide de stratification: si le fichier

    est rang dans un ordre gographique, par exemple, l'individu slectionn pour

    corriger une erreur prse~tera, outre les caractres communs recherchs (sexe,

    ~ge, etc ) une proximit gographique.

    2 Redressements manuels

    Malgr leur limite les redressements automatiques prsentent de trs

    grands avantages pratiques et doivent tre utiliss chaque fois que cela sera

    possible. Leur inconvnient majeur tient leur absence de souplesse, inhrent

    leur dfinition. Par ailleurs, ils doivent en principe tre raliss un

    moment bien prcis de l'exploitation, aprs l'introduction du fichier en machine

    et avant la production des tableaux.

    Beaucoup plus souples, et pouvant tre ralises lors de toutes les

    tapes de l'exploitation (y compris, bien que cela nous paraisse condamnable,

    aprs la production des tableaux), les corrections manuelles seront gnralement

    plus difficiles mettre en oeuvre.

    Tenant compte des avantages certains de la rigidit (la correction ne

    dpend pas de l'oprateur) et de la rapidit de la correction automatique et des

    avantages de souplesse de la correction manuelle un certain nombre de choix

    seront faire pour tablir le plan de redressement. Gnralement on procdera

    une correction automatique pour les questions d'importance relativement secon-

    daire et les erreurs plus fondamentales, soit en raison de l'importance de la

    question soit cause du poids du questionnaire seront traites la main

    ..-./...

  • - 16 -

    Dans une enqute sur la gestion financire des entreprises par exemple

    on pourra dcider de faire deux lots de questionnaires, l'un concernant les

    grandes entreprises, peu nombreuses mais chiffre d'affaires lev, qui seront

    ventuellement corriges la main, l'autre concernant les petites entreprises,

    beaucoup plus nombreuses, pour lesquelles on corrigera automatiquement la plu-

    part des erreurs et manuellement certaines erreurs plus consquentes (masse des

    salaires par exemple).

    2. a. Redressement la saisie

    Ce procd de redressement est li ia nature du matriel informatiquedont on peut disposer. Il est en effet ncessaire de pouvoir vrifier la vali-

    dit d'une information au moment mme o elle est saisie (transfere du document

    manuscrit de base sur un support, carte ou bande magntique, exploitable par

    l'ordinateur), et ventuellement de signaler la non-validit l'oprateur afin

    qu'il la corrige. Un jeu de claviers .e perforation associs des crans per-

    mettant la lecture de messa-ges ou a une "imprimarrte" le tout li un ordinateur

    est donc ncessaire.

    Lorsque l'on dispose d'un tel matriel beaucoup de contrles sont possi-

    bles : acceptabilit de l'identifiant (si celui-ci a une clef), non dpassement

    de code, ratios convenables etc Quand une valeur de code, ou une quantit,

    vient d'tre saisie l'ordinateur peut en effet vrifier que la valeur est accep-

    table, que la quantit entre dans une "fourchette" prtablie etc et si tel

    n'est pas le cas le signaler l'oprateur. Celui-ci disposant en principe du

    dossier pourra selon le cas retranscrire le code exact s'il s'agissait d'une

    erreur de frappe, le rechercher s'il s'agissait d'une erreur de chiffrement etc

    -On voit cependant tout de suite la lourdeur de l'opration car s'il ne s'agit

    pas d'une faute de frappe l'oprateur doit dcider lui-mme de codes ou va-

    leurs de remplacement, ce pour quoi il n'est pas obligatoirement comptent. De

    plus le programme de recherche des erreurs, lourd, immobilisera une partie impor-

    tante de l'ordinateur pendant toute la dure de la saisie, qui peut s'tendre

    sur plusieurs mois.

    En pratique on nutilise le plus souvent ce procd que pour des contrles

    relativement simples et pour lesquels la correction ventuelle est lmentaire,

    ou peut tre diffre afin de ne pas immobiliser la chane de saisie trop long-

    temps (contrles d'exhaustivit, d'identifiants, de structure, codes simples)

    . . .1. . .

  • - 17 -

    2. B. Redressement en ligne

    Ncessitant le mme matriel que prcdemment ces types de redressement

    sont plus riches, mais demandent une participation plus pousse de l'ordinateur.

    La manipulation initiale tant la mme l'oprateur introduit une valeur de code,

    l'ordinateur vrifie la validit de ce code (non dpassement ou cohrence avec

    d'autres lments du questionnaire) et en cas d'erreur proposera une ou plusieurs

    solutions (par redressement automatique).

    L'oprateur alors pourra choisir l'une des solutions proposes ou ven-

    tuellement en proposer une lui-mme.

    Souvent on profite de ces oprations pour consulter automatiquement des

    nomenclatures: l'oprateur frappera par exemple en clair l'activit conomique

    et l'ordinateur donnera lui-mme le numro correspondant, s'il existe, ou deman-

    dera des prcisions s'il y a ambiguit.

    On voit que pour utiliser les deux procds ci-dessus il sera ncessaire

    d'une part de consentir l'immobilisation d'un matriel trs important, d'autre

    part, de disposer d'un corps d'oprateurs au courant de l'enqute et capablev

    d'initiative. Afin de p~llier les difficults qui pourraient natre il sera

    toujours ncessaire de prvoir la possibilit d'un rejet provisoire du question-

    naire erron, ce rejet permettant aux oprations de continuer par ailleurs.

    2. c. Redressement diffr

    Plutt que de chercher redresser le fichier au moment de la saisie,

    gain de temps qui se traduira souvent par un investissement trs lourd en person-

    nelet en matriel, et qui ne se justifie pas toujours par son efficacit, on

    prfre souvent produire des listes d'erreurs que l'on corrigera tte repose.

    La procdure est alors la suivante : lorsqu'une erreur est dtecte,

    l'enregistrement correspondant est soit exclu du fichier soit plac en rserve,

    un message d'erreur est mis, l'aide de ce message on recherche le dossier

    correspondant, on le corrige et l'on remplace alors l'ancien enregistrement

    erron par un nouvel enregistrement corrig. Il est souvent plus interessant

    d'annuler la totalit de l'enregistrement erron (partie lexacte et partie errone

    que de n'en corriger qu'une partie. Le risque est toutefois alors d'introduire

    une nouvelle erreur dans la partie saine.

    Le redressement diffr est incontestablement la meilleure formule pour

    corriger un fichier, puisqu'il permet l'examen cas par cas des erreurs, et leur

    correction (y compris par retour sur le terrain). Il prsente cependant un

    premier inconvnient par sa formule mme : on doit retourner, parfois assez

    longtemps aprs, des dossiers dj exploits; souvent alors le personnel de

    l'enqute a t dispers, parfois certains dossiers ont t gars, les renseigne

    ments sont trop anciens pour tre vrifis sur le terrain etc

    ..../~ ..

  • - 18 -

    D'autre part il faudra crer un nouveau fichier correctif,qui lui aussi

    prsente des risques d'erreurs,. Enfin la procdure est trs longue, pour un

    bnfice, souvent illusoire.

    2. d. Messages d'e~reurs

    En tout tat de cause les erreurs dtectes et corriges doivent tre

    dcomptes. D'autre part si l'on procde un redressement diffr il sera

    ncessaire de travailler sur des listes d'erreurs afin de pouvoir les corriger.

    On devra donc dans tous les cas mettre des messages faisant ressortir les ano-

    malies rencontres. Ces messages doivent permettre la fois le dcompte et la

    correction des erreurs. Ils devront donc

    - permettre d'identifier sans difficult les enregistrements errons,

    d'abord pour retrouver les dossiers correspondants, ensuite pour revenir

    l'enregistrement mis en cause;

    - permettre d'identifier l'erreur trouve, en la signalant trs claire-

    ment (ex : manqu,e salaire, ~harges sociales trop leves, etc ) ;

    - reproduire la donne suspecte, celle-ci pouvant servir la correction

    (si par exemple il s'agit d'une erreur de perforation la seule indication

    "salaire trop lev" est incomprhensible sur le dossier).

    D'autres qualits sont demandes aux messages d'erreurs, essentiellement

    d'ordre pratique: maniabilit, classement selon le type d'erreur, homognit

    des indications fournies etc

    Dans le cas de redressement la saisie, ou en ligne, ces conditions

    sont automatiquement remplies puisque c'est au moment o l'on rencontre l'erreur

    qu'on la signale et la corrige. Les messages d'erreurs n'auront alors qu'un

    intrt d'archivage et peuvent la rigueur se limiter au dcompte de ces erreurs.

    Dans le cas du redressement diffr peut se poser un problme pratique gnant :

    doit-on signaler toutes les erreurs d'un enregistrement ou tous les enregistre-

    ments correspondant un type d'erreur. Dans le p~emier cas le dossier ne sera

    sorti qu'une seule fois et corrig entirement mais l'organisation de l'atelier

    de correction peut s'en ressentir puisque d'un document l'autre des erreurs

    de type trs diffrent seront rencontres. Dans le second cas on pourra au

    contraire corriger, type d'erreur par type d'erreur, mais les manipulations

    seront plus nombreuses.

    . . .1...

  • - 19 -

    3 Conclusions sur les redressements d'erreurs.

    Un fichier prsentera toujours des erreurs de forme et de fond, et les

    moyens informatiques offrent la facilit de dtecter un certain nombre de ces

    erreurs.

    Pour ce qui est des erreurs formelles il faudra toujours les corriger,

    d'une faon ou d'une autre, car leur maintien entra!nerait l'impossibilit de

    fournir les tableaux, objectif mme d'une exploitation. Les autres erreurs,

    souvent plus fondamentales, posent la fois un problme thorique et un pro-

    blme pratique : la mise en oeuvre d'un systme de dtection et de correction

    est fort onreuse, et peut-on, ou mme doit-on, remplacer une rponse suspecte

    par une autre plus satisfaisante apparemment, mais arbitraire? Le purisme

    consisterait ne procder qu' des corrections neutres, formellement accepta-du

    bles, qu'on peut en gros ramener l'utilisation systme de cases linon dclar"

    dans les tableaux. Cette attitude nous para!t proscrire, d'abord parce qu'elle

    entretient l'illusion que tout ce qui est dclar est exact, ensuite parce

    qu'elle n'a aucun intrt pratique: l'habitude est prise depuis fort longtemps

    de lire la partie saine des tableaux et de ngliger ou de rpartir proportion-

    nellement le contenu des cases linon dclares". Un mode de correction relativement

    simple donne les mmes rsultats, sans l'inconvnient de "tra!ner" en perma-

    nence des tableaux incomplets. Il reste que la perfection formelle des tableaux

    corrigs est trompeuse. Il importera de ne pas oublier que cette apparente

    perfection n'a pu tre obtenue que par l'limination d'un certain nombre

    d'erreurs.

    Contrles des rsultats:

    Le fichier ayant t rendu propre sur le plan formel et dbarrass dans

    la mesure du possible des erreurs individuelles flagrantes, il reste produire

    des tableaux. Gnralement on ne lancera pas tout de suite un programme trs

    lourd des tableaux mais on COmmencera par l'dition de quelques tableaux de

    contr81e

    Tableaux de dcompte d'erreurs

    Lors de la mise au propre du fichier on a dtect un certain nombre d'erreurs

    que l'on aura corrig. Les erreurs matrielles (erreur de perforation par

    exemple, erreur d'unit, etc ) n'ont plus grande importance ds lors qu'on

    a pu les rectifier. Il est cependant utile d'en conna!tre le nombre car il est

    certain que le nombre d1erreurs de ce type non dtectes est proportionnel

    celui des erreurs dtectes. Si par exemple on a trouv 10 %d'individu ausexe diffrent de 1 (masculin) ou 2 (fminin) ces erreurs ne peuvent gure

    provenir que d'une mauvaise perforation et il est alors probable que pour les codes

  • - 20 -

    plus complexes le nombre d'erreurs de perforation sera important. Les erreurs

    de fond par contre (par exemple absence systmatique de r~ponse certaines questio

    questions, confusion entre nombre d'enfants n~s vivants et nombre d'enfants

    actuellement en vie etc ) doivent faire l'objet de tableallx d~taill~s qui

    permettront l'analyste de proposer des explications, ou qui dans tous les

    cas devraient lui permettre d'viter des interprtations errones car les cor-

    rections apportes au fichier dans ces cas sont toujours plus ou moins arbi-

    traires, et le biais introduit par ces corrections sera ngligeable si elles

    sont rares, considrable si elles sont nombreuses.

    On devrait toujours constituer pour chaque enqute un dossier compor-

    tant un tableau statistique de dcompte des erreurs dtectes, le mode de

    correction adopt et ventuellement une liste des questionnaires comportant

    de graves erreurs,. En pratique de tels dossiers sont assez rares et toujours

    confidentiels !

    2 Tableaux des donnes brutes

    Dans la mesure o le fichier constitu le permet, avant tout contrle

    et toute correction, il est souvent judicieux de produire quelques tableaux

    assez simples (rpartition par sexe et age, distribution des salaires selon le

    sexe par tranches, nombre d'enfants selon l'ge des mres etc ) Ces tableaux

    prsenteront l'avantage de permettre rapidement de dtecter des anomalies

    considrables (par exemple confusion des salaires mensuels et annuels) et de

    faire apparatre dans les cases prvues cet effet (non dclar, autres cas )

    l'importance des erreurs probables. Ils permettront aussi, par comparaison avec

    des tableaux dfinitifs de mesurer l'influence de corrections que souvent on

    ne maitrise pas compltement. Eventuellement on peut produire ces tableaux

    partir d'un chantillon relativement restreint de questionnaires.

    3 Tableaux de contrles

    A partir du fichier propre la production de tableaux extrmement simples

    donnera les principaux rsultats. Une analyse rapide de ces rsultats permettra

    d'une part d'estimer, intuitivement peut-tre, la vraissemblance des rsultats

    d'ensemble, d'autre part de dcider rapidement du degr de finesse que l'on

    pourra rechercher dans les rsultats dtailles.

  • Chapitre III

    MANUEL DE DEPOUILLEMENT D'ENQUETES

    Codification

    F. PRADEL de LAMAZE

    - 1 -

    A partir d'une population donne l'objet de la statistique est de classer

    les individus formant cette population selon leurs caractres. Ces caractres pour-

    ront se prsenter de faon claire, quasi vidente, et avec un nombre de modalits

    restreintes (ou en tout cas dnombrables) comme dans le cas du soxe, de l'ge, du

    nombre d'enfants etc , ou de faon beaucoup plus complexe. Dans l'un comme dans

    l'autre cas le statisticien devra tablir une nomenclature, liste ~xhaustive et

    ordonne des modalits possibles, et pour les besoins de l'exploitation, particu-

    lirement du point de vue informatique, cette nomenclature devra tre associ

    un code, tel qu' chaque cas envisag dans la nomenclature corresponde un signe

    (gnralement un nombre) et un peul.

    Etablir une nomenclature est gnralement une opration dlicate, ds lors

    qu'il ne s'agit pas de caractres simples. L'objet de ce manuel n'tant pas la

    thorie statistique nous ne dvelopperons pas ce point, mais il est cependant nces-

    saire de rappeler quelques contraintes :

    a) une nomenclature n'a de raison d'tre que si elle est opratoire. L'exhaustivit

    des cas possibles est donc ncessaire, mais le problme est le plus souvent de

    contracter d'une faon ou d'une autre le nombre de ces cas. Enumrer par exemple

    tous, les emplois possibles et affecter chacun un numro d'ordre de 1 n, n pouvant

    alors ~tre de l'ordre de centaines de milliers, n'a aucune raison d'tre puisque

    sur un tableau statistique une centaine d'ventualits semble un maximum. Dans ce cas

    donc il s'agira de r9grouper, par proximit, tous les emplois se "ressemblant".

    Malheureusement la ressemblance sera rarement v~ente et pourra varier selon le

    point de vue d'o l'on se place: regrouper d'une part les emplois de bureau, d'autre

    part les emplois ouvriers etc peut ~tre trs lgitime pour une tude selon la

    . nature de l'emploi occup, mais perd beaucoup de son intr3t si Iton envisage par

    exemple l'tude de la dispersion des salaires.

    b) une nomenclature doit avoir une certaine permanence dans le temps et l'espace.

    Une tude isole est certes interssante mais le plus souvent ne prend sa pleine

    dimension que dans la comparaison, soit avec une situation passe soit avec une

    autre population.

    .../ ...

  • - 2 -

    D'une date l'autre ou d'un pays l'autre beaucoup de choses voluent1

    pour reprendre l'exemple des emplois certains de ceux-ci disparaissent avec

    le temps, d'autres apparaissent, et une tendance la spcialisation plus ou

    moins pousse se fait jour un peu partout. Conserver longuement une nomencla-

    ture, aussi bonne soit-elle, sera donc gnralement difficile ; la changer

    toute occasion sera extrmement dangereux

    c) Une nomenclature doit tenir compte la fois de l'instabilit de certains

    caractres et de la prcision de l'enqute. Il serait ainsi illusoire de pr-

    tendre observer de faon trs dtaille certaines caractristiques si dans la

    population ces caractristiques ne reprsentent pas une situation bien dfinie.,

    ou si la nature mme de l'enqute ne permettait pas de distinction trs fine.

    L'emploi pourra ici. aussi servi:&.' d'exemple : dans la plupart-des pays en voie

    de dveloppement surtout de trs nombreux mtiers plus ou moins marginaux sont

    occups pendant des priodes trs brves par certains individus ; recenser

    tous ces emplois marginaux serait assez vain (sauf au cas o l'enqute aurait

    justement cette fin), les classer et prtendre ainsi reprsenter l'tat de la

    population serait trs probablement erron.,.".'

    Afin de tenir compte de ces cOtraintes on sJefforcera donc d'tablir des

    nomenclatures ~elativement dtailles au dpart, permettant divers regroupements.

    Des mthodes plus ou moins astucieuses, dont l'essence apparait dans les nomen-

    clatures "emboites", ont t utilises l'poque de la mcanographie. Actuel-

    lement on fait plus souvent appel des "tables de passage" qui permettent,

    partir d'une nomenclature fine de reconstituer rapidement telle ou telle nomen-

    clature agrge. En pratique pour raliser des exploitations informatiques on

    devra toujours prvoir, de faon automatique, une tape de "recodificationll

    La procdure est alors la suivante : partir d'un questionnaire de base

    on procde au chiffrement (opration consistant partir de l'information

    littrale la transformer en un nombre ou ventuellement en signe alphabtique)

    dtaill de chacun des caractres. Le dtail de ce chiffrement est alors fonc-

    tion essentiellement de la prcision de IJenqute, sans prjuger ni de la

    forme des tableaux ni de leur nombre de lignes ou de colonnes ; par contre il

    devra tenir compte de certaines contraintes concernant les modes de tegroupe-

    ment possibles: par exemple si l'on chiffre la branche d'activit laquelle

    appartient une entreprise on devra pouvoir isoler les coopratives agricoles

    qui dans certains regroupements pourront tre agrgs l'agriculture, dans

    d'autres l'industrie ou mme au commerce. A partir de ce chiffrement, aprs

    mise sur bande magntique, contrale et ventuellement correction, on raffecte

    l'individu l'ensemble des codes correspondant chacune des nomenclatures

    dfinitives envisages, et ceci en faisant appel soit un seul caractre soit

    parfois plusieurs. Les exemples suivants illustrent cette procdure

    .. .1..

  • .../ ...

    1 Exemple 1.: Dans les cas les plus simples (caractres qualitatifs non ambigus),

    nomenclatures et codes sont tablis trs rapidement: masculin = 1, fminin = 2ou clibataire = 1, mari = 2, veuf = 3, divorcs spars = 4, etc.

    Exemple 2 : Un cas relativement plus dlicat est celui o les individus peuvent

    appartenir plusieurs classes. Dans ce cas, il est gnralement prfrable

    d'tablir une hirarchie des classes et de ne placer l'individu que dans la classe

    la plus haute. On peut aussi utiliser un systme de codification un peu complexe

    mais qui n'entraine pas de perte d'information (code binaire).

    Exemple : Diplmes d'instruction gnrale

    Systme 1

    Nant 0

    Sait lire et crire 1

    Certificat d'tude 2

    BEPC 3Bacc. ou plus 4

    ;"

    Chaque individu tant class selon son niveau le plus haut.

    Systme 2

    Nant 0

    Sait lire et crire 1

    Certificat d'tude 2

    BEPC 4

    Bac. et plus 8

    Chaque individu est cod selon la somme des codes correspondants aux dipl~

    mes dont il dispose. Ainsi tout ~ndividu cod 1, 3, 5 ou 9 sait lire et criretout individu cod 5 sait lire et crire et n'a que le BEPC; tout individu

    cod 7 sait lire et crire et a le certificat d'tudes et le BEPC.

    La dcomposition de tout nombre en puissances successives de 2 tant uniquei

    on peut grce ce systme dcompter aussi bien les individus ayant un diplme

    donn quels que soient leurs autres diplmes, que ceux combinant plusieurs diplmes.

    Exemple 3 Dans le cas le plus gnral, le nombre de possibilits est trs

    grand. Il faut alors constituer des nomenclatures "emboites", telles que l'on

    puisse procder des regroupements successifs, du caractre le plus dtaill au

    caractre le plus gnral. Un systme de codification ~u type dcimal s'adapte

    g~ralement assez bien ce type de nomenclature: dans un tel systme, le 1er

    chiffre rassemble tous les individus appartenant un grand groupe, les deux

    premiers permettent de distinguer les principaux sous-groupes, 1 ou 2 chiffres

    supplmentaires permettent d'atteindre le dtail le plus fin.

  • -4

    Voici par exemple la nomenclature des professions (extrait) utilise pour

    le recensement de l'Algrie (1966)

    1GROUPES

    GROUPE 0

    PROFESSIONS

    PERSONNES EXERCANT UNE PROFESSION LIBERALE ,TECHNICIFBSET ASSIMILES.

    CODES

    ,GROUPE 1

    GROUPE 2

    Architectes, ingnieurs et gomtres 00Chimistes, physiciens, gologues et autres spcialistesdes sciences physiques 01Biologistes, vtrinaires, agronomes et spcialistesexerant des pr~fessions connexes 02Mdecins, chirurgiens et dentistes 03Infirmiers et sage-femmes 04Spcialistes et techniciens paramdicaux 05Personnel enseignant 06Prtres et mem~es assimils d'ordre religieux 07Juristes 08Artistes, crivains et assimils 09Dessinateurs et techniciens des sciences physiqueset des sciences appliques OXAutres personnes exerant une profession librale,techniciens et assimils OY

    ;,DIRECTEURS ET CADRES ADMINISTRATIFS SUPERIEURS

    Directeurs et cadres suprieurs de l'Administration publique 10Directeurs, cadres administratifs suprieurs etpropritaires exploitants 11

    EMPLOYES DE BUREAU

    GROUPE 3

    Aides comptables, teneurs de livres et caissiersStnographes et dactylographesAutres employs de bureau

    VENDEURS

    202129

    Propritaires exploitants (commerce de gros et dtail) 30Agents d'assurances, agents immobiliers, dmarcheurs debanque, agents de vente de service, et vendeurs auxenchres, courtiers maritimes, apprteurs 31Voyageurs de commerce, reprsentants et placiers 32Commis, vendeurs, employs et travailleurs assimils 33

    GROUPE 4 AGRICULTEURS, PECHEURS, CHASSEURS, FORESTIERS ETTRAVAILLEURS ASSIMILES

    Agriculteurs et directeurs d'exploitations agricolesTravailleurs agricolesChasseurs et travailleurs assimilsPcheurs et travailleurs assimilsBacherons et autres travailleurs forestiers

    40/4142444546

    GROUPE 5 MINEURS, CARRIERS ET TRAVAILLEURS ASSIMILES

    Mineurs et carriers 50Foreurs de puits et travailleurs assimils 51Ouvriers spcialiss dans l'enrichissement des minerais 52

    .../ ...

  • *lE'

    Exemple Nomenclature ..

    - 5 -

    des catgories socio-professionnelles (extrait)

    Branche Statut Profession Dimension Catgorie Code

    d'activit de professionnelle CSPl'entreprise(CSP)

    1 Propritaire Agriculteur }Aide familial " AgriculteurAgricultur~. Fermier " ) Exploitant 10Mtayer "

    "- Salari " Salo agricole 11

    1 Indpendant Directeur 6 sal et + Industriel 20

    " 0 5 sale Artisan 21Industrie ~ Aide familial 6 sal et + Industriel 30

    0 5 aa.l , Artisan 31

    "- Salari {Directeur Cadre supr. 40Contremaitre ~ Cadre moyen 50Ouvrier Ouvrier 60Le caractre n'est pas pris en compte pour la dtermination de la CSP.

    Exemple 5 :Sur le questionnaire initial et sur la carte perfore correspondante,

    on a cod l'ge exact selon un code 2 chiffres (25 = 25 ans rvolus). Onsait que certains tableaux devront tre produits pour des regroupements d'ges

    quiquennaux, ou dcennaux, d'autres seulement pour certains ges, etc Lors

    du transfert de la carte perfore sur bande magntique, on va donc transformer

    ce code "ge" en divers codes "ges regroups", qui serviront de critres

    ligne (ou colonne~" pour l'tablissement des tableaux, selon le systme suivant

    ** ~xemple 4 :: Dans certains cas on a synthtiser dans un mme code deux ou plu-sieurs caractres que peuvent prsenter les individus. Ce genre de problme a in-

    t~t ~tre trait de faon irigoureusement systmatique l'ordinateur, mais pehtl t ~tre ventuellement la main. Le traitement par ordinateur suppose bien enten-

    du qu'au pralable ait t chiffr chacun des "'.lract~.re~ composants :

    ... / ...

  • - (Age AR1 AR2 AR3 AR4

    dtaill

    ... } } ...11 01 01 1112 1213 ... 1314

    ..., .... 1415 02 1516 04 ) 02 03 1617

    104 17

    18 05 1819

    \ )06 . 19

    20 0721 0822 05 ) 03 09 'r

    20

    23 10 i24 .J ) 11 )-25

    } } } }26 06 04 12 212728 ,if29

    Age AR1 AR2 AR3 AR4dtaill

    30 -... ... ... ...616263

    ! "64 h.6566 > 1467 i6869

    '}) >

    70 12 2071 15727374 .,iJ. J7576- -

    -,

  • /JLB/AV

    - 1 -

    Chapitre IV

    Organisation des ateliers

    Il co~prend~a trois parties :

    - le rle de l'atelier manuel

    la place de l'atelier manuel dans la cka1ne d'exploitation

    - l'organisation optimale de l'atelier

    4 - 1 - Le rle de l'atelier manuel

    Ne pas oublier que le rle de l'atelier manuel ne se limite pas au

    seul chiffrement des documents d'enqute (c'est d'ailleurs pourquoi le n