Upload
aurelie-tessier
View
104
Download
5
Embed Size (px)
Citation preview
www.hcp.ma18/05/2008
1
Lecture Automatique des Documents: Recensement Général de la Population et de l’habitat
Bouazza HASSAR
Chef technique du Centre de Lecture Automatique de Documents
www.hcp.ma18/05/2008
2
Plan
Les étapes du traitement des données1. Réception des questionnaires2. préparation des questionnaires3. Numérisation4. Traitement des images et OCR5. Vidéo codage Normal6. correction Inter documents7. contrôle de qualité8. Vidéo codage formules9. Export data
Le recensement général de la population et de l’habitat 2004
1. Test2. Implémentation3. Production
www.hcp.ma18/05/2008
3
1- Réception des questionnaires
La première étape est de recevoir les lots des questionnaires , ce qui génère un numéro d’identification unique pour chaque lot.
Chaque lot contient environ 180 questionnaires. Le numéro du lot reçu ainsi que son contenu est
associé à un bordereau de réception. Un bordereau de lot de traitement avec un code à
barre est généré pour chaque lot.
www.hcp.ma18/05/2008
4
1- Réception des lots
L’opérateur prend une boîte d’archive, il saisit dans l’application le transport d’origine, le type de document et le numéro de district.Il ouvre la boîte pour vérifier le contenu et imprime immédiatement un bordereau de lot de traitement avec un code à barre. Ce bordereau est placé sur la pile de documents du lot.
www.hcp.ma18/05/2008
5
2- préparation des questionnaires
Les questionnaires composés de plusieurs pages sont massicotés.
Les questionnaires composés de papiers A3 ou A4 peuvent être numérisés sans aucune intervention .
www.hcp.ma18/05/2008
6
Zone de séchage
les lots de traitement sont placés dans une salle à atmosphère contrôlée (température et hydrométrie).
www.hcp.ma18/05/2008
7
Il y a 3 zones de stockage : Chacune dispose d’une capacité de un jour.
Les lots sont placés dans des bannettes.
Chargement des questionnaires
www.hcp.ma18/05/2008
8
Les chariots sont utilisés pour organiser le transport des questionnaires à la numérisation.
Chaque chariot contient 30 lots d’environ 180 questionnaires chacun .
Chargement des questionnaires
www.hcp.ma18/05/2008
9
3- La numérisation
Les Lots sont identifiés par leur code à barre.
Les questionnaires sont numérisés avec les scanners Kodak ds Digital Science Scanner 3520 :- 40 à 85 pages par minute selon la résolution,
l’orientation et la taille des documents. - Résolution 200 ou 300dpi. - Taille des documents acceptée : min: chèque ,
max: A3. - Capacité du scanner: 250
www.hcp.ma18/05/2008
10
IHM de configuration des scanners
www.hcp.ma18/05/2008
11
Les agents de numérisation identifient les lots par leurs code à barre.
Outil de tackage: Aligne les lots dequestionnaires A3
Les agents de numérisation
www.hcp.ma18/05/2008
12
Kodak Ds Digital Science Scanner 3520, traite 52 questionnaires A3 par minute.
Les agents de numérisation vérifient en temps réel la qualité des images scannées..
Scanner
www.hcp.ma18/05/2008
13
IHM de la numérisation
L’IHM de la numérisation permette de vérifier la qualité des images scannées.
www.hcp.ma18/05/2008
14
4 –Traitement de l’image
Traitement automatique des images (Pour chaque questionnaire A3, 4 images sont produites)
Reconnaissance des limites de l’ image
Localisation des cellules
Reconnaissance Intelligente des Caractères.
Quelques images sont rejetées. Dans ce cas, Les agents concernés identifient les ancres de l’image et propose cette dernière à l’ICR. Si le problème persiste, l’image est renumérisée.
www.hcp.ma18/05/2008
15
Questionnaire des ménages et des logements A3
Numéro de document
Ancres aux quatre coins du document
www.hcp.ma18/05/2008
16
Questionnaire de la population et de l’habitat
Chaque cellule a des coordonnées uniques par rapport aux ancres du document.
www.hcp.ma18/05/2008
17
Analyse manuelle
L’application reconnaît la localisation des champs en se basant sur les ancres du document.
Si l’application échoue dans cette opération, un agent exécute cette tâche via une interface dédiée.
www.hcp.ma18/05/2008
18
OCR
A2iA FieldReader combine OCR, ICR, IWR pour la reconnaissance des données écrites / imprimées dans des documents structurés.
Entrée: images de formats : tiff G4, bmp, Jpeg or Jpeg 2000 avec 200 DPI comme résolution minimale
Sortie: Données associées à des taux de confiance
www.hcp.ma18/05/2008
19
Questionnaire de la population et de l’habitat
Les contours des cellules ne sont pas autorisés (Pour éliminer les bruits).
Lors de la numérisation, le contraste est ajusté de manière à ce que les couleurs aveugles (i.e. bleu claire) des contours disparaissent de l’image.
www.hcp.ma18/05/2008
20
Les images scannées
Les images scannées sont en noir et blanc.
Les champs à reconnaître sont complètement blanches sauf l’écriture qui apparaît en noir.
www.hcp.ma18/05/2008
21
Reconnaissance Optique des Caractères
La machine OCR reconnaît les caractères avec un taux de confiance donné. Ensuite, elle applique les tests de cohérences.
Les cellules reconnues avec un faible taux de confiance sont présentées pour vérification par un opérateur de vidéo codage.
www.hcp.ma18/05/2008
22
5. Vidéo codage Normal (VCN)
L’opérateur de VCN, valide/corrige les propositions de l’OCR.
Deux taux de confiance sont utilisés: - 95% pour les cellules non associées aux tests logiques- 85% pour les cellules associées aux tests logiques.
Choisir 95 % comme taux de confiance pour l’ensemble des cellules augmente le nombre des cellules à passer par le VCN et par conséquent la coût de l’opération.
www.hcp.ma18/05/2008
23
L’IHM de VCN
OCR suggère la valeur 8 alors que la vrai valeur est 2.
OCR propose 8
L’image montre 2
www.hcp.ma18/05/2008
24
L’IHM de VCN
L’opérateur de VCN corrige la valeur
www.hcp.ma18/05/2008
25
VCN
Codification des réponses ouvertes écrites en Arabe.
Questions sur la profession, L’activité économique, les diplômes, la migration.
Les codes sont proposés par les opérateurs (professionnel dans le domaine) à travers une interface dédiée. Il utilisent les information sur les images des questionnaires ainsi que les dictionnaires intégrés.
Les opérateurs ont l’option de visualiser d’autres variables de l’observation en cours de traitement.
www.hcp.ma18/05/2008
26
L’ IHM du VCN
Pas de proposition de l’OCR
www.hcp.ma18/05/2008
27
L’ IHM du VCN
L’opérateur de VCN cherche dans les dictionnaires (activité, diplôme..) en utilisant des mots clés et par la suite il valide la réponse choisie.
www.hcp.ma18/05/2008
28
Salle de Vidéo codage
www.hcp.ma18/05/2008
29
6. Contrôle et correction Inter documents (CID)
Se fait pour vérifier la coordination statistique entre l’ensemble des documents d’un même lot.
www.hcp.ma18/05/2008
30
7. Contrôle Qualité (CQ)
Le CQ permet de produire des données avec des taux d’erreurs minimes contrôlés.
Cette étape suit celle de la reconnaissance optique et du VCN.
La norme Afnor NFX06-022 de October 1991, qui est
en accord avec la norme internationale ISO 2859-1-1989, est appliquée.
Pour les cellules remplies, Le seuil de qualité acceptable est 0.52% .
www.hcp.ma18/05/2008
31
La norme Afnor NFX06-022 de October 1991
Selon la norme Afnor (Niveau de contrôle II): pour les lots de 10001 à 35000 observations, 315 obs. sont triées en modes normal et renforcé.
www.hcp.ma18/05/2008
32
Contrôle Qualité avec la norme Afnor
La production est arrêtée. Le problème est investigué.
Si 5 lots successifs sont rejetés
Mode normal : - Contrôle 315 observations/lot - Rejette le lot si 5 erreurs existent
Si 2 de 5 lots successifs sont rejetés
Mode renforcé: - Contrôle 315 observations/lot- Rejette le lot si 3 erreurs existent
Si 5 lots successifs sont acceptés
Si 10 lots successifs sont acceptés
Mode réduit:- Contrôle 125 observations/lot - Rejette le lot si 4 erreurs existent
Si un lot est rejeté
www.hcp.ma18/05/2008
33
IHM de Contrôle Qualité (CQ)
Valeur de l’image: 1
Valeur dans le fichier de données: 1
L’opérateur de CQ vérifie que les valeurs du fichier de données sont identiques à celles des images.
www.hcp.ma18/05/2008
34
Zone de stockage
Les Questionnaires Sont stockés dans le centre de traitement jusqu’à ce qu’ils passent par l’étape du CQ.
www.hcp.ma18/05/2008
35
8- Vidéo codage de Formule (VCF)
Permet aux opérateurs qualifiés de corriger ce genre d’erreurs.
L’IHM du Script des formules de cohérence .
Les programmeurs expriment les règles de cohérences en utilisant un langage spécifique.
www.hcp.ma18/05/2008
36
IHM du Vidéo codage de formule
Exemple d’une erreur de logique: Alors que le logement est déclaré vide, le type de propriété est déclaré comme propriétaire.
L’opérateur corrige cette inconsistance.
Erreurs logiques
www.hcp.ma18/05/2008
37
9- Export Data
La dernière étape du traitement des questionnaires est l’export des données vers des fichiers texte et l’export des images des documents traités. Le tout est gravé sur des DVDs et livré à l’exploitation statistique pour validation.
www.hcp.ma18/05/2008
38
Le fichier d’Export Data
Les données sont exportées vers un fichier texte, elles peuvent être exploitées ultérieurement via CSPro/IMPS…
Record type
www.hcp.ma18/05/2008
39
Surveillance de l’espace disque
A ce stade, les images sont supprimées des serveurs afin de libérer l’espace pour les images qui viennent.
www.hcp.ma18/05/2008
40
IHM des statistiques
Ce module offre les statistiques détaillés le long des différentes étapes de la production agrégés par traitement / date...
www.hcp.ma18/05/2008
41
Traitement du RGPH 2004 du MAROC
Objectif: Capture des données depuis les questionnaires en une courte période de temps.
Le choix des stratégies :Capture manuelle des données (utilisée dans les
recensements précédents)Reconnaissance optique des caractères (nouvelle
technologie utilisée dans les pays développés).
Partenariat avec le secteur privé pour développer une solution spécifique utilisant l’ OCR.
www.hcp.ma18/05/2008
42
3 Phases
Phase de test – 3 mois
Phase d’implémentation – 2 mois
Phase de production– 18 mois
www.hcp.ma18/05/2008
43
Phase de test
Afin d’identifier les méthodes d’organisation à adopter et les ressources à mobiliser .
L’objectif secondaire était de comparer les deux scénarios: OCR et saisie manuelle par clavier.
www.hcp.ma18/05/2008
44
Phase d’implémentation
Création d’un Centre de Lecture Automatique des documents
Installation des équipements matériels et logiciels nécessaires (110 PCs, 5 scanners and 5 serveurs)…
Recours à des ressources humaines adéquates (240 personnes: 50% était employé temporairement).
www.hcp.ma18/05/2008
45
Centre de Lecture Automatique des Documents
www.hcp.ma18/05/2008
46
Zone de Numérisation
Réception
Stockage desQuestionnaires non
encore scannés
Chariots à traiter
Scanners
Chariots traités
OCR
Stockage desquestionnaires
scannés
www.hcp.ma18/05/2008
47
52 postes de Vidéocodage N
Salles de Vidéo codage
www.hcp.ma18/05/2008
48
L’architecture logique du matériel installé selon 4 grappes et une grappe centrale
La production est organisée en 4 différentes grappes.
Cette séparation réduit les risques des pannes et ruptures de toutes les grappes.
www.hcp.ma18/05/2008
49
Ressources humaine, matérielle et logicielle utilisées pour la capture des données des questionnaires du
RGPH 2004Etapes du traitement R. hum R. Mat & Log
1. Réception des questionnaires
3 3 PCs
2. Préparation des Questionnaires
20 Massico, 16 chariots
3. Numérisation 18 5 scanners (1 spare)
4. Traitement des images et OCR
4 16 PCs, 12 OCR dongles
5. VCN 120 60 PCs
6. Contrôle Inter-documents 8 16 PCs
7. CQ 24 12 PCs
8. VCF 32 16 PCs
9. Export Data 2 2 PCs
R. Partagées (superviseurs) 20 5 serveurs
Total 297 125 PCs
www.hcp.ma18/05/2008
50
Phase de production
3 périodes:1- Questionnaires de la population urbaine et rurale
traités en 1 mois.2- (seulement les chiffres) traités en 6 mois. 3- Questionnaires A4 de la population et de l’habitat
(chiffres et lettres arabes) traités en 12 mois.
Cette séparation permet la diffusion les résultats obtenus aprés chaque étape.
www.hcp.ma18/05/2008
51
Questionnaires du RGPH 2004, types, volumes et le temps alloué pour la capture des données
Questionnaire Volumes: # des Questionnaires
Type Champs/quest.
Type des champs
Temps*
Population urbaine et rurale
38 000 A4 (21 pages R/V) 3051 Chiffres arabes 1 mois
Population et Habitat
6 800 000 A3 R/V 248 Chiffres arabes 6 mois
5 800 000 A4 R/V 12 54
Chiffres arabesLettres arabes
12 mois
Population comptée à part
12 500 A3 R/V 260 Chiffres arabes 1 jour
Population nomade 40 000 A3 R/V 245 Chiffres arabes 1 jour
40 000 A4 R/V 12 54
Chiffres arabesLettres arabes
2 jour
Total 39 888 000 pages A4 t0+ 19 mois
*2 groupes par jour: de 7:30 am à 1:15 pm et de 1:30 pm à 7:30 pm
www.hcp.ma18/05/2008
52
Production mensuelle des questionnaires A3 de la Population et
Habitat
Dec05 Jan05 Fev05 Mar05 Avr05 Mai05 Total
Jours travaillés 23 20 20 23 19 10 115
Numérisation 1 227 321 921 631 1 256 348 1 437 295 1 232 712 762 294 6 837 601
VCN 1 100 991 1 050 629 1 244 457 1 512 467 1 366 139 909 376 7 184 059
CID 211 360 1 078 449 1 327 056 1 494 357 1 355 789 892 831 6 359 842
CQ 939 540 1 046 538 1 208 747 1 538 407 1 328 688 953 781 7 015 701
VCF 344 807 963 506 801 285 969 561 861 669 629 328 4 570 156
Export Data en DVD 277 739 1 310 466 1 325 687 1 487 121 1 442 570 1 151 285 6 994 868
www.hcp.ma18/05/2008
53
Planning de la capture des données des questionnaires A3 de la Population et Habitat
Dec05 Jan05 Fev05 Mar05 Avr05 Mai05 Total
Jours travaillés 23 20 20 23 19 17 150
Objectif (# districts) 3 393 7 191 7168 7619 7115 6635 37 323
Réalisé (# districts) 1 370 7 287 7 192 7626 7213 6635 37 323
Pourcentage (%) 40% 101% 100% 100% 101% 100% 100%
www.hcp.ma18/05/2008
54
Production en Graphe, Décembre 2004
0
10 000
20 000
30 000
40 000
50 000
60 000
70 000
80 000
90 000
1 2 3 6 7 8 9 10 13 14 15 16 17 20 21 22 23 24 25 27 28 29 30 31
Decembre 2004
Nb
r. O
f q
ue
sti
on
na
ire
s p
er
da
y
Objectif de l'Atelier Numérisation
VCN CQ
CID VCF
Export Data
www.hcp.ma18/05/2008
55
Employés du mois
NumérisationMme Meryem BENMOUSSAMr. Abdelaziz EL FAKIR
VCNM. Naima TAOUFIK
VCF M. Driss ELKEDDARI
CIDMr. Mohamed AYAT
CQMlle. Hanane ELHAIRECH
Chef de grappe techniqueMr. Majid MRANI
Chef de grappe fonctionnelMlle. Zohra KARIM
RéceptionM. Rachid BOUDERSA
NumérisationMme Saida MEKTOUMMr. Ali AGOUZOUL
www.hcp.ma18/05/2008
56
Employé du mois
www.hcp.ma18/05/2008
57
Equipe du traitement des données– Mai 2005
www.hcp.ma18/05/2008
58
Merci