Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
- application aux documents administratifs -
Thèse CIFRE
Reconnaissance et comparaison de structure de documents
2
Plan
1. Présentation de l’entreprise
2. Présentation du sujet
3
Introduction
Prestation de service en dématérialisation
AG2R, AIRBUS, ARCHIVES DEPARTEMENTALES, BOUYGUES TELECOM, CAPGEMINI, CEA, DASSAULT AVIATION, FRANCE TELECOM, IBM, IONIS, IPECA, LYONNAISE DES EAUX, SNCF, SNECMA, THALES GROUP…
Références commerciales
4
Quelques chiffres
3 millions d’images numérisées par mois (très variable)
270 salariés
1400 scans / heure / opérateur (max)
92 scanners couleurs (microformes, plan, A0, A3, A4, binarisation à la volé, redressement, couleur et noir et blanc simultané, …)
5
Numérisation + traitement des fichiers
• Etapes de prestations: récupération, préparation, numérisation, traitements d'images, OCR, indexation, contrôle, importation dans une GED…
•Nature des documents: papiers noir et blanc, couleur, diapositives, microformes, plans, registres, journaux, affiches, plaques de verre...
Dématérialisation
6
Types de documents numérisés
Globalement : •Documentations techniques (75%)•Documents RH (10%)•Facture (3%)•Note de frais (3%)•Bulletin de salaire (1%)•Registres d’état civil (0,05%)•Plans cadastraux (0,005%) • …
Grandes variations, dépendant des prestations et de l’activité (archive ou flux)• Archive (90%)• Flux (10%) -> cible de la thèse
7
Types de documents numérisés
En moyenne, un document est composé de 10 pages.
15% des pages sont identifiés (1ères pages)
La quasi-totalité des pages sont traitées : détection d’anomalies.
Détection de pages blanches pour les versos (->50% des pages).
8
Type de problèmes rencontrés
• Problèmes généraux : Chaque prestation est très différente. Grande variation des documents dans le temps.
• Problèmes dues à l’OCR : Qualité des documents (impression matricielle, annotations, pliures,
texte vertical, écriture blanche et fond noir) Autres (mélange des langues , présence d’images dans les pages,
texte sur les images, texte en manuscrit )
• Problèmes dues au traitement d’image : Qualité des documents (transparence, rotation) Autres (détection de couleur, binarisation)
9
Type de problèmes rencontrés
• Détection couleur
10
• Page blanche, page non-blanche
Type de problèmes rencontrés
11
Plan
1. Présentation de l’entreprise
2. Présentation du sujet
Introduction2.1 Analyse2.2 Classification
12
Introduction
Traitement de document
Référence : [1]
Analyse Classification Compréhension
13
Introduction
•1960-2000 : traitement de document = OCR.
•2000-2010 : traitement = séparation du texte des graphiques, OCR, analyse, identification, classification...
• Analyse de document: reconstruction de la mise en page d’un document à partir de l’image papier.
• Classification de document: association d’un document à une classe (prédéfinie) en lui affectant le label correspondant.
• “Compréhension” de document : association de labels à plusieurs parties du document.
Référence : [1]
14
Etapes du traitement
AnalysePrétraitement (redressement, restauration, nettoyage) Segmentation en blocs (RSLA, composantes connexes)Analyse des blocs (caractéristiques pixels)
ClassificationChoix et représentation des descripteursComparaison
Référence : [2]
15
2.1.1.Prétraitement• Redressement.[2] : RLSA puis Hough
sous-échantillonagepuis Hough ->
Référence : [2]
Analyse
16
2.1.2.Segmentation en blocs RSLA (Run Length Smoothing Algorithm)
Référence : [2]
Analyse
17
2.1.3. Analyse des blocs
Méthode de classification du bloc : texte, graphique ou image.• Lignes -> ratio hauteur largeur• Image : entropie du niveaux de gris• Texte et graph -> densité de pixels noir
Référence : [2]
Analyse
18
Classification
2.2.1. Problématique
-> Définition de l’espace document et de l’ensemble des classes
Les classes peuvent être basées sur le fond (similitude des contenues) et/ou la forme (similitude visuelle).
Ex. : une classe « document détérioré », une classe « facture »
Référence : [3]
19
Classification
La classification peut être faite à différent niveaux :- grossière / haut niveau (ex.: bulletin de salaire, facture, doc technique, …)- fine / bas niveau (ex.: bulletin de l’entreprise X ou Y, du salarié, …)
2.2.2. Architecture d’un classificateur
-> 4 aspects caractérisent un classificateur: (a) les propriétés du document et le stade de la reconnaissance(b) le choix et représentations des descripteurs(c) les catégories de modèles et d'algorithmes de classification(d) le mécanismes d'apprentissage.
-> Ces aspects sont interdépendants.
Référence : [3]
20
Architecture d’un classificateur
(a) Stade de la reconnaissance-> la classification peut être effectuée à différents stades du traitement.-> dépend de l'objectif de classification de documents et le type de documents.
Propriétés des documents-> à priori la nature et les propriétés des document seront très variable suivant
les prestations.-> en général : images binarisés .-> selon le DAS02 Working Group [4], des recherches devraient être consacrés
au traitement des images en niveaux de gris et couleurs.
Référence : [3],[4]
21
Architecture d’un classificateur
(b) Choix des descripteurs
- Image (densités de pixels, …)- Structure (relation entre les objets)- Texte (OCR)
Les information structurelles sont souvent liés à la forme du document (et non au fond).
Référence : [3]
!
22
Architecture d’un classificateur
Représentation des descripteurs
• Vecteur• Arbre• Graphique• Règles• …
-> dépend des caractéristiques que l’on souhaite représenterEx. : caractéristiques structurelles => arbre.
Référence : [3]
23
Architecture d’un classificateur
(b) Représentation des descripteurs[5] recommande l'utilisation de certains types de représentations suivant les
caractéristiques du document..
Référence : [3],[5]
Caractéristiques des documentsExemple de
catégories
Représentation
recommandée
Mise en page fortement restreinte, chaque objet a une position fixe. Formulaire, chèques Liste
Mise en page variable mais avec une structure logique forte, les objets
ont une position légèrement variable mais des relations les lies.
Carte de travail,
lettres
Arbre de
données
Mise en page restreinte avec une structure complexe, les objets sont
organisés de manière hiérarchique ou répétés. La structure de la mise
en page est guidée par des lignes et des espaces.
TableauxArbre local et/ou
global
Structure globale prédéfinie mais l'attribution d'espace pour les
différents objets est flexible.Journaux, articles
Un ensemble de
règles
Eléments standard tels que des axes horizontaux et verticaux Histogrammes Graph ou réseau
24
Arbre MXY
Exemple de représentation
25
Graph
Exemple de représentation
26
Classification
(c) Catégories d'algorithmes de classification:• kNN• Réseaux de neurones• HMM• Arbre de décision
(d) Mécanisme d’apprentissage
• Apprentissage base fixe (échantillons)• Apprentissage dynamique
Référence : [3]
27
Classification
Une méthode simple : la classification par comparaison de mise en page.
1) A partir d’échantillons, on créé des regroupements par similarité « visuelle » de mise en page (suivant la nature et la répartition des zones).
2) On compare le fichier à trier avec les différentes structures et on établi un score de similarité (calcul de distance entre la structure du fichier à trier et les structures des classes).
?
Echantillons Classe
création
comparaison
Fichier à trier Classe
28
Bibliographie
1. Esposito, F.; Malerba, D. & Lisi, F.Machine learning for intelligent processing of printed documentsJournal of Intelligent Information Systems, Springer, 2000, 14, 175-19
2. Yin, P.Skew detection and block classification of printed documentsImage and Vision Computing, Elsevier, 2001, 19, 567-579
3. Chen, N. & Blostein, D.A survey of document image classification: problem statement, classifier architecture and performance evaluationInternational Journal on Document Analysis and Recognition, Springer, 2007, 10, 1-16
29
Bibliographie
4. Smith, E.B., Monn, D., Veeramachaneni, H., Kise, K., Malizia,A., Todoran, L., El-Nasan, A., Ingold, R.: Reports ofthe DAS02 working group. Int. J. Doc. Anal. Recognit. 6(3),211–217 (2004)
5. Watanabe, T.: A guideline for specifying layout knowledge. In: Proceedings of Document Recognition and Retrieval VI (IS&T/SPIE electronic imaging), San Jose, CA, 27 January 1999, SPIE Proceedings Series 3651, 162–172 (1999)