29
- application aux documents administratifs - Thèse CIFRE Reconnaissance et comparaison de structure de documents

Thèse CIFRE Reconnaissance et comparaison de structure de

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Thèse CIFRE Reconnaissance et comparaison de structure de

- application aux documents administratifs -

Thèse CIFRE

Reconnaissance et comparaison de structure de documents

Page 2: Thèse CIFRE Reconnaissance et comparaison de structure de

2

Plan

1. Présentation de l’entreprise

2. Présentation du sujet

Page 3: Thèse CIFRE Reconnaissance et comparaison de structure de

3

Introduction

Prestation de service en dématérialisation

AG2R, AIRBUS, ARCHIVES DEPARTEMENTALES, BOUYGUES TELECOM, CAPGEMINI, CEA, DASSAULT AVIATION, FRANCE TELECOM, IBM, IONIS, IPECA, LYONNAISE DES EAUX, SNCF, SNECMA, THALES GROUP…

Références commerciales

Page 4: Thèse CIFRE Reconnaissance et comparaison de structure de

4

Quelques chiffres

3 millions d’images numérisées par mois (très variable)

270 salariés

1400 scans / heure / opérateur (max)

92 scanners couleurs (microformes, plan, A0, A3, A4, binarisation à la volé, redressement, couleur et noir et blanc simultané, …)

Page 5: Thèse CIFRE Reconnaissance et comparaison de structure de

5

Numérisation + traitement des fichiers

• Etapes de prestations: récupération, préparation, numérisation, traitements d'images, OCR, indexation, contrôle, importation dans une GED…

•Nature des documents: papiers noir et blanc, couleur, diapositives, microformes, plans, registres, journaux, affiches, plaques de verre...

Dématérialisation

Page 6: Thèse CIFRE Reconnaissance et comparaison de structure de

6

Types de documents numérisés

Globalement : •Documentations techniques (75%)•Documents RH (10%)•Facture (3%)•Note de frais (3%)•Bulletin de salaire (1%)•Registres d’état civil (0,05%)•Plans cadastraux (0,005%) • …

Grandes variations, dépendant des prestations et de l’activité (archive ou flux)• Archive (90%)• Flux (10%) -> cible de la thèse

Page 7: Thèse CIFRE Reconnaissance et comparaison de structure de

7

Types de documents numérisés

En moyenne, un document est composé de 10 pages.

15% des pages sont identifiés (1ères pages)

La quasi-totalité des pages sont traitées : détection d’anomalies.

Détection de pages blanches pour les versos (->50% des pages).

Page 8: Thèse CIFRE Reconnaissance et comparaison de structure de

8

Type de problèmes rencontrés

• Problèmes généraux : Chaque prestation est très différente. Grande variation des documents dans le temps.

• Problèmes dues à l’OCR : Qualité des documents (impression matricielle, annotations, pliures,

texte vertical, écriture blanche et fond noir) Autres (mélange des langues , présence d’images dans les pages,

texte sur les images, texte en manuscrit )

• Problèmes dues au traitement d’image : Qualité des documents (transparence, rotation) Autres (détection de couleur, binarisation)

Page 9: Thèse CIFRE Reconnaissance et comparaison de structure de

9

Type de problèmes rencontrés

• Détection couleur

Page 10: Thèse CIFRE Reconnaissance et comparaison de structure de

10

• Page blanche, page non-blanche

Type de problèmes rencontrés

Page 11: Thèse CIFRE Reconnaissance et comparaison de structure de

11

Plan

1. Présentation de l’entreprise

2. Présentation du sujet

Introduction2.1 Analyse2.2 Classification

Page 12: Thèse CIFRE Reconnaissance et comparaison de structure de

12

Introduction

Traitement de document

Référence : [1]

Analyse Classification Compréhension

Page 13: Thèse CIFRE Reconnaissance et comparaison de structure de

13

Introduction

•1960-2000 : traitement de document = OCR.

•2000-2010 : traitement = séparation du texte des graphiques, OCR, analyse, identification, classification...

• Analyse de document: reconstruction de la mise en page d’un document à partir de l’image papier.

• Classification de document: association d’un document à une classe (prédéfinie) en lui affectant le label correspondant.

• “Compréhension” de document : association de labels à plusieurs parties du document.

Référence : [1]

Page 14: Thèse CIFRE Reconnaissance et comparaison de structure de

14

Etapes du traitement

AnalysePrétraitement (redressement, restauration, nettoyage) Segmentation en blocs (RSLA, composantes connexes)Analyse des blocs (caractéristiques pixels)

ClassificationChoix et représentation des descripteursComparaison

Référence : [2]

Page 15: Thèse CIFRE Reconnaissance et comparaison de structure de

15

2.1.1.Prétraitement• Redressement.[2] : RLSA puis Hough

sous-échantillonagepuis Hough ->

Référence : [2]

Analyse

Page 16: Thèse CIFRE Reconnaissance et comparaison de structure de

16

2.1.2.Segmentation en blocs RSLA (Run Length Smoothing Algorithm)

Référence : [2]

Analyse

Page 17: Thèse CIFRE Reconnaissance et comparaison de structure de

17

2.1.3. Analyse des blocs

Méthode de classification du bloc : texte, graphique ou image.• Lignes -> ratio hauteur largeur• Image : entropie du niveaux de gris• Texte et graph -> densité de pixels noir

Référence : [2]

Analyse

Page 18: Thèse CIFRE Reconnaissance et comparaison de structure de

18

Classification

2.2.1. Problématique

-> Définition de l’espace document et de l’ensemble des classes

Les classes peuvent être basées sur le fond (similitude des contenues) et/ou la forme (similitude visuelle).

Ex. : une classe « document détérioré », une classe « facture »

Référence : [3]

Page 19: Thèse CIFRE Reconnaissance et comparaison de structure de

19

Classification

La classification peut être faite à différent niveaux :- grossière / haut niveau (ex.: bulletin de salaire, facture, doc technique, …)- fine / bas niveau (ex.: bulletin de l’entreprise X ou Y, du salarié, …)

2.2.2. Architecture d’un classificateur

-> 4 aspects caractérisent un classificateur: (a) les propriétés du document et le stade de la reconnaissance(b) le choix et représentations des descripteurs(c) les catégories de modèles et d'algorithmes de classification(d) le mécanismes d'apprentissage.

-> Ces aspects sont interdépendants.

Référence : [3]

Page 20: Thèse CIFRE Reconnaissance et comparaison de structure de

20

Architecture d’un classificateur

(a) Stade de la reconnaissance-> la classification peut être effectuée à différents stades du traitement.-> dépend de l'objectif de classification de documents et le type de documents.

Propriétés des documents-> à priori la nature et les propriétés des document seront très variable suivant

les prestations.-> en général : images binarisés .-> selon le DAS02 Working Group [4], des recherches devraient être consacrés

au traitement des images en niveaux de gris et couleurs.

Référence : [3],[4]

Page 21: Thèse CIFRE Reconnaissance et comparaison de structure de

21

Architecture d’un classificateur

(b) Choix des descripteurs

- Image (densités de pixels, …)- Structure (relation entre les objets)- Texte (OCR)

Les information structurelles sont souvent liés à la forme du document (et non au fond).

Référence : [3]

!

Page 22: Thèse CIFRE Reconnaissance et comparaison de structure de

22

Architecture d’un classificateur

Représentation des descripteurs

• Vecteur• Arbre• Graphique• Règles• …

-> dépend des caractéristiques que l’on souhaite représenterEx. : caractéristiques structurelles => arbre.

Référence : [3]

Page 23: Thèse CIFRE Reconnaissance et comparaison de structure de

23

Architecture d’un classificateur

(b) Représentation des descripteurs[5] recommande l'utilisation de certains types de représentations suivant les

caractéristiques du document..

Référence : [3],[5]

Caractéristiques des documentsExemple de

catégories

Représentation

recommandée

Mise en page fortement restreinte, chaque objet a une position fixe. Formulaire, chèques Liste

Mise en page variable mais avec une structure logique forte, les objets

ont une position légèrement variable mais des relations les lies.

Carte de travail,

lettres

Arbre de

données

Mise en page restreinte avec une structure complexe, les objets sont

organisés de manière hiérarchique ou répétés. La structure de la mise

en page est guidée par des lignes et des espaces.

TableauxArbre local et/ou

global

Structure globale prédéfinie mais l'attribution d'espace pour les

différents objets est flexible.Journaux, articles

Un ensemble de

règles

Eléments standard tels que des axes horizontaux et verticaux Histogrammes Graph ou réseau

Page 24: Thèse CIFRE Reconnaissance et comparaison de structure de

24

Arbre MXY

Exemple de représentation

Page 25: Thèse CIFRE Reconnaissance et comparaison de structure de

25

Graph

Exemple de représentation

Page 26: Thèse CIFRE Reconnaissance et comparaison de structure de

26

Classification

(c) Catégories d'algorithmes de classification:• kNN• Réseaux de neurones• HMM• Arbre de décision

(d) Mécanisme d’apprentissage

• Apprentissage base fixe (échantillons)• Apprentissage dynamique

Référence : [3]

Page 27: Thèse CIFRE Reconnaissance et comparaison de structure de

27

Classification

Une méthode simple : la classification par comparaison de mise en page.

1) A partir d’échantillons, on créé des regroupements par similarité « visuelle » de mise en page (suivant la nature et la répartition des zones).

2) On compare le fichier à trier avec les différentes structures et on établi un score de similarité (calcul de distance entre la structure du fichier à trier et les structures des classes).

?

Echantillons Classe

création

comparaison

Fichier à trier Classe

Page 28: Thèse CIFRE Reconnaissance et comparaison de structure de

28

Bibliographie

1. Esposito, F.; Malerba, D. & Lisi, F.Machine learning for intelligent processing of printed documentsJournal of Intelligent Information Systems, Springer, 2000, 14, 175-19

2. Yin, P.Skew detection and block classification of printed documentsImage and Vision Computing, Elsevier, 2001, 19, 567-579

3. Chen, N. & Blostein, D.A survey of document image classification: problem statement, classifier architecture and performance evaluationInternational Journal on Document Analysis and Recognition, Springer, 2007, 10, 1-16

Page 29: Thèse CIFRE Reconnaissance et comparaison de structure de

29

Bibliographie

4. Smith, E.B., Monn, D., Veeramachaneni, H., Kise, K., Malizia,A., Todoran, L., El-Nasan, A., Ingold, R.: Reports ofthe DAS02 working group. Int. J. Doc. Anal. Recognit. 6(3),211–217 (2004)

5. Watanabe, T.: A guideline for specifying layout knowledge. In: Proceedings of Document Recognition and Retrieval VI (IS&T/SPIE electronic imaging), San Jose, CA, 27 January 1999, SPIE Proceedings Series 3651, 162–172 (1999)