16
Document numérique. Volume 6 – n° 1-2/2002, pages 129 à 144 Une méthode générique de rétroconversion de documents pour la constitution de dossiers numériques Bertrand Coüasnon Jean Camillerapp Irisa/Insa de Rennes 20, Avenue des buttes de Coësmes F-35043 Rennes cedex {Bertrand.Couasnon, Jean.Camillerapp}@irisa.fr RÉSUMÉ. Dans un certain nombre de cas, les dossiers numériques sont constitués par rétroconversion de documents papier. Or jusqu’à présent ces rétroconversions impliquent de développer, pour chaque type de documents, un système spécifique de reconnaissance. Nous proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le système de reconnaissance adapté à partir de la description de la structure de chaque document. Cette méthode qui a déjà été utilisée sur différents types de documents (partitions musicales, formules mathématiques…), permet entre autres de repérer les structures tabulaires contenues dans une page. Elle vient d’être validée sur plus de 5 000 fiches nominatives d’incorporation militaire du XIX e siècle. En produisant une description XML du document, la méthode permet d’appliquer ensuite d’autres traitements comme la constitution de pages d’index visuels ou le masquage de champs confidentiels. ABSTRACT. Digital files are in many cases build by retrospective conversion of paper documents. Until now this retrospective conversion needs to develop, for each kind of document, a new recognition system from scratch. Therefore we propose in this paper a generic approach for structured document recognition: the DMOS method. With its help, we can automatically produce a new recognition system from a grammatical description of the document structure. The DMOS method has been successfully applied to produce various recognition systems: one for musical scores, one for mathematical formulae and one for table structures. It has been also validated on more than 5,000 military forms of the 19 th century. By producing an XML description of the recognized form, the recognition system allows, for example, to build a visual index or to hide confidential cells. MOTS-CLÉS : reconnaissance de documents, tableaux, formulaires, gestion des connaissances a priori, analyse structurelle, grammaire. KEYWORDS: documents analysis, table-form, printed-form, a priori knowledge, syntactic analysis, grammar.

Une méthode générique de rétroconversion de …€¦ · proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le ... Si, par exemple, pos prend la

Embed Size (px)

Citation preview

Page 1: Une méthode générique de rétroconversion de …€¦ · proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le ... Si, par exemple, pos prend la

Document numérique. Volume 6 – n° 1-2/2002, pages 129 à 144

Une méthode générique de rétroconversionde documents pour la constitutionde dossiers numériques

Bertrand Coüasnon — Jean Camillerapp

Irisa/Insa de Rennes20, Avenue des buttes de CoësmesF-35043 Rennes cedex

{Bertrand.Couasnon, Jean.Camillerapp}@irisa.fr

RÉSUMÉ. Dans un certain nombre de cas, les dossiers numériques sont constitués parrétroconversion de documents papier. Or jusqu’à présent ces rétroconversions impliquent dedévelopper, pour chaque type de documents, un système spécifique de reconnaissance. Nousproposons donc une approche générique, la méthode DMOS, qui permet d’engendrer lesystème de reconnaissance adapté à partir de la description de la structure de chaquedocument. Cette méthode qui a déjà été utilisée sur différents types de documents (partitionsmusicales, formules mathématiques…), permet entre autres de repérer les structurestabulaires contenues dans une page. Elle vient d’être validée sur plus de 5 000 fichesnominatives d’incorporation militaire du XIXe siècle. En produisant une description XML dudocument, la méthode permet d’appliquer ensuite d’autres traitements comme la constitutionde pages d’index visuels ou le masquage de champs confidentiels.

ABSTRACT. Digital files are in many cases build by retrospective conversion of paperdocuments. Until now this retrospective conversion needs to develop, for each kind ofdocument, a new recognition system from scratch. Therefore we propose in this paper ageneric approach for structured document recognition: the DMOS method. With its help, wecan automatically produce a new recognition system from a grammatical description of thedocument structure. The DMOS method has been successfully applied to produce variousrecognition systems: one for musical scores, one for mathematical formulae and one for tablestructures. It has been also validated on more than 5,000 military forms of the 19th century.By producing an XML description of the recognized form, the recognition system allows, forexample, to build a visual index or to hide confidential cells.

MOTS-CLÉS : reconnaissance de documents, tableaux, formulaires, gestion des connaissances apriori, analyse structurelle, grammaire.

KEYWORDS: documents analysis, table-form, printed-form, a priori knowledge, syntacticanalysis, grammar.

Page 2: Une méthode générique de rétroconversion de …€¦ · proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le ... Si, par exemple, pos prend la

130 DN – 6/2002. Les dossiers numériques

1. Introduction

Les dossiers numériques peuvent être élaborés directement à partir de documentsinitialement numériques, mais ils nécessitent souvent d’intégrer des documents plusanciens produits de manière traditionnelle, sous une forme uniquement papier. Enoutre, pour ceux qui contiennent des informations textuelles, ils peuvent être aussibien imprimés que manuscrits. La seule numérisation n’est alors pas suffisante(André et al., 1999), car il faut pouvoir accéder au contenu du document papier pourpermettre l’utilisation de certaines informations (présentes uniquement sur papier)par le reste du dossier. Il peut également être nécessaire d’accéder à un document àpartir de son contenu, qu’il soit manuscrit ou imprimé, grâce à des élémentsd’indexation produits de manière automatique. Tout ceci rend indispensable unephase de reconnaissance de documents (ou rétroconversion), c’est-à-dire de passagede l’image à des données représentant le contenu reconnu, en vue de l’intégrationdes documents papier au sein de dossiers numériques.

Ces documents papier qui doivent être intégrés aux dossiers numériques peuventavoir des formes ou des types très hétérogènes. Il est donc important de développerdes systèmes de reconnaissance capables de traiter ces différents types dedocuments.

Cependant, la tendance la plus couramment pratiquée actuellement consiste àdévelopper une application pour chaque nouveau type de documents. Même si, pourdes équipes expérimentées, cela peut se faire en réutilisant quelques modules déjàécrits, un tel développement exige encore, néanmoins, de déployer une énergie trèsimportante.

A l’heure où dans de nombreux domaines, et en particulier dans celui desarchives, on assiste à des campagnes de numérisation des documents papier (Lorie,2000), nous avons pensé qu’il était important d’automatiser ce développement enséparant les connaissances propres au domaine applicatif ou connaissances a priori,des procédures de traitement d’images. L’approche initialement conçue pour lareconnaissance des partitions musicales (Coüasnon et al., 1995) a pu être étenduepar exemple aux formules mathématiques et aux structures tabulaires. L’intérêtd’une approche générique est d’autant plus grand quand les documents sonthétérogènes ; il suffit de formaliser les connaissances spécifiques sur la structure dechaque document pour produire l’analyseur adapté.

Nous débutons cet article par la présentation de la méthode DMOS, méthodegénérique de reconnaissance de documents. Puis nous montrons comment, grâce àcette méthode, nous avons pu produire différents systèmes de reconnaissance,notamment de reconnaissance de tableaux, validant ainsi l’aspect générique. Ladernière partie illustre une validation de cette méthode sur plus de 5 000 fichesd’incorporation militaire du XIXe siècle.

Page 3: Une méthode générique de rétroconversion de …€¦ · proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le ... Si, par exemple, pos prend la

Une méthode générique de rétroconversion 131

2. Présentation de la méthode DMOS

2.1. Principes de la méthode

La reconnaissance des documents se trouve très souvent confrontée au paradoxebien connu : pour reconnaître, il faut segmenter le signal d’entrée, mais pour biensegmenter il faut avoir reconnu1. Pour s’en sortir, il faut donc faire coopérer lesprocessus de segmentation et les processus de reconnaissance en utilisant au mieuxles connaissances a priori sur le domaine applicatif.

Un système générique de reconnaissance doit donc :

– isoler les connaissances a priori afin que l’adaptation à un nouveau type dedocuments soit simple et bien localisée ;

– utiliser ces connaissances a priori pour remettre en cause les segmentationsproposées par le traitement d’image.

Les grammaires et les langages qui leur sont associés constituent un formalismesimple et puissant de modélisation. Nous avons donc proposé, pour les documentsstructurés une méthode baptisée DMOS (Description avec MOdification de laSegmentation), constituée de :

– un langage grammatical de description de documents que nous avons défini,EPF (Enhanced Position Formalism), et qui permet de modéliser la connaissancea priori ;

– un extracteur des éléments terminaux du langage présents dans l’image ;

– un analyseur associé autorisant une modification en cours d’analyse de lastructure analysée. Cette modification permet d’introduire le contexte (niveausymbolique) dans la phase de segmentation (niveau numérique), afin d’améliorer lareconnaissance ;

– un classifieur qui vient, si besoin, reconnaître les symboles pouvant êtreassimilés à des caractères. Ce classifieur doit avoir des capacités de rejet lorsque lesymbole présenté lui est totalement inconnu (Anquetil et al., 2000), car ce casrésulte le plus souvent d’une erreur de segmentation. Ainsi averti, l’analyseur pourrarechercher localement une autre segmentation.

2.2. Langage EPF

Un certain nombre de formalismes grammaticaux permettant de décrire desobjets bidimensionnels ont déjà été proposés. Cependant, soit ils offrent uneexpressivité trop faible (grammaires d’arbres (Brained, 1969) ou grammaires web(Pfaltz et al., 1969)), soit ils ont une syntaxe trop compliquée (grammaires plex

1. M. Sayre « Machine recognition of handwritten words. A project report. » PatternRecognition 5, septembre 1973, p. 213-218.

Page 4: Une méthode générique de rétroconversion de …€¦ · proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le ... Si, par exemple, pos prend la

132 DN – 6/2002. Les dossiers numériques

(Feder, 1971) ou grammaires de graphes (Grbavec et al., 1995)) qui rend trèsdifficile la mise en œuvre de connaissances complexes. En outre, aucun ne permetd’introduire la connaissance ainsi formalisée dans la phase de segmentation.

Nous avons choisi d’étendre le formalisme des Definite Clause Grammar(Pereira et al., 1980) car celui-ci s’exprime assez facilement dans le langage Prolog.Grâce à son mécanisme d’unification, ce langage prend en charge le combinatoirerelatif à la gestion des différentes hypothèses de segmentation et de reconnaissanceet rend ainsi beaucoup plus simple la réalisation de l’analyseur.

En exprimant dans la grammaire les redondances présentes dans le document, ilest possible de faire détecter par le système lui-même d’éventuelles erreurs. Ceci estparticulièrement nécessaire dans un contexte industriel de traitement de documents,où il n’est pas envisageable d’avoir un opérateur humain qui relise l’ensemble desdocuments reconnus pour y détecter des erreurs.

Nous avons donc défini et développé le langage EPF, permettant de décrire undocument structuré aussi bien au niveau graphique que syntaxique. Ce langage peutêtre vu comme une extension bidimensionnelle des grammaires dans laquelle lesterminaux sont des segments ou des matrices de pixels (composantes quireprésentent un symbole) au lieu d’être, comme dans les grammaires classiques, descaractères. Cette extension comporte également un certain nombre d’opérateursspécifiques dont voici quelques exemples :

Opérateur de position (encadré par AT) :

A && AT(pos) && B

où A et B représentent un terminal ou un non-terminal et && désigne laconcaténation dans la grammaire.

Si, par exemple, pos prend la valeur extremiteGauche cela signifie que Bdoit se trouver près de l’extrémité gauche de A.

Le concepteur de la grammaire peut définir à la demande des opérateurs deposition, comme extremiteGauche , de la même manière qu’il peut le faire pourdes non-terminaux. L’opérateur définit, par rapport à A, une zone de l’image danslaquelle B doit se trouver (figure 1).

Opérateur de factorisation (## , en association avec les opérateurs deposition) :

A && ( AT(pos1) && B ## AT(pos2) && C)

signifie (A && AT(pos1) && B) et (A && AT(pos2) && C) .

En notant par ::= le constructeur d’une règle grammaticale, il est possible, grâceà cette syntaxe de décrire, par exemple, un groupe de notes (des croches reliées parune seule barre de groupe, figure 1). Cette règle groupeDeNote ne spécifie ni lenombre de notes reconnues par noteAuMilieu, ni la direction des hampes. Ainsi une

Page 5: Une méthode générique de rétroconversion de …€¦ · proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le ... Si, par exemple, pos prend la

Une méthode générique de rétroconversion 133

seule règle peut décrire l’ensemble des groupes de notes que l’on peut trouver dansune partition.

groupeDeNote ::=

barreDeGroupe &&

(AT(extremiteGauche) && noteGr ##

notesAuMilieu ##

AT(extremiteDroite) && noteGr).

Figure 1. Exemple de description grammaticale d’un ensemble de croches. La zonedéfinie par l’opérateur extremiteGauche est représentée sur l’image

Opérateurs de référence multiple (---> et <--- ). Afin de pouvoir faireréférence plusieurs fois à une même instance du terminal ou du non-terminal A,nous proposons de sauvegarder cette instance à l’aide de ---> . Cette sauvegardepermet ensuite de faire référence (à l’aide de <--- ) à A autant de fois quenécessaire. Il est ainsi possible de décrire ce qu’est un rectangle (figure 2).

rectangle : := (segV ---> segCoteGauche) &&

AT(extremiteHaute) && segH &&

AT(extremiteDroite) && segV &&

AT(extremiteBasse) && segH &&

AT(extremiteGauche) && (segV <--- segCoteGauche).

Figure 2. Description grammaticale d’un rectangle

De la même manière, nous pouvons définir la description d’un triangle (figure 3).

triangle : :=

(segV ---> segCoteGauche) &&

AT(extremiteHaute) && segDiag &&

AT(extremiteDroite) && segDiag &&

AT(extremiteGauche) &&

(segV <--- segCoteGauche).

Figure 3. Description grammaticale d’un triangle

Opérateurs de déclaration (DECLARE). Cet opérateur permet de préciser laportée d’un identificateur. Toutes les règles peuvent utiliser l’identificateur ainsidéclaré pour faire référence au même élément non terminal. C’est ainsi que l’on

segDiag

segDiag

segCoteGauche

segCoteGauche

segH

segH

segV

Page 6: Une méthode générique de rétroconversion de …€¦ · proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le ... Si, par exemple, pos prend la

134 DN – 6/2002. Les dossiers numériques

peut exprimer, dans la figure 4 que le triangle et le rectangle ont le côté gauche encommun.

drapeau : :=

DECLARE(segCoteGauche) (

rectangle && triangle

).

Figure 4. Exemple de composition de formes

Opérateur de réduction d’espace IN(définitionZone) DO(règle) .EPF offre également un opérateur pour réduire la zone de l’image dans laquelle unerègle doit être appliquée. Cet opérateur est très souvent utilisé lors de définitionsrécursives. Ainsi nous pouvons, par exemple, décrire une racine carrée qui peutcontenir, de manière récursive, une expression mathématique (figure 5).

racineCarre : :=

termSigneRacine && AT(droiteRac) &&

IN(zoneSousLaRacine) DO(expression) .

Figure 5. Exemple de limitation de la zone d’exploration

Le termSigneRacine décrit le symbole racine et l’opérateur IN DO permetde limiter la description récursive à la zone sous la racine. L’expression est placéerelativement à termSigneRacine par l’opérateur de position droiteRac .

Opérateurs de segmentation contextuelle GEL et RECHERCHE. Nous avonsmontré dans (Coüasnon et al, 1995) (Coüasnon, 1996) qu’il existe une différenceentre décrire un document et avoir un moyen de le reconnaître, et que cettedifférence provient des problèmes de segmentation. Ces deux opérateurs permettentde passer automatiquement de la description au moyen de reconnaître, en modifiantde manière transparente et en cours d’analyse, l’ordre d’analyse et la structureanalysée. Ces modifications offrent en fait la possibilité de remettre en cause lasegmentation en introduisant le contexte modélisé grâce au langage EPF.

2.3. Extracteurs d’éléments terminaux

Les structures linéaires tiennent une grande place dans les documents : cadres,tableaux, lignes de référence, éléments constitutifs de symboles… Mais elles sontrarement isolées et interfèrent souvent entre elles ou avec les autres éléments dudocument. Cependant la simplicité de leur structure permet d’envisager de conduire

segCoteGauche

Page 7: Une méthode générique de rétroconversion de …€¦ · proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le ... Si, par exemple, pos prend la

Une méthode générique de rétroconversion 135

simultanément la segmentation et l’identification et donc de les prendre commeéléments terminaux du langage.

Pour détecter les segments de droite, nous nous appuyons sur le filtrage deKalman qui est une technique d’identification des paramètres d’un modèle à partird’une suite ordonnée de mesures. Dans le cas des segments de droite, le modèle seréduit à l’épaisseur du trait, à sa pente et à l’équivalent de l’ordonnée à l’origine.Les mesures proviennent de la position et de la taille des empans noirs2 dans unedirection approximativement orthogonale au tracé.

Parallèlement à l’estimation des paramètres du modèle, le filtre de Kalmancalcule la matrice de covariance de cette estimation. Cette matrice permet d’évaluerd’une part la vraisemblance de l’affectation d’une mesure à un segment et d’autrepart la vraisemblance de la poursuite d’une hypothèse perturbée par la présenced’un autre objet. On en trouvera une description plus détaillée dans (Poulain et al.,1996).

Les autres éléments terminaux se réduisent aux composantes connexes de pixelsnoirs qui ne peuvent pas être décrites par un ensemble de segments. Ces matricesseront, si besoin, présentées au classifieur associé.

Ainsi une racine carrée est reconnue comme composée de trois segments et noncomme un caractère. Cette approche réduit le nombre de symboles et facilite la priseen compte de la variabilité des dimensions.

2.4. Analyseur associé

Le langage EPF décrit ci-dessus permet de définir grammaticalement ledocument à reconnaître. En compilant cette grammaire nous produisonsautomatiquement un analyseur qui possède des caractéristiques spécifiques àl’analyse de documents bidimensionnels. Nous pouvons souligner les troisprincipales caractéristiques de l’analyseur à deux dimensions que nous avonsdéveloppé, par rapport à un analyseur classique (à une dimension) pour les langagesformels :

– remise en cause de la structure analysée en cours d’analyse (pour effectuer dessegmentations contextuelles) ;

– détection de l’élément suivant à analyser. En effet, pour les analyseursclassiques l’élément suivant est simplement celui qui est en tête de la chaîneanalysée, alors qu’en deux dimensions l’élément suivant peut être n’importe où dansl’image, donc n’importe où dans la structure analysée. Ce sont les opérateurs deposition qui permettent de spécifier où doit se trouver l’élément suivant à analyser ;

2. Empan : ensemble de pixels noirs consécutifs selon une des quatre directions, horizontale,verticale, diagonales.

Page 8: Une méthode générique de rétroconversion de …€¦ · proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le ... Si, par exemple, pos prend la

136 DN – 6/2002. Les dossiers numériques

– gestion correcte du bruit. Contrairement aux analyseurs classiques pourlesquels la chaîne analysée est peu bruitée, en reconnaissance de documents il estnécessaire que l’analyseur soit capable de reconnaître le maximum d’informationsdans un flux très bruité. Nous pouvons considérer que la gestion du bruit correspondà trouver l’élément suivant, malgré le bruit. Ce bruit est constitué de touteinformation qui n’est pas spécifiée dans la grammaire. Le bruit peut donc être lié àune perturbation de l’image (taches…) ou bien à une notation non prévue dans lagrammaire. Cette gestion correcte du bruit est primordiale car une descriptiongrammaticale ne peut être exhaustive. Ainsi, grâce à cette gestion, l’analyseursélectionnera les terminaux qui correspondent à la description grammaticale dans unensemble de données beaucoup plus important.

2.5. Conclusion

Nous sommes arrivés, grâce à la définition et à la mise en œuvre du formalismeEPF et de son analyseur associé, à concevoir un système générique dereconnaissance de documents structurés.

La création d’un nouveau système de reconnaissance adapté à un nouveau typede documents s’obtient par simple compilation de la description du documentréalisée avec le langage EPF. Eventuellement un nouvel apprentissage automatiquedu classifieur servant à reconnaître les symboles (terminaux représentés par desmatrices de pixels), peut être nécessaire si le document comporte de nouveauxsymboles.

3. Validation de la généricité de la méthode

Afin de valider l’aspect générique de la méthode DMOS, nous avons déjà définideux grammaires EPF pour produire automatiquement, par compilation, deuxsystèmes de reconnaissance, l’un pour les partitions musicales (Coüasnon et al.,1995) et l’autre pour les formules mathématiques (Garcia et al., 2001).

Certains logiciels disponibles dans le commerce peuvent traiter des tableaux ;cependant, ils ne traduisent que la présentation graphique de ces tableaux et nedétectent pas leur organisation hiérarchique. Or cette dernière est primordiale pourpouvoir structurer le document, accéder aux données qu’il contient et les interpréter.C’est dans ce contexte que nous avons défini la description grammaticale en EPF(figure 6) d’un tableau-formulaire constitué d’un nombre quelconque de colonnes etde lignes délimitées par des filets (segments) formant ainsi des cases de dimensionsvariables.

Cette description commence par la définition de la plus grande structuretabulaire détectable dans un tableau, soit le rectangle englobant. Celui-ci est ensuiteautomatiquement subdivisé en lignes et en colonnes. Ensuite, et de manière

Page 9: Une méthode générique de rétroconversion de …€¦ · proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le ... Si, par exemple, pos prend la

Une méthode générique de rétroconversion 137

récursive, l’intérieur de chaque case constitue une nouvelle zone de recherche d’untableau.

structTabulaire : := premiereLigneTable &&

milieuTable &&

derniereLigneTable.

interieurCellule ::= IN(interieurCellule) DO(structTabulaire).

Figure 6. Extrait de la grammaire décrivant une structure tabulaire

C’est cette description récursive qui permet au système produit de reconnaîtrel’organisation hiérarchique d’un tableau-formulaire quel que soit son emplacementdans un document.

Figure 7. Image initiale et cases détectées en fonction des niveaux d’analyse

Cette grammaire, qui n’utilise actuellement que les segments comme élémentsterminaux, pourrait être étendue par la reconnaissance des textes inclus dans chaquecase. Ceci permettrait, par exemple, de retrouver l’intitulé des colonnes.

Nous envisageons également de travailler sur la détection des structurestabulaires qui ne sont pas délimitées par des filets, mais simplement par des zonesblanches.

4. Validation sur des fiches d’incorporation militaire

La reconnaissance de tableaux de structure quelconque décrite ci-dessus supposeque les documents analysés soient d’assez bonne qualité ; la détection des segments

Page 10: Une méthode générique de rétroconversion de …€¦ · proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le ... Si, par exemple, pos prend la

138 DN – 6/2002. Les dossiers numériques

ne doit pas être trop perturbée. A l’opposé il existe des documents dont la structureest mieux connue (nombre de lignes ou de colonnes par exemple) mais dont laqualité est fortement dégradée. Il est alors possible de construire une grammairemoins générale que la grammaire précédente, mais qui, en tirant mieux parti desconnaissances a priori sur le document, sache compenser la mauvaise qualité del’image.

4.1. Description du document

Pour valider cette approche nous avons traité des registres d’incorporationmilitaire du XIXe siècle. Ces documents sont constitués à partir de formulairespréimprimés. La structure de base de chaque fiche est stable sur une quarantained’années, par contre la taille des cases varie d’une année sur l’autre (déplacement de1 à 2 cm).

Figure 8. Fiche normale, fiches avec des retombes, structure à détecter

Ces documents présentent un certain nombre de défauts :

– la numérisation introduit de petites rotations (cf. figure 11) ;

– le papier présente une certaine transparence, le verso est donc partiellementvisible ;

– les fiches ont été endommagées, déchirées, recollées, tachées ;

– des tampons viennent perturber l’aspect visuel de la page ;

– les fichiers traités avaient été comprimés en JPEG. Si cette compression affectepeu la reconnaissance des segments, et donc celle de la structure, par contre ellegène la reconnaissance automatique des caractères ;

– et surtout, en raison de la guerre de 1914, certaines cases se sont avérées troppetites à l’usage. Les secrétaires ont donc collé de petites feuilles annexes(paperolles ou retombes) qui masquent largement la structure du document (cf.figure 8).

Page 11: Une méthode générique de rétroconversion de …€¦ · proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le ... Si, par exemple, pos prend la

Une méthode générique de rétroconversion 139

De nombreuses méthodes ont été développées pour reconnaître des structurestabulaires (Lopresti et al., 2000). Quelques méthodes (par exemple (Taylor et al.,1992) ou (Wanatabe et al., 1993)) utilisent une détection bas-niveau de pointsspécifiques comme les croisements, les coins… Cependant, ces techniques nepeuvent gérer correctement les filets partiellement effacés. (XingYuan et al., 1999)ont proposé un système plus robuste mais qui ne peut, en revanche, fonctionnerlorsque certaines parties de la structure sont masquées. En outre, nous n’avons putrouver de résultats dans la littérature évoquant des formulaires anciens, altérés oupartiellement masqués.

4.2. Evaluation

Nous avons eu à notre disposition un échantillonnage représentatif constitué pardix registres répartis entre 1878 et 1900, soit un total de 5 268 images. Parmi cesregistres, trois présentent une grande proportion de fiches comportant des retombeset des collages ; c’est-à-dire que 30 à 60 % des images comportent des défauts.

Nous avons commencé par construire la description des fiches au moyen d’unegrammaire EPF en inspectant quelques fiches issues de quatre registres, et nousavons produit l’analyseur associé. Puis nous avons utilisé cette unique descriptionpour traiter les dix registres. L’analyseur fournit en sortie une description XML dela structure avec la localisation précise des cases. Il peut également signaler qu’il aété incapable de reconnaître la structure dans la page à analyser en expliquant laraison de l’échec.

Le traitement des documents s’effectue en deux phases : le rejet automatique desimages dans lesquelles la structure n’est pas présente (images non traitables), puis lavérification de la cohérence des dimensions entre les images d’un même registre.

Figure 9. Deux documents reconnus, un rejet de la table des matières, un documenttrop masqué

Page 12: Une méthode générique de rétroconversion de …€¦ · proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le ... Si, par exemple, pos prend la

140 DN – 6/2002. Les dossiers numériques

Sur les 5 268 images, 269 ont été considérées comme non traitables (environ5 %). Il s’agit effectivement de pages totalement différentes comme les tables desmatières, de pages mal numérisées ou trop abîmées. Nous pouvons mentionner qu’àce niveau du traitement, le système n’a produit aucun faux rejet. En effet, aucunedes 269 images n’aurait pu être traitée manuellement.

Sur les 4 999 images traitables, le système a effectivement localisé la structurecomplète (12 cases) dans 97,2 % des cas. Nous considérons que la structure estcorrecte si les filets des cases demandées sont localisés au millimètre près. Pour lapartie haute du document (8 cases) qui est moins perturbée par la présence desretombes et qui est la plus importante pour faire une indexation, le taux dereconnaissance passe à 98,7 %. Il est important de noter que dans tous les cas, mêmeavec un taux de reconnaissance si élevé, le système n’a pas produit de faussereconnaissance. Ceci est primordial dans un contexte industriel dans lequel ildevient impossible d’effectuer une détection manuelle des erreurs restantes dans lesimages reconnues puisque des centaines de milliers de pages peuvent être traitées.

Le traitement d’une page en niveau de gris à 200 dpi (2 000x3 000) nécessiteenviron 50s (35s de traitement d’image et 15s d’analyse) sur un Sun Ultra 60.

Le tableau ci-dessous permet d’avoir une vision globale des performances.

à 12 cases à 8 casesDescription

Nombre Pourcentage Nombre Pourcentage

Images reconnues 4 861 97,2% 4 935 98,7%

Images rejetées 138 2,8% 64 1,3%

Images reconnues à tort 0 0,0% 0 0,0%

Nous traitons actuellement l’ensemble des registres des Archives de la Mayennesoit environ 80 000 images.

4.3. Exploitation de la structure reconnue

En cas de reconnaissance, la méthode DMOS fournit une description XML dudocument analysé (figure 10). Grâce à cette représentation en XML, lesinformations extraites du document sont facilement utilisables par d’autresapplications de gestion de documents électroniques.

En particulier comme cette description comporte d’une part la structure dudocument et d’autre part la localisation précise dans l’image des différents éléments(figure 10 et figure 11) cela permet d’envisager dans les applications le masquagede certaines zones ou la sélection d’une partie des images.

Page 13: Une méthode générique de rétroconversion de …€¦ · proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le ... Si, par exemple, pos prend la

Une méthode générique de rétroconversion 141

Figure 10. Représentation XML du document (à droite) et masquage de certainescases (à gauche)

Ainsi, par exemple, les fiches d’incorporation comportent des renseignementsmédicaux qui doivent rester confidentiels pendant 150 ans. Telle quelle, une partiedu fond numérisé ne peut donc pas être mis à la disposition du public, par contre enutilisant la localisation précise des champs confidentiels, il devient possible de lesmasquer et ainsi de reconstruire des images consultables par tous (figure 10).

Figure 11. Localisation précise des champs, les cases supérieures s’étendentvolontairement jusqu’en haut de l’image

Page 14: Une méthode générique de rétroconversion de …€¦ · proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le ... Si, par exemple, pos prend la

142 DN – 6/2002. Les dossiers numériques

En l’absence d’une indexation pertinente associée à chaque image, le lecteur sevoit contraint de feuilleter l’ensemble du fonds. Un tel travail exige un réseau dotéd’une grande bande passante, mais même dans un contexte favorable, le temps detransfert et d’affichage de chaque image est relativement pénalisant. La localisationprécise des champs par la méthode DMOS permet de construire des images d’indexvisuels (figure 12) dont la consultation est beaucoup plus aisée, quitte à demanderl’affichage d’une partie ou de l’intégralité du document lorsque l’index paraîtconvenir.

Figure 12. Constitution d’images d’index

La grammaire actuelle ne décrit pas précisément la structure de chaque case.Une telle extension ne pose pas de problèmes particuliers. Elle permettrait, enparticulier, de préciser les positions dans lesquelles une reconnaissance de l’écrituremanuscrite est réaliste, soit parce qu’un champ, comme le nom, est bien écrit, soitparce qu’il n’utilise qu’un vocabulaire limité (taille, couleurs des yeux…) commedans la partie droite de la figure 11. Cette amélioration, sur laquelle nous travaillons,fournirait d’une part des éléments d’indexation des images et d’autre part pourraitouvrir la voie à des analyses statistiques de ces fiches.

5. Conclusion

A travers la variété des documents traités, nous avons démontré le caractèregénérique de la méthode DMOS. De plus cette méthode a été validée sur un grandnombre d’images de documents d’un même type. Celle-ci peut donc constituer unoutil très précieux pour la rétroconversion d’ensembles de documents hétérogènesconstitutifs d’un dossier. La capacité de décrire en XML les documents analysésconstitue un atout pour son intégration dans une chaîne de gestion électronique dedocuments.

De plus la description plus ou moins fine des documents dans le formalisme EPFpermet une approche incrémentale : analyse de la structure générale, traitementspécifique de certains champs, possibilité d’indexation.

Page 15: Une méthode générique de rétroconversion de …€¦ · proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le ... Si, par exemple, pos prend la

Une méthode générique de rétroconversion 143

Nous travaillons actuellement sur l’adaptation de cette méthode à des documentsmoins fortement structurés que ceux présentés ici, mais pour lesquels unprédécoupage automatique serait déjà d’une grande utilité.

Remerciements

Les auteurs tiennent à remercier le ministère de la Culture et de laCommunication, les Archives départementales de la Mayenne, ainsi que les régionsde Bretagne et des Pays de la Loire, pour leur avoir permis de valider la méthodeDMOS sur les fiches d’incorporation militaire.

6. Bibliographie

André J., Chabin M.A., « Numériser les documents anciens : et après ? », Les documentsanciens, numéro spécial de Document Numérique, vol. 3, n° 1-2, 1999, p. 7-11.

Anquetil E., Coüasnon B., Dambreville F., « A symbol classifier able to reject wrong shapesfor document recognition systems », Atul K. Chhabra and Dov Dori editors, GraphicsRecognition, Recent Advance, vol. 1941, Lecture Notes in Computer Science, Springer,2000, p. 209-218.

Brainerd W.S., « Tree generating regular systems », », Information and Control, 1969,14 : 217-231

Coüasnon B., Camillerapp J., « A way to separate knowledge from program in structureddocument analysis : application to optical music recognition », ICDAR InternationalConference on Document Analysis and Recognition, vol. 2 p. 1092-1097, Montréal,Canada, août 1995.

Coüasnon B., Retif B., « Using a grammar for a reliable full score recognition system »,International Computer Music Conference, p. 187-194, Banff, Canada, septembre 1995.

Coüasnon B., « Formalisation grammaticale de la connaissance a priori pour l’analyse dedocuments : application aux partitions d’orchestre », 10e congrès reconnaissance desformes et intelligence artificielle, RFIA, Rennes, France, 1996.

Feder J., « Plex languages », Information and Science, 3 : 225-241, 1971.

Garcia P., Coüasnon B., « Using a generic document recognition method for mathematicalformulae recognition », Actes du congrès GREC, IAPR, International Workshop onGraphics Recognition, Kingston, Canada, septembre 2001.

Grbavec A., Blostein, D., « Mathematics recognition using graph rewriting », ICDARInternational Conference on Document Analysis and Recognition, vol. 1 p. 417-421,Montréal, Canada, août 1995.

Hori O., Doermann D.S., « Robust table-form structure analysis based on box-drivenreasonning », ICDAR International Conference on Document Analysis and Recognition,vol. 1 p. 218-221, Montréal, Canada, août 1995.

Page 16: Une méthode générique de rétroconversion de …€¦ · proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le ... Si, par exemple, pos prend la

144 DN – 6/2002. Les dossiers numériques

Lopresti D., Nagy G., « A tabular survey of automated table processing », Atul K. Chhabraand Dov Dori editors, Graphics Recognition, Recent Advance, vol. 1941, Lecture Notesin Computer Science, Springer, 2000, p. 93-120.

Lorie R., « Information digitale : archivage à long terme », Actes du congrès internationalfrancophone sur l’écrit et le document CIFED’2000, Lyon, 2000, p. 1-9.

Pereira F.C.N., Warren D.H.D., « Definite clauses for language analysis », ArtificialIntelligence, 13 : 231-278, 1980.

Pfaltz J.L., Rosenfeld A., « Web grammars », proceedings of the First International JointConference on Artificial Intelligence, Washington, D.C., mai 1969, p. 609-619.

Poulain d’Andecy V., Camillerapp J., Leplumey I., « Analyse de partitions musicales »,Traitement du signal 12(6), 1996, p. 653-661.

Taylor S.L., Fritzson R., Pastor J.A., « Extraction of data from preprinted forms », MachineVision and Applications, 5(3) :211-222, 1992

Searls D.B., Taylor S.L., « Document image analysis using logic grammar based syntacticpattern recognition », K. Yamamoto, H.S. Baird, H. Bunke, editors, Strutured DocumentImage Analysis, Springer-Verlag 1992, p. 520-545.

Watanabe T., Luo Q., Sugie N., « Toward a practical document understanding of table-formdocuments : its framework and knowledge representation », ICDAR InternationalConference on Document Analysis and Recognition, p. 510-515, Tsukuba Science City,Japan, octobre 1993.

Xingyuan L., Doerman D., Oh W., Gao W., T« A robust method for unknown formsanalysis », ICDAR International Conference on Document Analysis and Recognition,p. 531-534, Bangalore, India, septembre 1999.