Habilitation à Diriger des Recherches - · depuis mes tous premiers travaux de thèse. Ce travail est le fruit d’échanges, de discussions et de réflexions partagés à travers

Habilitation à Diriger des Recherches

présentée devant

L’Université de Rennes 1 Spécialité : informatique

par

Eric ANQUETIL

Reconnaissance d’écriture manuscrite et

interaction homme-document

soutenue le 27 Octobre 2008 devant le jury composé de :

Yves LECOURTIER Université de Rouen Rapporteur

Maurice MILGRAM Université Pierre et Marie Curie–Paris VI Rapporteur Réjean PLAMONDON École Polytechnique de Montréal Rapporteur Isabelle BLOCH École Nationale Supérieure des Télécommunications Examinatrice Mohamed CHERIET École de technologie supérieure de Montréal Examinateur Guy LORETTE Université de Rennes 1 Examinateur Christian VIARD-GAUDIN École Polytechnique de l’Université de Nantes Examinateur

2

Remerciements

En premier lieu, je souhaite remercier mes rapporteurs, Yves Lecourtier, Professeur à l’Université de Rouen, Maurice Milgram, Professeur à l’Université Pierre et Marie Curie (Pa-ris VI) et Réjean Plamondon, Professeur titulaire à l’École Polytechnique de Montréal pour le temps et l’attention qu’ils ont portés à mon travail. Je remercie également Mohamed Cheriet Professeur titulaire à l’École de Technologie Supérieure de Montréal pour avoir accepté de présider ce jury, Isabelle Bloch, Professeur à l’École Nationale Supérieure des Télécommuni-cations et Christian Viard-Gaudin, Professeur à l’École Polytechnique de l’Université de Nantes pour avoir accepté de participer à ce jury.

Je suis enfin très reconnaissant à Guy Lorette, Professeur de l’Université de Rennes 1, pour m’avoir transmis sa passion pour la recherche et m’avoir toujours encouragé et soutenu depuis mes tous premiers travaux de thèse.

Ce travail est le fruit d’échanges, de discussions et de réflexions partagés à travers les

thèses que j’ai (co-)encadrées. Je tiens donc à remercier Laurent Pasquer, Nicolas Ragot, Sa-bine Carbonnel, Laetitia Rousseau, Solen Quiniou, Harold Mouchère, François Bouteruche, Sébastien Macé, Abdullah Almaksour et Adrien Delay pour ces passionnants moments de recherche associés à leur travail de thèse et dont de nombreux résultats apparaissent dans ce manuscrit.

Je remercie les industriels et les universitaires qui m’ont fait confiance à travers plusieurs

projets de collaboration. J’ai eu énormément de plaisir à travailler pendant plusieurs années avec, Eric Jamet et Bruno Bossis de l’Université de Rennes 1, Jean-Luc Botto, Helene Bouche-reau et Christophe de Bast de la société PurpleLabs, Eric Petit et Sylvie Vidal de France Tele-com R&D, sans oublier toutes les personnes de la société Evodia qui ont défendu et valorisé le fruit de nos recherches.

Merci encore et surtout à tous les membres de l’équipe IMADOC, stagiaires, doctorants,

ingénieurs, assistantes, enseignant-chercheurs, avec qui j’ai travaillé toutes ces années. Un grand merci à Bertrand, avec lequel j’ai eu tant de discussions stimulantes qui ont notam-ment permis de voir naître l’idée de créer la société Evodia.

Merci à tous mes collègues enseignants de l’INSA pour leur soutien et tout particulière-

ment à Bruno, Ivan, Jean et Mireille pour leurs précieux conseils. Un tendre merci à Catherine, Clément et mes Parents pour leur affection, leurs encoura-

gements et leur patience.

Préambule

Ce document comporte cinq chapitres structurés de la façon suivante : — Le premier chapitre présente le fil conducteur de mes recherches en introduisant le

contexte scientifique et en résumant les trois grands axes qui s’en dégagent. — Les trois chapitres suivants développent chacun de mes axes de recherche :

Chapitre II : « Reconnaissance en-ligne d’écriture manuscrite : du signal aux modèles linguistiques » ;

Chapitre III : « Reconnaissance des formes : classification, rejet et adaptation » ;

Chapitre IV : « Interaction homme-document : reconnaissance à la volée de do-cuments structurés ».

— Le Chapitre V conclut ce document en abordant les perspectives de recherche.

Plan LISTE DES FIGURES .......................................................................................................................................... 10

LISTE DES TABLEAUX ...................................................................................................................................... 11

CHAPITRE I INTRODUCTION & FIL CONDUCTEUR DE MA RECHERCHE .................................... 13

I.1 PREAMBULE : ECRITURE MANUSCRITE ET INTERACTION ........................................................................... 13 I.2 PROBLEMATIQUE ET CONTEXTE SCIENTIFIQUE .......................................................................................... 14

I.2.1 Reconnaissance hors-ligne et en-ligne de l’écriture .................................................................. 14 I.2.1.1 Signal d’entrée ........................................................................................................................ 14 I.2.1.2 Applications visées ................................................................................................................ 15 I.2.1.3 Thématiques scientifiques .................................................................................................... 15

I.2.2 Communauté scientifique .............................................................................................................. 15 I.2.3 Tissu industriel ................................................................................................................................. 17 I.2.4 Essaimage ― Création de l’entreprise Evodia ........................................................................... 17 I.2.5 Équipe IMADOC .............................................................................................................................. 17

I.3 ORIENTATION ET CONTRIBUTION DE MES RECHERCHES ............................................................................ 18 I.3.1 Introduction ...................................................................................................................................... 18 I.3.2 Résumé des axes principaux de mes recherches ...................................................................... 19

I.3.2.1 Reconnaissance en-ligne d’écriture manuscrite (cf. Chapitre II) ..................................... 19 I.3.2.2 Reconnaissance des formes : classification, rejet et adaptation (cf. Chapitre III) ....... 20 I.3.2.3 Interaction homme-document : reconnaissance à la volée de documents structurés

(cf. Chapitre IV) ...................................................................................................................... 21

CHAPITRE II RECONNAISSANCE EN-LIGNE D’ECRITURE MANUSCRITE : DU SIGNAL AUX MODELES LINGUISTIQUES .............................................................................................. 25

II.1 INTRODUCTION ......................................................................................................................................... 25 II.2 RECONNAISSANCE DE CARACTERES MANUSCRITS ISOLES : LE SYSTEME RESIFCAR ................................ 26

II.2.1 Préambule ........................................................................................................................................ 26 II.2.2 Positionnement de l’approche utilisée .......................................................................................... 27 II.2.3 Principe du système de reconnaissance de caractères manuscrits ResifCar ........................ 29

II.2.3.1 Modélisation et apprentissage .............................................................................................. 30 II.2.3.2 Analyse et reconnaissance ................................................................................................... 32

II.2.4 Optimisation du processus de décision ....................................................................................... 33 II.2.5 Transfert industriel et perspectives ............................................................................................... 34

II.2.5.1 Transfert avec la société Sensei et la société PurpleLabs ............................................... 34 II.2.5.2 Collaboration avec France Telecom R&D ........................................................................... 36 II.2.5.3 Transfert industriel vers la société Thales via la société Evodia ..................................... 37

II.3 RECONNAISSANCE DE MOTS ISOLES : RESIFMOT ..................................................................................... 39 II.3.1 Approches pour la reconnaissance de mots manuscrits ........................................................... 39

II.3.1.1 Approches globales ............................................................................................................... 39 II.3.1.2 Approches analytiques avec segmentation implicite ......................................................... 40 II.3.1.3 Approches analytiques avec segmentation explicite ......................................................... 40 II.3.1.4 Autres approches : les approches cognitives ..................................................................... 41

II.3.2 Système de reconnaissance en-ligne de mots manuscrits : ResifMot .................................... 42 II.3.2.1 Objectif et positionnement de l’approche utilisée dans ResifMot .................................... 42 II.3.2.2 Principe du système de reconnaissance de mots ResifMot ............................................ 43 II.3.2.3 Principales contributions ....................................................................................................... 43

II.3.3 Post-traitement lexical pour la gestion de grands vocabulaires ............................................... 45 II.3.3.1 Positionnement de l’approche utilisée ................................................................................. 45 II.3.3.2 Principales contributions pour le post-traitement lexical ................................................... 47

8 RECONNAISSANCE D’ECRITURE MANUSCRITE ET INTERACTION HOMME-DOCUMENT

II.4 RECONNAISSANCE DE PHRASES MANUSCRITES EN-LIGNE ........................................................................ 49 II.4.1 Positionnement de l’approche utilisée .......................................................................................... 49 II.4.2 Extraction à la volée des mots de la phrase................................................................................ 50 II.4.3 Exploitation de modèles statistiques de langage ........................................................................ 52 II.4.4 Combinaison des modèles de langage ........................................................................................ 52 II.4.5 Exploitation des réseaux de confusion pour l’identification des erreurs .................................. 53

II.5 CONCLUSIONS ET PERSPECTIVES ............................................................................................................ 54

CHAPITRE III RECONNAISSANCE DES FORMES : CLASSIFICATION, REJET ET ADAPTATION .................................................................................................................................................. 57

III.1 INTRODUCTION ......................................................................................................................................... 57 III.1.1 Objectifs ............................................................................................................................................ 58

III.1.1.1 Classifieurs mixtes ................................................................................................................. 58 III.1.1.2 Option de rejet ........................................................................................................................ 58 III.1.1.3 Adaptation ............................................................................................................................... 58

III.1.2 Fil conducteur .................................................................................................................................. 59 III.2 CLASSIFICATION MIXTE PAR MODELISATION GENERATIVE ET DISCRIMINANTE ............................................ 60

III.2.1 Positionnement de l’approche : modélisation génératives et discriminantes ......................... 60 III.2.2 Contributions : le système de reconnaissance de formes « Mélidis » ..................................... 61

III.2.2.1 Principes .................................................................................................................................. 61 III.2.2.2 Mécanisme de focalisation ................................................................................................... 62 III.2.2.3 Processus de décision........................................................................................................... 63

III.2.3 Résultats ........................................................................................................................................... 64 III.3 MECANISMES DE REJET POUR LA FIABILISATION DE CLASSIFIEUR .............................................................. 65

III.3.1 Synthèse de l’état de l’art sur le rejet ........................................................................................... 65 III.3.2 Contributions : option de rejet basée sur des fonctions de confiance multiples .................... 67 III.3.3 Résultats et bilan sur les options de rejet .................................................................................... 68

III.3.3.1 Conditions expérimentales .................................................................................................... 68 III.3.3.2 Critères de comparaisons : courbes ROC et ER ............................................................... 69 III.3.3.3 Synthèse des résultats .......................................................................................................... 69

III.3.4 Perspectives .................................................................................................................................... 71 III.4 MECANISMES D’ADAPTATION POUR L’OPTIMISATION DE CLASSIFIEUR ........................................................ 71

III.4.1 Introduction ...................................................................................................................................... 71 III.4.2 Positionnement de l’approche d’adaptation ................................................................................ 72 III.4.3 Contributions : stratégie d’adaptation par la méthode « Adapt » ............................................. 72

III.4.3.1 Déplacement des prototypes ................................................................................................ 73 III.4.3.2 Déformation des prototypes.................................................................................................. 73 III.4.3.3 Modification des conclusions ................................................................................................ 74 III.4.3.4 Ajout de règles ........................................................................................................................ 74

III.4.4 Synthèse de caractères ................................................................................................................. 74 III.4.5 Résultats ........................................................................................................................................... 74

III.4.5.1 Comparaisons à d’autres stratégies d’adaptation ............................................................. 74 III.4.5.2 Expérimentations sur un assistant personnel (PDA) ......................................................... 75

III.4.6 Perspectives .................................................................................................................................... 75

CHAPITRE IV INTERACTION HOMME-DOCUMENT : RECONNAISSANCE A LA VOLEE DE DOCUMENTS STRUCTURES ............................................................................................ 77

IV.1 INTRODUCTION ......................................................................................................................................... 77 IV.2 METHODE DE SAISIE AVEC RECONNAISSANCE A LA VOLEE DE CARACTERES ............................................. 79

IV.2.1 Méthode de saisie « DIGIME » ..................................................................................................... 79 IV.2.1.1 Ergonomie de l’interface DIGIME : l’importance du retour visuel .................................... 80 IV.2.1.2 Micro-éditeur d’encre électronique avec reconnaissance à la volée .............................. 82

IV.2.2 Modélisation du contexte spatial de symboles graphiques ....................................................... 83 IV.2.2.1 Introduction ............................................................................................................................. 83

PLAN 9

IV.2.2.2 Évaluation du positionnement relatif flou ............................................................................ 84 IV.2.2.3 Adaptation au signal en-ligne de tracé manuscrit .............................................................. 86 IV.2.2.4 Expérimentations .................................................................................................................... 86

IV.2.3 Reconnaissance par combinaison explicite du contexte spatial avec la forme des tracés manuscrits ..................................................................................................................................................... 88

IV.2.3.1 Positionnement de l’approche proposée ............................................................................ 88 IV.2.3.2 Construction d’un point de vue : combinaison hiérarchique ............................................ 89 IV.2.3.3 Combinaison des différents points de vue hiérarchiques ................................................. 90 IV.2.3.4 Expérimentations .................................................................................................................... 90

IV.2.4 Conclusion et perspectives ............................................................................................................ 91 IV.3 RECONNAISSANCE A LA VOLEE DE DOCUMENTS STRUCTURES .................................................................. 93

IV.3.1 Positionnement de l’approche ....................................................................................................... 93 IV.3.1.1 Interprétation « a posteriori » ................................................................................................ 94 IV.3.1.2 Interprétation « à la volée » .................................................................................................. 95

IV.3.2 Modélisation de documents structurés : la méthode DALI ........................................................ 95 IV.3.2.1 Introduction : inspirations et contributions .......................................................................... 95 IV.3.2.2 Grammaires de Multi-ensembles à Contraintes Pilotées par le Contexte (GMC-PC) .. 96 IV.3.2.3 Analyseur incrémental « prédictif » ...................................................................................... 99 IV.3.2.4 Expérimentations .................................................................................................................... 99 IV.3.2.5 Travaux en cours .................................................................................................................. 102

IV.3.3 Perspectives .................................................................................................................................. 103

CHAPITRE V CONCLUSIONS ET PERSPECTIVES ............................................................................. 105

LISTE DE MES PUBLICATIONS ..................................................................................................................... 109

REFERENCES BIBLIOGRAPHIQUES ........................................................................................................... 113

Liste des figures FIGURE 1 : EXEMPLE DE TELEPHONE COMMERCIALISE, EMBARQUANT RESIFCAR. .................................................. 20 FIGURE 2 : LOGICIEL SCRIPT&GO « SCHEMA ELECTRIQUE » BASE SUR LA TECHNOLOGIE DALI. ............................ 23 FIGURE 3 : LES TROIS NIVEAUX DE REPRESENTATION DU TRACE D’UN CARACTERE. ................................................ 29 FIGURE 4 : PREMIERE ETAPE : SEGMENTATION PHYSIQUE DU TRACE EN TRAITS ELEMENTAIRES. ............................. 30 FIGURE 5: DE LA SEGMENTATION PHYSIQUE A LA MODELISATION LOGIQUE HIERARCHIQUE D’UNE CLASSE DE

CARACTERE. ....................................................................................................................................... 31 FIGURE 6 : ILLUSTRATION EN 2 DIMENSIONS D’UNE PROJECTION DE PROTOTYPES. ................................................. 32 FIGURE 7 : PROCESSUS « CLASSIQUE » DE DECISION. ............................................................................................ 33 FIGURE 8 : PROCESSUS DE DECISION OPTIMISE AVEC SELECTION PROGRESSIVE DES MODELES. ............................ 34 FIGURE 9 : EXEMPLES DE TELEPHONES COMMERCIALISES EMBARQUANT RESIFCAR. ............................................. 36 FIGURE 10 : EXEMPLE DE SEGMENTATION PHYSIQUE DU MOT « SIMPLE ». .............................................................. 44 FIGURE 11 :TREILLIS DE SEGMENTATION DU MOT « SIMPLE » [CARBONNEL'05]. ..................................................... 44 FIGURE 12 : INTEGRATION DES CONNAISSANCES LEXICALES DANS LA CHAINE DE TRAITEMENT................................ 47 FIGURE 13 : ESTIMATION DES ESPACES INTER-TRACES. .......................................................................................... 51 FIGURE 14 : HYPOTHESES D’EXTRACTION DE MOTS D’UNE PHRASE (ARCS AJOUTES EN POINTILLE) [QUINIOU'07]. . 51 FIGURE 15 : EXEMPLE DE RESEAU CLASSIQUE MAP VERSUS RESEAU DE CONFUSION (APPROCHE CONSENSUS). . 53 FIGURE 16 : AMBIGÜITES INTER-CARACTERES ENTRE SCRIPTEURS (DIAGONALE) ; NON AMBIGÜITE INTER-

CARACTERES POUR UN SCRIPTEUR DONNE (LECTURE EN LIGNE) ; VARIATIONS D’ECRITURE D’UN MEME

CARACTERE (LECTURE EN COLONNE). ................................................................................................ 59 FIGURE 17 : ILLUSTRATION DE L’IDENTIFICATION DES SOUS-PROBLEMES POUR CHAQUE CLASSE (W1, W2, W3) PAR

LE MECANISME DE FOCALISATION, PENDANT L’APPRENTISSAGE [RAGOT'03]. ..................................... 63 FIGURE 18 : EXEMPLES ET CONTRE- EXEMPLES A DISCRIMINER DANS B1 ................................................................ 63 FIGURE 19 : ARCHITECTURE DU SYSTEME MELIDIS. ................................................................................................ 64 FIGURE 20 : EXEMPLE EN 2 DIMENSIONS D’ADAPTATION A UN STYLE D’ECRITURE [MOUCHERE'07] : (A) SYSTEME DE

RECONNAISSANCE OMNI SCRIPTEUR. (B) SYSTEME ADAPTE A UN SCRIPTEUR PAR LA METHODE ADAPT. ........................................................................................................................................................... 73

FIGURE 21 : ILLUSTRATION DES 3 VERSIONS DE DIGIME. ...................................................................................... 81 FIGURE 22 : LISTE DES 16 CLASSES DE GESTES GRAPHIQUES DE DIGIME ............................................................ 82 FIGURE 23 : EXEMPLE D’ACCENTUATIONS DANS LE FLOT DE L’ECRITURE (1) OU A POSTERIORI (2). ........................ 83 FIGURE 24 : EXEMPLE DE GESTE GRAPHIQUE DE SUPPRESSION DES DEUX PREMIERS CARACTERES. ..................... 83 FIGURE 25 : DEFINITION DE ΒMIN(P,R). .................................................................................................................... 85 FIGURE 26 : REPRESENTATION DU PAYSAGE FLOU DANS LES QUATRE DIRECTIONS PRINCIPALES. ........................... 85 FIGURE 27 : ÉVALUATION DE L’APPARTENANCE D’UN TRACE SITUE « EN HAUT ET A DROITE » D’UN OBJET DE

REFERENCE SITUE AU CENTRE, PAR RAPPORT AUX QUATRE DIRECTIONS PRINCIPALES. ...................... 85 FIGURE 28 : REPRESENTATION DU PAYSAGE FLOU AVEC (A) ET SANS (B) EFFET DE PEIGNE. .................................... 86 FIGURE 29 : COMBINAISON DES 6 POINTS DE VUE HIERARCHIQUES ......................................................................... 89 FIGURE 30 : INTERPRETATION (A) « A POSTERIORI » VERSUS (B) « A LA VOLEE » - SCHEMAS ELECTRIQUES. .......... 94 FIGURE 31 : CONTEXTE STRUCTUREL REPRESENTANT UNE ZONE RECTANGULAIRE « SOUS » UNE CONNEXION. ..... 97 FIGURE 32 : PRODUCTION PERMETTANT LA COMPOSITION D’UN INTERRUPTEUR EN DEUX TRACES. ........................ 98 FIGURE 33 : RECONNAISSANCE « A LA VOLEE » DE PARTITIONS MUSICALES. ........................................................ 100 FIGURE 34 : RECONNAISSANCE « A LA VOLEE » DE SCHEMAS ELECTRIQUES. ....................................................... 101 FIGURE 35 : TEMPS DE L’ANALYSE EN FONCTION DE LA COMPLEXITE DU SCHEMA. ................................................ 103

CHAP. I : INTRODUCTION & FIL CONDUCTEUR DE MA RECHERCHE 11

Liste des tableaux TABLEAU 1 : TAUX DE RECONNAISSANCE OMNI-SCRIPTEURS SUR DES CHIFFRES ISOLES A PARTIR D’UNE BASE

« CLASSIQUE » B1 ET « GAUCHER-ATYPIQUE » B2. .......................................................................... 38 TABLEAU 2 : TAUX DE RECONNAISSANCE ET NOMBRE DE PARAMETRES, POUR LA RECONNAISSANCE DE CHIFFRES

IRONOFF ......................................................................................................................................... 65 TABLEAU 3 : TAUX DE RECONNAISSANCE ET NOMBRE DE PARAMETRES, POUR LA RECONNAISSANCE DE CHIFFRES

UNIPEN ............................................................................................................................................ 65 TABLEAU 4 : REJET D’IGNORANCE (RECONNAISSANCE DE CHIFFRES / REJET DES LETTRES) : AIRE SOUS LA COURBE

ROC (X100). ..................................................................................................................................... 70 TABLEAU 5 : REJET D’AMBIGÜITE : RECONNAISSANCE DES 10 CHIFFRES. ................................................................ 70 TABLEAU 6 : SYNTHESE DE MEILLEURES SOLUTIONS DE REJET (CLASSIFIEUR ▬ ARCHITECTURE ▬ ALGORITHME

D’APPRENTISSAGE). ............................................................................................................................ 71 TABLEAU 7 : TAUX DE RECONNAISSANCE EN FONCTION DES DESCRIPTEURS DE DIRECTION UTILISES. ..................... 87 TABLEAU 8 : COMPARAISON DES 6 POINTS DE VUE HIERARCHIQUE .......................................................................... 91 TABLEAU 9 : COMPARAISON DE LA COMBINAISON DES 6 PVH A DEUX CLASSIFIEURS GLOBAUX DE REFERENCE ...... 91

Chapitre I INTRODUCTION & FIL CONDUCTEUR DE MA RECHERCHE

I.1 PREAMBULE : ECRITURE MANUSCRITE ET INTERACTION

L’écriture manuscrite est un mode de communication primordial chez l’homme. Il est à la fois universel mais aussi très personnel. Chacun élabore son propre style d’écriture qui va évoluer en permanence tout au long de sa vie. Des études en graphothérapie ont montré le rôle central que pouvait jouer l’écriture manuscrite dans l’épanouissement d’une personne.

L’informatisation a eu jusqu’à présent plutôt tendance à diminuer la place que tenait l’écriture manuscrite dans la communication : le périphérique clavier/souris remplace pro-gressivement le stylo et ceci au détriment de l’écriture manuscrite. Plus récemment encore, l’utilisation courante du courrier électronique et des « SMS » n’a fait qu’amplifier ce phéno-mène en le systématisant de plus en plus tôt dans la vie courante.

Le recul de l’écriture manuscrite vis à vis des claviers est en quelque sorte contraint par le besoin d’accéder aux nouvelles technologies sous-tendues par des ordinateurs offrant des fonctionnalités de plus en plus puissantes. Il est indéniable que toutes ces nouvelles techno-logies sont un réel progrès : loin de moi l’idée de les remettre en cause. Cependant, on re-marquera que, la plupart du temps, on demande à l’homme d’absorber ces technologies au prix d’un effort d’adaptation relativement important. Cet effort est motivé par l’attraction exercée par ces nouveaux services : on est alors prêt à saisir un texte « codé SMS » à l’aide des dix touches d’un clavier de téléphone pour communiquer. Pour autant, tout le monde n’arrive pas à maîtriser facilement ces contraintes imposées comme des pré-requis pour ac-céder à ces nouveaux services. Sans compter que même si les plus jeunes ont une capacité d’adaptation remarquable, il est possible que nous ne considérions pas assez l’impact que cela peut avoir sur le rejet de plus en plus important de la maîtrise de l’écriture manuscrite et par voie de conséquence, de la langue maternelle et de la formation intellectuelle.

Depuis peu, de nouvelles technologies orientées « stylo » arrivent à maturité : téléphone mobile de nouvelle génération (Smartphone), ordinateur tablette (TabletPC ou UMPC1) ou encore Tableau Blanc Interactif (TBI). La tendance s’infléchit donc progressivement en reposi-tionnant l’écriture manuscrite au centre de la communication homme-machine. Le couplage de la modalité écrite et gestuelle avec ces nouvelles technologies cherche à rendre leur exploi-tation plus conviviale en introduisant de nouveaux usages qui vont faciliter l’accès au plus grand nombre. La recherche sur la reconnaissance automatique de l’écriture manuscrite à fait des progrès considérables depuis une dizaine d’années. Même si tous les problèmes ne sont pas encore résolus, les moteurs de reconnaissance d’écriture « en-ligne» progressent et béné-

1 Ultra Mobile PC


ficient aujourd’hui de plus de puissance de calcul ; ils sont maintenant suffisamment perfor-mants pour envisager une interaction directe avec la machine par le biais de l’écriture ma-nuscrite.

Bien entendu, il ne s’agit pas non plus de supprimer les périphériques traditionnels (cla-vier/souris) qui s’avèrent très efficaces dans de nombreux contextes d’utilisation. L’idée est plutôt de remettre l’utilisateur au centre de l’interaction avec la machine, afin qu’il en rede-vienne l’acteur principal. Dans certains contextes de mobilité et dans de nombreux cas de composition de document, écrire et dessiner à main levée sont les modalités d’entrée les plus naturelles et les plus efficaces. Ainsi, par exemple, l’utilisateur va pouvoir écrire ses « SMS » directement sur l’écran de son téléphone portable (Smartphone). Il peut aussi dessiner ses croquis, ses schémas, ses formules mathématiques, etc. à main levée sur l’écran sensitif d’un TabletPC ou d’un TBI.

La reconnaissance automatique de l’écriture et des tracés manuscrits en général permet maintenant d’analyser, de comprendre, d’interpréter et de retranscrire « au propre » ces ac-tions réalisées à main levée par l’utilisateur. C’est alors l’ordinateur qui va produire cet effort d’interprétation, libérant ainsi l’utilisateur des contraintes classiques de communication avec la machine : l’utilisateur pourra rester centré sur le processus créatif associé à la réalisation de son document.

C’est au cœur de cette thématique que s’inscrivent mes recherches. Elles portent sur la reconnaissance de l’écriture manuscrite et plus généralement sur l’interprétation et la compo-sition à main levée de documents manuscrits.

I.2 PROBLEMATIQUE ET CONTEXTE SCIENTIFIQUE

I.2.1 Reconnaissance hors-ligne et en-ligne de l’écriture

On distingue classiquement deux catégories de problème pour la reconnaissance de l’écriture : la reconnaissance de l’écriture « en-ligne » et la reconnaissance de l’écriture « hors-ligne ». Cette distinction est d’autant plus marquée que l’on se situe aux extrémités de la « chaîne » de traitement, c’est-à-dire à la fois en début, où l’on considère le signal d’entrée et en fin, où les fonctionnalités sont rattachées aux applications visées.

I.2.1.1 Signal d’entrée

La nature du signal d’entrée diffère fortement entre la reconnaissance « en-ligne » et « hors-ligne » de l’écriture.

Dans le cadre du « en-ligne », il s’agit d’un signal correspondant au suivi de la trajectoire du stylo sur une surface. Le stylo peut être actif dans le procédé d’acquisition en embarquant par exemple, des accéléromètres ou des micro-capteurs. On parle alors de stylo électronique. Citons notamment la technologie Anoto qui exploite ce dernier concept en le couplant à un papier ayant une trame spécifique pour connaître la position de la pointe du stylo. Dans d’autres cas, c’est la surface qui est sensitive, comme par exemple, sur les écrans tactiles qui équipent les Smartphone ou les UMPC. Enfin, cela peut être un couplage stylo/écran basé sur un champ électromagnétique. Cette technologie est utilisée sur de nombreux TabletPC.

Dans tous les cas, on récupère une séquence de coordonnées de points acquises à inter-valles de temps réguliers, éventuellement restituée sous forme d’encre électronique. Ces coor-données sont couplées généralement à une information de pression du stylo sur la surface. Ce signal est le point d’entrée sur lequel les approches « en-ligne » vont s’appuyer pour ana-lyser les tracés manuscrits.

Dans le cadre du « hors-ligne », l’entrée est une image correspondant à la numérisation préalable d’un document papier sur lequel se trouve des tracés et de l’écriture. Cette image est définie, le plus souvent, en noir et blanc ou en niveaux de gris. Contrairement au signal « en-ligne », l’image nécessite souvent des étapes importantes de prétraitement pour en ex-


traire le contenu, à savoir les tracés qui pourront ensuite être analysés.

I.2.1.2 Applications visées

Les applications visées par ces deux catégories d’approches sont aussi assez différentes. Les approches « en-ligne » s’intéressent à concevoir des méthodes de saisie à main levée,

d’écriture ou de documents complets. Ici, les applications visées sont très variées : elles con-cernent aussi bien les méthodes de saisie d’écriture sur assistant numérique personnel (PDA) ou sur TabletPC que les éditeurs à main levée de diagrammes, de schémas, de formules ma-thématiques, de partitions musicales ou encore de circuits électriques, etc. L’interaction avec l’utilisateur est un élément clé pour ces applications où la communication, dans son intégralité (entrée de textes, dessins, commandes), est axée sur l’utilisation d’un stylet (voir même directement du doigt). Ces approches s’articulent autour de la conception d’applications basées sur une interaction orientée « stylo » qui a l’avantage de pouvoir définir en un seul geste, à la fois l’action à effectuer et l’endroit où opérer cette action. Cette interac-tion repose sur des moteurs de reconnaissance de tracés manuscrits qui sont souvent associés à des contraintes de réponses « temps réel » et d’embarquement dans des périphériques à ressources mémoires limitées.

Les applications « hors-ligne » les plus couramment citées sont le traitement automa-tique des chèques, du courrier postal, de la facturation, des documents d’archive... Plus gé-néralement, les applications visées concernent la notion de rétro-conversion de documents, la fouille d’information et l’indexation automatique dans des bases d’images de documents.

On trouve aussi de nombreuses applications transversales qui peuvent concerner à la fois les approches en-ligne et hors-ligne. Notamment, dans le domaine de la biométrie et de la graphométrie (reconnaissance de signature, identification du scripteur...) ou encore dans le domaine de la biomécanique (théorie cinématique des mouvements humains, modèles neu-romusculaires associés à l’écriture).

I.2.1.3 Thématiques scientifiques

Si ces deux problématiques (reconnaissance « en-ligne » et « hors-ligne ») ont des entrées différentes, elles se rejoignent sur les thématiques scientifiques de reconnaissance de formes pour élaborer des stratégies d’interprétation automatique des tracés manuscrits. Les tracés manuscrits sont, par nature, des formes très complexes à modéliser et donc à reconnaître. En effet, ils sont sujets à une grande variabilité liée au style d’écriture spécifique à chaque per-sonne. Cette complexité fait toute la richesse de ce domaine de recherche qui s’appuie ainsi sur la plupart des thématiques scientifiques de la reconnaissance de formes.

Sans être exhaustif, les thématiques les plus abordées dans notre communauté concer-nent l’extraction et la sélection de caractéristiques, la segmentation, la modélisation statistique et structurelle, la classification supervisée et non supervisée, l’apprentissage, la combinaison et la fusion d’informations, la gestion du contexte, l’intégration de connaissances linguistiques et de modèles de langage...

Ainsi, même s’il existe des colorations spécifiques à la reconnaissance « en-ligne » (accès à la dynamique du tracé, contraintes d’embarquement...) et à la reconnaissance « hors-ligne » (traitement d’images de document...), notre communauté scientifique est restée très soudée autour de la problématique générale de l’ « écrit et du document ».

I.2.2 Communauté scientifique

En France, le GRCE est le Groupe de Recherche en Communication Écrite. Il rassemble depuis 1990 la communauté des universitaires et des industriels de l’écrit et du document. Il a pour vocation de former une communauté de l'écrit favorisant les échanges et la coopération entre les équipes travaillant sur ce sujet. Il est associé à la société savante, plus générale, qui est l’AFRIF (Association Française pour la Reconnaissance et l’Interprétation de Formes). Le GRCE et l’AFRIF sont elles-mêmes fédérées au sein de l’ASTI (Fédération des associations Françaises des


Sciences et Technologies de l'Information). La communauté française se retrouve aussi autour des groupes SA 5.2-Ecrit et SCATI

(Systèmes complexes pour l'analyse et le traitement d'images) des GDR-PRC CNRS I3 (Information, Interaction, Intelligence) et ISIS (Information, Signal, Images et ViSion).

Au niveau international, notre communauté est fédérée par l’IAPR (International Associa-tion for Pattern Recognition) et ses différents comités techniques. Citons notamment le TC11 – Reading Systems et le TC10 – Graphics Recognition.

La conférence Francophone soutenue par le GRCE et qui a lieu tous les deux ans est CI-FED (Colloque International Francophone sur l'Écrit et le Document). Notre communauté se re-trouve aussi régulièrement à la conférence française très renommée : RFIA (Reconnaissance des Formes et Intelligence Artificielle). Celle-ci est soutenue par l’AFRIF et l’AFIA (Association Fran-çaise d'Intelligence Artificielle).

Au niveau international, parmi les conférences les plus proches de nos thématiques, on peut citer les conférences suivantes :

ICPR (International Conference on Pattern Recognition) ; ICDAR (International Conference on Document Analysis and Recognition) ; ICFHR (International Conference on Frontiers in Handwriting Recognition) ; DAS (Documents Analysis Systems) ; IGS (Conference of the International Graphonomics Society).

Aujourd’hui, notre communauté amorce un nouveau virage dans ses ambitions scientifiques. Nous nous orientons vers des problématiques de plus haut niveau, où il va être nécessaire de coupler plusieurs savoir-faire. Les documents vont être considérés dans leur ensemble aussi bien en termes d’analyse ou de rétro-conversion, qu’en termes de composition à main levée. L’utilisateur redevient aussi un acteur considéré comme étant au centre de la problématique afin de définir de nouveaux usages autour de l’Interaction Homme-Document.

Cela se traduit par une volonté très marquée d’échanger et de collaborer avec d’autres communautés voisines comme, par exemple :

l’interaction homme-machine : conférences HCI (Human-Computer Interaction), CADUI (International Conference on Computer-Aided Design of User Interfaces)...

la recherche d'information : conférences CORIA (COnférence en Recherche d'Information et Applications), ECIR (European Conference on Information Retrieval), EGC (Extraction et Gestion des Connaissances)...

l’apprentissage : conférence ECML (European Conference on Machine Learning)... le traitement cognitif : conférence JETSIC (Journée d'Étude sur le Traitement Cognitif des

Systèmes d'Information Complexes)... la mobilité : conférence UBIMOB (journées Francophones sur la Mobilité et l’Ubiquité)... la parole : conférences ICASSP (International Conference on Acoustics, Speech, and Signal

Processing), et EUROSPEECH (European Conference on Speech Communication and Tech-nology)...

l’informatique musicale : conférence ICMC (International Computer Music Conference)…

Ces dernières années, j’ai voulu que nous soyons présents dans ces conférences connexes en y publiant plusieurs de nos travaux afin de favoriser les échanges et les collaborations interdisciplinaires [Anquetil et al.'04, Bayoudh et al.'07, Bouteruche et al.'05a, Bouteruche et al.'05b, Macé et al.'05, Macé et al.'06, Macé et al.'07a, Macé et al.'07c].


I.2.3 Tissu industriel Parallèlement à ce tournant scientifique, la communauté de l’écrit et du document est forte-ment associée à un tissu industriel qui est aujourd’hui en pleine expansion. Par conséquent, les attentes du milieu industriel sont très importantes en termes de solutions technologiques innovantes dans le domaine de l’écrit et du document. On peut citer notamment les sociétés françaises du secteur comme : A2IA, France Telecom, Itesoft, Ladservices, Vision Objects et les sociétés internationales telles que MicroSoft Research, HP ou encore Parascript.

Ce contexte est particulièrement propice pour monter des collaborations industrielles qui vont permettre de valider en vraie grandeur les résultats de recherche. Depuis l’année 2000, j’ai monté une dizaine de contrats industriels avec des entreprises comme PurpleLabs, Thales ou encore France Télécom. Ces contrats, sur lesquels je reviendrai dans ce document, ont été associés à plusieurs thèses que j’ai dirigées. Ils ont tous été très riches d’enseignement.

I.2.4 Essaimage ― Création de l’entreprise Evodia

La montée en puissance des demandes de transferts technologiques nous a amené à travail-ler, en 2005, à la création de la société Evodia (http://www.evodia.fr). L’objectif était de construire une passerelle facilitant les transferts de technologies innovantes entre le labora-toire et l’industrie.

J’ai créé avec un collègue (B. Coüasnon) et le soutien des professeurs G. Lorette et J. Camillerapp, la société Evodia. Le dirigeant de cette société est Y. Ridé. C’est aujourd’hui une société d’une dizaine de salariés. Elle commercialise une gamme de logiciels innovants qui introduisent de nouveaux usages pour la dématérialisation, l’indexation automatique, la gestion et la composition « à la volée » de documents manuscrits. Ces logiciels reposent sur les technologies issues de nos recherches dans les domaines de la reconnaissance de l’écriture manuscrite, du traitement hors-ligne et de la composition en-ligne de documents.

Elle constitue aujourd’hui un relais privilégié dans nos liens avec le milieu industriel, ce qui nous permet, par ailleurs, de rester concentrés sur nos activités de recherche. Je détaillerai dans ce document plusieurs travaux de recherche que j’ai encadrés et qui ont été industriali-sés et commercialisés par la société Evodia.

I.2.5 Équipe IMADOC

Si l’on resserre encore un peu la synthèse du contexte de mes recherches, on arrive à l’équipe IMADOC (Images et Document : http://www.irisa.fr/imadoc), dans laquelle j’ai effectué et encadré des travaux de recherche. IMADOC fait partie du laboratoire de l’IRISA (Institut de Recherche en Informatique et Systèmes Aléatoires : http://www.irisa.fr). Elle est constituée aujourd’hui de 16 personnes qui pour moitié sont des doctorants.

Les thématiques de recherche de l’équipe IMADOC concernent l’interaction homme-document, en s’intéressant plus particulièrement aux documents manuscrits. Cela recouvre les axes allant de la dématérialisation de ces documents jusqu’à leur composition à main le-vée.

Le premier axe s’intéresse à l’exploitation des documents numérisés. Pour cela, il est né-cessaire de développer des stratégies d’analyse, de rétro-conversion ou encore d’indexation.

Le second axe est associé à l’émergence des nouveaux ordinateurs orientés « stylo » (té-léphones mobiles de nouvelle génération, assistants personnels, ordinateurs tablettes, ta-bleaux blancs interactifs). Ils induisent de nouveaux usages basés sur une communication homme-document très intuitive. L’utilisateur compose son document à main levée en écri-vant directement sur l’écran tactile ou sensitif de la machine.

Ces deux axes se rejoignent autour de la problématique de l’interprétation du contenu manuscrit des documents. Nous nous sommes spécialisés sur cette problématique en recher-chant des stratégies génériques d’analyse basées, notamment sur des systèmes de reconnais-sance de formes robustes ou encore sur des approches d’extraction automatique de la struc-ture des documents.


Je pilote aujourd’hui avec le professeur Guy Lorette le second axe de recherche de l’équipe IMADOC. J’encadre en ce moment notamment 6 doctorants dont deux d’entre eux ont soutenu leur thèse, en fin 2007.

I.3 ORIENTATION ET CONTRIBUTION DE MES RECHERCHES

I.3.1 Introduction

Mes recherches sont orientées vers la problématique de la reconnaissance « en-ligne » de tracés manuscrits (écriture, symboles, commandes graphiques, schémas, documents, etc.). C’est pourquoi ce document se focalisera essentiellement sur cet axe. Cependant, l’équipe IMADOC est aussi impliquée dans le domaine de la reconnaissance hors-ligne de document. J’ai donc eu l’occasion de travailler sur différents sujets de reconnaissance hors-ligne au tra-vers notamment de travaux de classification [Anquetil et al.'99, Anquetil et al.'00] ou encore pour étudier les possibilités de collaboration des approches de reconnaissance en-ligne et hors-ligne [Rousseau et al.'04, Rousseau et al.'05a, Rousseau et al.'05b, Rousseau et al.'06, Rous-seau et al.'07]. Sur ce dernier point, j’ai co-encadré avec le Professeur Jean Camillerapp les travaux de thèse de Laetitia Rousseau [Rousseau'07] qui ne seront pas détaillés dans ce do-cument.

Les enjeux qui ont motivé la recherche sur la reconnaissance en-ligne des tracés manus-crits sont importants. Comme je l’évoquais dans le préambule de ce chapitre, l’écriture ma-nuscrite est universellement inscrite dans notre culture. Le défi est de rendre possible le dia-logue avec la machine, par le biais de l’écriture ou du dessin à main levée, pour en faire un moyen de communication à la fois naturel, simple et efficace.

Mes recherches ont suivi un fil conducteur qui a été guidé à la fois par les enjeux scienti-fiques et par ma forte motivation à vouloir développer de nouveaux concepts innovants dans le domaine de l’interaction homme-document. Au départ, mes travaux se sont inscrits dans la continuité directe de ma thèse, encadrée par le professeur Guy Lorette qui m’a insufflé le goût et la passion pour la reconnaissance de l’écrit. J’ai alors travaillé sur la reconnaissance de l’écriture manuscrite, en abordant progressivement la complexité de la problématique depuis l’interprétation de caractères et de symboles isolés jusqu’à la reconnaissance de phrases. Ces travaux seront présentés dans le Chapitre II.

Mes collaborations industrielles ont grandement contribué à affiner ma vision de la pro-blématique sur la reconnaissance de l’écrit. Les exigences fortes du monde industriel en termes de performance, de fiabilité et d’évolutivité m’ont amené à explorer des concepts plus fondamentaux de la reconnaissance de formes : la classification, la modélisation, l’évaluation de la qualité des réponses d’un classifieur (notion de rejet) ainsi que les capacités d’adaptation d’un système. Ces recherches seront développées dans le Chapitre III.

Enfin, les collaborations interdisciplinaires que j’ai développées ces dix dernières années, notamment celles associées au laboratoire CRPCC2 de psychologie expérimentale de l’Université de Rennes 2, ont renforcé ma conviction qu’il fallait intégrer toute la dimension des « nouveaux usages » pour la modalité écrite, dans le cadre de l’interaction homme-document. Il est important de considérer l’utilisateur comme un acteur majeur qui va se si-tuer au cœur du processus d’interprétation des tracés manuscrits. C’est dans ce sens que nous avons conduit nos tous derniers travaux, synthétisés dans le Chapitre IV et qui portent sur la reconnaissance « à la volée » de documents composés à main levée.

Soulignons qu’en reconnaissance « en-ligne », l’interaction avec l’utilisateur nécessite des

temps de réponse machine très courts. Cette contrainte est d’autant plus forte que nous nous intéressons souvent à l’embarquement de nos systèmes de reconnaissance sur des assistants numériques personnels (PDA) ou des Smartphones dont la capacité de calcul et la ressource

2 Centre de Recherche en Psychologie, Cognition et Communication


mémoire sont limitées. C’est pourquoi, transversalement à l’ensemble de ces recherches, nous avons toujours porté une attention particulière aux temps de calcul et à l’encombrement mé-moire. Ces contraintes ont souvent guidé nos stratégies d’analyse, de modélisation et de re-connaissance.

I.3.2 Résumé des axes principaux de mes recherches

I.3.2.1 Reconnaissance en-ligne d’écriture manuscrite (cf. Chapitre II) Mots clés : écriture manuscrite, caractères, mots, phrases, reconnaissance, apprentissage, logique floue,

modèle de langage.

Mes recherches ont porté au départ sur la problématique de la reconnaissance d’écriture ma-nuscrite en-ligne. L’approche que nous avons choisie s’est orientée vers l’élaboration d’un système de reconnaissance « interprétable », c’est-à-dire un système dont on pouvait com-prendre et maîtriser très finement les mécanismes. Nous nous sommes fixés plusieurs objec-tifs dans la conception de cette approche originale pour aborder la problématique de la re-connaissance d’écriture :

obtenir un compromis à la fois en termes de compacité et de temps de calcul, tout en atteignant des performances à la hauteur des attentes des utilisateurs ;

avoir une expertise fine du processus de classification afin d’évaluer la pertinence des réponses du système de reconnaissance ;

avoir une formalisation robuste vis à vis de la fusion de connaissances qui vont s’enrichir au fur et à mesure de l’ajout des différents niveaux d’interprétation (carac-tères, mots, phrases, textes...).

Pour cela, nous nous sommes appuyés, d’une part, sur la théorie de la logique floue [Bouchon-Meunier'95, Zadeh'65] pour concevoir le socle de la classification et de l’apprentissage du moteur de reconnaissance et, d’autre part, sur une analyse structurelle spécifique des caractères manuscrits en recherchant à modéliser leur ossature, c’est-à-dire leur structure fondamentale. Ces principes sont formalisés à travers une modélisation hiérarchique par Systèmes d’Inférence Floue (SIF).

Ces travaux ont abouti à la conception du système de reconnaissance de caractères ma-nuscrits « ResifCar » (cf. section II.2) dont le logiciel a été déposé à l’Agence pour la Protection des Programmes (APP). Il a fait l’objet de plusieurs transferts industriels avec notamment :

les sociétés PurpleLabs et France Telecom R&D pour être intégré à des méthodes de saisie d’écriture (input method) des Smartphones (cf. Figure 1 et section II.2.5) ;

la société Thales avionics pour la reconnaissance de caractères tracés sur l’écran d’un prototype de cockpit d’avion innovant (cf. section II.2.5) ;

la société Evodia pour le développement du logiciel ludo-éducatif « Toutaki3 » sur l’apprentissage de l’écriture.

Nous avons ensuite travaillé à la mise au point d’un système de reconnaissance de mots manuscrits, dans un contexte de grand vocabulaire, « ResilMotLsv4 ». Ces travaux se sont articulés autour de la thèse de Sabine Carbonnel [Carbonnel'05] et ont été effectués en colla-boration avec France Telecom R&D (cf. section II.3).

Aujourd’hui nos dernières recherches portent sur la problématique de la reconnaissance de phrases manuscrites, en intégrant notamment des modèles de langage (cf. section II.4). C’est le sujet de la thèse de Solen Quiniou [Quiniou'07] pendant laquelle nous avons collabo-ré avec les équipes Texmex et Metiss de l’IRISA, pour respectivement aborder les notions de modélisation du langage et les techniques issues de la reconnaissance de la parole.

Tous ces travaux de recherche s’inscrivent dans une même continuité. Ils seront déve-

3 cf. http://www.evodia.fr/toutaki.php 4 Lsv : large size vocabulary


loppés dans le Chapitre II de ce document.

I.3.2.2 Reconnaissance des formes : classification, rejet et adaptation (cf. Chapitre III)

Mots clés : classification, fusion de classifieurs, modélisation générative/discriminante, arbres de décision flous, rejet, adaptation, synthèse de caractères manuscrits.

Parallèlement à ces recherches centrées sur l’écriture manuscrite, nous avons voulu consoli-der nos approches de reconnaissance de formes en effectuant des travaux plus fondamentaux sur la classification et l’apprentissage.

Le premier objectif a été de généraliser l’approche de ResifCar initialement conçue pour la reconnaissance des caractères manuscrits « latins ». L’idée était de concevoir un système de reconnaissance plus générique capable d’appréhender la reconnaissance d’autres formes manuscrites : symboles graphiques, formes géométriques, symboles musicaux et plus ré-cemment caractères chinois et indiens. Ces travaux ont notamment abouti au système de reconnaissance Mélidis conçu pendant la thèse de Nicolas Ragot [Ragot'03]. Il repose sur une modélisation mixte générative/discriminante sur deux niveaux, formalisés respectivement par des systèmes d'inférence floue et des arbres de décision flous (cf. section III.2).

Dans ce même axe, nous avons étudié la capacité d’un système de classification à estimer la qualité de son résultat à travers la notion de rejet (cf. section III.3). Ces travaux ont été réali-sés pendant la thèse d’Harold Mouchère [Mouchère'07]. L’idée sous-tendue par ces re-cherches est de fiabiliser les réponses d’un classifieur, en délimitant ses connaissances.

L’objectif est, d’une part, de « crédibiliser » les résultats de reconnaissance pour les utilisa-teurs. En effet, le retour d’expérience des transferts industriels a montré que l’utilisateur réa-git beaucoup mieux à l’absence de réponse du système plutôt qu’à une réponse erronée et incohérente. En effet, dans les applications de reconnaissance « en-ligne », il est très déstabili-sant pour l’utilisateur que le système lui donne une réponse incohérente à la reconnaissance de son tracé. Il est largement préférable que le système ne lui propose aucune réponse de reconnaissance et efface directement le tracé de l’utilisateur, lui signifiant ainsi qu’il n’a pas reconnu son tracé. L’utilisateur pourra alors recommencer directement le dessin ou l’écriture de son tracé.

D’autre part, la notion de rejet permet d’élaborer des stratégies efficaces de combinaison de plusieurs systèmes de reconnaissance collaborant au sein d’applications de plus haut ni-veau. Par exemple, le fait qu’un classifieur soit capable de juger de ses limites de reconnais-sance est un atout important pour mettre en place des cascades de classifieurs ou encore pour optimiser des mécanismes de prises de décision basés sur des votes.

Enfin, nous avons récemment travaillé à la fin de la thèse d’Harold Mouchère, sur les stratégies d’adaptation de classifieurs (cf. section III.4). L’objectif est ici de dépasser les limites

Figure 1 : Exemple de téléphone commercialisé, embarquant ResifCar.


souvent affichées par les systèmes de reconnaissance d’écriture et d’arriver à une reconnais-sance quasi optimale (proche des 100%). Pour cela, la stratégie sur laquelle nous travaillons est d’adapter « à la volée » le système de reconnaissance à son utilisateur. Cela sous-entend que cette adaptation soit rapide et peu gourmande en puissance de calcul et en place mé-moire, pour pouvoir être embarquée dans des assistants personnels de type Smartphone. L’objectif est de partir d’un système de reconnaissance omni-scripteur performant et de l’adapter ensuite automatiquement et progressivement à l’utilisateur final, pour arriver à en décliner un système mono-scripteur aux performances optimales. Une partie de ces travaux s’est effectuée en collaboration avec l’équipe Cordial de l’Irisa, notamment pour construire des approches de synthèse de caractères manuscrits artificiels afin d’accélérer le processus d’adaptation.

L’ensemble de ces travaux seront présentés dans le Chapitre III.

I.3.2.3 Interaction homme-document : reconnaissance à la volée de documents structurés (cf. Chapitre IV)

Mots clés : interaction orientée stylo, interaction homme-document, reconnaissance de gestes graphiques, gestion du contexte, langage visuel, méthode de saisie, composition de documents, édition de schémas.

Les retours de nos transferts industriels de nos logiciels de reconnaissance d’écriture dans les méthodes de saisie des Smartphones et PDA ont montré l’importance que pouvait avoir l’interaction avec l’utilisateur, aussi bien au niveau de l’efficacité que de l’acceptabilité par l’utilisateur du système de reconnaissance. Nous avons donc étendu nos recherches à la con-ception de méthodes de saisie innovantes. L’objectif est de réfléchir à de nouveaux usages en mettant en avant tout le potentiel d’une interaction stylo associant la reconnaissance d’écriture et la reconnaissance de gestes graphiques5.

Ces travaux de recherche, associés à la thèse de François Bouteruche6, ont été menés en collaboration avec le laboratoire CRPCC de psychologie expérimentale de l’Université de Rennes 2 et le soutien de France Telecom R&D. Ils ont porté sur la reconnaissance de gestes graphiques et la conception d’une nouvelle méthode de saisie nommée Digime. Celle-ci a été couplée au moteur de reconnaissance ResifCar pour être embarquée sur des assistants per-sonnels de type PDA et Smartphones (cf. section IV.2).

Dans ces travaux nous avons cherché à mettre en avant la complémentarité des informa-tions intrinsèques à la forme et des informations de contexte spatial, pour les combiner afin d’optimiser la reconnaissance des gestes graphiques. Par ailleurs, les méthodes d’évaluation de la psychologie expérimentale apportées par le CRPCC nous ont permis d’évaluer les impacts de cette nouvelle méthode de saisie, quantitativement et en vraie grandeur. Elles ont notam-ment mis en évidence le fossé qu’il y avait entre une évaluation en vraie grandeur et une évaluation classique d’un système de reconnaissance sur des benchmarks de bases d’écriture.

Le Chapitre IV se concentre ensuite sur la présentation de la nouvelle orientation de nos recherches vers la conception d’applications de plus haut niveau, pour la composition de do-cuments complets à main levée. Les avancés technologiques récentes dans le domaine des ordinateurs tablettes (TabletPC, UMPC, etc.) offrent une mobilité informatique jusqu’alors jamais atteinte : faible encombrement, bonnes autonomie et puissance de calcul, poids réduit et lisibilité en condition extérieure. Les industriels s’équipent avec ces solutions qui ouvrent de nombreuses perspectives en termes de gain de productivité. L’idée est notamment d’éviter aux personnels sur le terrain une resaisie a posteriori des notes récoltées à l’extérieur (rapports, annotations, schémas, croquis). Cette phase de resaisie est particulière-ment fastidieuse, coûteuse en temps et souvent source d’erreurs.

J’ai ouvert ce nouvel axe de recherche dans l’équipe IMADOC il y a maintenant quatre

5 Tracés manuscrits effectués pour signifier des actions ou commandes (sélection, suppression, accentuation, …) 6 Thèse de François Bouteruche, Modélisation des formes et de leur contexte par arbres de décision flous pour les IHM Stylo. Thèse

de l’INSA de Rennes débutée en octobre 2004, soutenance prévue en mars 2009.


ans. Nous nous sommes focalisés plus particulièrement sur la problématique de la reconnais-sance « à la volée » de documents structurés. L’idée est d’obtenir automatiquement un do-cument retranscrit au propre à partir de sa composition manuscrite sur des ordinateurs ta-blettes. Ces travaux sont liés à la thèse récente de Sébastien Macé [Macé'08] (cf. section IV.3).

L’originalité de l’approche repose sur deux notions : l’interprétation à la volée des tracés manuscrits, c'est-à-dire au fur et à mesure de la

composition du document. L’utilisateur est impliqué dans le processus d’interprétation pour valider implicitement ou corriger immédiatement l’interprétation de ses tracés manuscrits proposée par le système ;

la conception d’un système générique et flexible basé sur la définition d’une grammaire visuelle permettant d’exprimer les règles de composition du document.

Ces recherches ont conduit à la définition du formalisme DALI (cf. section IV.3) qui est basé sur la théorie des grammaires et langages visuels et plus précisément sur une extension des grammaires de multi-ensembles à contraintes (Constraint Multiset Grammars, CMG) [Chok et al.'03, Marriott.'94]. Les CMG sont une extension bidimensionnelle des grammaires clas-siques. Elles permettent la modélisation d’éléments qui ne sont plus agencés selon une rela-tion directe de séquentialité. Nous avons étendu ce formalisme pour modéliser les conven-tions de composition du document, c’est-à-dire la manière avec laquelle le document peut être dessiné. Le processus d’analyse est de nature prédictive. Il exploite le couplage d’une vision globale contextuelle du document (on détermine quels symboles peuvent exister là où les éléments analysés se situent) avec une vision locale morphologique des éléments analysés (on détermine alors si ces éléments forment effectivement un de ces symboles). Nous avons aussi étendu les CMG afin de prendre en compte la nature manuscrite des éléments et facili-ter ainsi leur reconnaissance.

La généricité de l’approche a permis de développer différents éditeurs de documents structurés, basés sur une interaction stylo : éditeurs de partitions musicales, de graphes, de diagrammes ou encore éditeur de schémas électriques. Soulignons que le logiciel issu de la technologie DALI a été déposé à l’APP (Agence pour la Protection des Programmes). Cette technologie a récemment fait l’objet d’un transfert industriel avec la société Evodia qui l’a exploitée pour réaliser le logiciel d’édition de schémas électriques Script&Go sur TabletPC (cf. Figure 2). Une centaine de licences de ce logiciel ont déjà été commercialisées dans l’industrie7.

Le Chapitre IV sera consacré à ces travaux récents qui illustrent la nouvelle orientation de mes recherches, vers la conception d’applications de plus haut niveau autour de l’interaction homme-document.

7 Cf. vidéo de démonstration : http://www.evodia.fr/scriptandgo.php


Figure 2 : Logiciel Script&Go « schéma électrique » basé sur la technologie DALI.

Chapitre II RECONNAISSANCE EN-LIGNE D’ECRITURE

MANUSCRITE : DU SIGNAL AUX MODELES LINGUISTIQUES

Contexte

― Période des travaux : ▫ 1997 à 2008

― Thèses associées : ▫ Carbonnel [Carbonnel'05] Quiniou [Quiniou'07]

― Collaborations Académiques : ▫ Laboratoire de psychologie expérimentale (CRPCC), Équipes Texmex et Metiss de l’IRISA

― Collaborations Industrielles : ▫ Sensei, PurpleLabs, France Télécom R&D, Thales, Evodia.

― Transferts industriels : ▫ Technologie ResifCar et ResifMot

― Publications : ▫ 1 revue int. (IJPRAI), 2 revues nat. (TS, I3), 3 chapitres de livre, 15 conf. internationales, 11 conf. Nationales

II.1 INTRODUCTION

La nature spécifique du signal en-ligne a engendré une recherche bien identifiée dans la communauté de la reconnaissance de l’écriture. Cependant, rappelons que si l’on fait abstrac-tion du traitement bas niveau du signal et des contextes applicatifs bien différentiables entre la reconnaissance en-ligne et hors-ligne de l’écriture, on peut souvent mettre en parallèle les recherches associées à ces deux domaines. Cela se vérifie dès que l’on aborde les probléma-tiques de la classification et de l’apprentissage, ou encore plus directement celle de l’intégration de connaissances linguistiques. À ce niveau, les stratégies peuvent être com-munes aux approches en-ligne et hors-ligne. La réflexion doit même être étendue à d’autres domaines de recherche tels que la reconnaissance de la parole ou encore le traitement auto-matique des langues. Ainsi, il est important de souligner que nos travaux ont été nourris par des collaborations avec ces domaines connexes de recherche.

Depuis 1994, nos recherches sur l’écriture manuscrite en-ligne ont suivi une progression logique selon un niveau croissant de difficultés. Elles s’inscrivent directement dans la conti-nuité de ma thèse [Anquetil'97], effectuée entre 1994 et 1997. Mes travaux de thèse ont donné


naissance aux premières versions des systèmes de reconnaissance de caractères isolés (Resif-Car) et de mots isolées (ResifMot).

Entre 1997 et 2003, les transferts et les collaborations industriels réalisés sur ces techno-logies nous ont amenés à repenser ces approches en cherchant à les optimiser. Dans un pre-mier temps, nous nous sommes concentrés sur les évolutions du système de reconnaissance de caractères isolés ResifCar (cf. section II.2).

Ensuite, dans la thèse de S. Carbonnel [Carbonnel'05], nous avons approfondi le pro-blème de la reconnaissance de mots isolés (ResifMot) en étudiant plus particulièrement la modélisation et l’apport des connaissances lexicales (cf. section II.3).

Nos travaux les plus récents sur l’écriture manuscrite concernent l’intégration de con-naissances linguistiques pour la reconnaissance de phrases. Ils ont été conduits à travers la thèse de S. Quiniou [Quiniou'07] (cf. section II.4).

En début de chacune de ces sections, nous dressons un rapide état de l’art dans le but de

bien situer nos principales contributions. Pour une vision plus exhaustive de l’état de l’art sur ce domaine de recherche, nous invitons le lecteur à consulter les articles de synthèse publiés sur ce sujet, notamment [Chaudhuri'06, Guyon et al.'97, Jaeger et al.'03, Liu et al.'04b, Lo-rette'96, Lorette'99, Plamondon et al.'00].

II.2 RECONNAISSANCE DE CARACTERES MANUSCRITS ISOLES : LE SYSTEME

RESIFCAR

Cette section commence par résumer les principaux concepts associés au système de recon-naissance de caractères manuscrits « en-ligne » ResifCar qui a été développé pendant ma thèse entre 1994 et 1997 [Anquetil'97]. Cela permettra de bien appréhender ensuite les re-cherches qui ont suivi (entre 1997 et 2007) sur l’optimisation de ce système. Ces travaux sont associés à plusieurs collaborations et transferts industriels opérés avec les sociétés Sensei, PurpleLabs, France Telecom et Thales.

II.2.1 Préambule

Les efforts de recherche sur la reconnaissance d’écriture manuscrite se sont concentrés, au départ, sur la reconnaissance de caractères et de mots isolés. C’est après plusieurs années de recherche qu’ont eu lieu les premières expériences de commercialisation de systèmes de re-connaissance de caractères isolés dans des produits destinés au « grand public ». Ces exploi-tations commerciales ont été lancées il y a un peu plus d’une dizaine d’années, pour déve-lopper des méthodes de saisie (« input method ») sur des assistants numériques personnels (PDA).

Parmi les plus célèbres, citons l’assistant personnel « Newton » d’Apple, commercialisé en 1993 et le système de reconnaissance de caractères manuscrits « Graffiti » de Palm, lancé en 1996. Le Newton était un concept très précurseur des nouveaux ordinateurs orientés stylo qui voient le jour aujourd’hui : les téléphones mobiles de nouvelle génération (Smartphone) et les ordinateurs tablettes (TabletPC ou UMPC8). Cependant, il fut un échec commercial, notamment à cause des trop basses performances initiales de son système de reconnaissance de caractères manuscrits. En effet, le système était basé sur un apprentissage incrémental de l’écriture du scripteur qui s’est très vite avéré particulièrement laborieux pour l’utilisateur. Apple a même fini par embarquer, dans les versions suivantes du Newton, le système « Graf-fiti » de Palm, moins ambitieux dans ses possibilités de reconnaissance mais, en contre partie, plus robuste.

Le système Graffiti a connu quant à lui un plus grand succès commercial à travers la

8 Ultra Mobile PC.

CHAP. II : RECONNAISSANCE EN-LIGNE D’ECRITURE MANUSCRITE : DU SIGNAL AUX MODELES LINGUISTIQUES 27

vente des assistants personnels : « les Palm ». Pourtant, le premier système Graffiti de Palm imposait de très grandes contraintes au scripteur pour lui garantir, en contre partie, des taux de reconnaissance satisfaisants : chaque caractère avait une forme manuscrite spécifique unique et prédéfinie qu’il fallait apprendre. De plus, les caractères devaient être tracés d’un seul tenant, c'est-à-dire sans lever de stylo. En d’autres termes, il fallait apprendre l’écriture du système Graffiti pour pouvoir saisir ses caractères. En fait, plusieurs expertises ont mon-tré que la plupart des utilisateurs d’assistants personnels ont recours au clavier virtuel plutôt qu’à la méthode de saisie Graffiti. Celui-ci s’avère être, en réalité, plus efficace que les sys-tèmes de reconnaissance de caractères manuscrits existants [Fleetwood et al.'02, Koltringer et al.'04, MacKenzie et al.'97, MacKenzie et al.'02, MacKenzie et al.'03, Sears et al.'02]. Les utilisa-teurs qui vont réellement exploiter la méthode de saisie Graffiti sur les Palm sont des « ex-perts ». Ils ne représenteront pas la majorité des utilisateurs et ceci même avec la seconde version de Graffiti qui est pourtant moins contraignante.

Ces deux exemples illustrent bien toute la difficulté des recherches menées dans ce do-maine. Le besoin existe et les applications potentielles sont nombreuses. Cependant, l’utilisateur revendique, à juste titre, un système de saisie efficace et fiable, sous peine de le rejeter immédiatement en faveur d’une saisie classique au clavier (même virtuel). Les « 90% » de taux de reconnaissance sur des caractères isolés que l’on pouvait atteindre à l’époque ne sont pas suffisants pour répondre aux attentes de l’utilisateur. Pour arriver à franchir ce pa-lier, la problématique se renforce et la reconnaissance de l’écriture manuscrite s’avère être un problème beaucoup plus complexe que prévu initialement. Pour que le système de recon-naissance d’écriture soit utilisable et utilisé, il faut qu’il soit performant au regard de son taux de reconnaissance. Mais ce n’est pas suffisant, il faut aussi qu’il soit fiable et cohérent dans ses réponses et qu’il impose le moins de contraintes possibles au scripteur.

À l’époque où l’on a initié nos travaux sur ce sujet, la recherche devait encore progresser dans ce domaine qui restait alors très ouvert. Plus récemment, de nouveaux moteurs de re-connaissance ont été proposés pour reconnaître des caractères manuscrits en essayant de relever ce challenge. On peut notamment citer les systèmes commerciaux proposant des mé-thodes de saisie comme Jot, Decuma OnSpot ou encore MyScript.

Aujourd’hui encore, le problème de la reconnaissance de caractères manuscrits n’est pas complètement résolu. Il doit être abordé de façon plus large, en intégrant les aspects « usages » afin que l’utilisateur soit remis au centre de la conception de ces nouvelles mé-thodes de saisie. C’est pourquoi, même si les recherches académiques sur les moteurs de reconnaissance de caractères isolés ont aujourd’hui diminué, elles se prolongent maintenant par des collaborations avec d’autres communautés comme celles de l’interaction homme-machine ou encore de la psychologie expérimentale (cf. Chapitre IV).

II.2.2 Positionnement de l’approche utilisée

On distingue classiquement deux grandes catégories d’approches pour aborder la reconnais-sance de caractères manuscrits [Jaeger et al.'03, Liu et al.'04b, Plamondon et al.'00] : les mé-thodes qualifiées de statistiques et celles basées sur une analyse structurelle des caractères.

Les approches statistiques considèrent le caractère d'un point de vue global. Générale-ment, elles en extraient un vecteur de caractéristiques, souvent de grande dimension. Puis, elles s’appuient sur des techniques de classification bien connues comme les réseaux de neu-rones (perceptrons multicouches (MLP) ou à fonctions à base radiale (RBFN)), les Séparateurs à Vastes Marges (SVM), les classifieurs à base de prototypes ou de type K plus proches voi-sins (Kppv), ou encore les classifieurs hybrides génératif/discriminant sur lesquels nous avons notamment travaillé (cf. section III.2). Soulignons aussi les techniques utilisées avec succès en reconnaissance du Chinois, qui sont basées sur la notion de fonction discriminante quadratique [Yang et al.'07].

Les approches structurelles sont axées sur une analyse fine de l’écriture afin d’en extraire des primitives élémentaires couplées à des règles de composition ou d’agencement spatial qui vont caractériser chaque classe à modéliser [Liu et al.'04b, Zheng et al.'97]. Ces approches


ont engendré une recherche importante sur les mécanismes associés à l’écriture manuscrite [Guyon et al.'98, Lorette et al.'96, McClelland et al.'81a, Plamondon et al.'06, Rumelhart et al.'86], aussi bien d’un point de vue production (écriture), que d’un point de vue interpréta-tion (lecture). Elles ont souvent l’avantage d’aboutir à des systèmes interprétables, qualifiés de « systèmes transparents » par opposition aux approches statistiques plus souvent associées à des « boîtes noires ». En effet, sur ces dernières, il est très difficile d’avoir une analyse a posteriori fine des connaissances modélisées.

Du point de vue des performances, les approches statistiques ont eu tendance à prendre le pas sur les approches structurelles. En effet, en exploitant la grande capacité d’apprentissage des moteurs de classification qu’elles mettent en œuvre, elles parviennent à faire face à la variabilité de l’écriture. En contrepartie, elles nécessitent souvent des bases d’apprentissage de taille très conséquente. Ceci peut s’avérer être un handicap important pour introduire des mécanismes d’optimisation basés sur une auto-adaptation ou sur une personnalisation, à la volée, du système ou encore du jeu de formes graphiques utilisées (cf. section III.4).

On trouve aussi un certain nombre d’approches, qualifiées d’hybrides statistique-structurelles, qui vont coupler, à différents degrés, les approches statistiques et structurelles. Ces approches hybrides font l'objet d'un intérêt croissant ces dernières années, notamment autour de la reconnaissance des caractères chinois [Dai et al.'07, Ota et al.'07]. Elles s'appuient généralement sur la structure du caractère pour le décomposer en primitives, tandis que ces primitives et leurs relations spatiales sont estimées selon des modèles plutôt probabilistes. En particulier, certains systèmes reposant sur des Modèles de Markov Cachés (MMC) appar-tiennent à cette catégorie. Dans cette même catégorie, citons encore des approches assez ré-centes basées sur des réseaux bayésiens [Cho et al.'03, Cho et al.'06].

Enfin, on peut citer d’autres techniques classiques reposant sur de la programmation dynamique comme « l’elastic matching », encore appelé « Dynamic Time Wrapping » (DTW) [Mitoma et al.'05, Niels'04, Niels et al.'05, Sridha et al.'06]. De façon plus anecdotique, d’autres techniques s’appuient sur une représentation du tracé manuscrit par des courbes paramé-triques pour en extraire des invariants géométriques [Berthilsson'00].

Pour concevoir notre système de reconnaissance de caractères latins « ResifCar », nous

avons cherché à développer une approche originale de nature hybride statistique9 -structurelle. Pour cela, nous avons mis en place un processus de modélisation, reposant sur la théorie des sous-ensembles flous, qui est guidé par une expertise fine de la structure des ca-ractères manuscrits. En effet, nous tenions à conserver une analyse structurelle de l’écriture pour :

profiter des connaissances a priori associées à l’écriture : ossature des lettres latines, zones fondamentales dans les tracés manuscrits [Anquetil et al.'97a] , points d’ancrage visuels [Lorette et al.'96] ... ;

maintenir une modélisation suffisamment explicite permettant de garder la maîtrise des connaissances modélisées [Anquetil et al.'96b].

L’objectif de la section suivante est de synthétiser l’esprit de ces travaux, débutés pen-dant ma thèse, et sur lesquels nos recherches se sont ensuite basées. Aussi, pour compléter cette synthèse, j’invite le lecteur à se reporter aux publications associées à ma thèse [Anquetil et al.'96a, Anquetil et al.'96b, Anquetil et al.'96c, Anquetil et al.'96d, Anquetil'97, Anquetil et al.'97a, Anquetil et al.'97b, Lorette et al.'96]. Dans les sections II.2.4 et II.2.5 nous soulignerons alors les avancées majeures réalisées ces cinq dernières années qui ont notamment été portées par des collaborations et par des transferts industriels sur le système ResifCar.

9 On fait référence ici à la dénomination généralement utilisée en reconnaissance des formes pour différencier globalement les approches « structurelles » et non structurelles, qualifiées de « statistiques ».


II.2.3 Principe du système de reconnaissance de caractères manuscrits ResifCar

Mes travaux sur la reconnaissance en-ligne de caractères manuscrits isolés ont abouti à la conception du système de reconnaissance ResifCar. Son originalité est, d’une part, de s’appuyer sur la théorie des sous-ensembles flous et des Systèmes d’Inférence Floue (SIF) [Bouchon-Meunier'95, Zadeh'65] pour sa modélisation et son processus de décision et, d’autre part, de se baser sur une représentation hiérarchique structurelle des connaissances selon leur robustesse. Le système de reconnaissance ResifCar est donc une approche hybride mixant une classifica-tion de nature « statistique », avec une modélisation structurelle des caractères.

La hiérarchisation des connaissances repose sur une analyse a priori des lettres manus-crites « latines » selon trois niveaux de représentation (cf. Figure 3).

Le premier niveau modélise l’ossature du caractère. Cette information, très stable au re-gard des styles d’écritures, est basée sur les traits descendants, c'est-à-dire tracés de bas en haut. Plusieurs éléments ont étayé cette hypothèse de stabilité de ces zones. Autrefois, ces zones correspondaient aux pleins de l’écriture. Leur trait était plus marqué car ces portions de tracés étaient considérés comme très significatives. De plus, étant donné les contraintes « mécaniques » de l’écriture, les tracés effectués en tirant (tracés descendants) sont beaucoup plus précis et stables que ceux effectués en poussant. Il est donc assez naturel que ces zones soient associées aux informations les plus pertinentes de nos caractères. Ce premier niveau de représentation n’est cependant pas suffisant pour discriminer tous les caractères mais il permet d’avoir de bons points d’ancrage pour développer une analyse structurelle plus fine des tracés manuscrits.

Le second niveau affine la modélisation du premier niveau. Il a pour objectif de caractéri-ser la morphologie du tracé manuscrit englobant chaque trait descendant appartenant à l’ossature identifiée au premier niveau.

Le troisième et dernier niveau modélise enfin les portions de tracés associées aux zones de liaison inter ou intra caractères.

Remarquons que même si ces trois niveaux de représentation sont liés à l’étude des ca-ractères latins, de récentes expérimentations sur les caractères indiens et chinois [Delaye et al.'08a] nous laissent penser que cette représentation pourrait être adaptée à d’autres types de caractères.

Les deux sections suivantes présentent respectivement la modélisation automatique dé-veloppée sur chaque classe de caractère et le mécanisme d’interprétation mis en œuvre dans le moteur de reconnaissance ResifCar.

Figure 3 : Les trois niveaux de représentation du tracé d’un caractère.


II.2.3.1 Modélisation et apprentissage

L’objectif de cette phase d’apprentissage est d’extraire et de modéliser automatiquement les portions de tracés des caractères manuscrits correspondants aux parties les plus informantes, c'est-à-dire les plus stables ou encore les plus indépendantes du style du scripteur, pour chaque niveau de représentation.

La méthodologie générale utilisée pour modéliser une classe de caractères se décompose en trois étapes principales.

La première étape est une segmentation physique du tracé. Afin d’extraire automatiquement les traits élémentaires du tracé, nous nous sommes basés sur des points d’ancrages visuels qui vont servir de guide à la segmentation explicite du tracé manuscrit. Ces points d’ancrage sont détectés à partir des points singuliers ou catastrophes tels que les points anguleux, les points de rebroussement et les points d’intersections [Lorette et al.'96]. On opère alors une segmentation multiple et systématique du tracé en un ensemble de traits élémentaires qui sont non exclusifs et qui constituent une base d’hypothèses de segmentation (cf. Figure 4).

La seconde étape va permettre de modéliser une segmentation logique du tracé. Son objectif est de mettre en évidence les propriétés stables communes à l’ensemble des allographes10 d’un même caractère, c'est-à-dire celles qui caractérisent les formes typiques du caractère parmi l’ensemble des hypothèses de la segmentation physique du tracé. Chaque trait élémen-taire est caractérisé par un vecteur d’attributs réels qui recouvrent des notions de courbure, de positions relatives, etc. Afin de qualifier au mieux chaque trait élémentaire par rapport au contexte de modélisation dans lequel il se situe, ces attributs varient de par leur nombre et leur nature selon le niveau de représentation (L1, L2, L3).

La modélisation est basée sur la classification non supervisée de type possibiliste [Krish-napuram'93, Krishnapuram et al.'93, Krishnapuram'94, Krishnapuram et al.'94]. En appliquant cette classification de façon intrinsèque sur chaque classe de traits (nœud de l’arbre de repré-sentation) hiérarchiquement sur chaque niveau, les « prototypes11 » obtenus représentent chaque propriété stable détectée dans l’espace des attributs choisis. La Figure 5 illustre, dans un espace à deux dimensions, la modélisation des prototypes au second niveau (L2).

Selon les différentes variantes de ResifCar, la dimension des espaces associés à chaque niveau de représentation varie entre quatre et dix attributs. Ainsi, les propriétés les plus « ty-piques » de l’espace des représentations sont extraites en associant à chaque prototype une

10 Allographes : différentes formes d’un même caractère souvent associées au style d’écriture. 11 Le terme « prototype » recouvre, dans nos travaux, la notion de région de l’espace de représentation formalisée par une

fonction d’appartenance à base radiale hyper-ellipsoïdale définie par un centre et une matrice de covariance.

Figure 4 : Première étape : segmentation physique du tracé en traits élémentaires.

Points d’ancrage visuel : x, □, ∆


fonction d’appartenance formalisée par un centre et une matrice de covariance. La dernière étape correspond à la formalisation explicite des classes par des règles floues.

Chaque classe de caractère est modélisée par une règle floue regroupant les trois niveaux de représentation. La prémisse d’une règle correspond soit directement à une conjonction des prototypes des différents niveaux de représentation, soit à une projection de ceux-ci sur cha-cun des axes associés aux attributs (cf. Figure 6). La première modélisation est plus précise et donc plus performante mais elle comprend aussi plus de paramètres. En effet, dans ce cas les prototypes flous sont définis par une fonction d’appartenance qui correspond à une fonction à base radiale hyper-ellipsoïdale dont la forme est donnée par une matrice de covariance (cf. section II.2.5.3). Il faut, par conséquent, pouvoir stocker l’ensemble de ces matrices de covariance.

La seconde modélisation, basée sur une projection, permet de réduire considérablement le nombre de paramètres, tout en étant plus explicite. Nous verrons par la suite que ces deux déclinaisons de règles ont été utilisées selon les contraintes de l’application.

Pour la version projetée, une formalisation symbolique des règles, s’écrit de la façon sui-vante :

rk : Si ( (( 1L1x est 1Lk,

11m et...et 1Lrx est 1Lk,

1rm ) et/ou ( 1L1x est 1Lk,

21m et...et 1Lrx est 1Lk,

2rm ) et/ou...)

et (( 2L1x est 2Lk,

11m et...et 2Lsx est 2Lk,

1sm ) et/ou ( 2L1x est 2Lk,

21m et...et 2Lsx est 2Lk,

2sm ) et/ou...)

et (( 3L1x est 3Lk,

11m et...et 3Ltx est 3Lk,

1tm ) et/ou ( 3L1x est 3Lk,

21m et...et 3Ltx est 3Lk,

2tm ) et/ou...)

)

Alors le caractère inconnu appartient à la classe ck et pas aux autres classes,

où :

― rk est la règle caractérisant la classe de caractère ck vis-à-vis des trois niveaux de représentation (L1, L2, L3) ;

― ( jL1x , ..., jL

rx ) est le vecteur d’entrée associé au niveau de représentation Lj ;

Figure 5: De la segmentation physique à la modélisation logique hiérarchique d’une classe de caractère.

(b) classification non supervisée possibiliste

(a) Segmentation physique

(c) modélisation logique hiérar-chique des prototypes de traits

… …

…

Modèle "a"

Niveau L1

Niveau L2

Niveau L3


― ( jLk,1m , ..., jLk,

rm ) sont les fonctions d’appartenance correspondant à la projection du prototype

jLk,P (indicé par α) sur chacun des attributs jL

x (indicés par β).

Le nombre de prototype jLk,P extraits pour chaque niveau Lj est estimé automatiquement à partir de

la classification possibiliste.

II.2.3.2 Analyse et reconnaissance

Les n règles floues rk générées à partir des classes ck sont agrégées dans un système d’inférence floue (SIF) de type Takagi-Sugeno [Takagi et al.'85] composant ainsi le processus de décision. L’inférence floue peut être évaluée de différentes façons [Bouchon-Meunier'95] ; ici, nous nous sommes basés sur une inférence de type « somme – produit » définie par :

n

i

i

n

i

kii

ky

1

1'

avec )'(

,,

, Lj

Lj

Ljkk xm

, (1)

où y’k est la mesure d’adéquation du modèle k avec le caractère inconnu, ik le symbole de Kronecker liant la sortie i à la règle rk, et k la valeur d’activation de rk. k est calculée par la

conjonction de type « produit » de tous les degrés d’appartenance des entrées jLx aux fonc-

tions d’appartenances jLk,m . En cas de disjonction correspondant à plusieurs variantes de

prototypes, l’opérateur de disjonction max est utilisé. Cette phase permet d’établir la mesure de vraisemblance qui estime l’adéquation de la forme avec chaque modèle de caractères. Elle correspond à ce que l’on appelle une défuzzification, c'est-à-dire le passage d’une évaluation « qualitative » (estimation floue induite par les sous ensembles flous) à une évaluation « nu-mérique » (mesure de vraisemblance).

Soulignons que ce processus de décision opère une segmentation logique qui est person-nalisée par chacun des modèles de caractère. Chaque modèle de caractère opère une sélection des traits élémentaires dans la forme inconnue pour ne considérer que les plus pertinents lors de l’estimation de sa mesure d’adéquation (cf. Figure 7).

Figure 6 : Illustration en 2 dimensions d’une projection de prototypes.

2Lk,12m

2Lk,11m

2Lk,1P


II.2.4 Optimisation du processus de décision

Les travaux de recherche sur ResifCar qui ont suivi ont été motivés d’une part, par des trans-ferts industriels (cf. section II.2.5) et, d’autre part, par l’extension à la reconnaissance de mots (cf. section II.3) et de phrases (cf. section II.4). Pour cela nous avons cherché à optimiser Re-sifCar, tant sur le plan des temps de calcul et de son encombrement mémoire que sur ses performances en termes de taux de reconnaissance.

La Figure 7 représente le processus classique de décision explicité dans la section II.2.3. Chaque classe de caractère est modélisée par une règle floue synthétisant l’ensemble des connaissances associées aux trois niveaux de représentation. L’ensemble des modèles est donc mis en compétition pour chaque forme à reconnaître. Par conséquent, le temps de re-connaissance est directement induit par le nombre de modèles mis en concurrence.

C’est pourquoi, pour accélérer le processus de reconnaissance, nous proposons d’opérer une sélection progressive et dynamique des modèles au fur et à mesure du processus de dé-cision. Pour cela, nous nous appuyons sur la hiérarchie des trois niveaux de représentation [Anquetil et al.'02]. La stratégie de sélection des N-meilleurs modèles s’opèrent niveau par niveau, selon la règle de calcul suivante (cf. Figure 8) :

Modèle j sélectionné si sLi

kLi

nkjL

)max( ,

,1,1

, (2)

où Li, k est l’activation associée au niveau de représentation (Li) de la règle rk (classe k) et SLi est le seuil de sélection fixé expérimentalement. Cette présélection a lieu séquentiellement sur les deux premiers niveaux de représentation L1 et L2. Elle est très efficace puisqu’elle permet d’élaguer en moyenne plus de 70% des modèles en compétition. Le processus de décision final met en compétition les modèles restants en intégrant les résultats intermédiaires des trois niveaux de représentation (cf. section II.2.3.2).

Cette stratégie permet non seulement d’offrir une gestion optimisée des temps de calcul et de la mémoire à allouer, mais aussi d’augmenter sensiblement les performances globales du processus de décision. En effet, en diminuant très fortement le nombre de modèles en compétition, le mécanisme de décision est plus robuste.

Le mécanisme de décision a aussi été optimisé en pondérant, par apprentissage, le rôle de chaque prototype vis-à-vis de chaque classe et ceci de façon transversale aux trois niveaux

Figure 7 : Processus « classique » de décision.

Mise en concurrence de tous les modèles

Forme à

identifier

Segmentation

Physique

Fusion / inférence floue

Segmentation logique adaptée à chaque modèle

L1

L2

L3

Classes

identifiées

… / Modèle "a"

…

…

Modèle "b"

…

Modèle "c"


de représentation. L’apprentissage de ces poids peut être très simplement effectué par une optimisation classique au sens des moindres carrés.

Il est important de souligner que même si cette dernière optimisation apporte un gain in-téressant en termes de taux de reconnaissance (de l’ordre de 2 à 3% de taux de reconnais-sance en plus), elle a un léger coût en termes de place mémoire correspondant au stockage des poids.

II.2.5 Transfert industriel et perspectives

ResifCar a été transféré à quatre sociétés : PurpleLabs en 2001, France Telecom R&D en 2003, Evodia en 2006 et Thales en 2007. À chaque fois, les objectifs de ces transferts étaient distincts, ce qui a permis d’optimiser ce moteur de reconnaissance sous différents angles. La modulari-té induite par la modélisation explicite structurelle-statistique formalisée par des SIF du sys-tème ResifCar a joué un rôle important dans ces transferts technologiques. Elle a permis d’optimiser de façon très ciblé le système en fonction des besoins. Les sections suivantes ré-sument les objectifs de ces transferts industriels, en insistant sur les aspects recherches qui en ont résulté.

II.2.5.1 Transfert avec la société Sensei et la société PurpleLabs

La société Anglaise Sensei, associée au groupe V-Tech, s’est intéressée à ResifCar pour le déve-loppement d’une méthode de saisie de caractères manuscrits sur téléphone mobile en 2000. Nous avons travaillé pendant un an avec cette société sur l’optimisation du code de ResifCar pour son portage sur téléphone mobile.

Cette société a été « refondue » dans une nouvelle société, établie en France : PurpleLabs. La société PurpleLabs offre, depuis 2001, des solutions complètes pour la conception de télé-phones mobiles de nouvelle génération (Smartphone). Nous avons établi un nouveau contrat en 2001 avec PurpleLabs pour finaliser l'embarquement du système ResifCar sur ce type de

Figure 8 : Processus de décision optimisé avec sélection progressive des modèles.

classe "a"

1er niveau de décision

+ Traits descendants

2nd niveau de décision

+ Contexte morphologique

Mécanisme de décision global

aux 3 niveaux

+ Traits descendants

+ Contexte morphologique

+ Liaisons

classe "b"

niveau L1

classe "u"

niveau L1

classe "z"

niveau L1

classe "a"

niveau L2

classe "n"

niveau L2

classe "u"

niveau L2

classe "a"

niveau L3

classe "u"

niveau L3

... ...

Modèles sélectionnés

Modèles sélectionnés

Forme

à identifier Segmentation

Physique niveau L1

Modèle "a"

…

…

Modèle "u"

…


téléphone mobile. Le challenge était de réussir ce portage dans des Smartphones ayant une puissance de calcul et des ressources mémoires réduites (cf. Figure 9 ) : processeur de type ARM7 TDMI cadencé à 13Mhz, avec 250Ko de mémoire disponible pour le moteur de recon-naissance.

La reconnaissance d’écriture cursive nécessite en général beaucoup de ressources maté-rielles, ce qui est un obstacle majeur pour le portage de beaucoup d’approches de reconnais-sance. Or, les nombreux travaux effectués en logique floue, notamment dans le domaine de la « commande » [Larsen'80, Mamdani'77], ont démontrés que les SIF sont particulièrement bien adaptés pour être portés vers des processeurs à faibles ressources. L’utilisation de SIF dans ResifCar est, par conséquent, un atout majeur pour envisager ce type de portage.

Plus précisément, l'optimisation de ResifCar a porté sur trois aspects : l’optimisation du processus de décision en s'appuyant sur la sélection progressive et

dynamique des modèles. C’est à l’occasion de ce transfert que nous avons conçu le processus de décision optimisé qui a été présenté en section II.2.4 ;

l’élaboration d'un jeu optimal de classes de caractères à reconnaître. Nous avons cher-ché un compromis entre les possibilités d’exploitation des ressources et la convivialité d’une écriture peu contrainte. Ainsi, nous avons souhaité aller vers une écriture cur-sive, multi-traits12 qui est la plus couramment utilisée en Europe. Remarquons que dans notre approche, chaque modèle étant appris indépendamment, il est très simple d’en ajouter ou d’en enlever pour mettre au point une application. Seuls les poids in-tervenant dans la version optimisée du moteur de reconnaissance sont à recalcu-ler globalement ;

l’optimisation du code proprement dit. Nous avons travaillé sur l’aspect calculatoire en essayer de limiter au maximum les opérations couteuses de multiplication, en tabu-lant des fonctions, etc.

Sur ce dernier point nous avons notamment décliné une version logarithmique du pro-

cessus de décision afin de minimiser l’utilisation des multiplications qui s’avèrent très cou-teuses en termes de temps de calcul. De plus, les fonctions d’appartenance floues ont été ta-bulées dans leur forme logarithmique et les vecteurs de caractéristiques ont été réduits à des entiers. L’inférence floue a ainsi pu être simplifiée de la façon suivante :

kky avec )(,,

, Lj

Lj

Ljkk xm

, (3)

où est la nouvelle mesure d’adéquation du modèle k avec le caractère à reconnaître, et la nouvelle valeur d’activation de la règle rk calculée par la sommation logarithmique des de-grés d’appartenance des vecteurs d’entrée, en exploitant la version tabulée des fonctions d’appartenance floues13 m .

Dans sa version embarquée, ResifCar offre la reconnaissance des 26 lettres minuscules cursives de l'alphabet latin, des chiffres et de certains symboles spéciaux (@, &, €...). Souli-gnons qu’avant son optimisation le système demandait en moyenne 11 secondes pour recon-naître un caractère sur ce type d’architecture. Après ce travail d'optimisation, le temps de reconnaissance moyen d'un caractère est de l'ordre de 0.5 seconde. Le système occupe alors moins de 40Ko en RAM pour 120Ko en ROM.

12 Multi-traits : signifie que le tracé peut-être fait en plusieurs traits séparés par des lever et des poser de crayon. 13 On remarquera qu’il n’y plus de normalisation de la mesure d’adéquation dans le processus de décision pour classer les

N-meilleurs modèles.

ky k


D’un point de vue performance brute, le système a été évalué sur plus de 300 scripteurs différents (200 utilisés en phase d'apprentissage et 100 autres en phase de test). Les taux de reconnaissance moyens obtenus par le système embarqué sont de l'ordre de 92% si l’on con-sidère le caractère reconnu en première position et de 97% en considérant qu’il est reconnu parmi les trois premières propositions.

Deux modèles de téléphones différents (cf. Figure 9) intégrant ResifCar ont été commer-cialisés en Europe, principalement en Italie, en Autriche et en Espagne. Par ailleurs, ce trans-fert a fait l’objet d’une publication commune avec la société PurpleLabs dans la conférence internationale ICPR en 2002 [Anquetil et al.'02].

En dehors de ces recherches sur l’optimisation du moteur en lui-même, cette collabora-tion nous a permis d’avoir un premier retour d’expérience sur les usages des méthodes de saisie d’écriture sur les périphériques mobiles de petite taille. C’est à cette époque que nous avons pris conscience que le moteur de reconnaissance ne suffisait pas à rendre utilisable la méthode de saisie : il restait une importante recherche à faire sur les modalités d’interaction stylo avec les méthodes de saisie proprement dites. Elles devaient vraiment être repensées et conçues avec notamment une réflexion sur les retours visuels des résultats de reconnaissance et sur l’intégration de véritables gestes graphiques d’édition. Ce volet de nos recherches sera développé dans le Chapitre IV.

II.2.5.2 Collaboration avec France Telecom R&D

La collaboration avec France Telecom R&D a débuté en 2003. Elle s’est inscrite dans un projet de France Telecom R&D ayant pour objectif le prototypage d’un téléphone mobile intégrant plusieurs technologies innovantes, dont le moteur de reconnaissance ResifCar. Pendant un an des efforts conjoints avec l’équipe R&D de France Telecom ont abouti à un premier maquet-tage de ce prototype. Malgré cela, ce projet n’a pas pu aboutir à une réalisation commerciale avec Orange. La collaboration s’est ensuite orientée sur la mise au point du système de recon-naissance de mots manuscrits (ResifMot) dans le cadre de la gestion de très grands vocabu-laires sur lequel nous reviendrons dans la section II.3 de ce chapitre.

Plus récemment, en septembre 2004, nous avons lancé une autre étude en collaboration avec France Telecom R&D sur la modélisation explicite du contexte en reconnaissance de formes, à travers la thèse de François Bouteruche14. Le contexte applicatif de cette thèse con-cerne notamment la mise au point de commandes graphiques gestuelles pour les interfaces de saisie orientées stylo sur des assistants personnels et des Smartphones. Ce travail a abouti à la conception de plusieurs prototypes de méthodes de saisie d’écriture en axant nos re-cherches sur les « usages ». Pour cela, nous nous sommes associés au laboratoire CRPCC de

14 Thèse de François Bouteruche, Modélisation des formes et de leur contexte par arbres de décision flous pour les IHM Stylo. Thèse de l’INSA de Rennes débutée en octobre 2004, soutenance prévue en mars 2009.

Figure 9 : Exemples de téléphones commercialisés embarquant ResifCar.


psychologie expérimentale de l’Université de Rennes 2, avec lequel nous collaborons depuis régulièrement sur ces projets depuis ces premiers travaux. Ces travaux sur la réalisation de méthodes de saisie d’écriture ont exploité le moteur de reconnaissance ResifCar ; ils seront présentés en détail dans le Chapitre IV.

II.2.5.3 Transfert industriel vers la société Thales via la société Evodia

Depuis que nous avons créé la société Evodia en octobre 2005 (cf. section I.2.4), nos transferts industriels se sont appuyés sur cette société innovante qui va servir de relais pour l’industrialisation des résultats de recherche. En ce qui concerne ResifCar, l’évolution rapide de l’informatique mobile au niveau des assistants personnels et des Smartphones (plus puis-sants et avec plus de mémoire), a permis de reconsidérer récemment une version « débridée » de la modélisation des SIF. Cela s’est formalisé par une version de ResifCar utilisant des règles floues basées sur :

des prototypes non projetés sur chacun des axes associés aux attributs ; des sorties pondérées permettant de mesurer plus finement l’impact de chaque proto-

type sur l’appartenance d’une forme à une classe. Les SIF sont toujours du type Takagi-Sugeno d’ordre 0. Chaque règle rk est composée

d’une prémisse et d’une conclusion. La prémisse correspond à une modélisation intrinsèque

d’une classe ou d’une partie d’une classe par un prototype flou rP défini dans l’espace des entrées E. La conclusion associe à chaque prototype son degré d’appartenance r

kS à chaque

classe k. Dans un problème à C classes, les règles s’écrivent donc :

rk : Si X est rP Alors rS1 = ra1 … et rkS = r

ka … et rcS = r

ca (4)

avec X la forme à reconnaître dans E et les rka des valeurs constantes (représentant la partici-

pation du prototype à la représentation des classes). Les prototypes flous rP sont définis par

une fonction d’appartenance )(Xrm d’une forme X au sous-ensemble flou correspondant. Cette fonction d’appartenance correspond à une fonction à base radiale hyper-ellipsoïdale de

centre cr et dont la forme est donnée par la matrice de covariance rQ . Le degré d’appartenance (degré d’activation du prototype) utilise une fonction de Cauchy avec la dis-

tance de Mahalanobis ),( rcXQd r :

. )r (X, cQ d

(X) rmr

1

1

(5)

Pour calculer un score sk de chacune des classes, l’inférence floue est évaluée sur l’ensemble des N règles par une inférence de type « somme – produit » définie par :

.

1

1

N

irm

N

i

rksrm

ks (6)

Cette équation montre que les prototypes participent, cette fois, à la reconnaissance de toutes les classes : plus un prototype est activé, plus il représente la classe et plus il va parti-


ciper au score global de la classe. Pendant cette période nous avons donc remis à jour cette version pour la rendre pleine-

ment opérationnelle en y intégrant toutes les dernières optimisations. Cette nouvelle version actualisée a été transférée à la société Evodia en octobre 2006. Elle

a alors fait l’objet d’une licence à la société Thales en janvier 2007. L’objectif de Thales est de développer un démonstrateur de cockpit innovant pour l’avionique. Ce concept permettra aux pilotes d’optimiser les « procédures avion » et en particulier l’acquisition des fréquences radio. L’idée, à terme, est de coupler un système de reconnaissance vocale à un système de reconnaissance de chiffres manuscrits en-ligne tracés sur un écran tactile. ResifCar a été rete-nu par Thales pour la mise au point de ce prototype afin d’assurer la reconnaissance en-ligne des chiffres manuscrits. Cette phase de prototypage a été prévue sur 18 mois.

Étant donné qu’il y avait moins de contraintes de puissance de calcul, le transfert a porté sur la version « débridée » du système ResifCar, pour offrir une reconnaissance en-ligne des chiffres manuscrits avec un taux de reconnaissance optimal et le minimum de contraintes pour les pilotes.

Les premiers tests de cette version « débridée » sur la reconnaissance de chiffres manus-crits ont montré certaines faiblesses du système ResifCar pour des écritures spécifiques de gauchers. En effet, le moteur de reconnaissance tient compte du sens du tracé. C’est pour-quoi, face à des écritures très atypiques de certains caractères, son comportement peut être instable. À l’occasion de ce contrat, nous avons donc travaillé sur une procédure originale d’analyse automatique du sens du tracé des chiffres manuscrits afin de le rendre canonique.

Les résultats obtenus n’ont pas encore été publiés, mais on peut déjà reporter ici quelques expérimentations (cf. Tableau 1). Pour ces premiers tests nous avons utilisés deux bases : la première (B1) est une base de chiffres (20665 chiffres) extraite des bases Unipen [Guyon et al.'94] et Ironoff [Viard-Gaudin et al.'99]. B1 est par conséquent constituée de très nombreux scripteurs qui sont majoritairement droitiers. La seconde base (B2), beaucoup plus petite (1150 chiffres), est uniquement constituée de chiffres écrits par des scripteurs gauchers ayant une écriture très atypique ou dégradée. Vingt-six scripteurs gauchers ont participé à la constitution de la base B2.

On constate, dans le Tableau 1, que la version initiale de ResifCar(V5.0) obtenait de bons résultats sur la base B1 mais ses résultats étaient beaucoup plus décevants sur la base B2. En intégrant le nouveau mécanisme permettant d’analyser le sens du tracé, nous avons pu amé-liorer très sensiblement les résultats de ResifCar(V5.1b) avec une diminution du taux d’erreur de 9.5% sur B1 et de 48,7% sur B2.

Tableau 1 : Taux de reconnaissance omni-scripteurs sur des chiffres isolés à partir d’une base « classique » B1 et « gaucher-atypique » B2.

Bases

de test

Nombre

de tracés

Taux de reconnaissance

RESIFCar V5.0

Taux de reconnaissance

RESIFCar V5.1b

Diminution

du taux d'erreurs

B1 20665 95,80% 96,20% -9,52%

B2 1150 87,90% 93,80% -48,76%

Nous sommes maintenant rentrés dans une phase expérimentale en vraie grandeur,

c'est-à-dire avec des pilotes de ligne, dans un contexte réel d’utilisation. Les premiers retours de ces expérimentations en vraie grandeur sont très positifs. Les pilotes ont particulièrement apprécié la robustesse de la reconnaissance de ResifCar. Les perspectives sont aujourd’hui de mesurer la complémentarité d’une saisie multimodale couplant « parole » et « écriture ».


II.3 RECONNAISSANCE DE MOTS ISOLES : RESIFMOT

Le système ResifMot est basé sur une reconnaissance analytique des mots manuscrits repo-sant sur le moteur de reconnaissance de lettres ResifCar. Après avoir établi les principes de ce système de reconnaissance de mots isolés à la fin de ma thèse, les principales avancées ont eu lieu pendant la thèse de Sabine Carbonnel [Carbonnel'05]. Ces travaux sont associés à une collaboration avec France Telecom R&D sur la période allant de 2002 à 2006. Pendant cette pé-riode, nous nous sommes concentrés sur le post-traitement lexical pour la gestion de grands vocabulaires.

II.3.1 Approches pour la reconnaissance de mots manuscrits

Si l’on regarde les problématiques associées à la reconnaissance de l’écriture, la reconnais-sance des mots manuscrits est assez naturellement l’étape qui suit celle de la reconnaissance des caractères isolés. Pour aborder la reconnaissance des mots, deux problèmes majeurs viennent s’ajouter :

le couplage entre le processus de segmentation et celui de reconnaissance des mots ; l’intégration de connaissances linguistiques de nature lexicale.

L’ensemble des approches développées pour la reconnaissance de mots manuscrits va devoir faire face à ces deux points. C’est pourquoi, elles sont très souvent catégorisées par rapport aux stratégies mises en œuvre pour les surmonter.

Une approche qui peut sembler naturelle pour aborder la reconnaissance de mots est d’essayer de reconnaître les lettres qui les composent. On segmente le tracé du mot en lettres, pour ensuite reconnaître chacune de ces lettres. Or, avec cette démarche, survient très vite la difficulté de produire, a priori, la segmentation en lettres du mot sans connaitre les lettres qui le composent puisque celui-ci n’est pas encore reconnu. On arrive alors à devoir surmonter le paradoxe de Sayre [Sayre'73] mettant en évidence l’interdépendance des problématiques de reconnaissance et de segmentation. Du point de vue de la segmentation, on distingue le plus souvent trois grandes catégories d’approches [Casey et al.'96, Lu et al.'96, Tay et al.'01a] : les approches globales, les approches analytiques avec segmentation implicite et enfin les ap-proches analytiques avec segmentation explicite.

II.3.1.1 Approches globales

Les approches globales [Govindaraju et al.'96, Madhvanath et al.'01] cherchent à s’abstraire du problème de la segmentation en considérant le mot comme une entité à part entière à recon-naître. On cherche donc à caractériser le mot dans sa forme globale, ce qui implique de modé-liser spécifiquement chaque mot du lexique afin de pouvoir le classer. Ces approches sont, par conséquent, limitées à des lexiques fermés de petite taille. Elles s’appliquent à des con-textes de reconnaissance particuliers, comme par exemple la reconnaissance du montant des chèques où le vocabulaire est très réduit [Kim et al.'97b]. Il est important de souligner que ces approches sont aussi souvent utilisées en complément des approches analytiques pour lever des ambigüités ou encore pour réduire le lexique [Madhvanath et al.'97]. En effet, la forme globale d’un mot, caractérisée par exemple par sa taille, sa silhouette, etc., est une informa-tion particulièrement intéressante pour réduire le champ de recherche dans un lexique de grande taille. Nous exploiterons cette complémentarité dans notre approche pour la recon-naissance de mots en contexte de grands lexiques (cf. section II.3.3).

Les approches globales ont recours à plusieurs types de modélisations [Kim et al.'97b, Madhvanath et al.'01, Shridhar et al.'97b]. On retrouve des modélisations qui sont aussi utili-sées dans les approches analytiques évoquées ensuite. La différence étant qu’ici, l’unité élé-mentaire de modélisation reste le mot. Notons les modélisations statistiques basées sur les Modèles de Markov Cachés (MMC), qui vont définir un MMC global pour chaque mot du lexique. On trouve aussi souvent des approches de programmation dynamique basées sur l’appariement de chaînes « Dynamic programming matching ».


II.3.1.2 Approches analytiques avec segmentation implicite

Pour se détacher du problème complexe de la segmentation du mot en lettres, une stratégie consiste à élaborer une segmentation systématique et triviale du mot en entités élémentaires. On obtient ainsi une séquence de « trames » correspondant à une sur-segmentation systéma-tique du mot. Le problème de segmentation est alors reporté au niveau du processus de re-connaissance qui va opérer une segmentation implicite du mot, en essayant d’aligner ces modèles de lettres. Ces approches émanent directement des recherches effectuées en recon-naissance de la parole. Elles s’appuient le plus souvent sur les MMCs, particulièrement bien adaptés à la reconnaissance de séquences à longueur variable [Rabiner'89]. Elles sont, par conséquent, bien éprouvées, aussi bien du point de vue théorique, en s’appuyant sur des modèles stochastiques bien connus, que du point de vue algorithmique puisqu’il existe des algorithmes « standards » pour les phases d’apprentissage (Baum-Welch) et de reconnaissance (Viterbi).

Le principe est de modéliser des MMC pour chaque classe de caractères en y associant éventuellement des modèles de liaisons inter-lettres. Ces modèles sont ensuite concaténés pour former les modèles de mots. Il est alors possible d’évaluer la vraisemblance que la sé-quence de trames à reconnaître ait été produite par chacun des modèles de mot. On en déduit ainsi un classement de ces mots. Cette approche analytique permet d’appréhender la recon-naissance de mots dans le contexte de lexiques de grande taille puisque la modélisation s’effectue au niveau d’un alphabet limité associé aux caractères. Cette approche est à la base de nombreux travaux dans le domaine de la reconnaissance de mots manuscrits [Cho et al.'95, Farouz et al.'99, Günter et al.'04, Kundu et al.'98, Mohamed et al.'96].

D’autres procédés de reconnaissance peuvent s’appliquer à cette approche. On peut citer notamment les travaux menés sur les TDNN (Time Delay Neural Network) [Caillault'05, Caillault et al.'05, Manke et al.'95, Poisson et al.'02a, Poisson et al.'02b, Schenkel et al.'94] dont le principe de convolution permet de gérer la cohérence dans la séquence des trames. Les ap-proches basées sur des réseaux récurrents [Senior et al.'98] sont aussi une autre alternative, tout comme certains systèmes hybrides de type neuro-markovien [Bengio et al.'95, Garcia-Salicetti'95, Garcia-Salicetti et al.'95, Gilloux et al.'95, Wimmer et al.'97] où le plus souvent le modèle neuronal va modéliser les lettres et le MMC va garantir la cohérence de la segmenta-tion en effectuant l’alignement au niveau du mot.

II.3.1.3 Approches analytiques avec segmentation explicite

Cette dernière grande catégorie d’approches considère qu’il est intéressant de profiter de connaissances a priori sur l’écriture pour élaborer une stratégie de segmentation plus raffinée qu’une sur-segmentation systématique en trames du mot. Ainsi, même si la segmentation a priori du mot en lettres est très complexe, il est possible d’élaborer une analyse morpholo-gique du mot permettant de localiser des hypothèses vraisemblables de points de segmenta-tion, en s’appuyant sur des connaissances a priori sur l’écriture. L’idée est donc d’extraire directement du tracé des graphèmes susceptibles de s’apparenter à des lettres.

Ces stratégies sont donc basées sur une phase de segmentation explicite qui va aboutir à un graphe d’hypothèses de segmentation qui peut être assez complexe [Guyon et al.'97]. La difficulté de cette phase de segmentation explicite est de ne pas oublier de points de segmen-tation, tout en limitant la combinatoire engendrée par ces hypothèses. Autrement dit, l’objectif est de guider le plus efficacement possible le processus de reconnaissance sans prendre de décisions trop hâtives sur le choix de ces hypothèses.

Plusieurs techniques de segmentation explicite ont été explorées [Casey et al.'96, Shridhar et al.'97a]. Elles sont basées sur une analyse morphologique du tracé et par conséquent, elles sont liées à la nature du signal (en-ligne/hors-ligne) et aux informations a priori disponibles sur l’écriture sur lesquelles elles vont s’appuyer. Ces techniques peuvent donc être relative-ment complexes et nécessitent d’avoir une bonne expertise du signal « écrit » pour être à la fois robustes et pertinentes. Dans tous les cas, elles cherchent à identifier des indices visuels dans l’image ou dans le signal en-ligne, lesquels vont permettre de localiser les hypothèses de


graphèmes dans le mot. On trouve notamment des techniques de segmentation basées sur les contours [El-

Yacoubi et al.'99, Gader et al.'97, Kim et al.'97a] ou sur la morphologie mathématique [Chen et al.'95]. D’autres approches s’appuient sur la notion de singularité et de régularité, que l’on trouve dans le traitement hors-ligne de l’écriture [Pettier'94, Simon et al.'89, Simon et al.'92], ou encore sur l’extraction de points d’ancrage visuel (singularités) [Lorette et al.'96].

Associée à ces méthodes de segmentation explicite, l’architecture du système de recon-naissance est très souvent basée sur le couplage d’un classifieur dédié à la reconnaissance des lettres et d’un modèle d’exploration du treillis de segmentation, basé sur de la programma-tion dynamique [Nosary'02, Nosary et al.'04]. Les architectures peuvent donc être assez proches de celles utilisées pour les approches de segmentation implicite. On retrouve ainsi des approches basées sur les MMC [El-Yacoubi et al.'99] ou encore des approches hybrides neuro-markoviennes [Tay et al.'01b] pour lesquelles le réseau de neurones va s’attacher à la reconnaissances des lettres et le MMC va formaliser l’exploration du graphe de segmentation explicite.

II.3.1.4 Autres approches : les approches cognitives

Il existe d’autres approches moins explorées, comme les approches cognitives sur lesquelles nous avons notamment travaillé à travers la thèse de Laurent Pasquer [Pasquer'00]. L’intérêt majeur de ces approches est de proposer un formalisme pour fusionner les différentes sources de connaissances de façon progressive, sans prendre de décision dure à chaque cycle d’interprétation. Ces approches sont inspirées des travaux effectués en psychologie cognitive dans le domaine de la lecture. Le modèle le plus connu est le modèle d’activation interactive présenté par McClelland et Rumelhart [McClelland et al.'81b, Rumelhart et al.'86]. Il cherche à mettre en évidence l’importance du contexte du mot pour la reconnaissance des lettres et plus généralement le fort couplage qu’il y a entre les différents niveaux de perception d’une forme structurée et de ses sous-éléments. Ce modèle est basé sur une modélisation de type réseau de neurones hiérarchique qui est associée à une description structurelle des formes : formesous-forme…primitives. C’est sur ce principe que M. Côté [Côté'97, Côté et al.'98] et L. Pasquer [Pasquer et al.'99, Pasquer et al.'00, Pasquer et al.'03] ont conçu leur système de reconnaissance de mots.

Le système proposé par L. Pasquer est composé de quatre niveaux de représentation s’attachant à décrire tous les mots du lexique sous la forme suivante : motsbigrammes de lettresbigrammes de modèlesmodèles de lettres. Le processus de décision est basé sur la fusion des différentes sources d’informations associées à chacun des niveaux de représenta-tion. Cette fusion se déroule de façon itérative, sous la forme de cycles perceptifs successifs, qui vont chercher à rendre cohérent l’ensemble de ces connaissances. Les cycles perceptifs consis-tent en une succession de trois processus qui se répètent :

un processus ascendant qui est une génération d’hypothèses de plus haut niveau en propa-geant l’information des sous-formes vers les formes qui les contiennent. Cette propaga-tion correspond à une stratégie ascendante reposant sur la génération d’hypothèses de-puis les informations de bas niveau (primitives) vers les niveaux supérieurs (mots) ;

un processus descendant qui propage les informations des niveaux les plus élevés vers les niveaux inférieurs également selon un processus d'activation ou d’inhibition des sous-formes composant une forme. Cette propagation correspond à une vérification des hypothèses de bas niveau ;

un processus de relaxation à l'intérieur de chaque niveau qui augmente les activations des informations compatibles entre elles et qui accroît les inhibitions des informations incompatibles (mécanisme de perception en contexte).

Ces mécanismes d'activation, d'inhibition et de fusion de connaissances servent à gérer

la cohérence de l'ensemble des informations disponibles, chacune d'elle étant placée en con-texte.


Ces approches sont, d’un point de vue théorique, particulièrement intéressantes car elles tentent de répondre, autour d’un même formalisme, aux différents points clés de la recon-naissance analytique de mots : interprétation en contexte, fusion progressive de l’information, modélisation structurée et explicite des connaissances, coopération des diffé-rents niveaux de représentation. Mais, même si les premiers résultats obtenus par ses travaux ont été très encourageants, la mise en œuvre de ces systèmes s’est avérée relativement lourde et complexe dès que l’on veut aborder des lexiques de taille importante.

II.3.2 Système de reconnaissance en-ligne de mots manuscrits : ResifMot

II.3.2.1 Objectif et positionnement de l’approche utilisée dans ResifMot

La base de notre réflexion pour appréhender la reconnaissance des mots a été la même que celle utilisée pour la reconnaissance des caractères manuscrits : essayer d’avoir la modélisa-tion la plus « transparente » possible pour en garder la maîtrise. L’objectif sous-jacent est no-tamment de pouvoir injecter des connaissances bien identifiées sur l’écriture manuscrite lors des phases les plus adéquates du processus d’analyse et de décision. Par ailleurs, étant don-né que nous souhaitons adresser la reconnaissance de mots pour de grands vocabulaires, nous avons écarté les approches purement globales pour nous orienter vers une approche analy-tique.

La force des approches analytiques avec segmentation implicite vient de leur capacité d’apprentissage qui évite la conception d’un mécanisme complexe de segmentation a priori. En contrepartie, cette force constitue aussi, de notre point de vue, une faiblesse puisqu’elle engendre souvent une modélisation et un processus de décision plutôt opaque. Celui-ci est par conséquent, difficile à interpréter finement. Il est alors complexe d’injecter et de fusionner d’autres connaissances explicites au sein de ce processus de décision. C’est pourquoi, même si ces approches peuvent s’avérer très efficaces, la compréhension des erreurs persistantes est très limitée. De plus, elles sont souvent très gourmandes en données d’apprentissage, et par conséquent, le système produit est difficile à optimiser sans avoir recours à un nouvel ap-prentissage complet. Ces approches ne sont, par conséquent, pas les mieux indiquées pour aborder la conception de systèmes personnalisables et auto-évolutifs. Or, nous verrons dans le Chapitre III, que la capacité d’adaptation au scripteur est un point faisant partie des re-cherches que nous pensons être parmi les plus prometteuses sur la reconnaissance d’écriture.

Les approches analytiques avec segmentation explicite sont, quant à elles, relativement complexes à mettre en œuvre car elles doivent coupler explicitement le processus de segmen-tation du mot en lettres avec le moteur de reconnaissance de lettres. Il est important de sou-ligner que ce couplage va induire un processus de décision qui devra gérer et fusionner des informations de natures parfois très différentes : résultats du classifieur sur les lettres, infor-mation de cohérence spatiale inter-lettres (disposition relative des lettres les unes par rapport aux autres) et intégration de connaissances linguistiques (bigramme, trigramme de lettres, dictionnaire de mots...). De plus, le mécanisme de segmentation produira vraisemblablement plusieurs hypothèses de lettres ou pseudo-lettres agencées au sein d’un treillis de segmenta-tion qui peut être relativement complexe. Les mots formés par les chemins engendrés par ce treillis de segmentation n’auront pas forcément la même taille (nombre de lettres différents induits par une sur- ou sous-segmentation). Il est donc indispensable de réfléchir aussi à une fusion homogène et normalisée des données sur ces chemins, afin de produire un classement final robuste.

Ces dernières approches offrent, en contrepartie, un point de vue structurel de la recon-naissance de l’écriture qui permet d’envisager un système ouvert et explicite, concordant avec nos attentes. Enfin, nous avions à notre disposition le système de reconnaissance de caractères isolés ResifCar sur lequel nous pouvions nous appuyer. Notre choix s’est donc orienté vers une approche analytique avec segmentation explicite pour développer le sys-tème de reconnaissance de mots manuscrits ResifMot.


II.3.2.2 Principe du système de reconnaissance de mots ResifMot

On retrouve, dans ResifMot, les trois phases communes à la plupart des systèmes basés sur une approche analytique avec segmentation explicite :

la première phase est une analyse physique du tracé pour opérer la segmentation du mot en hypothèses de lettres ou pseudo-lettres organisées au sein d’un treillis de segmenta-tion. Elle comprend aussi une analyse de la silhouette du mot en estimant le corps du mot et les limites des zones des hampes ou jambages supérieurs et inférieurs ainsi que les signes diacritiques potentiels ;

la seconde phase consiste en l’évaluation de la vraisemblance des hypothèses de lettres à l’aide d’un moteur de reconnaissance, ici ResifCar ;

la dernière phase gère l’analyse logique du mot en explorant les chemins du treillis. Ils sont classés selon le résultat de la fusion des informations associées aux vraisem-blances des hypothèses de lettres et à la cohérence spatiale inter-lettres (positionne-ment et taille).

L’intégration des connaissances linguistiques est un point fondamental dans la concep-

tion d’un système de reconnaissance d’écriture. Pour ResifMot, nous avons intégré des con-naissances lexicales à deux niveaux du processus de reconnaissance [Carbonnel'05] :

au niveau de l'analyse logique, pendant le processus de fusion de l’information, en injec-tant des connaissances statistiques issues d'un lexique et formalisées par un modèle de langage à base de n-grammes de caractères ;

en post-traitement, en mettant en œuvre une phase de correction lexicale des proposi-tions de reconnaissance. Ce post-traitement lexical est basé sur une distance d'édition spécifique apprise et adaptée à l'écriture manuscrite.

II.3.2.3 Principales contributions

Nous reviendrons en détail sur l’intégration de ces connaissances linguistiques dans la sec-tion II.3.3. Nous nous focalisons ici sur les solutions que nous avons élaborées pour ResifMot, en réponse aux problèmes des approches analytiques avec segmentation explicite évoqués dans la section précédente. En ce qui concerne les aspects de reconnaissance purement morpholo-gique, deux concepts que nous avons synthétisés ci-dessous vont caractériser nos contribu-tions principales sur la reconnaissance des mots.

(i) Stratégie de segmentation explicite en 3 niveaux de représentation basée sur les traits descendants

La segmentation explicite s’articule autour des traits descendants15 fondamentaux qui repré-sentent les structures fondamentales de l’écriture et qui ont été identifiées dans le premier niveau de modélisation de ResifCar (cf. section II.2.3). Elle est qualifiée de segmentation « phy-sique » puisqu’elle se base uniquement sur une analyse « brute » du tracé sans faire intervenir le moteur de reconnaissance de lettres. Les traits descendants fondamentaux servent, d’une part, d’éléments d’ancrage dans la stratégie de segmentation et ils garantiront, d’autre part, la cohérence globale en tant qu’éléments de synchronisation pour l’ensemble des hypothèses de segmentation.

Les lettres étant structurées en catégories qui comportent un (c, e...), deux (a, b...) ou trois (m, w...) traits descendants fondamentaux, le treillis de segmentation sera construit sur trois niveaux de représentation associés aux trois catégories de structures des lettres. La Figure 10 illustre le mécanisme de segmentation « physique » selon les trois niveaux de représentation. La Figure 11 représente le treillis de segmentation qui en découle.

Contrairement à de nombreuses approches de segmentation, nous ne cherchons pas à positionner directement les points de segmentation. En s’appuyant sur les traits descendants

15 C’est-à-dire, tracés de bas en haut (cf. Figure 3).


fondamentaux, la stratégie consiste, dans un premier temps, à localiser les hypothèses de lettres dans le mot, grâce à leur structure. La portion de tracé inter-lettre en est alors déduite pour finalement émettre un ou plusieurs points de segmentation potentiels. Remarquons que cette analyse profite des informations contenues dans le signal en-ligne, en tenant compte de l’ordre et du sens du tracé. Elle ne peut donc pas être directement appliquée pour de la seg-mentation hors-ligne.

Il est important de souligner, non seulement, la robustesse qui ressort de ce mécanisme de segmentation mais aussi la limitation de la combinatoire engendrée par les sur- ou sous- segmentations induites. On remarquera aussi l’homogénéité des chemins du treillis qui est garantie par l’ossature formée par les traits descendants fondamentaux. Tous les chemins du treillis ont exactement le même nombre de traits descendants fondamentaux, quel que soit le nombre de lettres qu’ils intègrent. C’est un point important, sur lequel nous reviendrons dans le paragraphe qui suit, pour comparer les vraisemblances des différents chemins et pouvoir les interclasser de façon cohérente.

Figure 10 : Exemple de segmentation physique du mot « simple ».

Figure 11 :Treillis de segmentation du mot « simple » [Carbonnel'05].

s j

...

niveau 1

niveau 2

niveau 3

... ri

... w m

e ... l

e ... l

pj

hypothèses de segmentation selon des allographes possédant 1 trait

niveau 1

niveau 2 hypothèses de segmentation selon des allographes possédant 2 traits

niveau 3 hypothèses de segmentation selon des allographes possédant 3 traits

traits descendantsfondamentaux


(ii) Analyse logique et fusion des connaissances basées sur la logique floue

Commençons par souligner le fait que, dès que l’on s’éloigne d’une formalisation purement statistique (MMC), les problèmes de fusion d’informations vont intervenir. C’est pourquoi nous avons souhaité aborder ici le problème de la fusion d’informations en donnant quelques éléments relatifs au système ResifMot. La fusion d’informations constitue souvent un élé-ment très sensible et relativement délicat à mettre au point dans un système de reconnais-sance. Pourtant, pour les systèmes de reconnaissance d’écriture, ces aspects sont assez peu développés dans les articles. Or, nous pensons qu’il est fondamental d’essayer de justifier au maximum les choix qui sont faits en termes de fusion d’informations [Bloch'95, Bloch'03, Bloch et al.'03].

Pour intégrer le résultat de la reconnaissance des lettres ou pseudo-lettres dans le clas-sement des chemins du treillis, on pourrait se limiter à utiliser la mesure de vraisemblance au niveau lettre en la fusionnant avec les informations de cohérence spatiale inter-lettres et les connaissances statistiques issues du modèle de langage à base de n-grammes de caractères. Sans aller davantage dans les détails, cette fusion a posteriori des connaissances engendre souvent des problèmes de cohérence puisque chaque chemin ne va pas contenir le même nombre de lettres. Par conséquent, cela nécessitera de normaliser le résultat de cette fusion en fonction du nombre d’hypothèses de lettres. Or, cette phase de normalisation n’est pas tri-viale à mettre en œuvre et constitue un point déterminant dans les performances du système.

Pour contourner ce problème et renforcer cette étape de fusion d’informations, nous avons choisi de descendre au niveau des traits fondamentaux qui forment une ossature unique sur l’ensemble des chemins. En effet, la mesure de vraisemblance fournie par Resif-Car peut être explicitée vis-à-vis de chaque trait fondamental de l’ossature de la lettre. Le processus de fusion utilise donc directement les valeurs d’activation des prémisses des règles floues des modèles de ResifCar (cf. sections II.2.3.1 et II.2.3.2).

Ce mécanisme permet, de plus, de maintenir l’aspect qualitatif de l’évaluation le plus longtemps possible et évite par conséquent de prendre des décisions trop locales. L’étape de « défuzzification » s’opère au niveau du mot. Les informations de cohérence spatiale inter-lettres sont, elles aussi, modélisées par des règles floues en gardant un espace de représenta-tion homogène avec les informations spatiales intra-lettre modélisées dans ResifCar. Chaque chemin a, là aussi, une évaluation homogène en termes d’adéquation spatiale, si l’on fu-sionne les informations de cohérence spatiale inter- et intra-lettres.

Cette stratégie offre, par conséquent, un cadre vraiment intéressant pour opérer une fu-sion cohérente de l’ensemble des informations au niveau de la forme et du contexte spatial. Néanmoins, il reste à prendre en compte les informations de nature statistique du modèle n-gramme en ayant recours cette fois à une fusion d’informations de natures « hétérogènes ». Ici, nous avons eu recours, comme dans la plupart des approches, à une normalisation et à une pondération « empirique » de ces informations linguistiques, pour les intégrer au proces-sus de décision.

II.3.3 Post-traitement lexical pour la gestion de grands vocabulaires

II.3.3.1 Positionnement de l’approche utilisée

La modélisation et l'intégration de connaissances lexicales dans un système de reconnais-sance n'est pas un domaine de recherche nouveau. De nombreux travaux ont été consacrés à cette problématique [Perraud et al.'03, Pitrelli et al.'00, Seni et al.'96a, Xue et al.'02, Zimmer-mann et al.'04a, Zimmermann et al.'04b]. Ces approches ont souvent été guidées par les résul-tats obtenus dans le domaine de la reconnaissance de la parole [Goodman'01]. Dans le do-maine de l’écriture, ces travaux ont débuté en reconnaissance hors-ligne. Ils constituent clai-rement un élément clé dans la conception d’un système de reconnaissance de l’écriture. Ce problème a connu récemment un regain d’attention en reconnaissance en-ligne, notamment grâce à l'essor des ordinateurs tablettes dont la puissance permet d’envisager des traitements linguistiques plus coûteux. Les principes envisagés pour la reconnaissance en-ligne sont voi-


sins de ceux exploités en reconnaissance hors-ligne. Cependant, en reconnaissance en-ligne, l’interaction immédiate avec l’utilisateur nécessite des temps de réponse très courts. Par con-séquent, une attention particulière sera portée aux temps de calcul et à l’encombrement mé-moire pour faciliter l’embarquement sur assistant personnel, Smartphone ou encore ordina-teur tablette.

Nos travaux [Carbonnel'05] ont porté sur le problème de l’intégration de connaissances lexicales pour la reconnaissance de mots isolés en tenant compte des contraintes d’embarquement. Ce travail a été soutenu contractuellement par France Telecom R&D et les résultats obtenus ont été validés sur le système ResifMot. Cela a permis d’aboutir à un sys-tème capable de reconnaître des mots dans un contexte de grand vocabulaire (typiquement 20000 mots) tout en gardant une maîtrise sur la place mémoire et les temps de calcul induits.

Avant de synthétiser les principales contributions de ce travail, nous rappelons ici com-ment se positionnent les différentes approches qui ont traité ce problème. On distingue géné-ralement deux grands types de connaissances lexicales [Dengel et al.'97] : celles formalisées par un modèle de langage de caractères (n-grammes de caractères) qui représente une modéli-sation statistique des séquences de n lettres possibles dans les mots extraits d’un corpus de textes, et celles représentées directement par des lexiques ou des dictionnaires.

Dans le cadre de la reconnaissance de mots, les n-grammes de caractères sont souvent utili-sés pour épauler l’ordonnancement des hypothèses de mots pendant ou après le processus de reconnaissance. Si on se limite à ces connaissances, on obtient un système qui à l’avantage de ne pas être contraint par un lexique (vocabulaire ouvert). Ceci peut-être intéressant pour des applications où l’on n’a pas de lexique bien défini, comme pour la reconnaissance des patro-nymes par exemple. En contrepartie, ces approches obtiennent de moins bons résultats en termes de taux de reconnaissance que celles basées sur un lexique (approches à vocabulaires fermés).

Les approches basées sur un lexique se trouvent, quant à elles, confrontées au problème de la gestion de la taille du vocabulaire en termes de combinatoire engendrée, de rapidité d’accès ou encore d’encombrement mémoire. Pour faire face à ce problème, ces approches ont recours, d’une part, à une organisation spécifique du lexique (le plus souvent sous la forme d’arbres lexicaux) et, d’autre part, à des stratégies de réduction du dictionnaire qui peuvent être liées au contexte de la reconnaissance (chèques, adresses postales...) ou basées sur une analyse globale du mot (silhouette...).

Les systèmes de reconnaissance basés sur un lexique sont ensuite catégorisés en deux familles d’approches :

les systèmes dirigés par le lexique qui sont souvent associés aux approches de reconnais-sance basées sur une segmentation implicite (cf. section II.3.1). Le principe est d’utiliser les mots du vocabulaire pour guider l’analyse et la reconnaissance du mot à recon-naître [Koerich et al.'03] ;

les systèmes avec post-traitement lexical qui sont généralement utilisés dans les approches avec segmentation explicite (cf. section II.3.1). Ils cherchent à apparier la séquence de caractères résultant de l’exploration du treillis de segmentation du mot à reconnaître avec chacun des mots du dictionnaire. Par conséquent, cette stratégie repose sur l’utilisation d’une distance d’édition [Damerau'64, Levenshtein'66]. Son rôle est d’évaluer le niveau de correction à apporter pour compenser les erreurs de reconnais-sance au niveau lettre (substitutions) ou de sur- ou sous-segmentations du mot (inser-tions, suppressions). Soulignons que Seni, Kripasundar et Srihari [Seni et al.'96b] ont étendu la distance de Damereau et Levenshtein en spécialisant, d’une part, les coûts d’édition aux caractères manuscrits ; par exemple la confusion entre les caractères a et u sera moins coûteuse que la confusion entre a et t. D’autre part, pour compenser les erreurs de segmentation produites, trois types d’opérations ont été ajoutées : fusions, divisions et substitutions de paires de caractères.

Étant donné les caractéristiques du système de reconnaissance ResifMot et notre objectif


d’aborder le problème de la reconnaissance de mots dans le contexte de grands vocabulaires, nous avons orienté notre étude vers les stratégies d’intégration de connaissances lexicales en post-traitement, en se basant sur des lexiques fermés. Par ailleurs, nous nous situons toujours dans le contexte d’applications de reconnaissance en-ligne. Par conséquent, la prise en compte des contraintes physiques de place mémoire et de temps de calcul est un point im-portant de la mise en œuvre.

Plus précisément, nous avons cherché à : optimiser l’intégration des connaissances lexicales en combinant des connaissances

lexicales de nature statistique (n-grammes) au niveau du processus d’exploration du treillis avec un traitement a posteriori basé sur un lexique ;

réduire la combinatoire engendrée par l’exploitation de grands vocabulaires en étu-diant différentes stratégies de réduction et d’organisation du lexique. Nous avons no-tamment cherché à intégrer des informations globales [Madhvanath et al.'01] au mot qui sont à la fois robustes et orthogonales (et donc complémentaires) au processus ana-lytique de reconnaissance. Cela permet, en plus d'un fort degré de réduction du lexique, d’envisager une augmentation des taux de reconnaissance ;

apprendre automatiquement une distance d’édition en tenant compte des spécificités de l’écriture manuscrite. Cette contribution part des travaux sur la distance d’édition adaptée à l’écriture manuscrite de Seni, Kripasundar et Srihari [Seni et al.'96b] en cher-chant à automatiser complètement la définition de cette distance, plutôt que de la défi-nir empiriquement. Les traitements lexicaux sont ainsi automatiquement adaptables aux évolutions du système et à son contexte d'utilisation. L’originalité de l’approche repose sur l’utilisation de l’algorithme de Boosting [Schapire'99a, Schapire'99b] afin de se focaliser explicitement sur les erreurs du système de reconnaissance pour ajuster les paramètres (coûts d'édition) de la distance.

II.3.3.2 Principales contributions pour le post-traitement lexical

Le post-traitement lexical que nous avons mis en œuvre s’articule autour de trois étapes (cf. Figure 12).

Figure 12 : Intégration des connaissances lexicales dans la chaîne de traitement.

Analyse logique

mot 1 mot 2

mot m ... mot 3

reconnaissance résultats de

connaissances contextuelles

Reconnaissance pseudo-caractères

modèles de caractères

Analyse physique

signal en-ligne

du lexique réduction

distance d'édition

chaîne m ... chaîne 3

chaîne 1 chaîne 2

propositions de reconnaissance

Post-traitement lexical

correction lexicale

modèle de langage n-grammes de caractères

lexique modélisé

5

Étape2

Étape 3

Étape 1


(i) 1ère étape : modèle de langage de n-grammes de caractères

La première étape est assez classique puisqu’elle consiste à intégrer un modèle de langage de n-grammes de caractères lors de l'analyse logique, c’est-à-dire pendant l’exploration du treillis de segmentation. L'intérêt de cette étape est d'améliorer la cohérence lexicale des proposi-tions de reconnaissance. Celles-ci sont pondérées par le modèle de langage pour être ordon-nées en tenant compte à la fois de leur cohérence graphique et de leur cohérence lexicale. Les modèles bigrammes et trigrammes de caractères offrent le meilleur compromis entre l’augmentation de l’encombrement mémoire et la diminution du taux d’erreur.

Par exemple, sur une base de test significative16 de mots anglais, ils permettent de passer d’un taux de reconnaissance de 84,02% à 85,88% [Carbonnel'05]. Plus généralement, ils ap-portent une amélioration des performances de l’ordre de 5% à 12%, selon les bases de tests considérées et la configuration des modèle de langage utilisés [Carbonnel'05].

Ces propositions de reconnaissance (chaînes de caractères) constituent alors les données d’entrée du post-traitement lexical composant les étapes deux et trois. Ces deux étapes ont pour objectif de rechercher, dans un lexique, les mots les plus proches des propositions du système de reconnaissance, à l'aide d'une distance d'édition.

(ii) 2ème étape : réduction du lexique

La deuxième étape correspond à une réduction du lexique pour diminuer l'espace de re-cherche. Deux approches de réduction ont été proposées [Carbonnel et al.'04b] : la première est basée sur une classification directe des mots à partir de leurs silhouettes génériques17 et la deuxième porte sur une classification non supervisée, des mots à partir de leur représentation vectorielle18. Ces deux modélisations du lexique s'appuient sur des informations globales (signes diacritiques, nombre et position des traits descendants fondamentaux...) complémen-taires des informations analytiques du système. On obtient ainsi un fort degré de réduction tout en augmentant sensiblement le taux de reconnaissance. Les deux approches se révèlent complémentaires en termes de degré de réduction et d'encombrement mémoire.

La première induit un degré et une précision de réduction élevés mais une augmentation plus conséquente de l'encombrement mémoire. La qualité de réduction obtenue permet d’avoir un lexique réduit dont la taille est ramenée à seulement 5% de la taille du lexique complet.

Pour une précision de réduction similaire, la seconde approche obtient un degré de ré-duction plus faible de l’ordre de 13%, mais avec l’avantage d’avoir un encombrement mé-moire moins important : il est d’un facteur de 2,4 dans cette seconde approche, contre un facteur de 3 pour la réduction avec silhouettes génériques, ceci relativement à un lexique non réduit.

Soulignons enfin que, pour ces deux approches, le taux de reconnaissance est amélioré par rapport à un lexique non réduit. Ainsi, à titre d’exemple, dans le cas d’une reconnais-sance avec un lexique de 6000 mots, la modélisation par silhouettes génériques permet de dimi-nuer le taux d’erreur16 de 8% en top1 et de 25% en top10 ; et la modélisation par classification non supervisée permet de diminuer le taux d’erreur de 6% en top1 et de 18% en top10.

(iii) 3ème étape : apprentissage automatique d’une distance d’édition pour l’écriture manuscrite

La troisième étape constitue la principale contribution de ces travaux. Elle correspond à la correction lexicale des propositions de reconnaissance d'après le lexique réduit. Elle repose sur une distance d'édition spécifique à l'écriture manuscrite.

Devant la difficulté de mettre en place une distance d’édition bien adaptée à l’écriture

16 Base de 7000 mots isolés : 7 scripteurs ont écrit chacun 1000 mots différents (les plus courants de la langue anglaise). 17 Structure physique des mots compressée afin d’être plus stable : tous les traits proéminents sont représentés, mais plu-

sieurs traits médians successifs sont remplacés par un seul. 18 Vecteurs de caractéristiques à n dimensions, qui reposent sur des informations de la silhouette générale des mots :

nombre de traits descendants médians, proéminents (longs, ascendants, descendants)…


manuscrite et aux propriétés du système de reconnaissance [Carbonnel et al.'03], nous avons introduit un mécanisme original d'apprentissage automatique pour définir cette distance d’édition [Carbonnel et al.'04a]. Ce mécanisme est basé sur le principe du Boosting [Scha-pire'99b]. Il se focalise sur les erreurs du système de reconnaissance pour adapter en consé-quence les opérations et les coûts d'édition.

Les expérimentations menées montrent que la distance modélisée automatiquement donne de meilleurs résultats que des distances dont les paramètres sont définis empirique-ment. On obtient ainsi une diminution supplémentaire du taux d’erreur en « top10 » de 8% à 42% selon les bases considérées : on passe de 94,97% à 95,38% sur la première base16 et de 93,22% à 96,07% sur une seconde base19 [Carbonnel'05]. Ceci est particulièrement intéressant pour les traitements linguistiques de plus haut niveaux (reconnaissance de phrases) qui tra-vaillent souvent à partir d’une liste des n meilleurs propositions de mots. Cet apprentissage automatique de la distance rend, de plus, le système très facilement adaptable à différents contextes d'utilisation (mono, multi, omni-scripteurs ; changement de lexique, etc.) et aux évolutions du moteur de reconnaissance.

II.4 RECONNAISSANCE DE PHRASES MANUSCRITES EN-LIGNE

Ces travaux sur l’intégration de connaissances linguistiques se sont poursuivis avec la thèse de Solen Quiniou [Quiniou'07] de 2005 à 2007 en se focalisant sur la problématique de la re-connaissance de phrases manuscrites en-ligne. Ce nouveau champ de recherche constitue la dernière étape pour aboutir à la conception d’un système de reconnaissance d’écriture ma-nuscrite en-ligne capable d’analyser et de reconnaître des phrases manuscrites.

II.4.1 Positionnement de l’approche utilisée

Nos recherches sur la reconnaissance de phrases manuscrites se sont axées sur deux do-maines complémentaires :

― l’un proche du signal et qui a pour objectif la définition d’une méthode de segmentation de textes en mots ;

― l’autre davantage orienté sur le traitement du langage naturel et qui porte sur l’intégration de modèles de langage au niveau de la phrase, pour renforcer les résultats de la reconnaissance en s’appuyant sur le contexte des mots à reconnaître.

La considération simultanée de ces deux problématiques est une démarche qui nous est apparue essentielle pour concevoir un système de reconnaissance au niveau phrase qui soit robuste face notamment au relâchement des contraintes sur le style d’écriture.

À ce niveau d’exploitation de connaissances linguistiques, ils nous semblent indispen-sables de collaborer avec des experts à la fois du domaine du traitement automatique des langues et de la reconnaissance de la parole. Ces deux domaines sont, en effet, à la pointe des approches de modélisation des connaissances linguistiques [Goodman'01]. Deux chercheurs de l’IRISA nous ont donc épaulé dans cette recherche : Pascale Sébillot, de l’équipe TEXMEX (Techniques d’exploitation des données multimédia) et Guillaume Gravier, de l’équipe ME-TISS (Modélisation et expérimentation pour le traitement des informations et des signaux sonores).

Au niveau de la phrase, la modélisation des connaissances linguistiques peut être abor-dée selon deux approches principales. Si l’on utilise une terminologie calquée sur celle carac-térisant les approches de reconnaissance, on peut qualifier ces deux approches de « structu-relle » et « statistique ».

19 1000 mots, segmentés de 80 phrases différentes, écrites par 4 scripteurs distincts.


Dans l’approche structurelle, un modèle de langage s’exprime le plus souvent sous forme de règles qui formalisent une grammaire du langage. L’ensemble de ces règles définit les pos-sibilités d’association de mots, selon leurs catégories lexicales [Chomsky'57].

Dans l’approche statistique, la langue est représentée par les fréquences d’apparition de chacune des suites de mots pouvant être formées. Pour cela, de grands corpus, considérés comme représentatifs de la langue et de ces phénomènes, sont utilisés pour l’apprentissage des modèles de langage, par inférence statistique [Manning et al.'99].

Aujourd’hui les approches statistiques sont les plus utilisées dans le contexte de la re-connaissance de la parole et de l’écriture. Leur force est à la fois de pouvoir s’appuyer sur un apprentissage automatique des modèles, mais aussi sur une exploitation très souple au sein du processus de reconnaissance. De plus, en pratique, ces modèles de langage se révèlent particulièrement efficaces pour les problématiques de reconnaissance de phrases.

Soulignons néanmoins qu’il existe d’autres modèles de langage qui ont été explorés en reconnaissance de la parole et qui cherchent à associer à la fois des notions structurelles et statistiques, comme les grammaires probabilistes hors-contexte (Probabilist Context-Free Grammar) [Jurafsky et al.'95, Srihari et al.'97] ou encore des stratégies de combinaison de ces deux natures de modèles linguistiques [Hacioglu et al.'01a, Hacioglu et al.'01b, Zimmermann et al.'06].

Dans cette étude, nous sommes repartis, dans un premier temps, des approches ma-

jeures identifiées en reconnaissance de la parole, pour en proposer des modifications et des extensions adaptées aux spécificités de la reconnaissance d’écriture manuscrite. Nous avons donc commencé par étudier l’impact de différents modèles de langage statistiques (à base de n-grammes de mots ou à base de classes de mots), dans le système de reconnaissance de phrases [Quiniou et al.'05]. Puis nous avons combiné ces différents modèles, afin de tirer partie de leurs spécificités [Quiniou et al.'06]. Cela s’est traduit notamment par la recherche de la meilleure stratégie pour les intégrer au sein du processus de décision du système de recon-naissance de phrase, en tenant compte notamment de leur complexité respective.

Malgré l’apport considérable de ces modèles de langage, des erreurs de reconnaissance subsistent. Nous avons alors choisi, dans un second temps, de nous focaliser sur l’identification de ces erreurs afin de les mettre en évidence et si possible de les corriger en injectant, de façon dédiée, des mécanismes de décision complémentaires. Pour cela, nous avons mis en œuvre une représentation originale des hypothèses de phrases, sous la forme d’un réseau de confusion. Cette technique, issue de la reconnaissance automatique de la parole, permet de mettre en évidence les ambigüités sur les mots des hypothèses de phrases [Qui-niou et al.'07a, Quiniou et al.'08a]. Nous avons alors proposé une stratégie de correction, basée sur l’utilisation de classifieurs de type SVM, pour remettre en cause le résultat de la recon-naissance de ces mots identifiés comme ambigus[Quiniou et al.'08b].

Enfin, nous avons ajouté un mécanisme de rejet, basé lui aussi sur des classifieurs dédiés, pour cette fois rejeter les résultats de reconnaissance considérés comme potentiellement non corrects et qui n’ont pas pu être corrigés par l’étape précédente.

Les sections suivantes vont synthétiser ces recherches en reprenant le fil conducteur de cette étude et en commençant par résumer les principes que nous avons mis en place pour la l’extraction automatique des mots de la phrase.

II.4.2 Extraction à la volée des mots de la phrase

Dans le cadre de la reconnaissance en-ligne de l’écriture, nous avons cherché à mettre en place une approche de segmentation explicite en mots qui peut-être appliquée « à la volée », c'est-à-dire au fur et à mesure que l’utilisateur saisit sa phrase. Pour cela, nous avons utilisé une méthode basée sur la caractérisation des espaces entre les tracés, en s’inspirant notam-ment des travaux de Oudot et Liwicki [Liwicki et al.'06, Oudot'03, Oudot et al.'04b].


L’approche est basée sur une classification des espaces inter-traces de la phrase, à l’aide d’un classifieur de type RBFN. Il permet d’identifier les espaces de types inter-mots, intra-mots et inter-lignes. Pour absorber les variations de style d’écriture dans le calcul de distance et éviter à ce niveau tout pré-traitement spécifique du signal écrit, nous nous sommes basés sur les principes suivants (cf. Figure 13, [Quiniou et al.'07b]) :

l’ensemble des caractéristiques s’appuie uniquement sur un historique local corres-pondant à une fenêtre glissante des tracés précédemment écrits. Ceci permet l’extraction « à la volée » des mots de la phrase, c'est-à-dire au fur et à mesure de leur saisie ;

la distance inter-traces est estimée dans la zone couverte par les lignes de base (corps moyen) des mots sur la fenêtre glissante courante ;

les caractéristiques utilisées pour qualifier cette distance inter-traces sont normalisées par rapport à une estimation locale de la hauteur du corps des mots sur la fenêtre glis-sante considérée.

Le principal problème associé aux approches de segmentation explicite est la gestion de la combinatoire induite par les sur- et sous-segmentations générées. Pour y faire face, nous avons introduit une stratégie de reconsidération des espaces inter-traces en se basant sur des indices de confiance qualifiant la décision de segmentation [Quiniou et al.'07b]. Ces indices de confiance sont évalués sur la base de la différence relative entre les deux meilleurs scores des réponses du classifieur d’espaces inter-traces. Un seuil est appris automatiquement sur cet indice de confiance, en utilisant un rejet d’ambigüité (cf. section III.3.2, [Mouchère et al.'06a]). Cette stratégie permet d’ajouter des hypothèses d’extraction de mots, dans le graphe de mots, tout en contrôlant sa taille (cf. Figure 14).

Avec cette stratégie de segmentation explicite nous recouvrons 98,9% des bonnes seg-

mentations, tout en limitant la combinatoire puisque le nombre d’arcs est seulement multi-

Figure 13 : Estimation des espaces inter-traces.

Figure 14 : Hypothèses d’extraction de mots d’une phrase (arcs ajoutés en pointillé) [Quiniou'07].

Espace inter-traces

Fenêtre glissante &

lignes de base

associées


plié par deux [Quiniou et al.'07b].

II.4.3 Exploitation de modèles statistiques de langage

Notre premier objectif a été de trouver les modèles statistiques de langage permettant d’optimiser au mieux les performances pendant la phase de reconnaissance de phrases. Pour cela, nous avons étudié et comparé l’impact des modèles n-grammes et n-classes de mots.

Les modèles n-grammes sont basés sur les probabilités de séquences de n mots. Plus l’historique20 sera grand, plus le modèle sera potentiellement précis mais plus il y aura de paramètres à apprendre. Par conséquent, l’apprentissage devra faire appel à des corpus d’autant plus grands et représentatifs de la langue modélisée que n sera grand. En pratique, on se limite aujourd’hui souvent aux bigrammes (n = 2) et trigrammes (n = 3).

Pour limiter le nombre de paramètres tout en permettant éventuellement d’augmenter la taille de l’historique considéré, une stratégie consiste à regrouper les mots en classes, de telle façon que des mots appartenant à une même classe aient un comportement similaire du point de vue de la probabilité des séquences. On parle alors de modèles n-classes.

Il existe différentes variantes de modèles n-classes, dépendant notamment de la façon de regrouper les mots. Nous avons exploré deux types de modèle n-classes : un modèle de classes morpho-syntaxiques (POS, Part Of Speech) et un modèle de classes statistiques.

Le modèle POS est basé sur des classes prédéfinies [Manning et al.'99, Niesler'97]. Les classes correspondent aux catégories morpho-syntaxiques des mots, c’est-à-dire leurs catégo-ries grammaticales, telles que « nom », « verbe », etc.

Le modèle de n-classes statistiques repose, quant à lui, sur une construction automatique des classes. Le regroupement se fait à l’aide d’un critère de similarité statistique à maximiser. Les méthodes d’apprentissage utilisées sont le plus souvent basées sur des approches itéra-tives [Brown et al.'92, Martin et al.'98, Ney et al.'94]. Bien que reposant sur une approche sta-tistique, ce type de modèle exprime des connaissances syntaxiques. De plus, ces modèles à base de classes statistiques, construites automatiquement, se révèlent généralement plus per-formants que les modèles basés sur des classes prédéfinies.

Pour intégrer ces modèles de langage dans le processus de reconnaissance de phrases, nous avons utilisé l’approche classique MAP (Maximum a posteriori), qui cherche à maximiser la probabilité a posteriori de la phrase résultat.

Nos expérimentations ont portées sur le corpus de Brown (46 836 phrases ; 900 109 mots), avec un lexique de 13 748 mots. Nous avons utilisé une base d’apprentissage de 517 phrases (8 047 mots) écrits par 25 scripteurs pour l’optimisation des paramètres du système et une base de test de 425 phrases (6 362 mots) écrits par 17 scripteurs. Les meilleurs com-promis en termes de taille du modèle de langage et de taux de reconnaissance ont été obtenus avec les modèles biclasses statistiques (1000 classes). On atteint le même taux de 86,5 % qu’avec les modèles bigrammes, tout en ayant 2 fois moins de paramètres. Ces modèles de langage permettent ainsi de diminuer de 53 % le taux d’erreur. On passe de 71,4 % à 86,5 % de taux de reconnaissance.

II.4.4 Combinaison des modèles de langage

Les modèles n-classes sont particulièrement compacts. De plus, ils permettent de considérer des historiques plus importants. Par conséquent, ils offrent l’accès à une information com-plémentaire aux modèles bigrammes et trigrammes. C’est pourquoi, nous avons exploré la possibilité de combiner ces deux types de modèle de langage au sein du processus de recon-naissance.

La stratégie que nous avons mise au point, part de l’idée d’utiliser un modèle de langage d’ordre n < 3 au sein du processus de reconnaissance pour trouver les M-meilleures hypo-thèses de phrases. Ceci permet d’opérer une exploration en profondeur des hypothèses de

20 L'historique correspond aux n-1 mots précédant le mot courant.


phrase avec une combinatoire raisonnable. Nous exploitons ensuite un autre modèle de lan-gage d’ordre n > 3 pour réordonner ces hypothèses de phrases pendant une étape de post-traitement. Cette deuxième étape se limite à ne reconsidérer qu’un sous ensemble réduit d’hypothèses de phrases et, par conséquent, un modèle de langage plus complexe et donc plus coûteux en termes de temps de calcul et d’espace mémoire, peut être utilisé. À la fin de ces deux étapes, nous combinons les probabilités de ces deux modèles de langage pour tirer partie des spécificités de chacun d’eux.

L’ensemble des expérimentations que nous avons menées sur l’évaluation de cette stra-tégie de combinaison sont reportées en détail dans le manuscrit de thèse de S. Quiniou [Qui-niou'07]. Les meilleurs résultats que nous avons obtenus consistaient à utiliser un modèle biclasses (1000 classes) au sein du treillis de reconnaissance et de le combiner en post-traitement avec un modèle morphosyntaxique (à base de séquences de 7 classes). Ce dernier modèle a été élaboré en reconnaissance de la parole par S. Huet de l’équipe TEXMEX avec qui nous avons collaboré [Huet et al.'07]. En considérant en post-traitement uniquement les 200 meilleures phrases, nous avons obtenu une diminution relative du taux d’erreur sur les mots de 5 % par rapport à l’utilisation d’un modèle unique biclasses. Nous sommes passés d’un taux de reconnaissance de 86,5 % à 87,11 %.

II.4.5 Exploitation des réseaux de confusion pour l’identification des erreurs

Pour traiter les erreurs de reconnaissance qui persistent, nous avons décidé de les identi-fier à l’aide d’indices de confiance associés aux mots. Pour cela nous avons utilisé les probabi-lités a posteriori des mots grâce à l’approche consensus (réseaux de confusion) développée récem-ment en reconnaissance de la parole [Hillard et al.'06]. L’approche classique MAP, utilisée précédemment, cherchait à maximiser la probabilité a posteriori de la phrase résultat, alors que l’approche consensus cherche à maximiser les probabilités a posteriori des mots de la phrase ré-sultat (cf. Figure 15). Les probabilités a posteriori des mots correspondent à la somme des pro-babilités des chemins qui contiennent le mot. Nous avons utilisé ces probabilités a posteriori comme indices de confiance sur les mots de la phrase résultant de la reconnaissance par l'ap-proche MAP.

Pour mettre en œuvre l’approche consensus dans le contexte de la reconnaissance de phrases manuscrites, nous avons adapté le calcul des probabilités a posteriori des mots afin de gérer plusieurs hypothèses de segmentation. Cette approche gère donc les sur- et sous-segmentations en prenant en compte les confusions entre plusieurs segmentations possibles d’une même partie du signal manuscrit de la phrase.

Grâce à ces indices de confiance, nous avons considéré deux types d’erreurs potentielles. Le premier type d’erreur concerne le cas où la probabilité a posteriori du mot résultat ne cor-respond pas à la probabilité a posteriori maximale, dans la liste de mots candidats21 à laquelle le mot appartient. Le second type d’erreur correspond au cas où la probabilité a posteriori du mot résultat est bien la plus grande, mais elle est inférieure à un seuil fixé a priori : elle est donc jugée comme non suffisamment fiable.

21 La liste de mots candidats correspond à la liste de mots donnée par ResifMot pour le signal manuscrit du mot résultat, i.e. les autres mots proposés pour la même segmentation de la phrase.

Figure 15 : Exemple de réseau classique MAP versus réseau de confusion (approche consensus).


En injectant des informations complémentaires et en se basant sur des classifieurs dédiés

de type SVM, nous avons, d’une part, réévalué les résultats identifiés comme non fiables et, d’autre part, nous avons mis en place un mécanisme de rejet sur les mots détectés comme non révisables par la phase précédente. Ce travail s’appuie notamment sur les travaux com-plémentaires que nous avons menés sur les mécanismes de rejet (cf. section III.3.2). Les expé-rimentations que nous avons menées [Quiniou'07] révèlent qu’en l’absence de rejet, l’amélioration des performances est assez minime : on passe d’un taux d’erreur de 13,49 % à 13,06 %, ce qui représente 3.19 % de diminution du taux d’erreur. En revanche, en introdui-sant le rejet, les décisions sont beaucoup plus sûres puisque l’on arrive à réduire le taux d’erreur de 14,6 % (on passe d’un taux d’erreur de 13,49 % à 11,52%).

II.5 CONCLUSIONS ET PERSPECTIVES

Ces travaux conduits depuis 1993 nous ont permis de mettre en place une approche complète de reconnaissance pour l’écriture manuscrite en-ligne, depuis la problématique de la recon-naissance de caractères isolés jusqu’à la problématique de la reconnaissance de phrases. Pour autant, ce travail n’est pas encore achevé. En effet, la maîtrise de bout en bout de cette ap-proche de reconnaissance, nous ouvre de nombreuses perspectives. Jusqu’à présent, chaque étage de ce système de reconnaissance (lettres, mots, phrases) a été optimisé avec une vision focalisée sur l’étage considéré. Aujourd’hui il est possible de chercher à optimiser globale-ment le système en prenant en compte plus précisément l’interaction entre les différents étages de reconnaissance, pour dégager une meilleure synergie entre les sources d’informations : reconnaissance des lettres, des mots (informations sur la forme graphique et informations lexicales) et les connaissances au niveau syntaxique. Pour fusionner ces con-naissances, il sera notamment intéressant de considérer, de façon plus formelle, le couplage des informations probabilistes que l’on utilise pour les connaissances linguistiques avec le formalisme associé à la logique floue exploité pour caractériser les formes graphiques. Les travaux sur les « Graph Transformer Networks » [Bottou et al.'05] sont aussi une piste à con-sidérer dans le cadre d’une optimisation globale. Ils permettent, en effet, d’optimiser les pa-ramètres d’un système complet dont les différentes étapes fournissent des résultats sous la forme de graphes, ce qui est notre cas.

Une autre perspective fondamentale est le passage à l’échelle : aussi bien en termes de taille de base d’écriture manuscrite que de taille de lexique ou encore de taille de corpus utili-sé pour les modèles de langage. Les expérimentations menées ont permis de valider nos ap-proches et nos choix de stratégies. Cependant, il est maintenant important d’étendre ces tests à un cadre d’utilisation en vraie grandeur. Cela passera notamment par l’utilisation de lexiques comportant un nombre de mots plus important ainsi que par l’intégration de mo-dèles de langage prenant en compte un plus grand nombre de séquences de mots. Il est de plus, important de confronter aujourd’hui notre approche sur d’autres bases manuscrites comme, par exemple sur la base IAM-OnDB [Liwicki et al.'05] (base de phrases manuscrites en-ligne).

L’étude du comportement et de la pertinence des approches proposées avec d’autres langues que l’anglais est aussi un axe de recherche à approfondir. Ainsi, il serait intéressant d’étudier le passage à la langue française avec ses spécificités, mais aussi à des langues plus éloignées comme le chinois ou encore le japonais. Dans ce cadre, nous avons récemment amorcé des recherches sur la reconnaissance des caractères chinois [Delaye et al.'08a, Delaye et al.'08b]. Elles ont débuté à travers le stage de Master 2 recherche d’Adrien Delaye et se poursuivent par sa thèse qui débute en octobre 2008. Pour consolider ces travaux, nous cons-truisons en ce moment une collaboration avec le laboratoire Franco-Chinois de Pékin (LIA-MA). L’originalité de l’approche que nous envisageons est d’effectuer une reconnaissance « à la volée » des caractères chinois (cf. Chapitre IV).

Il nous semble aussi important d’approfondir encore les modèles de langage en


s’appuyant sur les avancées récentes mises en évidence dans le domaine de la reconnaissance de la parole. L’introduction de nouvelles sources de connaissances linguistiques comme les cooccurrences (mots apparaissant fréquemment ensemble), l’analyse syntaxique des phrases (pour obtenir des dépendances à historique plus long entre ses différents constituants) ou encore les informations liées au thème des textes (permettant une spécialisation des modèles de langage et lexique utilisés, par exemple) sont autant de pistes d’exploration à approfondir dans le domaine de la reconnaissance de l’écriture manuscrite.

Chapitre III RECONNAISSANCE DES FORMES : CLASSIFICATION, REJET ET ADAPTATION

Contexte

― Période des travaux : ▫ Fin 2000 à 2008

― Thèses associées : ▫ Ragot [Ragot'03] Mouchère [Mouchère'07] Almaksour22

― Collaborations Académiques : ▫ Équipe Cordial de l’IRISA

― Publications : ▫ 2 revues (IJPRAI, TSI), 1 chapitre de livre, 10 conf. internationales, 6 conf. nationales 1 « Prix du meilleur papier » [Ragot et al.'02] 1 « Prix du meilleur poster » [Almaksour et al.'08b]

III.1 INTRODUCTION

Les progrès obtenus ces dernières années dans le domaine de la reconnaissance de l’écriture manuscrite sont considérables, que se soit au niveau des caractères isolés où les marges de progression deviennent de plus en plus faibles, ou au niveau plus global de la reconnaissance de texte où l’on circonscrit de mieux en mieux la façon de faire collaborer les différents ni-veaux de connaissances. Néanmoins, plus les recherches progressent et plus on mesure à quel point cette tâche est complexe. Ce constat n’a fait que se renforcer avec l’industrialisation des applications qui ont révélées le niveau de performance très élevé at-tendu par les utilisateurs.

Par ailleurs, la problématique de la reconnaissance de tracés manuscrits s’élargit. Elle doit maintenant être considérée au sens large et intégrer l’interprétation de tracés manuscrits tels que : des caractères de différentes langues (indiens, chinois...), des symboles, des gestes graphiques d’édition, des croquis, etc.

Face à ces attentes, nous avons cherché à consolider nos approches de reconnaissances de formes en lançant d’une part, des travaux plus fondamentaux sur la classification et l’apprentissage à travers l’étude de classifieurs mixtes et d’autre part, en explorant deux

22 Thèse d’Abdullah Almaksour, Apprentissage avec très peu de données par adaptation, synthèse et modèles de déformation. Thèse de l’INSA de Rennes, débutée en octobre 2007.


pistes de recherche qui prennent aujourd’hui de plus en plus d’ampleur dans notre commu-nauté : les options de rejet et la capacité d’adaptation d’un système. Elles ouvrent, à notre avis, une voie pour renforcer et fiabiliser, à différents niveaux, les systèmes de reconnaissance de tracés manuscrits.

III.1.1 Objectifs

III.1.1.1 Classifieurs mixtes

L’objectif a été, tout d’abord, de généraliser l’approche du système de reconnaissance « Re-sifCar » qui a été initialement conçu pour la reconnaissance des caractères manuscrits « la-tins » (cf. section II.2). Pour cela nous avons travaillé sur la conception d’un classifieur mixte basé sur une collaboration explicite d’une modélisation générative et discriminante.

Ces recherches nous ont permis d’améliorer les performances de reconnaissance et d’étendre nos domaines d’applications à la reconnaissance d’autres formes manuscrites : symboles graphiques, formes géométriques, symboles musicaux ou encore, plus récemment, caractères chinois et indiens.

III.1.1.2 Option de rejet

La notion de rejet représente la capacité d’un système de reconnaissance à estimer la qualité de son résultat pour être à même de ne pas fournir en sortie une réponse qui a de fortes chances d’être erronée. Cette capacité de « rejet » est intéressante à de nombreux niveaux. Par exemple, l’utilisateur acceptera davantage qu’un système de reconnaissance de tracés ma-nuscrits en-ligne n’interprète pas son tracé qu’il pourra alors recommencer, plutôt que de lui fournir une reconnaissance « erronée » qu’il devra supprimer avant de la refaire à nouveau.

Remarquons que ce dernier comportement est malheureusement aujourd’hui, le com-portement standard des applications de reconnaissance de tracés manuscrits en-ligne dispo-nibles sur le marché. D’une façon plus générale, que se soit pour des applications en-ligne ou hors-ligne, il est particulièrement intéressant d’avoir un système capable de mettre en évi-dence explicitement les éléments de tracé où il risque d’y avoir une erreur d’interprétation. Ceci permet d’une part, de renforcer la confiance de l’utilisateur vis à vis du système et d’autre part, d’éviter une relecture systématique et exhaustive du résultat en ciblant les en-droits critiques où il faudra potentiellement intervenir.

Par ailleurs, si le système est capable d’identifier les formes qu’il ne sait potentiellement pas reconnaître, il est possible de faire intervenir d’autres moteurs de reconnaissance plus spécialisés ou plus complexes pour réinterpréter ces formes. On peut, par exemple, envisager de spécialiser les paramètres du moteur de reconnaissance avant de lui représenter les élé-ments qu’il avait rejetés. On parle alors de reconnaissance multi-passes [Pitrelli et al.'06]. Plus généralement, on perçoit ici que l’option de rejet et la capacité d’évaluer la qualité d’une ré-ponse d’un classifieur vont être des atouts importants pour de nombreuses approches de combinaison de classifieurs [Fumera et al.'04, KhoufiZouari'04, Oliveira et al.'05].

III.1.1.3 Adaptation

Quand il s’agit de lire de l’écriture manuscrite, on constate qu’il n’y a pas de meilleur expert que son propre auteur. Comme nous l’avons déjà souligné, les utilisateurs de méthodes de saisie manuscrite ont des niveaux d’exigence très forts en ce qui concerne les capacités de reconnaissance du système. Ils sont très vite frustrés quand ils considèrent avoir saisi un ca-ractère lisible, c'est-à-dire reconnaissable sans ambigüité de leur point de vue, alors que le système va leur proposer une toute autre réponse. En fait, chaque scripteur s’est implicite-ment imposé des règles d’écriture pour limiter les risques de confusion dans son propre jeu d’allographes de caractères.

La Figure 16, issue de la thèse d’Harold Mouchère [Mouchère'07], illustre à la fois : l’étendue des variations d’écriture possibles (allographes) d’un même caractère qui

CHAP. III : RECONNAISSANCE DES FORMES : CLASSIFICATION, REJET ET ADAPTATION 59

peuvent rendre son interprétation particulièrement ambigüe avec d’autres classes ; les choix judicieux, implicites ou non, d’un scripteur de ne pas utiliser deux allo-

graphes proches pour deux classes différentes. Ainsi, on observe sur la Figure 16, que si le « u » du premier scripteur peut ressembler au

« v » du second scripteur, les caractères « u » et « v » de chacun de ces scripteurs ne se res-semblent pas. Cela explique, pour une bonne part, la supériorité, en termes de compromis performance/encombrement, d’un système mono-scripteur par rapport à un système omni-scripteur.

De ce constat, il nous est apparu intéressant de reconsidérer la notion de système de re-connaissance adapté à un scripteur, sujet qui a été un peu mis de côté dans notre communau-té. En effet, la problématique de la reconnaissance mono-scripteur est en soit a priori plus simple et donc moins pertinente pour mettre en valeur un système de reconnaissance. Par ailleurs, dans le contexte de la reconnaissance en-ligne, pour obtenir un classifieur mono-scripteur, on demandait au préalable au scripteur de saisir plusieurs dizaines de fois chaque caractère. C’était une condition nécessaire pour pouvoir apprendre ensuite un classifieur avec des données spécifiques d’apprentissage. Mais, cette approche est clairement trop fasti-dieuse pour l’utilisateur et constitue, par conséquent, un obstacle majeur à l’usage du sys-tème dans le contexte des applications en-ligne.

La stratégie que nous avons approfondie [Mouchère'07] consiste à utiliser un système omni-scripteur (tout de suite opérationnel pour reconnaître les caractères de l’utilisateur) puis de le spécialiser progressivement, de façon automatique, en l’adaptant le plus rapide-ment possible à l’écriture de son utilisateur.

III.1.2 Fil conducteur

Nous nous sommes attachés à centrer notre recherche sur les objectifs suivants : rester sur des solutions raisonnables en termes de temps de calcul et de place mémoire,

pour pouvoir envisager un embarquement sur des assistants personnels ou des Smart-phones ;

favoriser les stratégies de modélisation et de décision explicites et interprétables ; élaborer des solutions génériques afin de pouvoir traiter un grand nombre de problèmes

de natures et de complexités variables ; essayer à terme, de pouvoir coupler sur un même système de reconnaissance des capaci-

tés de rejet et d’adaptation.

Un facteur commun à l’ensemble de nos travaux sur la classification est le choix du cadre

Figure 16 : Ambigüités inter-caractères entre scripteurs (diagonale) ; non ambigüité inter-caractères pour un scripteur donné (lecture en ligne) ; variations d’écriture d’un même caractère (lecture en colonne).

hScripteur 1

Scripteur 2

Scripteur 3

Scripteur 4

Scripteur 5

u v r n


de la théorie des sous-ensembles flous [Bouchon-Meunier'95, Zadeh'65] comme support de la modélisation. Ce choix a été motivé par l’expérience acquise lors de la conception du système de reconnaissance d’écriture manuscrite ResifCar qui est basé sur une modélisation hiérar-chique par Systèmes d’Inférence Floue (SIF, cf. section II.2).

La théorie des sous-ensembles flous offre un cadre de formalisation permettant d’élaborer, une modélisation explicite des connaissances et des processus de décision interpré-tables particulièrement bien adaptés pour appréhender l’imprécision des tracés manuscrits. De notre point de vue, les aspects explicite et interprétable, respectivement de la modélisation et du processus de décision, sont importants pour construire une expertise fine de la qualité des réponses d’un classifieur et par conséquent, pour élaborer des stratégies de rejet basées sur la notion de fonctions de confiance (cf. section III.3). Il est aussi fondamental de pouvoir accéder aux connaissances modélisées pour réussir à concevoir des mécanismes d’adaptation « à la volée » de systèmes de reconnaissance (cf. section III.4).

Les systèmes d’inférence floue offrent de plus un excellent compromis en termes à la fois de compacité et de temps de calcul, tout en permettant d’atteindre des performances très intéressantes. Ces propriétés ont été validées et mises à l’épreuve à travers nos transferts industriels sur des applications réelles ayant de fortes contraintes à respecter (cf. section II.2.5). Enfin, la théorie des sous-ensembles flous apporte une formalisation très intéressante pour la fusion des connaissances. Ce point est crucial dès que l’on aborde la problématique de la classification mixte par modélisation générative et discriminante (cf. section III.2).

Après une rapide synthèse de l’état de l’art pour positionner nos approches sur chacun des domaines que nous avons explorés, nous présentons nos principales contributions sur la classification mixte générative/discriminante sur deux niveaux, sur le rejet puis sur l’adaptation dans les trois sections suivantes.

III.2 CLASSIFICATION MIXTE PAR MODELISATION GENERATIVE ET DISCRIMINANTE

Ces travaux, lancés en 2000, sont issus de la thèse de Nicolas Ragot [Ragot'03] dont le sujet était de concevoir un système de reconnaissance de formes plus générique, tout en reprenant les idées fortes de l’approche de ResifCar. Ils ont abouti au système de reconnaissance Mélidis qui est basé sur une modélisation mixte générative/discriminante à base de systèmes d'infé-rence floue hiérarchisés [Ragot et al.'02, Ragot et al.'03a, Ragot et al.'03b, Ragot et al.'04].

III.2.1 Positionnement de l’approche : modélisation génératives et discriminantes

On identifie généralement deux stratégies de classification qui sont basées respectivement : soit sur des approches qualifiées de « génératives » ou encore « basées-modèles » qui

cherchent avant tout à modéliser les classes. On peut citer par exemple, les systèmes d’inférence floue ou encore les réseaux de neurones à fonctions à base radiale (RBFN), dérivés des modèles multi-gaussiens.

soit sur des approches qualifiées de « modélisation discriminante » qui cherchent à dis-criminer les classes les unes des autres en modélisant cette fois, avant tout, les fron-tières entre les classes. On peut citer ici les réseaux de neurones de type perceptron multi-couches (Multi-Layers Perceptron, MLP) ou encore les Séparateurs à Vastes Marges (Support Vector Machines, SVM).

Ces approches génératives et discriminantes sont souvent utilisées séparément en fonction

du type de problème considéré. Cependant, plusieurs travaux ont cherchés à les utiliser con-jointement pour optimiser la tâche de classification. On peut citer notamment les travaux associés à la combinaison d’experts [Collobert et al.'02, Jacobs'91, Titsias'02], ou encore les systèmes reposant sur une collaboration explicite entre ces deux approches [Abou-Moustafa


et al.'04, Giusti et al.'02, Ianakiev et al.'00, Milgram et al.'04, Prevost et al.'05, Vuurpijl et al.'00]. L’architecture de ces systèmes repose alors souvent sur une hiérarchisation sur deux niveaux, chacun dédié à un type de modélisation. Le premier niveau a souvent un rôle de classification globale où toutes les classes sont mises en concurrence. Le second niveau cherchera à raffiner ce classement par une classification locale spécifique à des sous groupes de classes.

Chacun des deux niveaux peut potentiellement accueillir soit l’approche générative, soit l’approche discriminante. Nous nous sommes plus particulièrement intéressés aux stratégies utilisant au premier niveau, une approche générative et au deuxième niveau, une approche discriminante de classification, rejoignant ainsi les travaux de : [Abou-Moustafa et al.'04, Giusti et al.'02, Prevost et al.'03, Prevost et al.'05, Vuurpijl et al.'00]. C’est sur ce principe que nous avons conçu l’approche Mélidis.

III.2.2 Contributions : le système de reconnaissance de formes « Mélidis »

III.2.2.1 Principes

Les choix théoriques qui ont sous tendu la conception de Mélidis ont été guidés par la volon-té de réunir un ensemble de propriétés rarement satisfaites dans une même approche : per-formances, généricité, fiabilité, robustesse, compacité et interprétabilité. Nous avons donc mis en œuvre une modélisation mixte générative/discriminante hiérarchisée sur deux ni-veaux dans le cadre de la logique floue.

(i) Premier niveau de modélisation intrinsèque : approche générative explicite

Le premier niveau opère une classification globale, où l’on met l’ensemble des classes en compétition. C’est donc une approche générative qui nous semble être la plus adaptée. Pour cela, on opère une modélisation intrinsèque des classes par des prototypes flous [Anquetil et al.'96b, Krishnapuram et al.'96].

À ce niveau, il nous semble intéressant d’affiner un peu la caractérisation des approches dites « génératives ». Parmi celles-ci, on peut distinguer celles s’appuyant sur une modélisa-tion explicite (ou descriptive) des classes ; c’est-à-dire qui se basent sur des connaissances ex-plicitement identifiables dans l’espace de représentation des données (prototypes, noyaux, etc.). Et ceci, par opposition aux approches que l’on peut qualifier d’implicite ; où la caractéri-sation des classes n’est qu’un « prétexte » à les discriminer. C’est le cas, par exemple, de cer-tains RBFN, où l’apprentissage mis en place est global à tout le réseau et cherche uniquement à maximiser la discrimination des classes ; ce qui peut engendrer, par exemple, que certains prototypes décrivent plusieurs classes à la fois.

Dans notre approche, nous avons cherché à avoir une modélisation générative la plus ex-plicite possible. C’est pourquoi, au premier niveau les prototypes seront appris intrinsèque-ment, c’est-à-dire classe par classe. Cette approche offre non seulement la possibilité de mettre en place plus facilement des mécanismes de rejet ou d’adaptation mais aussi la possi-bilité d’étendre a posteriori le jeu de classes sans pour autant refaire un apprentissage exhaus-tif.

(ii) Second niveau de modélisation : approche discriminante

Le second niveau va travailler sur des sous-problèmes spécifiques de classification, il est donc particulièrement intéressant qu’il puisse s’appuyer sur des approches de classification à fort pouvoir discriminant. Pour faciliter la fusion homogène des informations associées à ces deux niveaux de modélisation, nous avons mis en place, au second niveau, une discrimina-tion des classes voisines par des arbres de décision flous [Janikow'98, Marsala et al.'03, Olaru et al.'03, Ragot et al.'01].

L'ensemble des deux niveaux peut ainsi être formalisé de façon homogène par des sys-tèmes d'inférence floue qui seront combinés pour la classification.


Par ailleurs, pour mettre en place ce type de système de classification hiérarchisé sur deux niveaux associés respectivement à une modélisation générative/discriminante, il est nécessaire de définir un mécanisme de couplage entre les deux niveaux de modélisation. Dans l’approche Mélidis, le couplage est piloté par le mécanisme de focalisation dont le rôle est de cibler les sous-problèmes de classification qu’il faudra évaluer au second niveau. Ce mé-canisme est présenté dans la section III.2.2.2.

(iii) Espace des caractéristiques

En reconnaissance des formes, on identifie assez clairement que les informations (caractéris-tiques) considérées pour caractériser les formes n’ont pas toutes la même portée dans le pro-cessus de décision :

certaines sont identifiées plutôt comme étant très robustes pour décrire les propriétés intrinsèques de la forme (c’est le rôle du premier niveau de modélisation du système ResifCar ; cf. section II.2) ;

et d’autres auront plutôt de très fortes capacités à discriminer les classes de forme entre elles (c’est le rôle des deux derniers niveaux de modélisation du système ResifCar).

Dans ResifCar, pour différentier ces natures de caractéristiques, nous avions utilisé l’expertise que l’on avait sur les lettres manuscrites. Dans le contexte de la conception d’un système de reconnaissance de forme plus générique comme Mélidis, il n’est pas possible d’utiliser une telle expertise. Nous avons donc mis en place une stratégie de sélection auto-matique de caractéristiques sur chacun des niveaux pour cibler le sous-jeu de caractéristiques le plus adéquat vis-à-vis de sa portée dans le processus décision. Pour cela, nous avons utilisé un mécanisme de sélection de caractéristiques basé sur un algorithme génétique [Golberg'89].

III.2.2.2 Mécanisme de focalisation

Le mécanisme de focalisation constitue un apport particulièrement original dans le système Mélidis. Son rôle est de permettre une focalisation très précise sur des sous-problèmes de classification constitués de « portions de classes », qui feront l’objet du second niveau de dis-crimination.

En effet, les classes ne représentent pas forcement des données homogènes. Ainsi, une classe est souvent formalisée par plusieurs prototypes, chaque prototype modélisant un type de donnée au sein de cette classe. Chacun de ces prototypes peut donc rentrer individuelle-ment en « conflit » avec un autre prototype sans pour autant que cette confusion porte sur l’ensemble de la classe. Par conséquent, contrairement aux approches courantes de modélisa-tion sur deux niveaux qui opèrent une discrimination entre couples de classes ou sous-ensembles de classes, Mélidis repose sur une focalisation beaucoup plus précise. Le principe consiste à définir explicitement par apprentissage les regroupements de formes ayant des propriétés intrinsèques proches et qui par conséquent sont sources potentielles de confusion.

Pour cela, pendant l’apprentissage, le mécanisme de focalisation identifie ces sous-problèmes pour chaque classe i (cf. Figure 17). Il extrait de la base d’apprentissage, pour chaque classe i , l’ensemble iB des individus ej proches de la classe i , relativement à ses prototypes intrinsèques. La sélection s‘opère par rapport au degré d’appartenance de l’individu aux prototypes de la classe considérée iMI . On utilise un seuillage relatif calibré

par un paramètre selon la formule suivante, où S représente le nombre de classes :

jeMI,...,SsmaxjeMIjeiB S

i

1 (7)


Expérimentalement une valeur de comprise entre 2 et 3 donne de bons résultats. Ain-si un individu sera considéré comme pouvant appartenir à toutes les classes pour lesquelles son adéquation sera suffisamment importante par rapport aux prototypes de la classe consi-dérée.

Le second niveau de classification, sera par conséquent spécialisé sur la discrimination de ces sous-problèmes (cf. Figure 18). Les individus de iB appartenant effectivement à la classe i sont étiquetés comme des exemples positifs i+ et tous les autres comme des contre-exemples i- . La discrimination cherchera à séparer au mieux les exemples des contre-exemples. Cette spécialisation est d’autant plus forte que chaque sous-problème va être traité dans un espace de caractéristiques qui lui est propre. La définition de cet espace de caracté-ristiques spécifiques est réalisée pendant l’apprentissage de chaque expert du second niveau.

III.2.2.3 Processus de décision

La Figure 19 représente l’architecture du système Mélidis en phase d’utilisation, après apprentissage. On remarque dans cette figure que le processus de décision a été organisé autour de la structuration hiérarchique de la modélisation. Il repose sur trois modules de classification.

Figure 17 : Illustration de l’identification des sous-problèmes pour chaque classe (w1, w2, w3) par le mécanisme de focalisation, pendant l’apprentissage [Ragot'03].

Figure 18 : Exemples et contre- exemples à discriminer dans B1

1 2 3

1 2 3

1+ Vs.

1-


Le module de pré-classification s’appuie sur la modélisation intrinsèque des classes par des

prototypes flous. Il fournit un premier ensemble de scores (mesure d’adéquation floue) re-présentant la correspondance entre la forme et les différentes classes du point de vue intrin-sèque.

En s’appuyant sur ces scores, le mécanisme de focalisation sélectionne les classifieurs discri-minants (basés sur des arbres de décision flous) qui seront exploités. Cette sélection permet à la fois d’accélérer les traitements tout en les rendant plus robustes. Le module de classification principale exploite alors les résultats des classifieurs discriminants pour fournir un deuxième ensemble de scores qui sont eux aussi formalisés par des mesures d’adéquation floue.

Enfin, ces deux ensembles de scores, l’un provenant du module de pré-classification et l’autre du module de classification principale, sont fusionnés par l’opérateur « produit » lors de la classification finale.

III.2.3 Résultats

Mélidis a été validé sur plusieurs benchmarks classiques de l’UCI ML Repository23 tels que les formes d’ondes de Breiman ou encore le problème des images satellites. Ces expérimentations ont permis de montrer la généricité, la compacité et les performances de l’approche. Ainsi, sur des problèmes complexes, Mélidis obtient des taux de reconnaissance voisins de ceux des SVM en utilisant 10 à 30 fois moins de paramètres [Ragot'03, Ragot et al.'04].

Pour donner un ordre de grandeur des résultats, nous reportons dans le Tableau 2 et le Tableau 3, les résultats obtenus sur le problème de la reconnaissance en-ligne de chiffres ma-nuscrits. Les résultats du Tableau 2 ont été obtenus sur la base IRONOFF [Viard-Gaudin et al.'99], dans un cadre omni-scripteur, en la divisant en deux : 50% des données pour l’apprentissage et les autres 50% pour le test. Le Tableau 3 correspond aux résultats obtenus par les deux meilleurs classifieurs sur la base UNIPEN [Guyon et al.'94], dans un cadre multi-scripteurs, avec 2/3 des données utilisées en apprentissage et 1/3 en test. Tous les classifieurs évalués dans ces tests utilisaient le même jeu de 44 caractéristiques.

23 http://archive.ics.uci.edu/ml/index.html

Figure 19 : Architecture du système Mélidis.

Pré-classification

Décision intrinsèque

classe ω1

Mécanisme de

focalisation

Classification principale

Décision discriminante

Classification finale: fusion

Classes activées

classe ω2

classe ω1

classe ω2

classe ωS

classe ωS

Modélisation intrinsèque

Modélisation discriminante


Tableau 2 : Taux de reconnaissance et nombre de paramètres, pour la reconnaissance de chiffres IRONOFF

% reconnaissance nb. paramètres

MLP 94,9% 5 510

RBFN 94,6% 12 900

SVM 95,5% 137 565

MÉLIDIS 95,8% 12 416

Tableau 3 : Taux de reconnaissance et nombre de paramètres, pour la reconnaissance de chiffres UNIPEN

% reconnaissance nb. paramètres

SVM 97,8% 308 025

MÉLIDIS 96,3% 14 600

Ces résultats illustrent le bon compromis qu’offre l’approche Mélidis en termes de com-

pacité/performance. On retrouve ici des niveaux de performances similaires à ceux du sys-tème de reconnaissance ResifCar qui est spécifique à l’écriture, tout en maintenant un nombre de paramètres très raisonnable.

III.3 MECANISMES DE REJET POUR LA FIABILISATION DE CLASSIFIEUR

L’étape suivante était de fiabiliser les décisions de classification par l’élaboration de méca-nismes de rejet. Après avoir exploré ces deux natures de modélisation générative et discrimi-nante, il nous est très vite apparu qu’il existait un lien très fort entre la nature du classifieur (génératif, discriminant) et le type de rejet que l’on voulait obtenir : rejet d’ignorance ou rejet d’ambigüité. Nos travaux se sont donc directement prolongés, en 2005, par l’étude des méca-nismes de rejet pour fiabiliser les classifieurs. Cette section résume ces travaux de recherche effectués pendant la thèse d’Harold Mouchère [Mouchère'07].

III.3.1 Synthèse de l’état de l’art sur le rejet

Comme nous l’avons souligné en introduction de ce chapitre, il existe de nombreux travaux sur le rejet [Dubuisson et al.'93, Fumera et al.'00b, Landgrebe et al.'06, Liu et al.'00, Markou et al.'03a, Markou et al.'03b], notamment dans le domaine de la reconnaissance de l’écriture manuscrite [Bertolami'04, Chatelain et al.'06, Chatelain et al.'07, Liu et al.'02, Marukatat et al.'02, Zimmermann et al.'04c]. Une partie de ces travaux s’est appuyée sur des informations contextuelles pour élaborer le rejet :

par exemple, en utilisant la redondance ou le recoupement d’informations (courrier postal, chèque bancaire) ;

ou encore, en exploitant la complémentarité des sources de connaissances ; par exemple, en intégrant des connaissances de nature linguistique pour la reconnaissance de mots ou de phrases manuscrites.

D’autres travaux, se sont focalisés sur le classifieur en lui-même en cherchant à estimer la fiabilité de ses réponses indépendamment d’un contexte extérieur. Ces deux approches ne sont pas opposées, au contraire, elles sont complémentaires et laissent envisager une gestion du rejet à différents niveaux. Les travaux présentés dans cette partie s’intéressent à la seconde catégorie d’approche. Nous avons cherché à mettre en œuvre une mesure de confiance asso-ciée aux réponses d’un classifieur afin d’élaborer différentes options de rejet.

Ce sujet de recherche à part entière a souvent été traité de façon cloisonnée, c’est-à-dire dans un contexte applicatif particulier ou pour une catégorie déterminée de classifieurs. On trouve très peu d’états de l’art couvrant ce vaste sujet. Les papiers de Markou et Singh [Mar-


kou et al.'03a, Markou et al.'03b] sont des synthèses intéressantes, même si ils ne recouvrent que la « détection de nouveautés » et par conséquent qu’un certain type de rejet (le rejet d’ignorance). En fait, on peut distinguer deux catégories de rejet [Dubuisson et al.'93] : le rejet d’ignorance et le rejet d’ambigüité.

Le rejet d’ignorance représente la capacité à identifier si une donnée, présentée à un classi-fieur, est éloignée des connaissances modélisées. Si le classifieur prend une décision sur cette donnée, il y a un risque important qu’il se trompe. Ce type de rejet est typiquement utilisé pour éviter de prendre des décisions sur des formes qui ne correspondent à aucune des classes apprises. Par exemple, on présente une lettre en entrée d’un classifieur de chiffres ou encore, dans une approche de « segmentation/reconnaissance » d’écriture manuscrite, on essaye de distinguer les bonnes hypothèses de segmentation, des hypothèses correspondant à des portions de tracés sans signification [Anquetil et al.'00, Chatelain et al.'06, Liu et al.'04a, Liu et al.'02, Oliveira et al.'02, Renaudin et al.'07, Zhu et al.'06].

Le rejet d’ambigüité consiste, quant à lui, à identifier les hésitations du classifieur entre plusieurs classes pour une même entrée qu’il est supposé pouvoir reconnaître. Ce type de rejet est souvent utilisé pour optimiser la fiabilité d’un classifieur. Typiquement dans les ap-plications industrielles comme celles du traitement des chèques et du courrier postal [Bertille et al.'95, El Yacoubi et al.'95, Lethelier et al.'95], les erreurs non détectées engendrent des sur-coûts très importants. Il est donc important d’avoir des classifieurs fiables, ne faisant quasi-ment aucune erreur de classement, même si pour cela il faut rejeter une partie des entrées. Ces entées seront alors traitées manuellement, ce qui reste beaucoup moins coûteux que de laisser passer des erreurs.

Ces deux natures de rejet ne s’adressent donc pas forcement aux mêmes besoins applica-tifs, même si dans certains cas, ils peuvent être utilisés conjointement. Par ailleurs, ils sont généralement abordés avec des approches différentes qui peuvent être liées aux propriétés du classifieur considéré (discriminant versus génératif).

Nos travaux [Mouchère'07] ont eu pour objectif de mettre en place des classifieurs avec

option de rejet en tenant compte à la fois : de la nature du rejet (ignorance, ambigüité), du type de classifieur utilisé (discriminant, génératif), des connaissances disponibles pour apprendre l’option de rejet (contre-exemples bien ou mal définis), et enfin des différentes architectures pour intégrer ou externaliser les mécanismes de rejet du classifieur.

Nous avons identifié dans l’état de l’art trois grandes architectures pour mettre en place l’option de rejet dans un classifieur :

la première architecture consiste à ajouter au classifieur une nouvelle classe représen-tant les éléments à rejeter : la classe de rejet. Cette approche, notée ensuite RC (Reject Class), est simple à mettre en œuvre. Elle engendre cependant une modification du comportement global du classifieur. Ce qui peut se traduire par une baisse des perfor-mances du classifieur. En effet, on soumet le classifieur à un problème de classification plus complexe étant donné qu’il y a une classe en plus à gérer et que cette classe peut être particulièrement complexe à modéliser. De plus, si le classifieur existe déjà, cette approche oblige à faire un nouvel apprentissage complet, ce qui n’est pas toujours en-visageable ;

une seconde architecture considère le rejet comme un post-traitement en s’appuyant sur un classifieur externe spécialisé pour évaluer l’option de rejet. Cette approche, no-tée ensuite SC (Specialized classifier) offre l’avantage de ne pas modifier le classifieur principal. De plus, elle permet de traiter le problème de rejet de façon spécifique, en particularisant le type de classifieur pour traiter le rejet [Zhu et al.'06] ou encore en choisissant un espace de représentation mieux adapté pour caractériser le rejet [Pitrelli et al.'06] ;

la troisième architecture essaye de tirer profit des informations associées directement au classifieur pour définir l’option de rejet. Cette approche repose sur l’établissement de fonctions de confiance basées sur des informations extraites du classifieur [Boatas et


al.'00, Chow'70, De Stefano et al.'00, Dubuisson et al.'93, Fumera et al.'00b]. L’option de rejet sera alors définie par des seuils fixés autour de ces fonctions de confiance. Ces approches, notées ensuite TRF (Thresholds on the reliabilty Functions), ont l’avantage de pouvoir être compactes puisqu’elles vont s’appuyer sur des informations extraites du classifieur principal. Une variante, notée SCRF (Specialized Classifier on the Reliabilty Functions) peut consister à utiliser un classifieur extérieur bien formalisé pour définir le rejet à partir des fonctions de confiance, plutôt que des seuils qui peuvent être assimi-lés à une version simple de classification.

Ces trois architectures, ne sont pas exclusives et plusieurs approches correspondent à une vision hybride de ces architectures [Chatelain et al.'06]. Étant donné le cadre de nos re-cherches, nous avons privilégié un mécanisme de rejet qui offrait le meilleur compromis entre les performances et le coût en ressources « machine » (temps de calcul et place mé-moire).

Les approches de type TRF possèdent une architecture très compacte pour un faible coût de calcul en exploitation. C’est, par conséquent à partir de ce type d’architecture que nous avons exploré les mécanismes de rejet [Mouchère'07].

III.3.2 Contributions : option de rejet basée sur des fonctions de confiance multiples

Avec les approches de type TRF, la difficulté est d’une part, de définir les fonctions de con-fiance en tenant compte à la fois des propriétés du classifieur et de la nature du rejet traité, et d’autre part, d’élaborer une stratégie d’apprentissage permettant d’établir l’ensemble des seuils qui vont définir l’option de rejet.

Nos travaux ont abouti à une formalisation générale de l’option de rejet pour pouvoir traiter de façon générique les deux natures de rejet (rejet d’ignorance et d’ambigüité). L’approche se base sur la notion de fonctions de confiance, ce qui peut être apparenté à un changement d’espace de représentation plus propice à la modélisation du rejet. Notre contri-bution [Mouchère et al.'06a, Mouchère et al.'06b, Mouchère et al.'06c] s’inscrit dans une géné-ralisation des travaux de Chow [Chow'70] et Fumera [Fumera et al.'00a, Fumera et al.'00b] en apportant notamment la possibilité de gérer simultanément plusieurs fonctions de confiance. Cela permet d’avoir une définition plus précise de l’option de rejet, mais en contrepartie, cela engendre une complexité d’apprentissage plus importante étant donné qu’il est nécessaire de calibrer plusieurs seuils (un par fonction de confiance). Notons que pour qu’il y ait rejet, il faut que toutes les réponses des fonctions de confiance soient inférieures à leur seuil respec-tif.

Pour illustrer la notion de fonction de confiance, on peut, par exemple, se placer dans le cadre de la définition d’un rejet d’ambigüité. Une stratégie consiste à établir une fonction de confiance ji, pour chaque couple de classe i et j en s’appuyant sur leurs scores respectifs si et sj, en sortie du classifieur. Seule la fonction de confiance mettant en jeu la classe C1 classée en première position et la classe C2 classée en seconde position sera activée :

sinon

Cj,Ciissiis

jsis

ji0

21,0, (8)

Nous avons proposé dans nos travaux [Mouchère'07] plusieurs fonctions de confiance en les comparant vis-à-vis du type de rejet attendu (rejet d’ignorance et d’ambigüité) et du besoin en contre-exemples d’apprentissage.

La gestion de multiples seuils a nécessité la mise en place de nouveaux algorithmes d’apprentissage. Nous en avons élaboré deux pour apprendre automatiquement ces seuils de rejet. Soulignons que ces algorithmes sont génériques dans la mesure où ils peuvent s’appliquer à n’importe quelles fonctions de confiance, et donc, par voie de conséquence à n’importe quels types de rejets et de classifieurs.


Le premier algorithme est un algorithme glouton, basé sur des heuristiques ; il est appelé AMTL (Automatic Multiple-Threholds Learning algorithm) [Mouchère et al.'06a, Mouchère et al.'06b, Mouchère et al.'06c]. Le concept sous-tendu par cet algorithme est de chercher un chemin pour aller de l’état de rejet « total » (tous les seuils sont suffisamment hauts pour rejeter tous les contre-exemples, c'est-à-dire tous les éléments à rejeter) à l’état de rejet « vide » (tous les seuils sont à zéro). Le choix itératif du seuil à modifier est basé sur le meil-leur compromis entre la minimisation du taux de faux rejet (False Reject Rate, FRR) et la maximisation du taux de vrai rejet (True Reject Rate, TRR). Le seuil est alors diminué selon une politique monotone à définir.

Par exemple, une déclinaison possible de cet algorithme (appelée AMTL1) est de choisir à chaque itération le seuil qui minimise le nombre de contre-exemples acceptés pour accepter un nouvel exemple. Ce seuil est alors diminué pour arriver à cet état.

Un autre critère proposé pour sélectionner le seuil à modifier à chaque itération (AMTL2) est basée sur la maximisation de la densité des exemples activant la fonction de confiance. L’idée est de privilégier ces zones de densité d’exemples puisqu’elles ont un rôle important dans la modélisation et par conséquent, dans la capacité de généralisation de cet apprentissage. Ce second critère est indépendant des contre-exemples ; AMTL2 permet ainsi d’opérer une option de rejet d’ignorance même dans le cas où l’on ne disposerait pas de base de contre-exemples.

Les algorithmes AMTL se distinguent par de très bonnes capacités de généralisation ce qui est particulièrement important pour les problèmes de rejet où il est difficile d’avoir une base représentative de contre-exemples.

Le second algorithme que nous avons proposé est basé sur une descente de gradient sur le coût du compromis entre le taux de faux rejet (False Reject Rate, FRR) et le taux de vrai rejet (True Reject Rate, TRR) à partir d’une base d’exemples et de contre-exemples à rejeter. Il est nommé TGD pour Threshold Gradiant Descent [Mouchère'07]. Ce second algorithme est une formalisation connue et rigoureuse de techniques d’apprentissages basées sur la descente de gradient. Son inconvénient par rapport notamment à l’algorithme AMTL2 est l’obligation de disposer d’une base de contre-exemples, et, de plus, il est expérimentalement évalué comme moins performant [Mouchère'07].

III.3.3 Résultats et bilan sur les options de rejet

III.3.3.1 Conditions expérimentales

Les expérimentations menées ont cherché à vérifier les hypothèses sur le comportement des options de rejet étudiées vis-à-vis des :

classifieurs utilisés. Nous avons étudié trois types de classifieurs : - les RBFN (Radial Basis Function Network) qui sont des classifieurs de type génératif.

Dans notre cas, l’apprentissage des prototypes étant effectué intrinsèquement sur chaque classe, ils ont une modélisation explicite et très descriptive des connaissances,

- les MLP (Multi-Layers Perceptron) pour leur capacité de discrimination, - les SVM (Séparateurs à Vastes Marges) qui offrent à la fois une modélisation qui peut

être générative à travers l’utilisation de noyaux gaussiens et très discriminante en sortie. Ces derniers sont surtout aujourd’hui identifiés comme faisant partie des clas-sifieurs les plus performants, avec cependant, en contrepartie, un besoin de ressource « machine » important en utilisation ;

architectures de rejet. Nous avons testé les trois architectures présentées en sec-tion III.3.1 :

- architecture avec classe de rejet (RC), - avec classifieur externe dédié au rejet sur l’espace des entrées (SC), - avec exploitation de fonctions de confiance (en distinguant celles avec seuil (TRF) et

celles avec classifieur externe (SCRF)) ;


deux types de rejet : rejet d’ignorance et d’ambigüité. En ce qui concerne les approches TRF et SCRF, nous avons expérimenté plusieurs fonc-

tions de confiance pour exploiter le plus efficacement possible les ressources du classifieur en fonction du type de rejet souhaité. Enfin pour comparer nos algorithmes d’optimisation de seuils AMTL et TGD, nous avons mis en œuvre deux autres optimisations multi-objectifs proposées dans la littérature :

celle proposée par Fumera [Fumera et al.'00b] qui est basée sur la notion de maximisa-tion sous contraintes, notée CMP (Constrained Maximization Problem),

et l’autre, basée sur les nuées de particules (Particle Swarm Optimisation, PSO) [Parso-poulos et al.'02] qui a notamment été utilisée par Oliveira [Oliveira et al.'05] pour fixer les seuils de rejet.

Ces tests ont été menés sur la base de caractères manuscrits en-ligne de la base UNIPEN

[Guyon et al.'94]. L’objectif est de reconnaître les 10 chiffres (base d’exemples) et, pour le rejet d’ignorance, de rejeter les lettres (base de contre-exemples). Les caractères ont été décrits dans un espace à 21 dimensions. Les tests ont tous été effectués en utilisant, pour plus de robustesse, des validations croisées.

L’ensemble de ces conditions expérimentales représente une quantité importante de tests dont les résultats exhaustifs ont été décrits dans [Mouchère'07]. Nous n’en reporterons ici qu’une vision très synthétique.

III.3.3.2 Critères de comparaisons : courbes ROC et ER

Les critères comparatifs sont basés, pour le rejet d’ignorance, sur les courbes ROC (Receiver Operating Characteristics) [Fawcett'06]. Elles mettent en relation d’un côté, le taux de vraie acceptation (True Acceptance Rate, TAR) représentant la proportion d’exemples acceptés, et de l’autre côté, le taux de fausse acceptation (False Acceptance Rate, FAR) qui représente la pro-portion des contre-exemples qui sont acceptés.

Pour le rejet d’ambigüité, on utilisera des courbes ER (Erreur/Rejet) mettant en relation le taux d’erreur avec le taux de rejet.

L’aire sous ces courbes est un bon indicateur de performance de rejet, même si son inter-prétation demande certaines précautions que nous avons cherchées à bien circonscrire dans ces tests. L’aire sous les courbes ROC doit être maximisée pour optimiser le rejet d’ignorance et celle sous les courbes ER doit être minimisée pour optimiser le rejet d’ambigüité.

III.3.3.3 Synthèse des résultats

Nous reportons, dans le Tableau 4 et le Tableau 5, un condensé des résultats obtenus respec-tivement pour le rejet d’ignorance et le rejet d’ambigüité. Nous avons introduit dans ces ta-bleaux la notion de contraintes d’embarquement pour distinguer :

les contextes applicatifs « avec contraintes machine » en référence à des contraintes d’embarquement sur PDA ou Smartphone. Dans ce cas, nous avons privilégié les ap-proches nécessitant le moins de ressources machines : classifieurs RBF et MLP, archi-tectures de rejet TRF et RC ;

les contextes applicatifs « sans contraintes machine » où, dans ce cas, aucune limite n’est fixée ce qui autorise d’utiliser tous les classifieurs et toutes les architectures dispo-nibles, y compris les classifieurs SVM, et les architectures SC et SCRF.

Le Tableau 4 présente les aires sous chaque courbe ROC qu’il faut maximiser pour opti-

miser le rejet d’ignorance. Nous avons cherché à exprimer, pour le rejet d’ignorance, le facteur de qualité de la définition de la base de contre-exemples pendant l’apprentissage :

« bien définie », signifie que l’on connait le type d’éléments à rejeter (base représentative de contre-exemples) ;


« mal définie », signifie que l’on a une base d’éléments à rejeter en apprentissage, mais celle-ci n’est pas très représentative ;

« non définie », signifie que l’on on ne possède aucun contre-exemple.

Tableau 4 : Rejet d’ignorance (reconnaissance de chiffres / rejet des lettres) : aire sous la courbe ROC (x100).

Base de contre-exemples

Avec contraintes machine Sans contraintes machine RBFN RBFN RBFN SVM - RBFN TRF

(CMP) TRF

(PSO) TRF

(AMTL1) RC SC

(SVM) SCRF (SVM)

« bien définie » 89,6 88,5 92,6 96,8 96,7 95,0

« mal définie » 93,3 93,6 95,0 96,2 95,3 95,6

« non définie » RBFN / TRF (AMTL2) : 94,9

Le Tableau 5 représente les aires (AUERC) sous chaque courbe ER (Erreur/Rejet) qu’il faut minimiser pour optimiser le rejet d’ambigüité. Il reporte aussi l’erreur de classification obtenue en fixant le rejet d’ambigüité à 5% (ERR5).

Tableau 5 : Rejet d’ambigüité : reconnaissance des 10 chiffres.

Avec contraintes machine Sans contraintes machine

RBFN RBFN RBFN MLP SVM SVM SVM SVM

RC TRF

(CMP) TRF

(AMTL1) TRF

(AMTL1) RC SC

(SVM) SCRF (SVM)

TRF (AMTL1)

AUERC 2,09 1,01 0,643 0,655 2,25 1,29 0,579 0,507

ERR5(%) 5,18 4,47 3,84 3,66 4,28 3,46 2,57 2,47

On constate dans le Tableau 4 et Tableau 5 que les algorithmes proposés AMTL1&2 sont

particulièrement pertinents avec l’architecture TRF (Thresholds on the reliabilty Functions) en exploitant des RBFN lorsque l’on a des contraintes de ressources « machine » et cela pour les deux natures de rejet (ignorance et ambigüité), quelle que soit la qualité de la base de contre-exemples (bien, mal et non définie).

Lorsque l’on n’a pas de contraintes « machine », AMTL1 reste, le meilleur compromis pour le rejet d’ambigüité en l’associant via l’architecture TRF à un SVM. Pour le rejet d’ignorance, dans un contexte où l’on n’a pas de contraintes machine, le SVM, est un choix à privilégier en soulignant que son fort pouvoir de discrimination lui permet d’avoir de très bons résultats, avec une architecture simple comme RC (Reject Class).

Le Tableau 6 représente un bilan très synthétique de ces expérimentations. Il reporte pour chaque objectif de rejet (ambigüité, ignorance) les solutions (classifieur ▬ architecture ▬ algorithme d’apprentissage) qui sont apparues les plus intéressantes en tenant compte des con-traintes « machine » en termes de place mémoire et de temps de calcul.


Tableau 6 : synthèse de meilleures solutions de rejet (classifieur ▬ architecture ▬ algorithme d’apprentissage).

Contraintes Type de rejet

Base de contre-exemples Avec contraintes machine Sans contraintes machine

rejet d’ignorance

« bien définie » RBFN ▬ TRF ▬ AMTL1 SVM ▬ RC

« mal définie »

« non définie » RBFN ▬ TRF ▬ AMTL2

rejet d’ambigüité

« bien définie » RBFN ▬ TRF ▬ AMTL1 SVM ▬ TRF ▬ AMTL1

III.3.4 Perspectives

Ces résultats sur l’étude des mécanismes de rejet laissent entrevoir de nombreuses perspec-tives notamment autour des systèmes de combinaison de classifieurs. Dans le contexte de nos travaux, l’idée serait par exemple d’intégrer ces notions de rejet dans les approches de classi-fication reposant sur une collaboration explicite d’une modélisation générative et discriminante (cf. section III.2). Cela s’inscrit donc directement dans la continuité des travaux que nous avons effectués sur le système Mélidis. D’une part, pour fiabiliser les décisions du classifieur et d’autre part, pour optimiser le mécanisme de focalisation qui pourrait s’appuyer sur des critères de rejet plus fins pour piloter l’activation des classifieurs discriminants du second niveau.

Une seconde perspective directe à ces travaux serait d’étudier la mise en place d’un mé-canisme de rejet hybride qui intègrerait à la fois le rejet d’ignorance et le rejet d’ambigüité au sein d’une même application. Sur ce problème, le challenge est important car ces deux na-tures de rejet sont à la fois très interdépendantes tout en ayant des critères d’optimisation pas toujours convergents. Mais encore une fois les classifieurs reposant sur une collaboration explicite d’une modélisation générative et discriminante offrent un cadre idéal pour mettre en place cette double notion de rejet. Chaque étage peut, par nature, être dédié à un type de rejet : rejet d’ignorance pour l’étage de la modélisation générative et rejet d’ambigüité pour l’étage de la modélisation discriminante.

III.4 MECANISMES D’ADAPTATION POUR L’OPTIMISATION DE CLASSIFIEUR

L’adaptation « incrémentale » d’un système de reconnaissance d’écriture à son scripteur constitue la troisième piste d’optimisation que nous avons explorée dans cet axe de recherche sur la classification. Ces travaux ont débuté en 2005 pendant la thèse d’Harold Mouchère [Mouchère'07]. La stratégie défendue est de partir d’un système omni-scripteur puis de le spécialiser progressivement, de façon automatique, en l’adaptant le plus rapidement possible à l’écriture de son utilisateur.

III.4.1 Introduction

Dans ces travaux, nous nous sommes orientés vers une approche incrémentale d’adaptation qui peut être réalisée au fur et à mesure de l’entrée de nouveaux caractères par l’utilisateur. Le système de reconnaissance est modifié en continu par ajustements successifs pour devenir de plus en plus performant. Le challenge est d’aboutir à un système d’adaptation :

très réactif : il faut s’adapter à partir de très peu de caractères du scripteur ; stable : il faut éviter les comportements chaotiques de reconnaissance pendant


l’apprentissage ; facile d’usage : cette adaptation doit être transparente même si l’utilisateur doit en

avoir conscience pour l’intégrer à sa prise en main du système. Nos contraintes applicatives, liées à l’embarquement des systèmes de reconnaissance

d’écriture sur des systèmes mobiles orientés « stylo » comme des Smartphone, va orienter nos choix d’approche vers des systèmes compacts ; d’autant que dans le contexte de l’adaptation, il faudra embarquer sur la machine, non seulement le système de reconnais-sance mais aussi son mécanisme d’adaptation incrémentale.

Nous avons par conséquent choisi à nouveau pour le moteur de reconnaissance des Sys-tèmes d’Inférence Floue (SIF) simples, efficaces et interprétables : les SIF de Takagi-Sugeno d’ordre 0 que nous maîtrisions bien (cf. section II.2.5.3). Contrairement au moteur de recon-naissance ResifCar qui utilise plusieurs SIF en les hiérarchisant sur trois niveaux, ici, le sys-tème de classification se résume à un seul SIF. La simplicité du système de classification per-met d’élaborer des mécanismes d’adaptation plus efficaces notamment en termes de rapidité. Ces simplifications nous apparaissent d’autant plus judicieuses que l’objectif est d’aboutir, après adaptation, à un système de reconnaissance mono-scripteur de nature plus simple à modéliser qu’un système omni-scripteur.

III.4.2 Positionnement de l’approche d’adaptation

De nombreux travaux ont été réalisés dans le domaine de l’adaptation de classifieurs pour la reconnaissance d’écriture. Certains sont basés sur des approches par enrôlement [Brakensiek et al.'01, Connell et al.'02, Nosary'02, Nosary et al.'04, Schomaker et al.'93]. Ces approches utili-sent une base d’adaptation constituée par l’utilisateur pour effectuer une adaptation « batch », c’est à dire en une seule fois sans remise en cause ultérieure.

D’autres travaux sont davantage orientés vers l’approche que nous avons privilégiée, à savoir, l’adaptation incrémentale de classifieur [Aksela et al.'01, Matic et al.'93, Nakamura'04, Oudot et al.'04a, Oudot et al.'05, Platt et al.'97, Vuori et al.'99, Vuori et al.'00, Vuori'02]. Les approches basées sur des classifieurs à base de prototypes sont souvent construites en s’inspirant des méthodes d’apprentissage incrémental de type LVQ (Learning Vector Quanti-zation) [Kohonen'90], FLVQ (Fuzzy Learning Vector Quantization) [Chung et al.'94].

Dans notre approche nous exploitons des SIF basés sur des prototypes dont la fonction d’appartenance correspond à une fonction à base radiale hyper-ellipsoïdale et dont la forme est donnée par une matrice de covariance. Le degré d’appartenance utilise une fonction de Cauchy reposant sur la distance de Mahalanobis (cf. section II.2.5.3). Contrairement aux ap-proches d’adaptation classiquement utilisées dérivant de LVQ et FLVQ, nos prototypes por-tent davantage d’information et sont, par conséquent, moins nombreux dans le système de classification. En nous inspirant des approches précédemment citées et notamment des EFCL (Elliptical Fuzzy Competitive Learning) [De Backer et al.'99, De Backer et al.'01], nous avons conçu une méthode d’adaptation intégrant les propriétés des SIF : la méthode Adapt, pour ADaptation par Ajustement de ProTotypes. Nous allons en résumer les grands principes dans la section suivante. Les équations sous-tendues par la méthode Adapt sont détaillées dans [Mouchère'07].

III.4.3 Contributions : stratégie d’adaptation par la méthode « Adapt »

La méthode Adapt permet d’adapter au fur et à mesure de son utilisation un SIF basé sur des prototypes flous avec des conclusions numériques. Cette adaptation incrémentale est effec-tuée conjointement en déplaçant les centres des prototypes flous, en les déformant et en rééva-luant les conclusions numériques (cf. Figure 20). L’originalité de cette approche est qu’elle permet une adaptation incrémentale prenant en compte toutes les connaissances contenues dans le SIF.

La problématique commune à l’ensemble des étapes de notre stratégie d’adaptation est le manque de données pour ré-estimer « à la volée » l’ensemble des paramètres. Chaque nouveau caractère entré dans le système par l’utilisateur devrait pouvoir avoir un impact sur


l’adaptation. Le problème est de doser cet impact de telle sorte qu’il soit important tout en garantissant une stabilité et un pouvoir de généralisation du système.

III.4.3.1 Déplacement des prototypes

Dans les SIF que nous utilisons, les prototypes participent à la reconnaissance de toutes les classes : plus un prototype est activé, plus il représente la classe et plus il va participer au score global de celle-ci (cf. section II.2.5.3). Contrairement aux méthodes LVQ1 et FLVQ qui même transposées aux SIF ne permettent pas de prendre en compte la participation de chaque prototype à la reconnaissance de chaque classe, nous avons cherché à élaborer un mécanisme d’adaptation intégrant la participation (degré d’activation) de l’ensemble des prototypes dans la reconnaissance de chaque classe.

Ainsi, dans la méthode Adapt, le déplacement du prototype sera d’autant plus impor-tant :

qu’il est fortement activé par l’exemple ; qu’il participe à la reconnaissance de chaque classe ; que l’erreur commise pour chaque classe est grande.

Le déplacement des prototypes dans l’espace d’entrée permet donc d’ajuster la représen-tativité des données du nouveau scripteur dans cet espace en améliorant, par conséquent, les capacités de discrimination du classifieur.

III.4.3.2 Déformation des prototypes

La déformation des prototypes flous a pour objectif d’adapter leur couverture à la répartition des données décrites. Cela se traduit, dans le cas des SIF considérés, par une ré-estimation itérative des matrices de covariance. Le choix de la stratégie s’est notamment basé sur la vo-lonté d’avoir un apprentissage itératif, rapide et reposant sur peu de données. Nous nous sommes donc inspirés de l’ajustement proposé dans [De Backer et al.'01] pour l’EFCL (Ellipti-cal Fuzzy Competitive Learning) en enrichissant cet ajustement pour prendre en compte tous les paramètres des SIF.

On peut remarquer que la déformation des prototypes reste malgré tout beaucoup plus coûteuse que leur déplacement, ce qui peut être un élément à considérer en fonction des con-traintes applicatives.

Figure 20 : Exemple en 2 dimensions d’adaptation à un style d’écriture [Mouchère'07] : (a) système de reconnaissance omni scripteur. (b) système adapté à un scripteur par la méthode Adapt.

(a) (b)

Frontières de décision Prototypes

Pa2 Pf1

Px1

Pf2

Px2

Pa1

Prototypes Frontières de décision

Pf1

Pf2

Px1 Pa1

Pa2

Px2


III.4.3.3 Modification des conclusions

L’adaptation des conclusions des SIF, ne pose pas de problème particulier puisqu’il suffit d’utiliser la méthode classique de descente du gradient de l’erreur sur les conclusions des règles. Cette approche est simple et peu coûteuse en ressources.

III.4.3.4 Ajout de règles

La stratégie mise en place pour enrichir le SIF consiste à ajouter des règles en identifiant les nouveaux allographes (nouveaux styles d’écriture) qui ne sont pas encore couverts par le SIF existant. L’identification de ces cas s’appuie sur le rejet « d’ignorance » (cf. section III.3.2). Ce rejet va identifier les cas où aucune règle ne peut s’appliquer correctement, c’est-à-dire qu’aucune ne représente suffisamment la donnée en entrée.

Le problème à surmonter est le faible nombre de données d’apprentissage pour pouvoir créer un nouveau prototype pertinent. En effet, il faut pouvoir le centrer correctement et sur-tout estimer sa matrice de covariance. Pour permettre un apprentissage rapide dans le cadre d’une adaptation incrémentale, c'est-à-dire, sans attendre trop de nouvelles données de l’utilisateur, nous avons mis en place un mécanisme de synthèse de caractères artificiels (cf. section suivante). Ces caractères artificiels ont pour objectif d’étendre la représentativité des nouveaux allographes à modéliser. Ils devront donc respecter leur style d’écriture. C’est sur cette base de caractères artificiels que nous allons pouvoir créer un nouveau prototype avec peu d’exemples réels.

Enfin, nous utilisons une descente de gradient pour apprendre les conclusions des nou-velles règles.

III.4.4 Synthèse de caractères

Nous avons proposé d’utiliser la synthèse de caractères pour augmenter la quantité de don-nées d’apprentissage et ainsi accélérer l’adaptation. De plus, cette approche permettra d’éviter le sur-apprentissage des exemples disponibles.

Trois approches de génération de caractères ont été étudiées. La première est basée sur des techniques « images » de déformations (étirement, inclinaison) des caractères originaux en considérant la forme « statique » du caractère. La seconde utilise les informations « en-ligne » du signal pour déformer le caractère en jouant sur la vitesse ou sur la courbure. La troisième utilise le concept d’analogie entre caractères pour combiner plusieurs caractères entre eux et ainsi en créer de nouveaux. Ce dernier concept est le fruit d’une collaboration avec l’équipe Cordial de l’IRISA et notamment avec Sabri Bayoudh et Laurent Miclet. Souli-gnons que ces résultats ont donnés lieu à plusieurs publications communes dans des com-munautés différentes [Bayoudh et al.'07, Mouchère et al.'07b].

Ces trois approches de génération de caractères ont été combinées pour augmenter la di-versité des caractères générés. Les expérimentations ont démontré leur complémentarité.

III.4.5 Résultats

L’objectif de nos expérimentations a été d’une part, de se comparer aux techniques classiques d’adaptation et d’autre part, de se mettre en situation réelle d’utilisation en mesurant l’impact de l’adaptation sur la prise en main par un utilisateur d’une méthode de saisie sur PDA.

III.4.5.1 Comparaisons à d’autres stratégies d’adaptation

Nous avons comparé la méthode Adapt avec des techniques classiques comme LVQ ou FLVQ. Les expérimentations ont porté sur la reconnaissance en-ligne de caractères manus-crits [Mouchère et al.'04, Mouchère et al.'05, Mouchère'07, Mouchère et al.'07a]. Ces résultats montrent la bonne adéquation de la méthode Adapt au SIF puisqu’elle permet de surpasser les approches classiques. Pour avoir un ordre de grandeur de l’apport d’une stratégie d’adaptation, soulignons que l’on obtient en moyenne, sur un ensemble significatif de scrip-


teurs, une réduction de 77% de l’erreur en faisant passer le taux de reconnaissance moyen de 88.5% à 97.3%.

III.4.5.2 Expérimentations sur un assistant personnel (PDA)

Nous sommes toujours très sensibles à essayer de confirmer les résultats obtenus sur des benchmarks par une confrontation avec des cas d’utilisation réelle. Dans ce sens, nous avons porté notre stratégie d’adaptation sur un assistant personnel de type PDA.

L’objectif est d’évaluer les effets de l’adaptation dans un contexte réel de saisie de texte. La grande différence par rapport aux tests précédents est, en dehors de la mise en situation réelle, le fait que l’utilisateur est directement impliqué dans la boucle d’adaptation. Ainsi, même si le système est conçu pour s’adapter à l’utilisateur, on observe que l’utilisateur a aussi tendance à s’adapter au système en essayant de contourner les problèmes du système. L’interaction avec l’utilisateur devient donc un paramètre important à prendre en compte dans le cadre de la mise au point d’un système d’adaptation incrémentale. Les résultats obte-nus dans ce contexte montrent une réduction moyenne de 41% de l’erreur en mettant en place le mécanisme d’adaptation par rapport à une saisie sans ce mécanisme. La durée de la saisie était calibrée sur un texte en anglais de 1564 caractères. Ces résultats sont inférieurs à ceux obtenus sur les benchmarks car nous n’avions pas embarqué sur le PDA l’ensemble des mécanismes d’adaptation : il n’y avait pas de déformation des prototypes, ni de synthèse de caractères. En effet, ces algorithmes n’étaient pas encore suffisamment optimisés et auraient donc ralenti le processus de saisie. Ces approches nécessitent donc une optimisation du code pour être utilisable dans de bonnes conditions sur des assistants personnels à capacité de calcul limitée.

III.4.6 Perspectives

La suite de ces travaux vient de débuter par la thèse d’Abdullah Almaksour24 [Almaksour et al.'08a, Almaksour et al.'08b]. Elle porte sur « l’apprentissage avec très peu de données par adaptation, synthèse et modèles de déformation ». L’objectif est de construire des systèmes de reconnaissance « auto-évolutifs » capables d’apprendre « à la volée » à partir de très peu de données réelles.

Dans le cadre des applications orientées stylo, l’objectif visé est, par exemple, de per-mettre à un utilisateur de définir lui même ces commandes gestuelles ou ces nouveaux sym-boles à reconnaître. Il lui suffirait de dessiner une ou deux fois chaque commande ou sym-bole pour les intégrer directement au moteur de reconnaissance de formes graphiques.

Pour cela nous proposons de représenter la variabilité de l’écriture manuscrite en défi-nissant des modèles génériques de déformation de l’écriture.

Une première piste consiste à travailler sur la génération automatique de données d’apprentissage à partir de très peu de données réelles. L’objectif est d’augmenter de façon significative la quantité et la diversité des données d’apprentissage pour modéliser de nou-velles classes. L’idée est d’utiliser des modèles de déformation pour synthétiser des tracés artificiels fidèles aux données disponibles. Pour cela, on pourra s’inspirer des travaux de Plamondon [Djioua et al.'07, Plamondon et al.'98, Plamondon et al.'06] sur les modèles « sig-ma-lognormal » et « delta-lognormal » adaptés à l’écriture.

Une seconde piste consiste à travailler cette fois sur les mécanismes d’apprentissage proprement dit. L’idée est d’étendre les mécanismes d’apprentissage en s’appuyant sur la notion de modèles de déformation pour piloter la création de nouvelles classes à partir de quelques données réelles. Ces travaux pourront notamment s’inspirer des études sur les mo-dèles de déformation [Charpiat et al.'05, Charpiat et al.'06].


Chapitre IV INTERACTION HOMME-DOCUMENT : RECONNAISSANCE A LA VOLEE DE

DOCUMENTS STRUCTURES

Contexte

― Période des travaux : ▫ Fin 2004 à 2008

― Thèses associées : ▫ Macé [Macé'08] Bouteruche25 Delay26

― Collaborations Académiques : ▫ Laboratoire de psychologie expérimentale (CRPCC) Laboratoire de musique (MIAC) de l’Univ. de Rennes 2 Laboratoire Franco-Chinois du LIAMA

― Collaborations Industrielles : ▫ France Télécom R&D, Evodia et Apave

― Transfert industriel : ▫ Technologie DALI

― Publications : ▫ 1 revue int. (PR), 1 revue nationale (I3), 1 chapitres de livre, 1 revue électronique (Interstices) 12 conf. internationales, 5 conf. nationales 2 « prix du meilleur papier » [Delaye et al.'08a, Macé et al.'06]

IV.1 INTRODUCTION

Ce chapitre est consacré à nos travaux les plus récents qui marquent un tournant dans nos problématiques de recherche. Après avoir conçu et réalisé des systèmes de reconnaissance d’écriture manuscrite (cf. Chapitre II) et approfondi certaines problématiques de la recon-naissance de formes (classifieurs mixtes, rejet et adaptation (cf. Chapitre III)), nous nous sommes orientés vers une nouvelle problématique que nous avons qualifiée d’interaction homme–document (IHD) orientée stylo.

L’IHD orientée stylo vise à reproduire la métaphore «papier/crayon» à laquelle chacun est habitué. Elle est par conséquent très intuitive. L’utilisateur peut garder ses habitudes de composition manuscrite papier, tout en tirant parti de l’informatique. Le système interprète les tracés de l’utilisateur en les mettant «au propre». Le document est donc plus lisible. Il est


26 Thèse d’Adrien Delaye, Interprétation de formes manuscrites structurées : Application à la reconnaissance de caractères chinois. Thèse de l’INSA de Rennes débutée en octobre 2008.


facilement éditable, archivable, diffusable et peut être couplé avec des systèmes d’information.

Les avancées technologiques et scientifiques arrivent aujourd’hui à maturité pour conce-

voir de nouveaux usages qui vont mettre en avant tout le potentiel d’une IHD orientée stylo. Du côté technologique, les récentes innovations concernant les ordinateurs tablettes

(TabletPC, UMPC, etc.) ou encore les stylos électroniques (Anoto), offrent une mobilité in-formatique jusqu’alors jamais atteinte : faible encombrement, bonnes autonomie et puissance de calcul, poids réduit et lisibilité en conditions extérieures. Les industriels s’équipent avec ces solutions qui ouvrent de nombreuses perspectives en termes de gain de productivité. L’idée est notamment d’éviter aux personnels sur le terrain une resaisie a posteriori des notes récoltées à l’extérieur (rapports, annotations, schémas, croquis). Cette phase de resaisie est particulièrement fastidieuse, coûteuse en temps et souvent source d’erreurs.

Du côté scientifique, le savoir faire acquis ces dix dernières années dans le domaine de la reconnaissance de tracés manuscrits (écriture, symboles, croquis...), dans l’analyse de la struc-ture des documents et dans la modélisation d’informations contextuelles permet d’envisager de relever le challenge de la reconnaissance de documents structurés.

J’ai ouvert ce nouvel axe de recherche dans l’équipe IMADOC il y a maintenant quatre

ans, avec une vision scientifique à la fois ambitieuse mais aussi très pragmatique. L’idée était d’aller vers des solutions très performantes à moyen terme. Nos nombreux contacts avec le milieu industriel nous ont sensibilisés aux exigences très fortes des utilisateurs. Nous avons donc cherché à mettre en place des stratégies permettant de garantir ces performances tout en offrant une ergonomie d’interaction optimale avec l’utilisateur.

L’idée fédératrice de ces recherches est de mettre en avant la notion de reconnaissance « à la volée » de documents manuscrits. Dans ce concept, le système interprète les tracés de l’utilisateur au fur et à mesure de leur saisie, pour les transcrire «au propre». L’utilisateur devient alors un acteur à part entière du processus d’analyse. Il peut confirmer ou infirmer les hypothèses d’interprétation des tracés émises par le système, ce qui permet, de limiter la combinatoire dans le procédé d’analyse et par conséquent, de renforcer significativement les performances du système.

Ces travaux se sont concrétisés à travers deux thèses qui sont en train de s’achever. La première thèse de François Bouteruche27, a été menée en collaboration avec la société

France Telecom R&D de Grenoble. Elle a porté sur la conception d’une nouvelle méthode de saisie sur assistant personnel (PDA et Smartphone) pour faire de la reconnaissance « à la volée » de caractères manuscrits dans le contexte de mots (cf. section IV.2). Dans ces travaux, nous avons embarqué le moteur de reconnaissance ResifCar, pour nous concentrer sur la pro-blématique de la reconnaissance de gestes28 et de symboles graphiques (accentuations, ponctua-tion, gestes graphiques de commandes et d’éditions). Le cœur scientifique de ces travaux s’est alors focalisé sur la combinaison d’informations intrinsèques à la forme avec des infor-mations de contexte spatial, pour optimiser la reconnaissance des gestes et symboles gra-phiques en contexte.

Soulignons que pour aller jusqu’au bout de ces travaux, et développer des applications dans lesquelles l’interaction constitue un élément clé de l’utilisabilité de l’application, nous avons collaboré avec le laboratoire CRPCC de psychologie expérimentale de l’Université de Rennes 2. Grâce à cette collaboration, nous avons mis au point des méthodes d’évaluation des stratégies d’interaction avec l’utilisateur en mesurant leurs impacts en termes de temps de saisie et de satisfaction des utilisateurs. Deux publications communes sont relatives à ces expérimentations [Bouteruche et al.'05a, Bouteruche et al.'05b].

27 Thèse de Francois Bouteruche, Modélisation des formes et de leur contexte par arbres de décision flous pour les IHM Stylo. Thèse de l’INSA de Rennes débutée en octobre 2004.

28 Tracés manuscrits effectués pour signifier des actions ou commandes (sélection, suppression, accentuation, …)

CHAP. IV : INTERACTION HOMME-DOCUMENT : RECONNAISSANCE À LA VOLÉE DE DOCUMENTS STRUCTURÉS 79

La seconde thèse vient d’être soutenue par Sébastien Macé [Macé'08] (cf. section IV.3). Elle est subventionnée en partie par la région Bretagne. Le contexte de document est cette fois étendu à des documents complets de nature complexe tels que les diagrammes, les partitions musicales, ou encore les schémas électriques. L’idée est d’obtenir un document automati-quement retranscrit au propre à partir de sa composition manuscrite sur des ordinateurs tablettes.

L’originalité de l’approche est d’axer la composition des documents sur une analyse in-crémentale permettant une interprétation à la volée des tracés de l’utilisateur. Nous avons con-çu un langage de description basé sur la théorie des grammaires et langages visuels [Marriott et al.'98]. Cette approche, nommée DALI, est générique, ce qui a permis de la décliner sur plu-sieurs systèmes pour la composition de documents de diverses natures : partitions musicales [Macé et al.'07c], diagrammes UML ou encore schémas électriques [Macé et al.'07b, Macé et al.'08a, Macé et al.'08b]. Pour ce dernier applicatif, soulignons que la technologie DALI a été transférée à la société Evodia (cf. section I.2.4) pour être embarquée dans le logiciel Script&Go « Schémas électriques », aujourd’hui commercialisé (cf. section IV.3.2.4–(i)).

Ces travaux, associés à ces deux thèses, vont être présentés dans les sections IV.2 et IV.3 qui suivent.

IV.2 METHODE DE SAISIE AVEC RECONNAISSANCE A LA VOLEE DE CARACTERES

Ces travaux débutés en 2004 et associés à la thèse de François Bouteruche29 ont été menés en collaboration avec France Telecom R&D. Ils visent à concevoir une méthode de saisie d’écriture manuscrite sur assistant personnel électronique (PDA) ou Smartphone. Ils s’articulent autour de trois objectifs :

― l’étude de l’ergonomie de la méthode de saisie adaptée aux contraintes des PDA et des Smartphone : cela a abouti à la méthode de saisie DIGIME (cf. section IV.2.1) ;

― la modélisation du contexte spatial de symboles graphiques (cf. section IV.2.2) ;

― la mise au point d’un système de reconnaissance par combinaison explicite de points de vue. Le principe est d’associer explicitement des informations de contexte spatial avec des informations sur la forme des tracés manuscrits (cf. section IV.2.3).

IV.2.1 Méthode de saisie « DIGIME »

Une méthode de saisie30 manuscrite permet d’écrire un texte sur l’écran tactile de la machine à l’aide d’un stylo. La méthode de saisie est commune à l’ensemble des applications de la machine : SMS, courriel, agenda, bloc notes… Elle est donc au centre de la communication entre l’utilisateur et les applications embarquées sur les PDA et les Smartphone. DIGIME est une méthode de saisie manuscrite de texte pour Smartphone ou assistant per-sonnel électronique (PDA).

Nous avons évoqué, dans l’introduction du Chapitre II, les recherches menées en psy-chologie cognitive sur les méthodes de saisie manuscrite. Elles ont notamment mis en évi-dence le manque d’ergonomie de ces interfaces qui nuit à leur utilisabilité. Ceci explique, pour une bonne part, le rejet par la majorité des utilisateurs des méthodes de saisie « manus-crites » au profit d’un clavier virtuel sur lequel l’utilisateur « clic » avec son stylo pour rédi-ger son texte. En constatant l’importance du rôle de l’ergonomie dans l’acceptabilité de ces méthodes de saisie manuscrites sur des Smartphone et PDA, nous avons lancé en 2004, en collaboration avec France Telecom R&D et le laboratoire CRPCC de psychologie expérimen-tale de l’Université de Rennes 2, une étude sur la conception d’une méthode de saisie manus-

29 Thèse de Francois Bouteruche, Modélisation des formes et de leur contexte par arbres de décision flous pour les IHM Stylo. Thèse de l’INSA de Rennes débutée en octobre 2004, soutenance prévue en mars 2009.

30 Méthode de saisie : le terme anglais souvent utilisé est « input method ».


crite de texte. L’objectif est de développer un véritable petit éditeur d’encre électronique sur Smartphone qui permettrait non seulement d’interpréter des caractères manuscrits mais aussi les signes diacritiques, les signes de ponctuations ainsi qu’un ensemble de commandes ges-tuelles réalisées avec le stylo (sélection, suppression…).

Cette étude constituait pour nous un excellent cadre expérimental sur la reconnaissance de formes manuscrites en contexte. Nous commençons, dans les sections suivantes, par dé-crire l’interface de saisie manuscrite DIGIME qui résulte de cette étude, pour ensuite résumer les travaux que nous avons menés sur la reconnaissance de formes manuscrites en contexte.

IV.2.1.1 Ergonomie de l’interface DIGIME : l’importance du retour visuel

La mise au point de DIGIME a été guidée par la recherche du meilleur compromis entre les performances brutes de la reconnaissance, les capacités réduites des machines en termes de puissance de calcul et de place mémoire, et les choix ergonomiques pour se rapprocher d’une saisie d’écriture la plus naturelle possible.

Les méthodes classiques de saisie de caractères les plus répandues (de type Jot ou Graffi-ti) sont hors contexte : la saisie s’effectue caractère par caractère et une fois le caractère recon-nu, il disparaît de la zone de saisie pour être envoyé à l’application. Cela engendre une com-mutation d’attention visuelle permanente entre la zone de saisie du caractère et l’application où le résultat de la reconnaissance est envoyé (cf. Figure 21, version 1).

Le premier point mis en avant dans DIGIME est la saisie de caractères isolés en contexte de mots. Ils sont tracés dans le sens de l’écriture latine en levant le stylo entre deux caractères ; les caractères reconnus restent affichés dans la zone de saisie ce qui permet de conserver au même endroit le contexte du mot en cours de saisie (cf. Figure 21, version 3). La reconnais-sance de mots cursifs aurait pu être une solution encore plus naturelle ; cependant elle n’est pas, de notre point de vue, suffisamment efficace sur ce type de machine pour répondre aux exigences de l’utilisateur.

Le second point de cette étude a porté d’une part, sur la minimisation du nombre de zones d’attention visuelle et d’autre part, sur le respect de la contiguïté spatiale entre la zone de saisie et la zone de retour visuel des caractères reconnus. Ce point a été soulevé par Swel-ler [Sweller et al.'91] et MacKenzie [MacKenzie et al.'02] à travers le concept de contiguïté spatiale qui consiste à prédire, du fait de la capacité limitée de la mémoire de travail de l’Homme, que la charge d’une tâche donnée pesant sur un individu se verra augmentée si les sources d’information permettant sa réalisation sont dispersées. Pendant cette étude, nous avons déclinés trois versions de l’interface de saisie (cf. Figure 21, version 1, 2 et 3). Ces va-riantes d’interfaces ont été évaluées expérimentalement dans le cadre de la psychologie cog-nitive, en collaboration avec le CRPCC. Soulignons qu’ici nous ne cherchons pas à mesurer des taux de reconnaissance mais plutôt l’impact des choix ergonomiques de l’interface dans un contexte d’utilisation « réelle » sur PDA et Smartphone. Pour cela nous avons notamment enregistré les temps de rédaction de listes de mots par des participants ainsi que leurs scores au test d’utilisabilité de Nielsen [Nielsen'93] et au test de charge de tâche subjective NASA-Task Load Index31. La notion d’utilisabilité est la capacité d’un dispositif à permettre à ses utilisateurs d’accomplir une tâche donnée avec le maximum d’efficacité.

Les critères utilisés s’intéressent à mesurer : l’efficacité en vérifiant que les objectifs visés par l'utilisateur sont atteints ; l’efficience pour évaluer les ressources nécessaires pour atteindre ces objectifs, par

exemple le temps mis par l'utilisateur pour réaliser la tâche ; la satisfaction pour déterminer si le système est agréable à utiliser ; le nombre d'erreurs commises par l'utilisateur et la rapidité de correction des erreurs ; la facilité d'apprentissage pour évaluer le temps d’assimilation du mode de fonction-

nement.

31 NASA Task Load Index (TLX) V1.0 Users manual : http:// iac/dtic.mil/hsiac/docs/TLX-UserManual.pdf


Ces évaluations ont porté sur des panels relativement conséquents d’utilisateurs (84 uti-lisateurs dans les expérimentations reportées dans [Bouteruche et al.'05a, Bouteruche et al.'05b]). Dans ces expérimentations nous avons cherché à mesurer l’importance du facteur de proximité des zones d’attention visuelle en évaluant son impact sur l’utilisabilité des mé-thodes de saisie d’écriture. La Figure 21 illustre trois versions successives de DIGIME.

Dans la première version, l’écriture se passe en contexte de mots mais le retour visuel s’effectue classiquement, c'est-à-dire dans la zone de l’application qui est relativement éloi-gnée de la zone de saisie.

Dans la deuxième version, nous avons cherché à rapprocher le retour visuel de la zone de saisie en le plaçant juste au dessus de celle-ci. Malgré cette forte proximité, nous n’avons pas mesuré d’impact significatif. Il semblerait qu’il y ait encore trop de commutations d’attention visuelle dans un axe vertical, qui n’est pas cohérent avec l’axe « gauche/droite » de l’écriture latine. Par ailleurs, cette deuxième version a mis en évidence que l’idée de main-tenir l’encre des caractères précédemment tracés dans la zone de saisie était néfaste. En effet, cela incite l’utilisateur à écrire « en attaché » les caractères (écriture cursive), ce qui n’est pas supporté par notre méthode de saisie qui ne gère que des caractères isolés.

Nous avons alors élaboré une troisième version de DIGIME dans laquelle les retours

Figure 21 : Illustration des 3 versions de DIGIME.

Version 2

Version 3

Caractère reconnu

Application

Retour visuel

Méthode de saisie

Version 1

Caractère reconnu

Après reconnaissance

Caractères déjà reconnus

Caractères déjà reconnus

Nouveau caractère saisi

Caractère reconnu

Après reconnaissance

Retour visuel

Nouveau caractère saisi

Zone de saisie


d’interprétation s’effectuent directement au sein de la zone de saisie. L’attention visuelle de l’utilisateur reste ainsi focalisée au même endroit. L’utilisateur écrit ses caractères et contrôle la cohérence de l’interprétation de ses saisies dans la même zone, sans que cela perturbe son processus de rédaction. Le contrôle des interprétations est cohérent avec le sens d’écriture « gauche/droite » ; il est donc plus naturel. Enfin, la retranscription « la volée » des caractères reconnus dans la zone de saisie limite le reflexe de certains scripteurs à écrire les mots « en attaché ». Soulignons que c’est aussi ce type d’ergonomie qui a été retenue pour la méthode de saisie Decuma32 de la société Zi Corporation. On s’aperçoit qu’elle possède de nombreux principes ergonomiques mis en avant pour DIGIME.

IV.2.1.2 Micro-éditeur d’encre électronique avec reconnaissance à la volée

Dans l’interface DIGIME, la contrainte imposée à l’utilisateur est de lever son stylo de l’écran entre chaque caractère. Les caractères peuvent cependant être écrits en plusieurs traits. Cette possibilité offre une souplesse d’écriture intéressante, notamment vis-à-vis de certains carac-tères qui sont naturellement écrits en plusieurs traits, comme le « i », le « t » ou encore le « x ». Pour autoriser l’écriture de caractères multi-traits, nous avons conçu une stratégie de segmentation automatique des tracés en lettre afin de regrouper les tracés qui composent un même caractère. La segmentation automatique est basée sur le repérage de la position spa-tiale des tracés les uns par rapport aux autres. Elle sera par la suite modélisée par l’identification automatique de la catégorie contextuelle de deux classes de tracé : la classe suite-caractère qui correspond à la détection de la suite d’un caractère multi-trait et la classe nouveau-caractère qui correspond à la détection d’un nouveau caractère. Nous reviendrons sur ce point dans les sections suivantes.

Un point important dans la conception de cette interface de saisie de caractères est qu’elle repose sur une reconnaissance « à la volée ». C'est-à-dire qu’à chaque fois qu’un bloc de tracés a été identifié comme une unité cohérente, celui-ci est interprété et affiché à l’utilisateur. L’utilisateur peut alors, valider implicitement cette reconnaissance en poursui-vant sa saisie ou au contraire, la corriger immédiatement en retraçant le caractère.

DIGIME offre aussi des fonctionnalités d’éditions qui en font, en réalité, un véritable mi-cro-éditeur d’encre électronique. Nous avons souhaité gérer, avec la même ergonomie, le tracé des signes d’accentuation, de ponctuation et de commandes d’éditions (suppression, insertion...). Dans le dernier prototype élaboré, nous avons intégré seize classes (cf. Figure 22) qui recouvrent les principales fonctionnalités d’un micro-éditeur d’écriture en langue fran-çaise.

32 http://www.zicorp.com/HandwritingRecognition.htm

Figure 22 : Liste des 16 classes de gestes graphiques de DIGIME


Par exemple, les accents peuvent être tracés dans le flot de la saisie ou a posteriori sur des

caractères déjà reconnus (cf. Figure 23). La Figure 24 illustre un autre exemple, où pour sup-primer un ou plusieurs caractères, l’utilisateur raye (de la droite vers la gauche) directement dans la méthode de saisie, les caractères qu’il veut supprimer.

IV.2.2 Modélisation du contexte spatial de symboles graphiques

IV.2.2.1 Introduction

Associé à ce travail de réflexion sur l’ergonomie de l’interface de saisie DIGIME, nous nous somme intéressés à la reconnaissance des seize classes de gestes graphiques, en ajoutant deux autres classes pour gérer la segmentation : la classe suite-caractère qui correspond à la détec-tion de la suite d’un caractère multi-trait et la classe nouveau-caractère qui correspond à la détection d’un nouveau caractère. Ces deux classes supplémentaires permettent d’identifier les espaces inter- et intra-caractères. Rappelons que la reconnaissance des caractères et sym-boles manuscrits est opérée par le système ResifCar présenté au II.2.

Cette étude s’est d’abord focalisée sur le problème de la modélisation du contexte spatial qui joue un rôle prépondérant dans l’interprétation de ces 18 classes étant donné que plu-sieurs classes partagent les mêmes formes graphiques. Cette notion regroupe trois types d’information : la notion de distance, la notion de direction et la notion de taille de la trace manuscrite ; ces trois informations sont relatives à une référence.

De nombreux travaux ont cherché à intégrer des informations de positionnement relatif pour identifier des tracés manuscrits, notamment dans le cadre d’approches de reconnais-sance structurelle ou hydride structurelle/statistique. On peut notamment souligner, les tra-vaux sur la reconnaissance des caractères chinois [Liu et al.'04b] et sur la reconnaissance de formules mathématiques [Chan et al.'00] qui nécessitent une prise en compte du contexte spatial pour aboutir à une bonne interprétation des éléments du symbole ou de l’expression à reconnaître.

La plupart de ces approches reposent sur l’intégration de ces informations de position-nement relatif au sein même de la modélisation du symbole. Elles s’appuient souvent sur des graphes relationnels attribués où les relations décrivent la position relative des sous éléments modélisés. Pour affiner la modélisation de ces relations, certains auteurs ont utilisé une ap-proche de modélisation basée sur les principes des sous-ensembles flous (Fuzzy Attributed Relational Graphs (FARG) [Chan et al.'92, Chen et al.'94, Zheng et al.'97]). Cette modélisation qualitative évite d’avoir une représentation « tout-ou-rien » des relations spatiales. D’autres

Figure 23 : Exemple d’accentuations dans le flot de l’écriture (1) ou a posteriori (2).

Figure 24 : Exemple de geste graphique de suppression des deux premiers caractères.

(2)

(1)


approches ont eu recours aux réseaux bayésiens [Cho et al.'03, Cho et al.'06] pour intégrer la notion de positionnement relatif au sein de la modélisation.

Dans toutes ces approches, la relation exprimée est le plus souvent limitée au position-nement relatif de points de référence des tracés considérés. Dans le cas de la reconnaissance en-ligne, cela se restreint même souvent à ne considérer que les points de début et de fin de tracés. La modélisation du positionnement relatif est donc plutôt simpliste puisqu’elle ne tient pas compte de la forme générale des éléments en relation. Dans cette étude, nous avons cherché à concevoir des descripteurs qualitatifs des relations de direction plus robustes. Nos recherches nous ont conduits aux opérateurs de positions proposés par I. Bloch [Bloch'99, Bloch'05] dans le domaine de l’analyse d’images. Nous les avons adaptés aux tracés manus-crits en-ligne.

IV.2.2.2 Évaluation du positionnement relatif flou

L’approche présentée par Bloch [Bloch'99, Bloch'05] repose sur la théorie de la morphologie mathématique floue. Elle permet de mesurer des directions relatives de façon qualitative en utilisant le cadre de la logique floue. Le principe est d’évaluer avec quel degré une relation du type « être dans la direction u par rapport à un objet R de référence » est respectée par un objet.

L’évaluation de la position d’un objet relativement à un objet de référence s’effectue en deux étapes : la définition d’un paysage flou autour de la référence, puis la comparaison de l’objet analysé avec ce paysage flou.

(i) Définition du paysage flou

Pour un élément de référence R relativement à une direction u donnée, le paysage flou )(R est une fonction qui associe un degré d’appartenance flou à tout point de l’espace S,

modélisant le degré avec lequel ce point vérifie la relation. Notons P un point quelconque de S et Q un point dans R. Soit β(P,Q) l’angle formé par le

vecteur QP et la direction u , à valeurs dans [0, π]. u représente le vecteur unitaire de direc-tion α.

β(P,Q) est donné par l’équation :

0.

arccos),(

β(P,P) et QP

uQPQP (9)

Pour tout point P de l’espace, on détermine le point Q de l’objet référence R tel que l’angle β(P,Q) soit minimal. On note βmin(P,R) cet angle (cf. Figure 25).

Le paysage flou )(R est alors défini par :

)),(min())(( RPfPR , (10)

où f est une fonction décroissante de [0, π] dans [0, 1]. Si l’on choisit pour f la fonction linéaire simple proposée dans [Bloch'99], on aboutit à la définition suivante du paysage flou :

)),(min2

1,0max())((

RPPR (11)


En un point P, le paysage flou )(R représente donc l’adéquation de P avec la relation di-rectionnelle définie par l’angle α par rapport à la référence R. Un point qui satisfait nettement la relation « être dans la direction u par rapport à R » aura un haut degré d’appartenance au paysage. La Figure 26 illustre quatre paysages flous correspondant aux relations de direction « à droite », « au dessus », « à gauche » et « en dessous » par rapport à un trait de référence (la luminosité traduit le degré d’appartenance).

(ii) Évaluation de l’appartenance d’un tracé à un paysage flou

Une fois le paysage flou défini, il reste à évaluer avec quel degré, un tracé analysé A respecte la relation considérée par rapport à l’objet de référence. Pour cela, on peut calculer la moyenne des degrés d’adéquation des points de A avec le paysage flou (cf. Figure 27) :

),)((1

)( xR

AxN

ARM

(12)

où N est le nombre de points de A.

Figure 25 : Définition de βmin(P,R).

Figure 26 : Représentation du paysage flou dans les quatre directions principales.

Figure 27 : Évaluation de l’appartenance d’un tracé situé « en haut et à droite » d’un objet de référence situé au centre, par rapport aux quatre directions principales.

66.0)( AdessusM 00.0)( AgaucheM 04.0)( AdessousM81.0)( AdroiteM

« à droite » « au dessus » « à gauche » « en dessous »


IV.2.2.3 Adaptation au signal en-ligne de tracé manuscrit

Dans le domaine de l’analyse d’image, les points représentant un objet sont contigus contrai-rement aux points représentant un tracé manuscrit en-ligne. L’espacement des points dans un signal en-ligne est lié à la fréquence d’échantillonnage du périphérique d’acquisition. Si l’on applique directement la définition précédente du paysage flou sur un signal en-ligne de tracé manuscrit, on obtient un effet de peigne lié au caractère discret du signal traité (cf. Figure 28 (a)).

Pour résoudre ce problème, nous avons proposé une méthode qui ne nécessite pas de ré-échantillonnage [Bouteruche et al.'06b]. Elle est basée sur l’hypothèse que le tracé reliant deux points consécutifs Qi et Qi+1 du signal peut être approximé par un segment pour constituer un nouvel objet de référence R’. Il est alors possible de calculer simplement pour chaque seg-ment, le point 1

miniiQQQ qui minimise l’angle ]1,[ iQiQQ Q),(P, . Pour être directement appliqué

à un signal en-ligne, le paysage flou est alors réécrit de la façon suivante :

)))min,(2

1(0

max,0max())((1

iiQQ

QP

NiPR (13)

Avec cette nouvelle formulation du paysage flou, on élimine l’effet de peigne comme l’illustre la Figure 28 (b).

(i) Description du positionnement relatif des tracés manuscrits

On peut caractériser le positionnement relatif flou d’un tracé par rapport à une référence en évaluant sa position par rapport aux 4 directions principales : « en-dessous », « au-dessus », « à gauche » et « à droite » (cf. Figure 27). On ajoute ensuite à ces quatre descripteurs, des descripteurs associés à la taille et la distance relative de ce tracé par rapport à la référence. On obtient ainsi un vecteur de caractéristiques décrivant complètement le contexte spatial d’un objet par rapport à une référence.

IV.2.2.4 Expérimentations

Les expérimentations ont été menées dans le cadre de la mise au point de la méthode de sai-sie DIGIME. Nous nous sommes intéressés à la caractérisation des seize classes de gestes graphiques (cf. Figure 22) associées aux deux classes supplémentaires permettant d’identifier les espaces inter- et intra-caractères. La base de données a été constituée sur un PDA grâce à la participation de 15 scripteurs et compte 5525 données réparties en 18 classes.

L’objectif de ces premières expérimentations était d’évaluer l’impact de la prise en compte du positionnement relatif flou de tracés en-ligne sur la description du contexte spa-

Figure 28 : Représentation du paysage flou avec (a) et sans (b) effet de peigne.

Signal en-ligne (a) (b)


tial. Pour cela nous avons établi comme référence une modélisation classique du positionne-

ment relatif qui est basée sur les boîtes englobantes des tracés. Les boîtes englobantes don-nent une vision synthétique des tracés sur laquelle on peut s’appuyer pour décrire leur posi-tion et leur proportion. Le contexte spatial relatif d’un tracé manuscrit correspond alors à évaluer la distance, la taille et la direction relative de son rectangle englobant par rapport à celui de sa référence. Plusieurs descripteurs ont été expérimentés pour décrire ces trois me-sures. Expérimentalement, les meilleurs résultats ont été obtenus en considérant sept descrip-teurs numériques associés à :

la distance euclidienne sur l’axe des abscisses et des ordonnées entre les positions des centres des rectangles englobants de la référence et de la trace manuscrite (2 descrip-teurs) ;

la taille relative normalisée en hauteur et largeur de la trace et de la référence (3 des-cripteurs) ;

le vecteur de direction unitaire entre les centres des rectangles englobants de la réfé-rence et de la trace manuscrite (2 descripteurs).

Nous avons comparé les taux de reconnaissance obtenus avec ces descripteurs classiques aux taux obtenus en utilisant une description affinée de la direction relative des tracés. Pour cela, nous avons remplacé le vecteur de direction unitaire (deux descripteurs) par le posi-tionnement relatif flou présenté précédemment (quatre descripteurs). Ce dernier à l’avantage de prendre en compte la forme des objets mis en comparaison pour évaluer plus finement la notion de direction relative.

Pour opérer ces comparaisons qui se concentrent sur l’impact de la modélisation du po-sitionnement spatial, nous avons utilisé le même jeu de caractéristiques de forme : neuf carac-téristiques de forme simples ont été définies pour décrire la morphologie des tracés manus-crits. Elles correspondent notamment au rapport hauteur/largeur du rectangle englobant, aux positions du premier et du dernier point de la trace relativement au rectangle englobant, à une description de la courbe du tracé… Bien que simple, ces descripteurs permettent de discri-miner correctement les différentes classes de forme mises en jeu dans notre cadre applicatif.

Enfin, l’évaluation repose sur une validation croisée « omni-scripteur » basée sur des dé-coupages aléatoires en trois groupes de 5 scripteurs. Deux types de classifieurs ont été utilisés dans ce tests : des réseaux de neurones à fonction à base radiale (RBFN, Radial Basis Function Network) et des Séparateurs à Vastes Marges (SVM, Support Vector Machine).

Les résultats synthétisés dans le Tableau 7 montrent l’impact des descripteurs numé-riques basés sur le positionnement flou pour caractériser la direction relative entre tracés manuscrits. Cet impact est d’autant plus marqué que le pouvoir de discrimination du classi-fieur utilisé est faible. En effet, on observe une diminution du taux d’erreur de 12,7% pour le RBFN et de seulement 5,3% pour le SVM. Rappelons que dans notre contexte applicatif, les contraintes d’embarquement nous orientent vers des classifieurs de type RBFN, moins gour-mands en puissance de calcul et en mémoire que les SVM.

Tableau 7 : Taux de reconnaissance en fonction des descripteurs de direction utilisés.

RBFN SVM Avec vecteur unitaire (boîte englobante) : 7 descripteurs de contexte spatial 91,66% 95,71%

Avec positionnement flou : 9 descripteurs de contexte spatial 92,72% 95,94%

Les perspectives directes de ces travaux sont d’étendre le principe du positionnement flou aux autres dimensions du contexte spatial, notamment à la distance relative qui peut être vraisemblablement affinée sur le même principe.


IV.2.3 Reconnaissance par combinaison explicite du contexte spatial avec la forme des tracés manuscrits

IV.2.3.1 Positionnement de l’approche proposée

Nous cherchons dans cette étude à concevoir un classifieur de gestes graphiques destiné à être embarqué sur des machines à capacité restreinte (PDA, Smartphone). Rappelons que dans ce contexte, l’objectif est toujours de limiter au maximum les besoins en ressource ma-chine, d’obtenir des temps de réponses courts, sans compromettre les taux de reconnaissance.

Par ailleurs, soulignons qu’il est difficile de récupérer des échantillons représentatifs en nombre conséquent. Les campagnes de saisie sont longues et assez laborieuses puisqu’elles consistent à demander à de nombreux scripteurs de réaliser des gestes graphiques dans diffé-rents contextes. Pour mettre au point ce type d’approche, on dispose donc généralement d’une quantité relativement faible de données d’apprentissage.

Dans un contexte où l’on a peu de données d’apprentissage relativement à un espace de représentation qui peut-être assez important puisqu’il rassemble potentiellement des caracté-ristiques décrivant la forme et son contexte spatial, il est difficile de concevoir un classifieur performant avec un fort pouvoir de généralisation. Plusieurs techniques ont été proposées pour palier a ce problème. On peut notamment citer les techniques de combinaison de classi-fieurs « faibles ». L’idée générale de ces approches est de réaliser plusieurs apprentissages d’un même type de classifieur en faisant varier la base d’apprentissage (« bagging », « boos-ting ») ou l’espace des caractéristiques (« random subspaces »). Ces classifieurs sont ensuite combinés pour collaborer à la décision finale.

Le bagging [Skurichina et al.'98] repose sur l’apprentissage de plusieurs déclinaisons d’un même type de classifieur à partir de sous-ensembles différents de la base d’apprentissage. Ces sous-ensembles sont définis de façon aléatoire et les classifieurs résul-tants sont combinés souvent à l’aide d’un vote majoritaire.

Dans le boosting [Schapire'99a, Schapire'99b, Skurichina et al.'00], la stratégie d’apprentissage repose sur une succession d’apprentissage de classifieurs. Au départ, un premier classifieur est appris sur la base d’apprentissage en considérant les échantillons de façon équivalente. Les échantillons sont ensuite pondérés en fonction des erreurs produites par le classifieur précédent. Le principe est de focaliser progressivement la classification sur les erreurs persistantes en leur donnant plus de poids dans l’apprentissage. La combinaison de ces différents classifieurs est souvent basée sur un vote majoritaire pondéré.

Les approches de type « random subspaces » [Ho'98] construisent un ensemble de classi-fieurs en sélectionnant aléatoirement, pour chacun d’eux, un sous-ensemble de caractéris-tiques. Ces différents classifieurs sont ensuite combinés par vote majoritaire.

Ces différentes techniques obtiennent de bons résultats, elles permettent souvent d’optimiser le pouvoir de généralisation des classifieurs en compensant le manque de don-nées d’apprentissage. Cependant, elles engendrent un surcoût en termes de besoin mémoire et de temps de calcul. De plus, elles conduisent souvent à opacifier le comportement du clas-sifieur ce qui rend l’analyse de ses erreurs très complexe. On pourra rapprocher, à plusieurs niveaux, notre approche de ces techniques, même si nous avons essayé d’explorer des straté-gies de combinaison plus explicites et moins gourmandes en ressources.

Les recherches menées en combinaison de classifieur ont montré l’importance de diversi-fier les points de vue des classifieurs composant le système [Fumera et al.'05, Kuncheva et al.'03]. La première idée mise en avant dans notre approche est de baser cette diversification sur les espaces de représentation en s’appuyant sur la sémantique associée aux connaissances extraites : un espace de représentation contextuelle (contexte spatial), un espace de représen-tation morphologique (caractérisation de la forme des tracés manuscrits) et un troisième es-pace global de représentation rassemblant les deux premiers espaces [Bouteruche et al.'06a]. Ensuite, nous avons combiné hiérarchiquement ces trois espaces de représentation à travers un arbre de décision à trois niveaux pour affiner progressivement la classification vis-à-vis de chacun de ces espaces. Or, il est apparu que l’ordre de combinaison de ces trois espaces de


représentation constituait autant de points de vue différents de classification, chacun d’eux ayant des comportements complémentaires.

Nous avons donc considérer les six combinaisons hiérarchiques possibles de ces trois es-paces de représentation comme autant de points de vue hiérarchiques (PVH) à combiner afin d’optimiser la décision finale en gagnant en pouvoir de généralisation (cf. Figure 29). Souli-gnons que l’on peut apparenter certains de ces points de vue avec des stratégies classiques de combinaison hiérarchique : notamment les stratégies « ascendante » et « descendante » res-pectivement pour les points de vue PVH 2 et PVH 4.

Nous allons décrire dans les sections suivantes les principes mis en avant dans cette double stratégie de combinaison qui s’articule autour de la sémantique associée aux connais-sances extraites.

IV.2.3.2 Construction d’un point de vue : combinaison hiérarchique

Un point de vue est formalisé par un arbre de décision à trois niveaux, où chacun des ni-veaux est associé à un espace de représentation correspondant à un type de connaissances : contexte spatial, représentation morphologique et représentation globale.

L’apprentissage de cet arbre de décision repose sur l’extraction de prototypes sur chacun des trois niveaux de connaissance à l’aide d’une classification non supervisée basée sur les mêmes principes que ceux mis en place dans les systèmes ResifCar (cf. section II.2.3) et Méli-dis (cf. section III.2.2 ). En effet, il est très difficile de superviser cet apprentissage puisque les étiquettes, notamment celles associées au contexte spatial, sont très délicates à établir de fa-çon a priori, sur chacun des échantillons : par exemple, comment étiqueter a priori qu’un objet est « plutôt » « en haut, à gauche » d’un objet référence. Ainsi, seules les étiquettes corres-pondant aux classes sémantiques du geste graphique sont utilisées : par exemple, « accent aigu », « accent grave », « geste de suppression »… La classification non supervisée est réali-sée de façon intrinsèque à chacune de ces classes sémantiques pour chacun des trois niveaux de représentation.

Les prototypes sont ensuite mis en relation entre chaque niveau de l’arbre de décision. L’approche consiste à identifier, par apprentissage, les classes qu’il reste à discriminer au niveau (i+1) de connaissance, pour chacun des prototypes du niveau i, quand celui-ci corres-pond au prototype le plus activé de ce niveau. Chaque niveau i opère donc une activation ciblée vers le niveau suivant (i+1) en formalisant cette décision par un Système d’Inférence Floue (SIF) de type Takagi-Sugeno [Takagi et al.'85]. La structure du SIF est similaire à celle présentée en II.2.3.2, à la seule différence que les sorties sont ici pondérées par apprentissage

Figure 29 : Combinaison des 6 points de vue hiérarchiques

forme

contexte

global

contexte

global

forme

global

forme

contexte

forme

global

contexte

global

contexte

forme

contexte

forme

global

Combinaison des 6 points de vue hiérarchiques (PVH)

PVH 1 PVH 3 PVH 5 PVH 4 PVH 2 PVH 6

Niveau 1

Niveau 2

Niveau 3


en utilisant une méthode de décomposition en valeurs singulières qui est plus robuste que les moindres carrés face au manque de données d’apprentissage [Bishop'95].

IV.2.3.3 Combinaison des différents points de vue hiérarchiques

Les travaux sur la combinaison de classifieurs faibles ont montré tout l’intérêt de combiner des classifieurs ayant différents points de vue. En hiérarchisant dans un ordre différent les trois types de connaissances utilisées dans notre approche (contexte spatial, représentation morphologique et représentation globale), on obtient six classifieurs différents (cf. Figure 29). Nos différentes expérimentations ont montré la complémentarité de ces six classifieurs que l’on va donc combiner pour optimiser la prise de décision finale.

Il est important de souligner que ces classifieurs sont tous basés sur les mêmes connais-sances. Ce sont les mêmes prototypes que l’on trouve dans les six arbres de décisions, seules les relations entre ces prototypes ainsi que les couches de poids des SIF sont optimisés pour chaque PVH en fonction des classes qui sont mises en concurrence. Cette factorisation des connaissances est un élément important permettant de réduire le besoin en ressource du sys-tème de reconnaissance. Les six PVH peuvent être évalués indépendamment et l’on combine leurs résultats en sommant, pour chaque classe sémantique identifiée en sortie, l’activation obtenue sur chacun des six classifieurs. La décision globale est alors basée sur le score maxi-mal obtenu.


(i) Cadre expérimental

Les premières expérimentations ont été menées dans le cadre de la conception de la méthode de saisie DIGIME. Rappelons que l’objectif, est d’identifier 16 classes de gestes graphiques (cf. Figure 22) auxquelles viennent s’ajouter deux classes permettant de piloter la segmenta-tion en identifiant les espaces inter- et intra-caractères. La base de test utilisée dans ces expé-rimentations est la même que celle qui a été présentée en section IV.2.2.4. Elle a été saisie sur PDA grâce à la participation de 15 scripteurs et compte 5525 données réparties en 18 classes.

Nous avons utilisé comme jeu de caractéristiques de forme les neuf caractéristiques simples déjà utilisées dans l’expérimentation présentée en section IV.2.2.4 et comme jeu de caractéristiques de contexte spatial les neuf descripteurs identifiés comme les plus perfor-mants dans les expérimentations présentées en section IV.2.2.4. Rappelons qu’ils reposent sur la modélisation des relations directionnelles floues dans les quatre directions principales : « en-dessous », « au dessus», « à gauche » et « à droite », auxquels, nous avons ajouté des descripteurs caractérisant la taille et la distance relative du tracé.

L’ensemble des tests a été mené en validation croisée en séparant les scripteurs utilisés en apprentissage, de ceux utilisés en reconnaissance pour mieux évaluer le pouvoir de géné-ralisation de l’approche. Ce protocole est identique aux tests reportés en section IV.2.2.4 qui pourront, par conséquent, servir de référence.

(ii) Complémentarité des points de vue hiérarchiques

Nous avons tout d’abord cherché à mesurer la complémentarité des six points de vue hiérar-chiques (PVH) en les évaluant dans un premier temps séparément sur la même base d’échantillons et en les comparant ensuite au résultat obtenu en les combinant.

Le Tableau 8 résume ces résultats. On constate que les performances obtenues par les six PVH sont très semblables. Or en analysant plus finement les erreurs commises par chacun d’eux, il s’avère qu’elles ne sont pas les mêmes. Ceci met en évidence l’intérêt de considérer l’ensemble des six PVH. Ce constat est corroboré par le fait que la combinaison des PVH permet d’améliorer les performances en atteignant 95,51% de taux de reconnaissance, ce qui est nettement supérieur aux taux obtenus par chacun des PVH. Ainsi, la combinaison des six PVH permet de diminuer de 24% l’erreur par rapport au PVH 2. Il est important de souligner


que l’augmentation du nombre de paramètres engendrée par cette combinaison des 6 PVH reste très raisonnable puisqu’ils partagent les mêmes prototypes. On est en effet très loin d’une potentielle augmentation d’un facteur 6 puisque par rapport au PVH 2, on augmente seulement de 53% le nombre de paramètres.

Tableau 8 : Comparaison des 6 points de vue hiérarchique

Classifieurs Connaissances

Performances Nombre

de paramètres niveau 1 niveau 2 niveau 3

PVH 1 contexte forme global 93,47% 10674

PVH 2 forme contexte global 94,07% 11291

PVH 3 contexte global forme 93,91% 10578

PVH 4 global contexte forme 93,87% 10274

PVH 5 forme global contexte 93,78% 11143

PVH 6 global forme contexte 93,64% 10334

Combinaison des 6 PVH 95,51% 17314

(iii) Comparaisons de la combinaison des 6 PVH aux deux classifieurs de référence

Nous avons comparé notre approche aux deux classifieurs de référence utilisés en sec-tion IV.2.2.4 : un réseau de neurones à fonction à base radiale (RBFN) et un Séparateur à Vastes Marges (SVM). Ces classifieurs ont été construits dans le même espace de représenta-tion global, c'est-à-dire sur l’ensemble des caractéristiques de forme et de contexte. Cette comparaison a porté sur les mêmes bases en utilisant le même protocole expérimental que celui exposé dans le paragraphe précédant. Le Tableau 9 reporte les résultats obtenus.

Tableau 9 : Comparaison de la combinaison des 6 PVH à deux classifieurs globaux de référence

Classifieurs

Performances Nombre de paramètres

RBFN 92.49% 18468 SVM 95,94% 25073

Combinaison des 6 PVH 95,51% 17314

On constate, que la combinaison des 6 PVH obtient un très bon compromis entre la com-

pacité et les performances. Les performances sont supérieures au RBFN en diminuant le taux d’erreur de plus de 40% et elles sont très voisines du SVM, tout en conservant un nombre de paramètres très réduit : 30% de paramètres en moins par rapport au SVM et 6% par rapport au RBFN.

IV.2.4 Conclusion et perspectives

Nous avons cherché dans cette étude à explorer trois axes complémentaires afin de con-cevoir une méthode de saisie manuscrite sur Smartphone : l’ergonomie de l’interface, la mo-délisation du contexte spatial des gestes graphiques, la combinaison hiérarchique de classi-fieurs.

L’ergonomie de l’interface de saisie stylo a été élaborée dans le cadre d’une étude de psy-chologie expérimentale qui a guidé et confirmé nos choix d’interaction. La méthode de saisie DIGIME constitue un véritable micro-éditeur d’encre électronique dont l’utilisabilité a été soulignée.

L’exploitation du positionnement relatif flou d’un tracé par rapport à une référence est une approche particulièrement intéressante pour évaluer le contexte spatial relatif de tracés manuscrits. C’est une mesure robuste et facilement interprétable qui peut-être exploitée dans


de nombreux contextes de reconnaissance de formes. En effet, en dehors des améliorations sensibles des performances, il est important de souligner que le positionnement flou offre une formalisation systématique, quelle que soit la nature de classes considérées. Ceci évite une longue réflexion empirique pour déterminer le meilleur ensemble de descripteurs de positionnement qu’il faudrait souvent réajuster en fonction du problème considéré.

Une des perspectives de ces travaux est de généraliser son utilisation au sein de nos sys-tèmes de reconnaissance d’écriture ResifCar et ResifMot pour optimiser la gestion du posi-tionnement spatial relatif inter- et intra-caractères. Nous avons très récemment exploré cette piste sur la reconnaissance de caractères chinois où le contexte spatial joue un rôle prépondé-rant dans l’identification du caractère [Delaye et al.'08a, Delaye et al.'08b].

Pour optimiser les performances de classification et faire face au manque de données d’apprentissage nous avons exploré une combinaison originale de six points de vue hiérar-chiques, en se basant sur un découpage logique de l’espace des représentations (con-texte/formes). Les premiers résultats obtenus par la combinaison de points de vue hiérar-chiques sont très encourageants. Ils laissent entrevoir un bon compromis en termes de com-pacité et de performance tout en offrant une modélisation explicite et donc interprétable des connaissances modélisées. Nous poursuivons la validation de ces résultats, d’une part, en confrontant cette approche sur d’autres applications de reconnaissance de formes en contexte (caractères chinois, circuits électriques…), et d’autre part, en la comparant aux approches plus classiques de combinaison de classifieurs faibles.


IV.3 RECONNAISSANCE A LA VOLEE DE DOCUMENTS STRUCTURES

Cette section présente les travaux effectués, depuis 2005, pendant la thèse de Sébastien Macé [Macé'08] sur la composition à main levée de documents structurés. Ces recherches ont abou-ti à la l’approche « DALI » basée sur une formalisation des règles de composition du docu-ment par des grammaires de multi-ensembles à contraintes pilotées par le contexte. Elle a fait l’objet d’un transfert industriel avec la société Evodia en 2007 (cf. section I.2.4). Une déclinai-son de cette approche pour la composition de schémas électriques sur TabletPC est au-jourd’hui commercialisée (cf. vidéo de démonstration : http://www.evodia.fr/scriptandgo.php).

IV.3.1 Positionnement de l’approche

Les recherches sur la reconnaissance de documents structurés ont, jusqu’à présent, principa-lement porté sur de l’analyse de documents hors-ligne. Les problématiques sont d’identifier la nature du document et sa structuration, en vue de sa reconnaissance ou encore de son in-dexation [Blostein et al.'04, Coüasnon et al.'04, Coüasnon et al.'07, Journet et al.'07, Journet et al.'08, Nicolas et al.'06, Nicolas et al.'08].

Les stratégies conçues en analyse d’image de document sont généralement catégorisées comme :

descendante (model-driven), si l’on part d’un modèle du document pour développer une analyse vers les pixels qui le composent ;

ascendante (data-driven), lorsque l’on commence, cette fois, l’analyse depuis les don-nées (les pixels) jusqu’aux connaissances, c’est-à-dire le modèle du document ;

ou encore mixte, si l’on aborde conjointement les deux analyses précédentes. Aucune de ces solutions n’est complètement idéale étant donnée la complexité du pro-

blème de l’analyse de documents hors-ligne, surtout lorsque ceux-ci sont dégradés ou ma-nuscrits, ce qui est le cas, par exemple, de nombreux documents d’archives. Les difficultés principales sont bien identifiées ; elles sont notamment liées, à l’hétérogénéité des éléments composant le document, à l’interprétation de ces éléments en contexte, à la variabilité des types de document à traiter ou encore à la l’intégration de connaissances a priori nécessaire à leur analyse.

Deux approches hors-ligne rejoignent un certain nombre de concepts que nous avons cherchés à mettre en avant dans nos travaux sur la reconnaissance en-ligne de documents structurés.

Dans l’équipe Imadoc, Bertrand Coüasnon [Coüasnon'96] a développé un formalisme de description de la structure de document hors-ligne. Il s’appuie sur la modélisation, au moyen d’une grammaire, de la structure logique du document couplée à une extraction dans l’image des éléments terminaux de la grammaire (segment de droite, composante connexe). La grammaire utilise des opérateurs de position tels que « au-dessus », « à gauche »... pour dé-crire les relations logiques entre les éléments du document. Avec son formalisme générique, cette approche est une manière très séduisante de faire face à la variabilité des types de do-cuments à traiter. L’externalisation des connaissances structurelles a priori et leur formalisa-tion à travers un langage de description est une approche que nous avons voulu explorer pour la reconnaissance en-ligne de documents afin de faire face à l’hétérogénéité des docu-ments considérés.

Par ailleurs, dans un contexte d’indexation de documents anciens, Jean-Yves Ramel [Ramel et al.'06] a proposé une approche très pragmatique pour surmonter la complexité du traitement automatique des documents anciens. Elle consiste à intégrer l’utilisateur dans la mise au point de stratégie d’analyse de ces documents. Cela permet d’optimiser la gestion des connaissances par une analyse interactive facilitant ainsi la mise en place du modèle de documents. Ce système, dénommé AGORA, repose lui aussi sur la définition de règles qui sont construites en collaboration avec l’utilisateur en fonction de l’ouvrage et des objectifs de


l’analyse. Cette approche qui consiste à contourner le problème du traitement a posteriori en faisant intervenir l’utilisateur dans le processus d’analyse est un concept que nous avons aussi défendu pour la reconnaissance en-ligne dans notre approche.

Les travaux sur la reconnaissance de documents en-ligne sont beaucoup plus récents. Ils ont été conditionnés d’une part, par l’arrivée à maturité des ordinateurs tablettes de puis-sance et d’ergonomie suffisantes pour aborder la problématique du document et d’autre part, par la nécessité de maîtriser et d’intégrer toutes les sous-problématiques de reconnais-sance de formes associées à la reconnaissance de document (écriture, symboles graphiques, structure, contexte...).

En reconnaissance en-ligne de document, on distingue deux approches assez différentes aussi bien, dans les techniques mises en œuvre que dans l’ergonomie des applications qui vont en découler [Blostein et al.'02]. Dans le premier cas, l’interprétation en-ligne du docu-ment est réalisée « a posteriori », c’est-à-dire à la demande explicite de l’utilisateur, et donc généralement une fois le document terminé (cf. Figure 30 (a)). Dans le second cas, l’interprétation du document est opérée « à la volée », c’est-à-dire, au fur et à mesure de la composition du document (cf. Figure 30 (b)).

IV.3.1.1 Interprétation « a posteriori »

L’interprétation « a posteriori » est historiquement la première des approches à avoir été con-sidérée [Nakagawa et al.'93]. Elle offre l’avantage de limiter l’intrusion de l’ordinateur dans le processus créatif de l’utilisateur. Celui-ci réalise son document à main levée, sur une feuille de papier via un stylo électronique, sur un tableau blanc interactif ou encore sur un ordina-teur tablette. Une fois son document achevé, il fait appel au système d’interprétation qui opère une analyse automatique a posteriori [Gennari et al.'05, Guihuan et al.'06, Hall et al.'07, Valois et al.'01]. Soulignons, que l’arrivée des technologies telles que les stylos électroniques (concept Anoto), où les saisies du document s’opèrent dans un premier temps sur le papier avant d’être transféré vers un ordinateur, ont ouvert des besoins importants d’analyse a pos-teriori de documents en-ligne.

Dans le contexte de la prise de notes libres, certains travaux se sont aussi intéressés à ca-tégoriser les sous-parties d’un document en-ligne en fonction de leurs types (tableau, graphe, texte...) [Jain et al.'01, Shilman et al.'03]. Ce prétraitement permet ensuite de développer une reconnaissance spécifique, dédiée à chaque sous-catégorie de documents.

Figure 30 : Interprétation (a) « a posteriori » versus (b) « à la volée » - schémas électriques.

(b) interprétation « à la volée »

(a) interprétation « a posteriori »


Avec l’interprétation a posteriori de documents en-ligne, on rejoint les problématiques du hors-ligne, puisque l’on va chercher à indexer et reconnaître des documents existants. La différence provient alors de l’entrée à traiter qui n’est plus une image, mais un signal associée à l’encre électronique.

D’un point de vue opérationnel, cette approche semble idéale car elle limite toutes les contraintes imposées à l’utilisateur pendant la réalisation de son document. Cet axe de re-cherche est donc particulièrement intéressant. Néanmoins, à l’heure actuelle, cet atout est largement contrebalancé par le manque de robustesse des systèmes de reconnaissance a pos-teriori. En effet, les performances affichées aujourd’hui par ces systèmes sont encore loin du 100% de reconnaissance. Cela implique qu’une fois l’interprétation réalisée, l’utilisateur doit re-parcourir l’ensemble du document pour s’assurer que ses tracés ont été bien compris, ce qui peut s’avérer très fastidieux, à tel point qu’il est difficile aujourd’hui de pouvoir pré-tendre utiliser ce type d’approches dans le cadre d’applications industrielles.

IV.3.1.2 Interprétation « à la volée »

L’interprétation à la volée [Alvarado et al.'04, Hammond et al.'03, Miyao et al.'07] offre une alternative intéressante pour la composition en-ligne de documents structurés. Le principe est d’intégrer l’utilisateur dans le mécanisme d’interprétation du document pendant sa com-position. Celui-ci dessine ses documents de manière incrémentale, de telle sorte que chaque nouveau tracé est analysé et interprété pour être retranscrit « au propre » et affiché à l’utilisateur. Grâce à ce retour visuel immédiat du résultat de la reconnaissance, l’utilisateur devient, un acteur dans le processus d’analyse. Au fur et à mesure de la composition, il va :

implicitement valider la réponse en poursuivant sa composition ; ou immédiatement pouvoir corriger l’erreur d’interprétation qu’il aura détectée.

L’utilisateur est donc certain que le système interprète correctement ses tracés. De plus, il effectue ces nouveaux tracés sur la base des éléments qui ont déjà été interprétés par le sys-tème. Enfin, ce mécanisme d’interaction avec retour visuel immédiat correspond à un usage très répandu dans l’interaction homme-machine, ce qui facilite son acceptabilité. Il intervient en effet, dans toutes les modalités d’interactions basées sur un principe d’action/réaction.

Nous avons orienté nos travaux vers cette seconde approche plus pragmatique, car elle

laisse entrevoir la possibilité de décliner des applications plus ambitieuses sur la reconnais-sance de documents structurés, tout en garantissant une reconnaissance performante et ro-buste.

IV.3.2 Modélisation de documents structurés : la méthode DALI

IV.3.2.1 Introduction : inspirations et contributions

L’objectif de ces travaux est de trouver une formalisation générique pour décrire non seulement la structure d’un document en-ligne mais aussi les règles de compositions qui lui sont asso-ciées. L’idée est de pouvoir développer des systèmes de reconnaissance « à la volée » sur des documents structurés aussi hétérogènes que : des diagrammes, des schémas électriques ou encore des partitions musicales. Précisons que nous ne sommes pas dans le cadre de la prise de notes libres étant donné que l’on connait le type de document à analyser. Chaque catégo-rie de documents structurés sera analysée par un moteur spécifique. L’objectif est de faire en sorte que tous ces moteurs d’analyse puissent être construits autour d’un même formalisme générique.

Les travaux qui ont été menés sur la composition incrémentale de documents sont, la plupart du temps, dédiés à un type de document prédéfini. On trouve des travaux notam-ment sur la reconnaissance de partitions musicales [Anstice et al.'96, Forsberg et al.'98, Miyao et al.'07] ou encore sur la reconnaissance de formules mathématiques [LaViola'07, LaViola et al.'04, Toyozumi et al.'01]. En revanche, il existe très peu de méthodes génériques applicables


à différentes natures de documents [Alvarado et al.'05, Chok et al.'03, Hammond et al.'03, Mas et al.'05], surtout lorsque l’on aborde des documents composés de formes manuscrites com-plexes à reconnaître (lettres, chiffres, mots, phrases, symboles graphiques...).

Pour aboutir à une approche générique, nous avons cherché à formaliser les connais-sances a priori sur le document à travers un langage de description en s’inspirant principale-ment des travaux de Marriott [Marriott.'94] sur les Grammaires de Multi-ensembles à Contraintes (GMC). Ces grammaires sont particulièrement bien adaptées à notre problématique car elles intègrent la notion de bidimensionnalité qui est intrinsèquement sous-jacente aux documents structurés. Elles offrent donc la possibilité de modéliser des éléments qui ne sont plus agen-cés selon une relation directe de séquentialité comme dans les grammaires classiques.

Nos contributions ont alors porté sur l’extension des GMC. Les GMC correspondent à une modélisation uniquement statique du document. Elles permettent de décrire la structure bidimensionnelle d’un document, mais elles n’intègrent pas de conventions de composition.

Notre première contribution a donc été d’étendre les GMC pour formaliser également des connaissances dynamiques associées aux règles de composition du document.

Notre seconde contribution a porté sur l’intégration de mécanismes avancés de recon-naissance de formes pour faire face à la nature manuscrite des éléments à interpréter. Cela s’est notamment traduit par la formalisation, au sein du langage de description, d’une modé-lisation hydride structurelle/statique des éléments à analyser.

L’ensemble de ces concepts a donné naissance, à un nouveau langage de description vi-

suel dénommée : Grammaires de Multi-ensembles à Contraintes Pilotées par le Contexte (GMC-PC). Ce langage visuel est au cœur de la technologie générique, appelée DALI (Développe-ment d’Applications en-LIgne) qui permet de concevoir des systèmes d’interprétation « à la volée » de documents structurés à partir d’une composition incrémentale. Nous allons, dans les deux sections suivantes, expliciter le langage de description GMC-PC pour ensuite syn-thétiser le procédé d’analyse qui lui est associé.

IV.3.2.2 Grammaires de Multi-ensembles à Contraintes Pilotées par le Contexte (GMC-PC)

Contrairement aux grammaires classiques qui cherchent à analyser des séquences d’éléments, les grammaires bidimensionnelles vont gérer des (multi-)ensembles d’éléments. Par conséquent, elles ne se limitent plus à une simple relation de séquentialité, puisqu’elles intègrent des relations spatiales bidimensionnelles telles que la proximité, la contenance, etc.

Dans la section suivante, nous présentons brièvement les GMC [Marriott et al.'98, Mar-riott.'94], avant de mettre en relief, dans la section d’après, les extensions que nous avons apportées.

(i) Grammaires de Multi-ensembles à Contraintes (GMC)

Formellement, une GMC G est un quadruplet G = (VN, VT , P, S) où VN est un ensemble de non-terminaux, VT un ensemble de terminaux (classiquement, des primitives graphiques, telles que des segments, des cercles ou des arcs de cercle), P un ensemble de productions et S l’axiome.

Une production de GMC est de la forme :

DetCavec (14)

avec α et β des multi-ensembles dans (VN ∪ VT )+, C les contraintes à vérifier pour que β puisse être réduit en α et D la définition des attributs des éléments de α. Comme α (VN ∪ VT )+, une production peut produire plusieurs éléments.


(ii) 1ère extension : pilotage par le contexte

Nous avons introduit dans le formalisme des GMC la notion de pré et de postconditions au niveau d’une production. Ces deux blocs représentent la modélisation statique du document en décrivant sa structure bidimensionnelle, mais ils intègrent aussi les conventions (ou règles) de composition du document. Une production sera alors représentée par :

Det

ionspostconditpostC

scontrainteC

onspréconditipreC

avec

:.3

:.2

:.1

(15)

Les préconditions et postconditions sont basées sur le concept de contextes structurels ; il s’agit d’emplacements graphiques particuliers dans lesquels on va définir, en fonction de la structure du document modélisé, qu’un élément peut ou pourra exister. Dans notre ap-proche, nous avons mis en place des zones contextuelles modélisées par des régions floues pour avoir une approche qualitative de la modélisation du contexte spatial [Bloch'99, Boute-ruche et al.'06b, Macé et al.'07b]. La Figure 31 compare la représentation classique d’un zone spatiale rectangulaire « dure » (a) par rapport à une représentation par une région « floue » (b) définie par une fonction d’appartenance (les hauts niveaux de gris correspondent aux forts degrés d’appartenance).

Les préconditions représentent les contextes structurels à vérifier par les tracés mis en jeu par la règle, pour la déclencher. Si les tracés ont réussi à satisfaire la production, ils sont alors retranscrits « au propre » et les postconditions de cette règle serviront à mettre à jour la struc-ture du document en créant de nouveaux contextes structurels pouvant accueillir de futurs tracés (nous reviendrons sur ce point dans la section IV.3.2.3 de ce chapitre).

Ces deux blocs permettent de piloter efficacement le processus d’analyse (cf. section IV.3.2.3), car en fonction du contexte global dans lequel un élément est situé, il sera possible de déterminer rapidement un sous-ensemble d’interprétations contextuellement vraisemblables. Par conséquent, seul un sous-ensemble de règles sera activé. Les contextes structurels constituent, en quelque sorte, notre alternative à la relation de séquentialité utili-sée dans les grammaires classiques. Nous avons publié dans [Macé et al.'07b, Macé et al.'08a] une description précise de ce lan-gage de description. Pour illustrer ce langage sans pour autant détailler tout le formalisme, on peut s’intéresser ici à un exemple de production schématisée par la Figure 32. Cet exemple est extrait d’une application de reconnaissance de schémas électriques. Il illustre une produc-tion identifiant un interrupteur dessiné dans deux contextes structurels du document : « sous » une connexion ou un composant. Plus précisément, la partie « préconditons » (1.preC) de la règle, vérifie que les éléments tracés t1 et t2 sont contextuellement bien positionnés rela-tivement à une même connexion (notée s) ou bien à un même composant (noté c). La Figure 31 (b) illustre le premier contexte structurel : « sous » une connexion.

Figure 31 : Contexte structurel représentant une zone rectangulaire « sous » une connexion.

(a) représentation classique « dure » (b) représentation par une région floue


L’un de ces deux contextes doit être vérifié avant de passer à l’évaluation de la forme dans la partie « contraintes » de la règle (2.C). Nous reviendrons sur ce point dans la section suivante, en décrivant comment la forme du symbole « interrupteur » a été modélisée.

Avant cela, on s’intéresse à la partie « postconditions » (3.PostC) dont le rôle est de mettre à jour l’état de la structure globale du document en indiquant les contextes structurels à créer, si la production est réduite, c'est-à-dire une fois le tracé interprété. Ainsi, dans l’exemple, l’identification d’un interrupteur permet de poursuivre la composition du document soit par une connexion soit par un nouveau composant. Cela se formalise par la création de deux con-textes structurels suite à l’interprétation d’un interrupteur :

le premier représente un emplacement graphique situé « [sousProche] » l’interrupteur « (res) » créé par la production33 ; plus précisément, il modélise que si un élément « tf » de type « Trace » a « [un] » de ses points quelconques à l’emplacement « [sousProche] », alors toutes les productions pouvant réduire ce tracé en un élément de type « Con-nexion » peuvent être déclenchées : [Connexion tf] ;

le second contexte modélise que quelque chose « (*) » (de type non précisé) qui a « [tous] » ses points « [sous] » le nouvel interrupteur « (res) » déclenchera les produc-tions réduisant un ensemble indéfini d’éléments en « Composant » : [Composant *].

(iii) 2NDE extension : enrichissement des contraintes pour la reconnaissance des tracés manuscrits

La seconde extension apportée aux GMC est liée à la nature manuscrite des formes modéli-sées. En effet, les approches génériques [Chok et al.'03, Hammond et al.'03, Mas et al.'05] ex-ploitent généralement comme terminaux des primitives graphiques élémentaires telles que des segments ou des arcs. L’approche de reconnaissance multi traits est donc de nature struc-turelle. Or, ces approches sont reconnues pour être très difficiles à mettre en œuvre sur des formes manuscrites complexes, difficiles à segmenter en primitives géométriques pertinentes. Par conséquent, nous avons unifié la notion de terminal à un tracé manuscrit (VT={Trace}) et ainsi reporté sa reconnaissance dans le second bloc des contraintes (2.C). Dans la production de l’exemple de la Figure 32, le composant électrique Interrupteur est décrit comme étant composé de deux tracés manuscrits notés t1 et t2.

Les contraintes (formalisées dans le bloc 2.C) ont pour fonction de décrire localement la forme des éléments. Pour cela, ce bloc met en place une reconnaissance hybride, structurelle et statistique (cf. section II.2.2) formalisée par différentes contraintes. Ainsi, dans l’exemple de la Figure 32, la première contrainte modélise que les deux tracés constituant un interrup-teur doivent s’agencer de telle manière que le second, t2, soit proche et sous le premier, t1. Il s’agit d’une contrainte structurelle. La seconde contrainte modélise l’exploitation d’un classi-fieur de formes qui est utilisé pour reconnaître des symboles de composants électriques ; les deux tracés doivent être interprétés par ce classifieur comme un interrupteur. Il s’agit d’une contrainte statistique34.

33 (‘:’) est un opérateur de sauvegarde permettant de réutiliser des éléments précédemment référencés. 34 Par référence à la dénomination généralement utilisée en reconnaissance des formes pour différencier globalement les

approches « structurelles » et non structurelles, qualifiées de « statistiques ».

Figure 32 : Production permettant la composition d’un interrupteur en deux tracés.


À ce niveau, on peut exploiter toute une gamme de classifieurs connus (cf. Chapitre III). Dans la mise en œuvre, nous sommes restés sur les mêmes approches théoriques que celles mises en avant dans le Chapitre III ; c’est pourquoi nous avons utilisé des classifieurs de type systèmes d’inférence floue.

IV.3.2.3 Analyseur incrémental « prédictif »

L’analyseur est basé sur une stratégie ascendante, où l’on cherche à remplacer successive-ment des multi-ensembles d’éléments β en d’autres multi-ensembles d’éléments α, jusqu’à stabilité, c’est-à-dire jusqu’à ce qu’aucune production ne puisse plus être réduite. L’analyse est déterministe : une fois qu’une production a été réduite, elle n’est pas remise en cause.

Rappelons que, dans ce mode d’interaction induit par une reconnaissance à la volée, l’utilisateur connaît tout de suite, grâce au retour visuel, l’interprétation proposée par le sys-tème. Il est alors acteur dans le processus d’analyse, en validant implicitement la réponse du système par la poursuite de sa composition ou en corrigeant immédiatement l’erreur d’interprétation qu’il aura détectée. Ce procédé d’analyse est par conséquent incrémental puisqu’il intervient au fur et à mesure de l’ajout d’éléments dans le document.

Le pilotage du processus d’analyse a été optimisé grâce au mécanisme des préconditions et postconditions que nous avons mis en place. Les contextes structurels créés en postcondi-tions jouent le rôle de déclencheurs. Seules les productions dont le format respecte celui re-quis par ces contextes sont déclenchées. Ensuite, pour poursuivre l’évaluation d’une produc-tion déclenchée, il faut que ses préconditions soient pleinement satisfaites, et donc que les contextes structurels correspondants soient effectivement tous vérifiés. Ceci permet de ré-duire la combinatoire du processus d’analyse, ce qui engendre une plus grande robustesse et une optimisation du temps d’analyse.

Si les préconditions sont vérifiées, alors le bloc des contraintes est évalué pour opérer une reconnaissance hybride structurelle/statistique de la forme. L’évaluation successive de ces deux contraintes, reconnaissance structurelle puis statistique, permet de réordonner de façon canonique les tracés avant de les présenter au classifieur statistique. C’est une solution intéressante qui permet de s’abstraire de la variabilité de l’ordre des tracés, souvent présente dans les éléments multi traits en-ligne.

Étant donné que plusieurs productions peuvent être applicables, on associe à chacune un degré de satisfaction qui correspond à la fusion des informations évaluées par la règle. Cette fusion s’opère via un formalisme basé sur la logique floue qui est détaillé dans [Macé et al.'07b].

Soulignons enfin que nous avons mis en place un mécanisme de rejet à la fois d’ignorance et d’ambigüité pour fiabiliser les réponses du système (cf. section III.3). Le rejet d’ignorance vise à détecter les tracés qui ne peuvent pas être interprétés par le sys-tème. Ces tracés pourront faire l’objet d’une nouvelle analyse à partir de leur resegmentation (cf. section IV.3.2.5–(i)). Le rejet d’ambigüité met en évidence une trop grande hésitation du système entre plusieurs interprétations possibles ; il est alors plus pertinent de ne pas afficher de réponse ou de demander une confirmation explicite à l’utilisateur, plutôt que d’afficher une interprétation erronée.

Une fois qu’une production a été réduite, les éléments créés sont eux mêmes analysés de façon récursive afin de déterminer si une production peut de nouveau les réduire. En effet, les éléments reconnus peuvent interagir avec d’autres éléments du document pour composer de nouveaux éléments plus complexes.


Même si ces travaux ne sont pas encore complètement achevés, ils ont été validés par diffé-rents niveaux d’expérimentations jusqu’à aboutir à un transfert industriel sur une application de reconnaissance de schémas électriques. Nous synthétisons, dans cette section, les résultats des expérimentations menées [Macé et al.'07a, Macé et al.'07b, Macé et al.'08a].


(i) Généricité et flexibilité du formalisme : collaboration et transfert industriel

Pour valider la généricité et le pouvoir d’expression du langage de description défini dans l’approche DALI, nous avons décliné plusieurs prototypes d’application de composition « à main levée » de documents structurés, dans des domaines très différents : éditeur de dia-grammes UML, de partitions musicales ou encore de schémas électriques. Pour ces deux dernières applications nous avons collaboré, pendant plusieurs mois, avec des experts de ces domaines.

Pour mettre au point l’éditeur musical (cf. Figure 33), nous avons collaboré entre 2003 et 2006 avec Bruno Bossis du laboratoire MIAC du département de musique de l'Université de Rennes 2. Cette collaboration a abouti à un prototype qui a fait l’objet de nombreuses dé-monstrations qui ont été très bien perçues par les musiciens. Elles ont notamment permis d’illustrer le principe de la reconnaissance « à la volée » de partitions musicales autour d’une interaction orientée « stylo ». Soulignons que cette collaboration s’est traduite par une publi-cation scientifique commune dans la communauté de l’informatique musicale [Macé et al.'05] et par un chapitre de livre [Macé et al.'07c].

Plus récemment, nous avons mis au point un éditeur de schémas électriques (cf. Figure 34) qui a été transféré à la société Evodia en 2007 (cf. section I.2.4) pour aboutir au logiciel commercial « Script&Go schémas électriques ». Là encore, nous avons été amenés à collaborer avec des experts « métiers » pour mettre au point cet éditeur. C’est aujourd’hui le logiciel le plus abouti dérivant de la technologie DALI. Actuellement, plus d’une centaine de licences ont déjà été commercialisées dans l’industrie au sein de la société de contrôle Apave.

Les techniciens de l’Apave exploitent aujourd’hui le logiciel « Script&Go schémas élec-triques » sur le terrain, validant ainsi son utilisabilité en mobilité. Sa prise en main par les techniciens a été très rapide et leurs premiers retours sont très positifs ; ils ont notamment souligné la rapidité d’exécution des schémas sur le terrain.

Ces deux expériences en vraie grandeur ont permis d’affiner le langage de description afin d’arriver à un pouvoir d’expression suffisant pour absorber de nombreux types de do-cuments structurés. Les règles de composition permettent d’exprimer plusieurs façons de réaliser un même symbole. Par ailleurs, ces règles sont complètement externes au système. Ces propriétés offrent une grande flexibilité au formalisme ce qui autorise des évolutions fu-tures permettant de prendre en compte rapidement l’avis des experts.

Figure 33 : Reconnaissance « à la volée » de partitions musicales.


(ii) Évaluation des taux de reconnaissance

Cette expérimentation [Macé et al.'07b] visait à évaluer les performances du logiciel en termes de taux d’erreur (lorsqu’un tracé est mal compris par le système et doit être supprimé par l’utilisateur) et de taux de rejet (lorsqu’un tracé n’est pas interprété par le système permettant à l’utilisateur de le redessiner directement).

L’évaluation a porté sur le système de reconnaissance de schémas électriques qui était le plus abouti. Neuf scripteurs ont composé, à l’aide d’un ordinateur tablette, quatre schémas électriques. Les scripteurs pouvaient prendre tout le temps qu’ils jugeaient nécessaire pour s’habituer au logiciel avant de lancer l’expérimentation. En moyenne, ils ont accordé une vingtaine de minutes à cette phase de prise en main.

Le taux d’erreur moyen a été évalué à 2.5% et le taux de rejet à 9% sur l’ensemble des scripteurs. Notons que nous privilégions le rejet à l’erreur, car ce dernier est beaucoup mieux accepté par l’utilisateur. En cas de rejet, le tracé est directement supprimé du schéma, l’utilisateur à juste besoin de faire une resaisie de son symbole. En cas d’erreur, l’utilisateur doit tout d’abord effacer (par un geste graphique) le symbole mal reconnu, pour ensuite pro-céder à une resaisie du symbole. Les erreurs sont donc plus « lourdes » à gérer mais surtout, elles peuvent surprendre l’utilisateur qui s’attend à une certaine réponse et qui obtient, en cas d’erreur, une toute autre interprétation.

(iii) Ergonomie « bouton » versus « stylo »

Dans cette expérimentation [Macé et al.'07a] nous avons cherché à mesurer l’apport d’une interaction orientée « stylo » en comparaison à une interaction classique orientée « bouton » (interfaces WIMP). Pour cela nous avons décliné deux variantes du logiciel de reconnaissance « à la volée » de schémas électriques pour ces deux modes d’interactions (orientée « stylo » et « bouton »). Dans cette deuxième variante, nous avons ajouté une barre de boutons permet-tant de sélectionner chaque symbole électrique disponible et de le déposer dans le document à l’emplacement souhaité par glisser-déposer (seules les connexions étaient dessinées direc-tement).

Nous avons demandé à neuf scripteurs de composer, à l’aide d’un ordinateur tablette, deux fois quatre schémas électriques, avec les deux déclinaisons du logiciel (en commençant aléatoirement par l’une ou par l’autre). Ces tests ont mis en valeur un gain de temps moyen

Figure 34 : Reconnaissance « à la volée » de schémas électriques.


de l’ordre de 32% avec la version orientée « stylo ». L’interaction orientée « stylo » surpasse donc très largement l’interaction de saisie classique orientée « bouton », même avec les er-reurs potentielles de reconnaissance que l’utilisateur devait corriger.

Avec une interaction « stylo », l’utilisateur dessine ses symboles directement à l’endroit où il veut les placer. Ceci est un gain de temps important dans la réalisation d’un schéma. Les mouvements de la main sont ainsi moins nombreux et les focus d’attention visuelle moins dispersés [MacKenzie et al.'02]. Le processus créatif est, par conséquent, nettement moins perturbé en exploitant ce nouveau mode d’interaction.

(iv) Évaluation des temps de calcul

Le dernier test que nous avons effectué [Macé et al.'08a] consiste à mesurer les temps de cal-cul engendrés par le processus d’analyse, en fonction de la complexité du schéma électrique réalisé. Dans cette expérimentation, nous avons demandé à cinq utilisateurs de réaliser le schéma électrique qu’ils souhaitaient, avec la seule contrainte que celui-ci intègre au mini-mum 250 tracés.

La Figure 35 représente le temps d’analyse d’un nouveau tracé en fonction du nombre de tracés déjà analysés sur le même schéma ; ceci correspond à la complexité structurelle cou-rante du document réalisé. On constate que le temps d’analyse est toujours inférieur à la se-conde, tout en étant quasiment stable tout au long de la saisie. Cela confirme que les temps de réaction du système sont compatibles avec les contraintes d’utilisation en milieu indus-triel, où l’on ne peut se permettre d’avoir des temps de réponse trop longs qui pénaliseraient le confort de saisie. Les pics observés correspondent au déclenchement d’un processus de resegmentation que nous sommes en train de mettre au point et sur lequel nous allons reve-nir dans la section suivante consacrée aux travaux actuellement en cours.

IV.3.2.5 Travaux en cours

Nos travaux en cours portent sur la mise en place d’un procédé de segmentation contextuelle des tracés ainsi que sur le raffinement du processus d’analyse, pour incorporer la notion d’évaluation partielle d’une production [Macé et al.'08a, Macé et al.'08c]. Ce concept va per-mettre de mettre en attente certaines décisions qui peuvent dépendre des futurs tracés réali-sés.

(i) Segmentation contextuelle

Même si nous sommes partis sur une stratégie qui consiste à éviter d’extraire systématique-ment des primitives élémentaires, il peut être intéressant de donner plus de souplesse à l’utilisateur sur la façon de composer ses symboles, notamment pour lui éviter de lever le stylo entre tous les éléments du document.

Nous avons donc élaboré un mécanisme de segmentation contextuelle, déclenché quand le système détecte qu’il n’arrive pas à identifier le tracé réalisé dans ce contexte. Le tracé est alors segmenté en plusieurs sous éléments, en fonction des ruptures angulaires détectées. L’ensemble des combinaisons est alors évalué par le processus d’analyse pour interpréter les différentes possibilités de composition de ces sous éléments. Cette segmentation contextuelle introduit ponctuellement des temps de calcul un peu plus importants, ce que reflètent les pics de la Figure 35.

(ii) Évaluation partielle de production

Pour optimiser la gestion des symboles multi-traits et notamment ceux ayant des préfixes de composition communs, nous avons mis en place un procédé d’évaluation partielle des pro-ductions. Cela permet de commencer l’évaluation des productions même si l’ensemble de leurs éléments ne sont pas encore présents.


L’analyseur intègre maintenant la prise en compte de ces évaluations partielles [Macé et al.'08a]. Ceci engendre la mise en attente de certaines décisions quand plusieurs productions sont potentiellement applicables, dont des productions partiellement évaluées. Pour ne pas retarder trop systématiquement et donc inutilement l’interprétation des tracés, nous avons mis en place un mécanisme d’élagage des hypothèses les moins vraisemblables. Les produc-tions partielles sont estimées de façon optimiste en supposant être dans un cas idéal pour les éléments manquants. Ceci permet d’optimiser les temps de calcul en réduisant la combina-toire de l’analyse.

IV.3.3 Perspectives

Ces travaux sur la reconnaissance « à la volée » de documents structurés rassemblent de nombreux aspects des recherches que nous avons étudiés au préalable. Les résultats obtenus sont très significatifs, tant au niveau scientifique (publications et collaborations), qu’au ni-veau transfert industriel (commercialisation du logiciel« Script&Go schémas électriques »).

Cette nouvelle thématique de recherche, lancée il y a 4 ans, n’en est pour autant qu’à ses débuts. De nombreuses perspectives scientifiques ont déjà été avancées en initiant notam-ment, en octobre 2008, une nouvelle thèse sur ce sujet35. Cette thèse se situe dans la prolonga-tion du stage de master 2 recherche d’Adrien Delaye et a pour objectif d’approfondir ces travaux sur plusieurs axes.

Tout d’abord, il nous semble important de poursuivre l’étude des mécanismes d’analyse incrémentale basée sur des grammaires multi-ensembles avec contraintes dans le cadre de l’interaction homme-machine orientée stylo. Sur ce point, nous travaillerons notamment sur la stratégie d’analyse en renforçant les aspects de reconnaissance hybride couplant à la fois des informations « structurelles » et « statistiques ». Les aspects structurels seront utilisés d’une part, pour modéliser l’agencement spatial contextuel des tracés manuscrits et d’autre part, pour piloter la reconnaissance « statistique » des formes manuscrites élémentaires.

Par ailleurs, l’interprétation automatique du contenu de documents composites requiert la prise en compte, dans la stratégie de reconnaissance, du contexte spatial géométrique de chacun de ses composants. En repartant des travaux effectués sur le positionnement relatif flou pendant la thèse de François Bouteruche36, nous travaillerons sur la modélisation auto-



Figure 35 : Temps de l’analyse en fonction de la complexité du schéma.

Temps en seconde

Nombre de tracés effectués


matique de ce contexte par apprentissage. D’un point de vue applicatif, nous construisons en ce moment une collaboration avec le

laboratoire Franco-Chinois de Pékin (LIAMA). En effet, la reconnaissance « à la volée » de caractères chinois sera un des sujets applicatifs de cette étude. Deux articles portant sur le début de ces travaux, ont déjà été acceptés à CIFED [Delaye et al.'08a] et ICPR [Delaye et al.'08b] 2008.

Chapitre V CONCLUSIONS ET PERSPECTIVES

Tout au long de ces travaux de recherche, nous avons gardé une même ligne conductrice dans les approches et les stratégies. L’objectif était de faire face à la complexité de reconnais-sance des tracés manuscrits, depuis les problématiques de la reconnaissance de caractères jusqu’à celles de la reconnaissance de documents composites. Nous avons notamment cher-ché à mettre en œuvre des approches dans lesquelles il est possible de conserver une inter-prétation à la fois des connaissances mais aussi des mécanismes de décision mis en place.

Cela s’est traduit par une étude en profondeur des propriétés intrinsèques des formes manuscrites, notamment en modélisant explicitement la structuration physique et logique de l’écriture et des documents manuscrits. D’un point de vue plus théorique, nous avons choisi de privilégier les approches d’apprentissage, de modélisation, de classification et de combi-naison les plus « transparentes », en nous appuyant sur la sémantique des connaissances modélisées et sur une formalisation explicite à travers la théorie de la logique floue.

Ces approches ont abouti à des résultats valorisés aussi bien au niveau scientifique qu’au niveau industriel. Les nombreux transferts industriels que nous avons effectués ces dernières années nous ont permis d’asseoir ces stratégies en les confrontant à des expérimentations en vraie grandeur, à travers des applications innovantes autour de l’interaction « stylo ». Ceci a mis en relief le niveau élevé des exigences attendues par les utilisateurs, aussi bien en termes de performance, de robustesse et de cohérence, qu’en termes d’usage et d’ergonomie.

Nous reprenons ci-dessous les principales perspectives dégagées dans ce document en les organisant cette fois autour des trois axes de recherche qui vont sous-tendre mes pro-chaines activités scientifiques.

(i) Interaction homme-document

Mes perspectives de recherche s’orientent, tout d’abord, vers des problématiques de recon-naissance au niveau document qui sont induites par la volonté de mettre en place une nou-velle interaction homme-document. Cela recouvre à la fois des problématiques de reconnais-sance de documents manuscrits composites mais aussi l’étude de nouveaux usages induits par l’interaction orientée « stylo ». De notre point de vue, une des clés de la composition à main levée de documents manuscrits en-ligne repose, aujourd’hui, sur la conception d’une interprétation à la volée du document.

Ces travaux se situent dans la continuité des recherches démarrées dans la thèse de S. Macé [Macé'08]. Ils ouvrent des perspectives très intéressantes pour la reconnaissance de


documents manuscrits en-ligne. Nous démarrons, en octobre 200837, une nouvelle thèse sur cette thématique prioritaire dans nos recherches. Nous allons étudier des mécanismes d’analyse incrémentale basée sur des grammaires multi-ensembles avec contraintes en renforçant les aspects de reconnaissance hybride couplant à la fois des informations « structurelles » et « statistiques ». L’objectif est de pouvoir appréhender des documents manuscrits en-ligne de natures aussi diverses que des schémas électriques ou des caractères chinois. En effet, on peut concevoir l’analyse d’un caractère chinois comme un petit « document » structuré, constitué de radicaux et de traits élémentaires. Ce cadre applicatif de la reconnaissance incrémentale de caractères chinois s’effectue avec le soutien du professeur Liu du LIAMA38, laboratoire Fran-co-Chinois de Pékin.

En portant sur des problématiques de reconnaissance de plus haut niveau, ces re-cherches nécessitent la fusion et la collaboration de plusieurs approches de reconnaissance. Elles constituent par conséquent un cadre idéal pour appréhender le problème de l’optimisation globale d’un système mettant en jeu plusieurs acteurs. Jusqu’à présent nos recherches ont porté sur des secteurs bien identifiés autour du traitement du manuscrit en-ligne : caractères, mots, modèles de langages, structures… L’étude d’une optimisation glo-bale des différentes couches d’interprétation d’un système complet est aussi un objectif im-portant pour appréhender à un plus haut niveau ces problématiques de reconnaissance. Par ailleurs, nous chercherons à généraliser les travaux menés sur la modélisation explicite du contexte spatial à l’ensemble des niveaux d’interprétation. Cela permettra d’aller vers une modélisation du contexte spatial à la fois cohérente, robuste et homogène, en s’appuyant notamment sur les relations de positionnement flou.

Pour soutenir ces recherches sur la reconnaissance « à la volée » de documents structu-rés, nous avons construit, en partenariat avec la société Evodia et la société Apave39, le projet « ScriptEveryWhere ». Ce projet qui a été labellisé par le pôle de compétitivité « images et ré-seaux » en février 2008, sera financé par l’Oséo et la Région Bretagne sur 2 ans à compter de septembre 2008.

(ii) Reconnaissance de formes robuste et auto-évolutive

Étant donnée la variabilité intrinsèque des tracés manuscrits que l’on peut trouver dans la composition de documents composites (texte, graphiques, etc.), il est fondamental de pour-suivre les recherches sur l’élaboration de systèmes de reconnaissance de formes manuscrites. Un aspect important que nous chercherons à défendre est de fiabiliser les réponses du classi-fieur en les rendant cohérentes et compréhensibles par l’utilisateur. En effet, quelles que soient les performances de classification mesurées, nous avons constaté que l’utilisateur est vite déstabilisé si le classifieur retourne des réponses absurdes qu’il ne peut comprendre. En ce sens, il est préférable d’avoir des performances un peu moins élevées si, en contre partie, les erreurs persistantes sont plus « compréhensibles ». Cette notion est assez peu considérée dans notre communauté, pourtant elle est prépondérante à l’acceptabilité d’un moteur de reconnaissance. Autrement dit, il semble intéressant de travailler sur la qualité des erreurs produites et pas simplement sur l’optimisation du nombre de bonnes réponses. Soulignons que les options de rejet constituent une piste pour répondre à ce problème en essayant de rejeter avant tout les incohérences, plutôt que de considérer en bloc l’ensemble des erreurs. Par ailleurs, nous pensons que le système doit offrir une certaine souplesse à l’utilisateur. Pour cela, nous chercherons à concevoir des systèmes personnalisables et auto-évolutifs, c’est-à-dire capables de s’adapter pour faire face au style d’écriture et aux habitudes de chacun, sans toutefois nécessiter de période d’apprentissage fastidieuse. Dans ce cadre, nous nous attache-rons à élaborer de nouveaux moteurs de reconnaissance de formes manuscrites, capables


38 Laboratoire Franco-Chinois de Recherche en Informatique, Automatique et Mathématiques Appliquées 39 La société Apave Nord-Ouest est spécialisée dans l’ingénierie des risques : inspection, bâtiments, essais et mesures, for-

mation, conseil. Elle apportera son expertise sur les aspects métiers notamment en ce qui concerne l’inspection des installa-tions électriques.

CHAP. V : CONCLUSIONS ET PERSPECTIVES 107

d’apprendre avec très peu de données (apprentissage « from scratch »). L’utilisateur pourra ainsi, par exemple, configurer et définir lui-même ses gestes de commandes graphiques ou encore la façon de dessiner les symboles interprétables par l’application. Ces travaux de re-cherche ont été lancés en octobre 2007, à travers une nouvelle thèse40 portant sur l’Apprentissage avec très peu de données. L’idée est de prendre en compte la variabilité de l’écriture manuscrite en définissant des modèles génériques de déformation de l’écriture. Une première piste consiste à travailler sur la génération automatique de données d’apprentissage. L’objectif est d’augmenter la quantité et la diversité des données d’apprentissage pour modé-liser de nouvelles classes. Pour cela, on pourra utiliser des modèles de déformation pour synthétiser des tracés artificiels fidèles aux données disponibles en s’inspirant notamment des travaux sur les modèles « sigma- et delta-lognormal » adaptés à l’écriture [Djioua et al.'07, Plamondon et al.'98, Plamondon et al.'06]. Une seconde piste consiste à travailler sur les mé-canismes d’apprentissage en s’appuyant sur la notion de modèles de déformation pour pilo-ter la création de nouvelles classes à partir de quelques données réelles. On cherchera no-tamment à s’inspirer, des études de Charpiat et Faugeras sur les modèles de déformation [Char-piat et al.'05, Charpiat et al.'06], ou encore de nouveaux travaux effectués sur « l’elastic mat-ching » [Mitoma et al.'05].

(iii) Traitements conjoints « à la volée » de documents en-ligne et hors-ligne

Le dernier axe de recherche concerne le traitement conjoint, c'est-à-dire au sein d’une même application orientée stylo, de documents électroniques composés à main levée et de docu-ments papier dématérialisés. L’idée est d’enrichir l’interaction homme-document que nous avons décrite précédemment, en offrant la possibilité de traiter à la demande un document papier numérisé.

Sur ce point, nous rejoignons les problématiques de la reconnaissance de documents hors-ligne. L’originalité est d’aborder l’analyse, non plus de façon « batch », mais comme une reconnaissance incrémentale où l’utilisateur aura un rôle actif. Cette vision repose sur la vo-lonté de pragmatisme qui nous a conduits à une stratégie de reconnaissance « à la volée » de documents en-ligne : pouvoir aboutir à des systèmes de reconnaissance robustes et perfor-mants.

L’interaction homme-document sera donc basée sur un principe homogène d’analyse in-crémentale, aussi bien pour la composition « à main levée » de documents en-ligne, que pour le traitement de documents déjà numérisés (hors-ligne). Cette nouvelle thématique de re-cherche va fédérer l’ensemble des activités de l’équipe Imadoc à travers une mise en commun des savoir-faire en reconnaissance de documents hors-ligne et en-ligne. Ce travail de re-cherche portera sur l’étude de la complémentarité et de la généralisation des approches en-ligne et hors-ligne au niveau des moteurs de reconnaissance, de l’analyse et de la modélisa-tion de la structure des documents. Elle concernera aussi les nouveaux usages à mettre en place pour avoir une ergonomie homogène d’interaction homme-document pour les documents en-ligne et hors-ligne.

Nous nous intéresserons, au départ, au contexte applicatif général de la schéma-tique (schémas électriques, diagrammes UML, grafcet, etc.). L’idée est de permettre à un uti-lisateur de récupérer, selon ses besoins, des schémas numérisés existants, de les analyser « à la volée » sous sa supervision, pour ensuite les compléter ou les annoter par une interaction stylo avec une reconnaissance incrémentale.

Pour conclure, transversalement à ces axes de recherche nous chercherons à assurer un



bon équilibre entre des recherches à court terme qui nous permettent de rester en contact avec les besoins industriels et des recherches plus fondamentales qui seront le garant d’avancées scientifiques majeures dans la communauté. La société Evodia que nous avons créée en octobre 2005, tient un rôle important dans cet équilibre. En assurant l’industrialisation des résultats de recherche, elle permet à l’équipe IMADOC de se consacrer à une activité scientifique centrée sur des recherches en amont des besoins de l’industrie.

Liste de mes publications

― Thèse de Doctorat

- 1 - E. Anquetil. Modélisation et reconnaissance par la logique floue: application à la lecture automatique en-ligne de l'écriture manuscrite omni-scripteur. Thèse de Doctorat de l'Université de Rennes 1. 1997.

― Revues internationales avec comités de lecture

- 2 - H. Mouchère, E. Anquetil and N. Ragot, Writer Style Adaptation in On-line Handwriting Recognizers by a Fuzzy Mechanism Approach: The ADAPT Method. International Journal of Pattern Recognition and Artifi-cial Intelligence (IJPRAI), 2007. 21(1): 99-116.

- 3 - S. Macé and E. Anquetil, Eager Interpretation of On-Line Hand-Drawn Structured Documents: The DALI Meth-odology. Pattern Recognition (PR), 2008. Accepté, à paraître.

- 4 - S. Quiniou, F. Bouteruche and E. Anquetil, Word Extraction Associated With a Confidence Index for On-line Handwritten Sentence Recognition. International Journal of Pattern Recognition and Artificial Intelligence (IJPRAI), 2008. Accepté, à paraître.

― Revues nationales avec comités de lecture

- 5 - E. Anquetil and G. Lorette, Reconnaissance en-ligne de lettres manuscrites cursives par chaînes de Markov cachées. Traitement du Signal (TS), 1996. 12(6): 575-583.

- 6 - N. Ragot and E. Anquetil, Système de classification hybride interprétable par construction automatique de systèmes d'inférence floue. Technique et science informatiques (TSI), 2003. 22(7): 853-878.

- 7 - S. Macé and E. Anquetil, Conception de logiciels orientés stylo pour la composition incrémentale de docu-ments structurés manuscrits. Revue internationale I3 (Information - Interaction – Intelligence), 2009. 8(1): 75-100.

- 8 - S. Quiniou and E. Anquetil, Détection et correction d’erreurs basée sur les probabilités a posteriori dans un système de reconnaissance de phrases ma-nuscrites en-ligne. Revue internationale I3 (Information - Inte-raction – Intelligence), 2008. Accepté, à paraître.

― Revue électronique nationale avec comité de lecture

- 9 - F. Bouteruche, S. Macé and E. Anquetil. Reconnaissance de tracés manuscrits. Revue électronique nationale de vulgarisation scientifique, Interstices 2007: http://www.interstices.info/display.jsp?id=c_17397&qs=id\%3Djalios_5127.

― Chapitres de livres internationaux avec comités de lecture

- 10 - E. Anquetil and G. Lorette, On-line Handwriting Character Recognition System Based on Hierarchical Qualita-tive Fuzzy Modeling", in Progress in Handwriting Recognition. 1997, World Scientific: 109-116.

- 11 - L. Pasquer, E. Anquetil and G. Lorette, Coherent Knowledge Source Integration through Perceptual Cycle Framework for Handwriting Recognition, in Advances in Handwriting Recognition, S.-W. Lee (eds). 1999, World Scientific: 59-68.

- 12 - E. Anquetil, B. Coüasnon and F. Dambreville, A Symbol Classifier able to Reject Wrong Shapes for Document Recognition Systems, in Graphics Recognition, Recent Advances, A. K. Chhabra and D. Dori (eds). vol. 1941. 2000, Springer: 209-218.

- 13 - E. Anquetil and G. Lorette, New Advances and New Challenges in On-line Handwriting Recognition & Elec-tronic Ink Management, in Digital Document Processing: Major Directions and Recent Advances (Ad-vances in Pattern Recognition), B. B. Chaudhuri (eds). 2006, Springer Verlag: 143-164.

- 14 - S. Macé, E. Anquetil and B. Bossis, Pen-Based Interaction for Intuitive Music Composition and Editing, in Intelligent Music Information Systems: Tools and Methodologies, J. Shen, et al. (eds). chapitre 12. 2007, IGI Global: 261-288.


― Conférences internationales avec actes et comités de lecture

- 15 - E. Anquetil and G. Lorette. On-Line Handwriting Character Recognition System Based on Hierarchical Qualita-tive Fuzzy Modeling. in Proceedings of the International Workshop on Frontiers in Handwriting Recogni-tion, (IWFHR5), 1996, Colchester, Angleterre, pp. 47-52.

- 16 - E. Anquetil and G. Lorette. Automatic Generation of Hierarchical Fuzzy Classification Systems Based on Ex-plicit Fuzzy Rules Deduced from Possibilistic Clustering: Application to On-line Handwritten Character Recog-nition. in Proceedings of the sixth Conference on Information Processing and Management of Uncer-tainty in Knowledge-Based Systems (IPMU'96), 1996, Grenade, Spain, pp. 259-264.

- 17 - E. Anquetil and G. Lorette. Perceptual Model of Handwriting Drawing Application to the Handwriting Segmen-tation Problem. in Proceedings of the Fourth International Conference on Document Analysis and Rec-ognition (ICDAR'97), 1997, Ulm, Allemagne, pp. 112-117.

- 18 - L. Pasquer, E. Anquetil and G. Lorette. Coherent knowledge source integration through perceptual cycle framework for handwriting recognition. in Proceedings of the Sixth International Workshop on Frontiers in Handwriting Recognition (IWFHR-VI), 1998, Taejon, Corée, pp. 249-258.

- 19 - E. Anquetil, B. Coüasnon and F. Dambreville. A Symbol Classifier Able to Reject Wrong Shapes for Document Recognition Systems. in Proceedings of the 3rd IAPR Workshop on Graphics Recognition, 1999, Jaipur, IEEE Computer Society, pp. 195-202.

- 20 - N. Ragot and E. Anquetil. A new hybrid learning method for fuzzy decision trees. in Proceedings of the 10th IEEE International Conference on Fuzzy Systems, 2001, Melbourne, pp. 1380-1383.

- 21 - E. Anquetil and H. Bouchereau. Integration of an On-line Handwrit-ing Recognition System in a Smart Phone Device. in Proceedings of the six-teenth IAPR International Conference on Pattern Recognition (ICPR'02), 2002, Québec, pp. 192-195.

- 22 - S. Carbonnel and E. Anquetil. Lexical Post-Processing Optimization for Handwritten Word Recognition. in International Conference on Document Analysis and Recognition (ICDAR'03), 2003, Edinburgh, pp. 477-481.

- 23 - N. Ragot and E. Anquetil. A Generic Hybrid Classifier Based on Hiearchical Fuzzy Modeling: Experiments on On-line Handwritten Character Recognition. in Proceedings of The Seventh International Conference on Document Analysis and Recognition (ICDAR), 2003, Edinburgh, pp. 963-967.

- 24 - S. Carbonnel and E. Anquetil. Lexicon Organization and String Edit Distance Learning for Lexical Post-Processing in Handwriting Recognition. in 9th International Workshop on Frontiers in Handwriting Recog-nition (IWFHR 9), 2004, Tokyo, Japon, pp. 462-467.

- 25 - N. Ragot and E. Anquetil. MELIDIS: Pattern recognition by intrinsic/discriminant dual modeling based on a hierarchical organization of fuzzy inference systems. in 10th International Conference on Information Proc-essing and Management of Uncertainty in Knowledge-Based Systems, (IPMU'04), 2004, Perugia, Italy, pp. 2069-2076.

- 26 - F. Bouteruche, E. Anquetil and N. Ragot. Handwritten gesture recognition driven by spatial context of strokes. in Proceedings of the 8th International Conference on Document Analysis and Recognition (ICDAR'05), 2005, Seoul, Korea, IEEE Computer Society, pp. 1221-1225.

- 27 - L. Rousseau, E. Anquetil and J. Camillerapp. Recovery of a Drawing Order from Off-Line Isolated Letters Dedicated to On-Line Recognition. in Proceedings of ICDAR, 2005, Seoul, Korea, pp. 1121-1125.

- 28 - S. Quiniou, E. Anquetil and S. Carbonnel. Statistical Language Models for On-line Handwritten Sentence Recognition. in Proceedings of the 8th International Conference on Document Analysis and Recognition (ICDAR'05), 2005, Seoul, Korea, pp. 516-520.

- 29 - F. Bouteruche, G. Deconde, et al. Design and evaluation of handwriting input interfaces for small-size mobile devices. in workshop of HCI'2005: Improving and Assessing Pen-Based Input Techniques, 2005, Edin-burgh, pp. 49-56.

- 30 - S. Macé, E. Anquetil, et al. A Pen-based Musical Score Editor. in Proceedings of International Computer Music Conference (ICMC), 2005, Barcelona, Spain, pp. 415-418.

- 31 - S. Macé, E. Anquetil and B. Coüasnon. A generic method to design pen-based systems for structured docu-ment composition: Development of a musical score editor. in Proceedings of the 1st Workshop on Improv-ing and Assessing Pen-Based Input Techniques, 2005, Edinburgh, pp. 15-22.

- 32 - H. Mouchère, E. Anquetil and N. Ragot. Writer Style Adaptation of On-line Handwriting Recognizers: A Fuzzy Mechanism Approach. in Proceedings of the 12th Conference of the International Graphonomics Society (IGS), 2005, Salerno, Italy, pp. 193-197.

- 33 - H. Mouchère, E. Anquetil and N. Ragot. On-line Writer Adaptation for Handwriting Recognition using Fuzzy Inference Systems. in Proceedings of the 8th International Conference on Document Analysis and Rec-ognition (ICDAR), 2005, Seoul, Korea, IEEE Computer Society, pp. 1075-1079.

- 34 - S. Macé and E. Anquetil, A Generic Approach for Pen-based User Interface Development, in Computer-Aided Design of User Interfaces V, Proceedings of the 6th International Conference on Computer-Aided De-sign of User Interfaces (CADUI'06),Chapitre 5, G. Calvary, et al. (eds). 2006, Springer-Verlag: 57-70.

- 35 - S. Quiniou and E. Anquetil. A Priori and A Posteriori Integration and Combination of Language Models in an On-line Handwritten Sentence Recognition System. in Proceedings of the 10th International Workshop on Frontiers in Handwriting Recognition (IWFHR'06), 2006, La Baule, France, pp. 403-408.

- 36 - L. Rousseau, E. Anquetil and J. Camillerapp. What knowledge about handwritten letters can be used to re-

LISTE DE MES PUBLICATIONS 111

cover their drawing order? in Proceedings of the 10th International Workshop on Frontiers in Handwriting recognition (IWFHR 2006), 2006, La Baule, France, pp. 355-360.

- 37 - F. Bouteruche, S. Macé and E. Anquetil. Fuzzy Relative Positioning for On-Line Handwritten Stroke Analysis. in Proceedings of the 10th International Workshop on Frontier in Handwriting Recognition (IWFHR'06), 2006, La Baule, France, pp. 391-396.

- 38 - F. Bouteruche and E. Anquetil. Fuzzy Point of View Combination for Contextual Shape Recognition: Applica-tion to On-line Graphic Gesture Recognition. in Proceedings of the 18th International Conference on Pat-tern Recognition (ICPR'06), 2006, pp. 1088-1091.

- 39 - S. Macé and E. Anquetil. A Generic Approach for Eager Interpretation of On-line Handwritten Structured Documents. in Proceedings of the International Conference on Pattern Recognition (ICPR'06), 2006, pp. 1106-1109.

- 40 - H. Mouchère and E. Anquetil. Generalization Capacity of Handwritten Outlier Symbols Rejection with Neural Network. in Proceedings of the 10th International Workshop on Frontier in Handwriting Recognition (IWFHR'06), 2006, La Baule, France, pp. 187-192.

- 41 - H. Mouchère and E. Anquetil. A Unified Strategy to Deal with Different Natures of Reject. in Proceedings of the International Conference on Pattern Recognition (ICPR'06), 2006, pp. 792-795.

- 42 - S. Quiniou and E. Anquetil. Use of a Confusion Network to Detect and Correct Errors in an On-line Handwrit-ten Sentence Recognition System. in 9th International Conference on Document Analysis and Recogni-tion (ICDAR'07), 2007, Curitiba, Brazil, pp. 382-386.

- 43 - H. Mouchère, S. Bayoudh, et al. Synthetic On-line Handwriting Generation by Distortions and Analogy. in 13th Conference of the International Graphonomics Society (IGS'2007), 2007, pp. 10-13.

- 44 - S. Bayoudh, L. Miclet, et al. Learning a classifier with very few examples: knowledg based and analogy gen-eration of new exemples for character recognition. in 18th European Conference on Machine Learning (ECML), 2007, pp. 527-534.

- 45 - L. Rousseau, E. Anquetil and J. Camillerapp. Word Extraction for the Recognition of On-Line Handwritten Sentences. in 13th Conference of the International Graphonomics Society (IGS'2007), 2007, Melbourne, Australia, pp. 44-47.

- 46 - S. Quiniou, F. Bouteruche and E. Anquetil. Word Extraction for the Recognition of On-Line Handwritten Sen-tences. in 13th Conference of the International Graphonomics Society (IGS'2007), 2007, Melbourne, Aus-tralia, pp. 52-55.

- 47 - S. Macé and E. Anquetil. Design of a Pen-Based Electric Diagram Editor Based on Context-Driven Constraint Multiset Grammars. in Human-Computer Interaction: Interaction Platforms and Techniques(HCI Interna-tional 2007 Conference), 2007, Beijing, China, LNCS 4551, pp. 418-428.

- 48 - S. Macé and E. Anquetil. Context-Driven Constraint Multiset Grammars with Incremental Parsing for On-line Structured Document Interpretation. in 9th International Conference on Document Analysis and Recogni-tion (ICDAR'07), 2007, Brazil, pp. 442-446.

- 49 - S. Macé and E. Anquetil. Incremental Interpretation of On-Line Hand-Drawn Structured Documents. in Elev-enth International Conference on Frontiers in Handwriting Recognition(ICFHR), 2008 of Conference, Montréal, pp. 499-504.

- 50 - A. Almaksour, H. Mouchère and E. Anquetil. Fast Online Incremental Learning with Few Examples For Online Handwritten Character Recognition. in Eleventh International Conference on Frontiers in Handwriting Recognition(ICFHR), 2008, Montréal, pp. 623-628.

- 51 - A. Delaye, S. Macé and E. Anquetil. Hybrid Statistical-Structural On-line Chinese Character Recognition with Fuzzy Inference System. in IAPR International Conference on Pattern Recognition (ICPR), 2008, Accepté, à paraître.

― Conférences nationales avec actes et comités de lecture

- 52 - E. Anquetil and G. Lorette. Reconnaissance en-ligne de caractères manuscrits basée sur une approche quali-tative par la logique floue. in Actes du 4ème Colloque National sur l'Écrit et le Document, (CNED'96), 1996, Nantes, France, pp. 23-30.

- 53 - G. Lorette and E. Anquetil. Théorie des catastrophes, géométrie différentielle et segmentation de l'écriture cursive. in Actes du 4ème Colloque National sur l'Écrit et le Document, (CNED'96), 1996, Nantes, France, pp. 1-6.

- 54 - E. Anquetil and G. Lorette. Génération de SIF sémantiquement interprétables pour la reconnaissance en ligne de caractères manuscrits. in Rencontres Francophones sur la Logique Floue et ses Applications (LFA'96), 1996, Nancy, France, pp. 203-210.

- 55 - E. Anquetil. Interfaces orientées stylo et reconnaissance dynamique de tracés dessinés à main levée. in Neu-rosciences et sciences de l'ingénieur (NSI), 2000, Dinard, pp. 173-176.

- 56 - L. Pasquer, E. Anquetil and G. Lorette. Modèle itératif d'interprétation multi-contextuelle pour la lecture d'écri-ture manuscrite. in Conférence Francophone sur la Reconnaissance de Forme et l'Intelligence Artifi-cielle (RFIA), 2000, Paris, France, pp. 347-356.

- 57 - L. Pasquer, E. Anquetil and G. Lorette. Système de perception et d'interprétation (SPI) multi-contextuelle pour la reconnaissance en-ligne d'écriture manuscrite. in Neurosciences et sciences de l'ingénieur (NSI), 2000,


Dinard, pp. 169-172. - 58 - L. Pasquer, E. Anquetil and G. Lorette. Système itératif d'interprétation multicontextuelle pour la lecture d'écri-

ture manuscrite. in RFIA'2000, 2000, Paris, pp. 347-356. - 59 - N. Ragot and E. Anquetil. Modélisation automatique des connaissances par systèmes d'inférence floue hiérar-

chisés. in Actes du congrès LFA'01, Rencontres Francophones sur la Logique Floue et ses Applica-tions, 2001, Mons, pp. 105-111.

- 60 - N. Ragot and E. Anquetil. Combinaison hiérarchique de systèmes d'inférence floue: application à la reconnais-sance en-ligne de chiffres manuscrits. in Actes du congrès CIFED'02, Colloque International Francophone sur l'Ecrit et le Document, 2002, Hammamet, pp. 305-314.

- 61 - L. Rousseau, E. Anquetil and J. Camillerapp. Reconstitution du parcours du tracé manuscrit hors-ligne de caractères isolés. in 8ème Colloque Internationnal Francophone sur l'écrit et le Document, (CIFED'04), 2004, La Rochelle, France, pp. 123-127.

- 62 - S. Carbonnel and E. Anquetil. Modélisation et intégration de connaissances lexicales pour le post-traitement de l'écriture manuscrite en-ligne. in 14ème Congrès Francophone AFRIF-AFIA de Reconnaissance des Formes et Intelligence Artificielle (RFIA'04), 2004, Toulouse, France, pp. 1313-1322.

- 63 - H. Mouchère, E. Anquetil and N. Ragot. Etude des mécanismes d'adaptation pour l'optimisation de classifieurs flous dans le cadre de la reconnaissance d'écriture manuscrite. in 12es rencontres francophones sur la Lo-gique Floue et ses Applications (LFA'04), 2004, Nantes, France, pp. 93-100.

- 64 - F. Bouteruche and E. Anquetil. Interfaces stylo pour la saisie d'écriture manuscrite sur systèmes mobiles de petite taille. in 2ndes Rencontres Jeunes Chercheurs en Interaction Homme-Machine, 2004, Lacanau, France, pp. 39-42.

- 65 - S. Carbonnel and E. Anquetil. Apprentissage automatique d'une distance d'édition dédiée à la reconnaissance d'écriture manuscrite. in Colloque International Francophone sur l'Ecrit et le Document (CIFED'04), 2004, La Rochelle, France, pp. 105-110.

- 66 - L. Rousseau, E. Anquetil and J. Camillerapp. Reconnaissance de l'écriture manuscrite hors-ligne par recons-truction de l'ordre du tracé. in Proceedings of MAJECSTIC, 2005, Rennes, France.

- 67 - F. Bouteruche, G. Deconde, et al. Conception et évaluation expérimentale d'interfaces de saisie stylo pour systèmes mobiles de petites tailles. in Actes de la 17e Conférence Francophone sur l'Interaction Homme-Machine, 2005, Toulouse, France, pp. 235-238.

- 68 - H. Mouchère and E. Anquetil. Synthèse de caractères manuscrits en-ligne pour la reconnaissance de l’écriture. in Actes du Colloque International Francophone sur l'Ecrit et le Document (CIFED'06), 2006, pp. 187-192.

- 69 - S. Macé and E. Anquetil. Reconnaissance à la volée de documents structurés manuscrits en-ligne. in Actes du Colloque International Francophone sur l'Ecrit et le Document (CIFED'06), 2006, pp. 175-180.

- 70 - H. Mouchère, E. Anquetil and N. Ragot. Etude et gestion des types de rejet pour l'optimisation de classifieurs. in 15eme congrès francophone Reconnaissance des Formes et Intelligence Artificielle (RFIA 2006), 2006, Tours, France, Presses Universitaire François-Rabelais.

- 71 - S. Quiniou and E. Anquetil. Utilisation de réseaux de confusion pour la reconnaissance de phrases manus-crites en-ligne. in 16ème Congrès Francophone de Reconnaissance des Formes et d'Intelligence Artifi-cielle (RFIA'08), 2008, Amiens, France.

- 72 - A. Almaksour, H. Mouchère and E. Anquetil. Apprentissage incrémental et synthèse de données pour la re-connaissance de caractères manuscrits en-ligne. in Colloque International Francophone sur l'Ecrit et le Document (CIFED'08), 2008, Rouen, pp. 55-60.

- 73 - A. Delaye, S. Macé and E. Anquetil. Reconnaissance hybride statistique-structurelle de sinogrammes par système d’inférence floue. in Colloque International Francophone sur l'Ecrit et le Document (CIFED'08), 2008, Rouen, pp. 49-54.

Références bibliographiques [Abou-Moustafa et al.'04] Abou-Moustafa, K.T., C.Y. Suen, and M. Cheriet. A generative-discriminative hybrid for

sequential data classification [image classification example]. in Proceedings of IEEE Inter-national Conference on Acoustics, Speech, and Signal Processing (ICASSP '04). 2004. pp. 805-808.

[Aksela et al.'01] Aksela, M., J. Laaksonen, E. Oja, and J. Kangas, Rejection methods for an adaptive com-mittee classifier., in Proceedings of the Sixth International Conference on Document Analysis and Recognition(ICDAR). 2001. pp. 982–986.

[Almaksour et al.'08a] Almaksour, A., H. Mouchère, and E. Anquetil. Apprentissage incrémental et synthèse de données pour la reconnaissance de caractères manuscrits en-ligne. in Colloque Interna-tional Francophone sur l'Ecrit et le Document (CIFED'08). 2008a. Rouen. pp. 55-60.

[Almaksour et al.'08b] Almaksour, A., H. Mouchère, and E. Anquetil. Fast Online Incremental Learning with Few Examples For Online Handwritten Character Recognition. in Eleventh International Con-ference on Frontiers in Handwriting Recognition(ICFHR). 2008b. Montréal. pp. 623-628.

[Alvarado et al.'04] Alvarado, C. and R. Davis. SketchREAD: A Multi-domain Sketch Recognition Engine. in UIST'04. 2004. pp. 23-32.

[Alvarado et al.'05] Alvarado, C. and R. Davis. Dynamically constructed bayes nets for multi-domain sketch understanding. in International Joint Conference on Artificial Intelligence (IJCAI'05). 2005. Edinburgh. pp. 1407-1412.

[Anquetil et al.'96a] Anquetil, E. and G. Lorette. Reconnaissance en-ligne de caractères manuscrits basée sur une approche qualitative par la logique floue. in Actes du 4ème Colloque National sur l'Écrit et le Document, (CNED'96). 1996a. Nantes, France. pp. 23-30.

[Anquetil et al.'96b] Anquetil, E. and G. Lorette. Automatic Generation of Hierarchical Fuzzy Classification Systems Based on Explicit Fuzzy Rules Deduced from Possibilistic Clustering: Application to On-line Handwritten Character Recognition. in Proceedings of the sixth Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems (IPMU'96). 1996b. Grenade, Spain. pp. 259-264.

[Anquetil et al.'96c] Anquetil, E. and G. Lorette. Génération de SIF sémantiquement interprétables pour la reconnaissance en ligne de caractères manuscrits. in Rencontres Francophones sur la Logique Floue et ses Applications (LFA'96). 1996c. Nancy, France. pp. 203-210.

[Anquetil et al.'96d] Anquetil, E. and G. Lorette. On-Line Handwriting Character Recognition System Based on Hierarchical Qualitative Fuzzy Modeling. in Proceedings of the International Workshop on Frontiers in Handwriting Recognition, (IWFHR5). 1996d. Colchester, Angleterre. pp. 47-52.

[Anquetil'97] Anquetil, E., Modélisation et reconnaissance par la logique floue: application à la lecture automatique en-ligne de l'écriture manuscrite omni-scripteur. 1997, Thèse de Doctorat de l'Université de Rennes 1.

[Anquetil et al.'97a] Anquetil, E. and G. Lorette. Perceptual Model of Handwriting Drawing Application to the Handwriting Segmentation Problem. in Proceedings of the Fourth International Conference on Document Analysis and Recognition (ICDAR'97). 1997a. Ulm, Allemagne. pp. 112-117.

[Anquetil et al.'97b] Anquetil, E. and G. Lorette, On-line Handwriting Character Recognition System Based on Hierarchical Qualitative Fuzzy Modeling", in Progress in Handwriting Recognition. 1997b, World Scientific. pp. 109-116.

[Anquetil et al.'99] Anquetil, E., B. Coüasnon, and F. Dambreville. A Symbol Classifier Able to Reject Wrong Shapes for Document Recognition Systems. in Proceedings of the 3rd IAPR Workshop on Graphics Recognition. 1999. Jaipur: IEEE Computer Society. pp. 195-202.

[Anquetil et al.'00] Anquetil, E., B. Coüasnon, and F. Dambreville, A Symbol Classifier able to Reject Wrong Shapes for Document Recognition Systems, in Graphics Recognition, Recent Advances, A.K. Chhabra and D. Dori, Editors. 2000, Springer. pp. 209-218.

[Anquetil et al.'02] Anquetil, E. and H. Bouchereau. Integration of an On-line Handwrit-ing Recognition Sys-tem in a Smart Phone Device. in Proceedings of the six-teenth IAPR International Confer-ence on Pattern Recognition (ICPR'02). 2002. Québec. pp. 192-195.

[Anquetil et al.'04] Anquetil, E. and F. Bouteruche. Conception d'un micro éditeur d'encre électronique et embarquement d'un système de reconnaissance d'écriture manuscrite sur téléphone mo-bile. in Conférence Francophone: Mobilité & Ubiquité'04. 2004. Nice, France. pp. 151-157.

[Anstice et al.'96] Anstice, J., T. Bell, A. Cockburn, and M. Setchell. The Design of a Pen-Based Musical Input System. in Proceedings of the 6th Australian Conference on Computer-Human Inter-action (OZCHI 1996). 1996. pp. 260-267.

[Bayoudh et al.'07] Bayoudh, S., L. Miclet, H. Mouchère, and E. Anquetil. Learning a classifier with very few examples: knowledg based and analogy generation of new exemples for character recog-nition. in 18th European Conference on Machine Learning (ECML). 2007. pp. 527-534.


[Bengio et al.'95] Bengio, Y., Y. Le Cun, C. Nohl, and C. Burges, LeRec: A NN/HMM Hybrid for On-Line Handwriting Recognition. Neural Computation, 1995. 7(6): pp. 1289-1303.

[Berthilsson'00] Berthilsson, R. Character Recognition Using Shape for Curves. in Proceedings of the International Conference on pattern Recognition. 2000. pp. 2227-2230.

[Bertille et al.'95] Bertille, J.M. and M. Gilloux. A probabilistic approach to automatic handwritten address reading. in Proceedings of the Third International Conference on Document Analysis and Recognition. 1995. pp. 368-371.

[Bertolami'04] Bertolami, R., Rejection Strategies in Handwriting Recognition Systems. 2004, Master thesis of Bern University: Bern, Switzerland.

[Bishop'95] Bishop, C.M., Neural networks for pattern recognition. 1995: Oxford University Press. [Bloch'95] Bloch, I., Fusion de données, ensembles flous et morphologie mathématique en traitement

d'images, application à l'imagerie médicale cérébrale et cardiovasculaire multi-modalités. 1995, partie scientifique du rapport présenté pour l'obtention de l'Habilitation à Diriger des Recherches de l'Université René Descartes (Paris 5), U.F.R. de Mathématiques et Infor-matique.

[Bloch'99] Bloch, I., Fuzzy Relative Position Between Objects in Image Processing: A Morphological Approach. IEEE Transaction on Pattern Analysis and Machine Intelligence, 1999. 21(7): pp. 657-664.

[Bloch'03] Bloch, I., Fusion d'informations en traitement du signal et des images. 2003, Paris: Her-mès.

[Bloch et al.'03] Bloch, I. and L. Cholvy, Fusion de données numériques et d'informations symboliques. Technique et science informatiques, TSI. Vol. 22 - N° 7-8. 2003.

[Bloch'05] Bloch, I., Fuzzy Spatial Relationships for Image Processing and Interpretation: a Review. Image and Vision Computing 20, 2005. 23(2): pp. 89-110.

[Blostein et al.'02] Blostein, D., E. Lank, A. Rose, and R. Zanibbi, User interfaces for on-line diagram recogni-tion, in LNCS 2390, Selected Papers from GREC’01. 2002, Springer-Verlag. pp. 93–103.

[Blostein et al.'04] Blostein, D., J.R. Cordy, and R. Zanibbi, A survey of table recognition: Models, observa-tions, transformations, and inferences. IJDAR: International Journal on Document Analysis and Recognition, 2004. 7(1): pp. 1-16.

[Boatas et al.'00] Boatas, A., B. Dubuisson, and M.A. Dillies-Peltier. A new statistical pattern recognition distance rejection model: application to the monitoring of car catalytic converters. in Sys-tems, Man, and Cybernetics, 2000 IEEE International Conference on. 2000. pp. 2839-2844.

[Bottou et al.'05] Bottou, L. and Y. LeCun, Graph Transformer Networks for Image Recognition. Bulletin of the International Statistical Institute (ISI), 2005.

[Bouchon-Meunier'95] Bouchon-Meunier, B., La logique floue et ses applications. 1995: Addison-Wesley. [Bouteruche et al.'05a] Bouteruche, F., G. Deconde, E. Anquetil, and E. Jamet. Design and evaluation of hand-

writing input interfaces for small-size mobile devices. in workshop of HCI'2005: Improving and Assessing Pen-Based Input Techniques. 2005a. Edinburgh. pp. 49-56.

[Bouteruche et al.'05b] Bouteruche, F., G. Deconde, E. Anquetil, and E. Jamet. Conception et évaluation expéri-mentale d'interfaces de saisie stylo pour systèmes mobiles de petites tailles. in Actes de la 17e Conférence Francophone sur l'Interaction Homme-Machine. 2005b. Toulouse, France. pp. 235-238.

[Bouteruche et al.'06a] Bouteruche, F. and E. Anquetil. Fuzzy Point of View Combination for Contextual Shape Recognition: Application to On-line Graphic Gesture Recognition. in Proceedings of the 18th International Conference on Pattern Recognition (ICPR'06). 2006a. pp. 1088-1091.

[Bouteruche et al.'06b] Bouteruche, F., S. Macé, and E. Anquetil. Fuzzy Relative Positioning for On-Line Hand-written Stroke Analysis. in Proceedings of the 10th International Workshop on Frontier in Handwriting Recognition (IWFHR'06). 2006b. La Baule, France. pp. 391-396.

[Brakensiek et al.'01] Brakensiek, A., A. Kosmala, and G. Rigoll. Comparing Adaptation Techniques for On-Line Handwriting Recognition. in 6th ICDAR. 2001. pp. 486-490.

[Brown et al.'92] Brown, P.F., V.J.D. Pietra, P.V. de Souza, and J.C. Lai, Class-Based N-Gram Models of Natural Language. Computational Linguistics, 1992. 18(4): pp. 467-479.

[Caillault'05] Caillault, É., Architecture et Apprentissage d’un Système Hybride Neuro-Markovien pour la Reconnaissance de l’Écriture Manuscrite en-Ligne. 2005, Thèse de Doctorat de l'Universi-té de Nantes.

[Caillault et al.'05] Caillault, É., C. Viard-Gaudin, and A.R. Ahmad. MS-TDNN with Global Discriminant Train-ings. in 8th International Conference on Document Analysis and Recognition (ICDAR 2005). 2005. Seoul, Corea. pp. 856-860.

[Carbonnel et al.'03] Carbonnel, S. and E. Anquetil. Lexical Post-Processing Optimization for Handwritten Word Recognition. in International Conference on Document Analysis and Recognition (ICDAR'03). 2003. Edinburgh. pp. 477-481.

[Carbonnel et al.'04a] Carbonnel, S. and E. Anquetil. Lexicon Organization and String Edit Distance Learning for Lexical Post-Processing in Handwriting Recognition. in 9th International Workshop on Frontiers in Handwriting Recognition (IWFHR 9). 2004a. Tokyo, Japon. pp. 462-467.

[Carbonnel et al.'04b] Carbonnel, S. and E. Anquetil, Modélisation et intégration de connaissances lexicales pour

REFERENCES BIBLIOGRAPHIQUES 115

le post-traitement de l'écriture manuscrite en-ligne, in Reconnaissance de formes et intelli-gence artificielle (RFIA'04). 2004b: Toulouse, France. pp. 1313-1322.

[Carbonnel'05] Carbonnel, S., Intégration et modélisation de connaissances linguistiques pour la recon-naissance d'écriture manuscrite en-ligne. 2005, Thèse de Doctorat de l'INSA de Rennes.

[Casey et al.'96] Casey, R.G. and E. Lecolinet, A Survey of Methods and Strategies in Character Segmen-tation. IEEE Trans. Pattern Anal. Mach. Intell., 1996. 18(7): pp. 690-706.

[Chan et al.'00] Chan, K.-F. and D.-Y. Yeung, Mathematical expression recognition: a survey. IJDAR: International Journal on Document Analysis and Recognition, 2000. 3(1): pp. 3-15.

[Chan et al.'92] Chan, K.P. and Y.S. Cheung, Fuzzy-attribute graph with application to chinese character recognition. IEEE Transactions on Systems, Man and Cybernetics, 1992. 22(1): pp. 153–160.

[Charpiat et al.'05] Charpiat, G., O. Faugeras, and R. Keriven, Approximations of shape metrics and applica-tion to shape warping and empirical shape statistics. Foundations of Computational Mathematics 5, 2005. 1: pp. 1–58.

[Charpiat et al.'06] Charpiat, G., O. Faugeras, R. Keriven, and P. Maurel. Distance-Based Shape Statistics. in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2006). 2006. pp. 14-19.

[Chatelain et al.'06] Chatelain, C., L. Heutte, and T. Paquet, A two-stage outlier rejection strategy for numerical field extraction in handwritten documents, in 18th International Conference on Pattern Recognition (ICPR'06). 2006. pp. 224-227.

[Chatelain et al.'07] Chatelain, C., S. Adam, Y. Lecourtier, L. Heutte, and T. Paquet. Multi-Objective Optimisa-tion for SVM Model Selection. in International Conference on Document Analysis and Recognition (ICDAR). 2007. pp. 427-431.

[Chaudhuri'06] Chaudhuri, B.B., Digital Document Processing: Major Directions and Recent Advances (Advances in Pattern Recognition). 2006: Springer Verlag.

[Chen et al.'94] Chen, J.-W. and S.-Y. Lee, On-line handwritten chinese character recognition via a fuzzy attribute representation. Image and Vision Computing, 1994. 12(10): pp. 669–681.

[Chen et al.'95] Chen, M.-Y., A. Kundu, and S.N. Srihari, Variable duration hidden Markov model and morphological segmentation for handwritten word recognition. IEEE Transactions on Im-age Processing, 1995. 4(12): pp. 1675-1688.

[Cho et al.'03] Cho, S.-J. and J. Kim. Bayesian Network Modeling of Hangul Characters for On-line Handwriting Recognition. in Proceedings of The Seventh International Conference on Document Analysis and Recognition (ICDAR). 2003. Edinburgh. pp. 207-211.

[Cho et al.'06] Cho, S.-J. and J.H. Kim, A Bayesian Network Approach for On-line Handwriting Recogni-tion, in Digital Document Processing: Major Directions and Recent Advances (Advances in Pattern Recognition), B.B. Chaudhuri, Editor. 2006, Springer Verlag. pp. 121-141.

[Cho et al.'95] Cho, W., S.-W. Lee, and J.H. Kim, Modeling and recognition of cursive words with hidden Markov models. Pattern Recognition, 1995. 28(12): pp. 1941-1953.

[Chok et al.'03] Chok, S.S. and K. Marriott., Automatic generation of intelligent diagram editors. ACM Transactions on Computer-Human Interaction, 2003. 10(3): pp. 244–276.

[Chomsky'57] Chomsky, N., Syntactic Structures. 1957: Mouton. [Chow'70] Chow, C.K., On Optimum Recognition Error and Reject Tradeoff. IEEE Transaction on

Inforamtion Theory, 1970. 16: pp. 41-46. [Chung et al.'94] Chung, F.L. and T. Lee, Fuzzy Competitive Learning. IEEE Transaction on Neural Net-

work, 1994. 7(3): pp. 539-551. [Collobert et al.'02] Collobert, R., S. Bengio, and Y. Bengio, A parallel mixture of svms for very large scale

problems. Neural Computation, 2002. 14 (2): pp. 1105–1114. [Connell et al.'02] Connell, S.D. and A.K. Jain, Writer Adaptation for Online Handwriting Recognition. IEEE

Transaction on Pattern Analysis and Machine Intelligence, 2002. 24(3): pp. 329-346. [Côté'97] Côté, M., Utilisation d'un modèle d'accès lexical et de concepts perceptifs pour la recon-

naissance d'images de mots cursifs. 1997, Thèse de Doctorat de l'ENST. [Côté et al.'98] Côté, M., E. Lecolinet, M. Cheriet, and Y.C. Suen, Automatic Reading of Cursive Scripts

Using a Reading Model and Perceptual Concepts. International Journal on Document Ana-lysis and Recognition (IJDAR), 1998. 1(1): pp. 3-17.

[Coüasnon'96] Coüasnon, B., Segmentation et reconnaissance de documents guidées par la connais-sance a priori: application aux partitions musicales. 1996, Thèse de l'université de Rennes 1.

[Coüasnon et al.'04] Coüasnon, B., J. Camillerapp, and I. Leplumey. Making Handwritten Archives Documents accessible to Public with a Generic System of Document Image Analysis. in International Workshop on Document Image Analysis for Libraries (DIAL'04). 2004. Palo Alto, USA. pp. 270-277.

[Coüasnon et al.'07] Coüasnon, B., J. Camillerapp, and I. Leplumey, Access by Content to Handwritten Archive Documents: Generic Document Recognition Method and Platform for Annotations. Interna-tional Journal on Document Analysis and Recognition, IJDAR, 2007. 9(2-4): pp. 223-242.

[Dai et al.'07] Dai, R., C.-L. Liu, and B. Xiao, Chinese character recognition: history, status and pros-


pects. Frontiers of Computer Science in China, 2007. 1: pp. 126-136. [Damerau'64] Damerau, F.J., A Technique for Computer Detection and Dorrection of Spelling Errors.

Communications of the ACM, 1964. 7(3): pp. 171--176. [De Backer et al.'99] De Backer, S. and P. Scheunders, A competitive elliptical clustering algorithm. Pattern

Recognition Letters, 1999. 20(11-13): pp. 1141-1147. [De Backer et al.'01] De Backer, S. and P. Scheunders, Texture Segmentation by Frequency-Sensitive Elliptical

Competitive Learning. Image and Vision Computing, 2001. 19(9-10): pp. 639-648. [De Stefano et al.'00] De Stefano, C., C. Sansone, and M. Vento, To Reject or Not to Reject: That is the Ques-

tion - An Answer in Case of Neural Classifiers. IEEE Transaction on Systems, Man and Cybernetics, 2000. 30(1): pp. 84-94.

[Delaye et al.'08a] Delaye, A., S. Macé, and E. Anquetil. Reconnaissance hybride statistique-structurelle de sinogrammes par système d’inférence floue. in Colloque International Francophone sur l'Ecrit et le Document (CIFED'08). 2008a. Rouen. pp. 49-54.

[Delaye et al.'08b] Delaye, A., S. Macé, and E. Anquetil. Hybrid Statistical-Structural On-line Chinese Charac-ter Recognition with Fuzzy Inference System. in IAPR International Conference on Pattern Recognition (ICPR). 2008b: Accepté, à paraître.

[Dengel et al.'97] Dengel, A., R. Hoch, F. Hönes, et al., Techniques for Improving OCR Results, in Hand-book on Character Recognition and Document Image Analysis. 1997, World Scientific Publishing Company.

[Djioua et al.'07] Djioua, M. and R. Plamondon. Analysis and Synthesis of Handwriting Variability using the Sigma-Lognormal Model. in 13th Conference of the International Graphonomics Society. 2007. pp. 19-22.

[Dubuisson et al.'93] Dubuisson, B. and M. Masson, A statistical decision rule with incomplete knowledge about classes. Pattern Recognition, 1993. 26(1): pp. 155-165.

[El-Yacoubi et al.'99] El-Yacoubi, M.A., M. Gilloux, R. Sabourin, and C.Y. Suen, An HMM-Based Approach for Off-Line Unconstrained Handwritten Word Modeling and Recognition. IEEE Trans. Pattern Anal. Mach. Intell., 1999. 21(8): pp. 752-760.

[El Yacoubi et al.'95] El Yacoubi, A., J.M. Bertille, and M. Gilloux. Conjoined location and recognition of street names within a postal address delivery line. in Proceedings of the Third International Con-ference on Document Analysis and Recognition. 1995. pp. 1024-1027.

[Farouz et al.'99] Farouz, C., M. Cilloux, and B. J.-M, Handwritten word recognition with contextual hidden Markov models, in Advances in Handwriting Recognition, S.W. Lee, Editor. 1999, World Scientific. pp. 183-192.

[Fawcett'06] Fawcett, T., An introduction to ROC analysis. Pattern Recogn. Lett., 2006. 27(8): pp. 861-874.

[Fleetwood et al.'02] Fleetwood, M.D., M.D. Byrne, P. Centgraf, et al. An Evaluation of Text-Entry in Palm OS—Graffiti and the Virtual Keyboard. in Proceedings of the Human Factors and Ergonomics Society 46th Annual Meeting. 2002. pp. 617–621.

[Forsberg et al.'98] Forsberg, A., M. Dieterich, and R. Zeleznik. The Music Notepad. in Proceedings of the eleventh ACM Symposium on User Interface Software and Technology (UIST'98). 1998. San Francisco, United States. pp. 203-210.

[Fumera et al.'00a] Fumera, G., F. Roli, and G. Giacinto. Multiple Reject Thresholds for Improving Classifica-tion Reliability. in Proceedings of Advances in Pattern Recognition: Joint IAPR Interna-tional Workshops, SSPR 2000 and SPR 2000. 2000a. Alicante, Spain. pp. 863-871.

[Fumera et al.'00b] Fumera, G., F. Roli, and G. Giacinto, Reject option with multiple thresholds. Pattern Rec-ognition, 2000b. 33(12): pp. 2099-2101.

[Fumera et al.'04] Fumera, G. and F. Roli, Analysis of error-reject trade-off in linearly combined multiple classifiers. Pattern Recognition, 2004. 37(6): pp. 1245-1265.

[Fumera et al.'05] Fumera, G. and F. Roli, A theoretical and experimental analysis of linear combiners for multiple classifier systems. IEEE Transactions on Pattern Analysis and Machine Intelli-gence, 2005. 27(6): pp. 942-956.

[Gader et al.'97] Gader, P.D., M.A. Mohamed, and J.-H. Chiang, Handwritten word recognition with charac-ter and inter-character neural networks. IEEE Transactions on Systems, Man, and Cyber-netics, Part B, 1997. 27(1): pp. 158-164.

[Garcia-Salicetti'95] Garcia-Salicetti, S., Une Approche Neuronale Predictive pour la Reconnaissance en-ligne de l'Ecriture Cursive. 1995, Thèse de Doctorat de l'Université de Paris 6, Spécialité Inf.

[Garcia-Salicetti et al.'95] Garcia-Salicetti, S., B. Dorizzi, P. Gallinari, A. Mellouk, and D. Fanchon, A hidden Markov model extension of a neural predictive system for on-line character recognition, in ICDAR. 1995. pp. 50-53.

[Gennari et al.'05] Gennari, L., L.B. Kara, T. Stahovich, and K. Shimada, Combining geometry and domain knowledge to interpret hand-drawn diagrams. Computers & Graphics, 2005. 29(4): pp. 547-562.

[Gilloux et al.'95] Gilloux, M., B. Lemarié, and M. Leroux, A hybrid radial basis function network/hidden Markov model handwritten word recognition system, in ICDAR. 1995. pp. 394-397.

[Giusti et al.'02] Giusti, N., F. Masulli, and A. Sperduti, Theorical and experimental analysis of a two-stage system for classification. IEEE Transactions on Pattern Analysis and Machine Intelligence,


2002. 24 (7): pp. 893–904. [Golberg'89] Golberg, D.E., Genetic Algorithms in Search, Optimization, and Machine Learning. 1989:

Addison-Wesley. [Goodman'01] Goodman, J., A bit of progress in language modeling. Computer Speech and Language,

2001: pp. 403-434. [Govindaraju et al.'96] Govindaraju, V. and R.K. Krishnamurthy, Holistic handwritten word recognition using

temporal features derived from off-line images. Pattern Recognition Letters, 1996. 17(5): pp. 537-540.

[Guihuan et al.'06] Guihuan, F., S. Zhengxing, X. Qiang, and Z. Wentao, Sketch Understanding For Electric-Circuit Diagramming in E-Learning. Journal of Computational Information Systems, 2006. 2(1): pp. 145-153.

[Günter et al.'04] Günter, S. and H. Bunke, HMM-based handwritten word recognition: on the optimization of the number of states, training iterations and Gaussian components. Pattern Recognition, 2004. 37(10): pp. 2069-2079.

[Guyon et al.'94] Guyon, I., L. Schomaker, R. Plamondon, M. Liberman, and S. Janet. UNIPEN Project of On-Line Data Exchange and Recognizer Benchmarks. in 12th International Conference on Pattern Recognition (ICPR'94). 1994. Jerusalem, Israel. pp. 409-413.

[Guyon et al.'97] Guyon, I., M. Schenkel, and J. Denker, Handbook of Character Recognition and Document Image Analysis, in World Scientific Publishing Company. 1997, H. Bunke and Wang P.S.P. pp. 183-225.

[Guyon et al.'98] Guyon, I. and C. Warwick, Survey of the State of the Art in Human Language Technology, C.R.A. Eds and et al., Editors. 1998, Cambridge University Press. pp. 73-77.

[Hacioglu et al.'01a] Hacioglu, K. and W. Ward. Dialog-Context Dependent Modeling Combining N-Grams and Stochastic Context-Free Grammars. in 26th International Conference on Acoustics, Speech and Signal Processing (ICASSP'01). 2001a. Salt Lake City, United States. pp. 537-540.

[Hacioglu et al.'01b] Hacioglu, K. and W. Ward. On Combining Language Models: Oracle Approach. in 1st International Conference on Human Language Technology Research (HLT'01). 2001b. San Diego.

[Hall et al.'07] Hall, A., C. Pomm, and P. Widmayer, A combinatorial approach to multi-domain sketch recognition, in EURO-GRAPHICS Workshop on Sketch-Based Interfaces and Modelling (SBIM’07). 2007.

[Hammond et al.'03] Hammond, T. and R. Davis, Ladder: A Language to Describe Drawing, Display, and Edit-ing in Sketch Recognition, in IJCAI'03. 2003. pp. 461-467.

[Hillard et al.'06] Hillard, D. and M. Ostendorf. Compensating for Word Posterior Estimation Bias in Confu-sion Networks. in 31st International Conference on Acoustics, Speech and Signal Process-ing (ICASSP'06). 2006. Toulouse, France. pp. 1153-1156.

[Ho'98] Ho, T.K., The random subspace method for constructing decision forests. IEEE Trans. on PAMI, 1998. 20(8): pp. 832-844.

[Huet et al.'07] Huet, S., G. Gravier, and P. Sébillot. Morphosyntactic Processing of N-Best Lists for Im-proved Recognition and Confidence Measure Computation. in 10th European Conference on Speech Communication and Technology (Eurospeech'07). 2007. Antwerp, Belgium. pp. 1741-1744.

[Ianakiev et al.'00] Ianakiev, K.R. and V. Govindaraju, Improvement of recognition accuracy using 2-stage classification, in Seventh International Workshop on Frontiers in Handwriting. 2000, Schomaker, L., Vuurpijl, L. pp. 153–165.

[Jacobs'91] Jacobs, R.A., I.Jordan, M., Nowlan, S. J., Hinton, G. E., Adaptative mixtures of local ex-perts. Neural Computation, 1991. 3 (1): pp. 79–87.

[Jaeger et al.'03] Jaeger, S., C.L. Liu, and M. Nakagawa, The State of the Art in Japanese Online Handwrit-ing Recognition compared to Techniques in Western Handwriting Recognition. Interna-tional Journal on Document and Analysis Recognition, 2003. 6(2): pp. 75-88.

[Jain et al.'01] Jain, A.K., A.M. Namboodiri, and J. Subrahmonia. Structure in On-line Documents. in Proceedings of the sixth International Conference on Document Analysis and Recognition (ICDAR'01). 2001. Seattle, United States. pp. 844-848.

[Janikow'98] Janikow, C.Z., Fuzzy decision trees: Issues and methods. IEEE Transactions on Systems, Man and Cybernetics, 1998. 28: pp. 1–14.

[Journet et al.'07] Journet, N., J.-Y. Ramel, R. Mullot, and V. Eglin. A Proposition of Retrieval Tools for His-torical Document Images Libraries. in Ninth International Conference on Document Analy-sis and Recognition (ICDAR). 2007. Washington: IEEE Computer Society. pp. 1053-1057.

[Journet et al.'08] Journet, N., J.Y. Ramel, R. Mullot, and V. Eglin, Analyse d’Images de Documents Anciens: une Approche Texture. Traitement du signal, 2008.

[Jurafsky et al.'95] Jurafsky, D., C. Wooters, J. Segal, et al. Using a Stochastic Context-Free Grammar as a Language Model for Speech Recognition. in 20th International Conference on Acoustics, Speech and Signal Processing (ICASSP'95). 1995. Detroit, United States. pp. 189-192.

[KhoufiZouari'04] KhoufiZouari, H., Contribution à l’évaluation des méthodes de combinaison parallèle de classifieurs par simulation. 2004, Thèse de doctorat de l'Université de Rouen.


[Kim et al.'97a] Kim, G. and V. Govindaraju, A Lexicon Driven Approach to Handwritten Word Recognition for Real-Time Applications. IEEE Trans. Pattern Anal. Mach. Intell., 1997a. 19(4): pp. 366-379.

[Kim et al.'97b] Kim, G. and V. Govindaraju, Bankcheck Recognition Using Cross Validation Between Legal and Courtesy Amounts. IJPRAI, 1997b. 11(4): pp. 657-674.

[Koerich et al.'03] Koerich, A.L., R. Sabourin, and C.Y. Suen, Lexicon-Driven HMM Decoding for Large Vocabulary Handwriting Recognition With Multiple Character Models. International Journal on Document Analysis and Recognition, 2003. 6(2): pp. 126-144.

[Kohonen'90] Kohonen, T., The self-organizing map. Proceedings of the IEEE, 1990. 78(9): pp. 1464-1480.

[Koltringer et al.'04] Koltringer, T. and T. Grechenig. Comparing the immediate usability of graffiti 2 and virtual keyboard. in ¨CHI '04 extended abstracts on Human factors in computing systems. 2004. New York, NY, USA: ACM. pp. 1175-1178.

[Krishnapuram'93] Krishnapuram, R. Fuzzy Clustering Methods in Computer Vision. in First European Con-gress on Fuzzy and Intelligent Technologies (EUFIT'93). 1993. pp. 720-730.

[Krishnapuram et al.'93] Krishnapuram, R. and J.M. Keller, A possibilistic approach to clustering. IEEE Transac-tions on Fuzzy Systems, 1993. 1(2): pp. 98-110.

[Krishnapuram'94] Krishnapuram, R. Generation of Membership Functions via Possibilistic Clustering. in Proceedings of the Third IEEE Conference on Fuzzy Systems. 1994. Orlando. pp. 902-908.

[Krishnapuram et al.'94] Krishnapuram, R. and J.M. Keller, Fuzzy and Possibilistic Clustering Methods forComputer Vision. Neural and Fuzzy Sytems, 1994. 12: pp. 133-159.

[Krishnapuram et al.'96] Krishnapuram, R. and J.M. Keller, The possibilistic C-means algorithm: insights and rec-ommendations. IEEE Transactions on Fuzzy Systems, 1996. 4(3): pp. 385-393.

[Kuncheva et al.'03] Kuncheva, L.I. and C.J. Whitaker, Measures of diversity in classifier ensembles. Machine Learning, 2003. 51: pp. 181-207.

[Kundu et al.'98] Kundu, A., Y. He, and M.-Y. Chen, Alternatives to Variable Duration HMM in Handwriting Recognition. IEEE Trans. Pattern Anal. Mach. Intell., 1998. 20(11): pp. 1275-1280.

[Landgrebe et al.'06] Landgrebe, T.C.W., D.M.J. Tax, P. Paclik, and R.P.W. Duin, The interaction between classification and reject performance for distance- based reject-option classifiers. Pattern Recognition Letters, 2006. 27: pp. 908-917.

[Larsen'80] Larsen, P.M., Industrial Applications of Fuzzy Logic Control. International Journal of Man-Machine Studies, 1980. 12: pp. 3-10.

[LaViola'07] LaViola, J., Advances in Mathematical Sketching: Moving Toward the Paradigm's Full Potential. IEEE Computer Graphics and Applications, 2007. 27(1): pp. 38-48.

[LaViola et al.'04] LaViola, J.J. and R.C. Zeleznik, MathPad2: a system for the creation and exploration of mathematical sketches. ACM Trans. Graph., 2004. 23(3): pp. 432-440.

[Lethelier et al.'95] Lethelier, E., M. Leroux, and M. Gilloux. An automatic reading system for handwritten numeral amounts on French checks. in ICDAR. 1995. pp. 92-97.

[Levenshtein'66] Levenshtein, Binary Codes Capable of Correcting Deletions, Insertions and Reversals. Soviet Physics Doklady, 1966. 10: pp. 707-710.

[Liu et al.'04a] Liu, C.-L., H. Sako, and H. Fujisawa, Effects of classifier structures and training regimes on integrated segmentation and recognition of handwritten numeral strings. IEEE Transac-tions on Pattern Analysis and Machine Intelligence, 2004a. 26(11): pp. 1395-1407.

[Liu et al.'04b] Liu, C.L., S. Jäger, and M. Nakagawa, Online Recognition of Chinese Characters: The State-of-the-Art. IEEE Transactions On Pattern Analysis and Machine Intelligence, 2004b. 26(2): pp. 198-213.

[Liu et al.'00] Liu, J. and P. Gader. Outlier Rejection with MLPs and Variants of RBF Networks. in 15th International Conference on Pattern Recognition (ICPR'00). 2000. Los Alamitos, CA, USA: IEEE Computer Society. pp. 680-683.

[Liu et al.'02] Liu, J. and P. Gader, Neural networks with enhanced outlier rejection ability for on-line handwritten word recognition. Pattern Recognition, 2002. 35: pp. 2061-2071.

[Liwicki et al.'05] Liwicki, M. and H. Bunke. IAM-OnDB - An On-Line English Sentence Database Acquired from handwritten Text on a Whiteboard. in Proceedings of the 8th International Conference on Document Analysis and Recognition, ICDAR. 2005. Seoul. pp. 956-961.

[Liwicki et al.'06] Liwicki, M., M. Scherz, and H. Bunke. Word Extraction from On-Line Handwritten Text Lines. in 18th International Conference on Pattern Recognition (ICPR'06). 2006. Hong-Kong, China. pp. 929-933.

[Lorette'96] Lorette, G., Le traitement automatique de l'écrit et du document, État de la recherche. Vol. 33. 1996: Documentaliste, Sciences de l'information. 214-217.

[Lorette et al.'96] Lorette, G. and E. Anquetil. Théorie des catastrophes, géométrie différentielle et segmen-tation de l'écriture cursive. in Actes du 4ème Colloque National sur l'Écrit et le Document, (CNED'96). 1996. Nantes, France. pp. 1-6.

[Lorette'99] Lorette, G., Handwriting recognition or reading? What is the situation at the dawn of the 3rd millenium? IJDAR, 1999. 2(1): pp. 2-12.


[Lu et al.'96] Lu, Y. and M. Shridhar, Character segmentation in handwritten words -- An overview. Pattern Recognition, 1996. 29(1): pp. 77-96.

[Macé et al.'05] Macé, S., E. Anquetil, E. Garrivier, and B. Bossiss. A Pen-based Musical Score Editor. in Proceedings of International Computer Music Conference (ICMC). 2005. Barcelona, Spain. pp. 415-418.

[Macé et al.'06] Macé, S. and E. Anquetil, A Generic Approach for Pen-based User Interface Development, in Computer-Aided Design of User Interfaces V, Proceedings of the 6th International Con-ference on Computer-Aided Design of User Interfaces (CADUI'06),Chapitre 5, G. Calvary, et al., Editors. 2006, Springer-Verlag. pp. 57-70.

[Macé et al.'07a] Macé, S. and E. Anquetil. Design of a Pen-Based Electric Diagram Editor Based on Con-text-Driven Constraint Multiset Grammars. in Human-Computer Interaction: Interaction Platforms and Techniques(HCI International 2007 Conference). 2007a. Beijing, China: LNCS 4551. pp. 418-428.

[Macé et al.'07b] Macé, S. and E. Anquetil. Context-Driven Constraint Multiset Grammars with Incremental Parsing for On-line Structured Document Interpretation. in 9th International Conference on Document Analysis and Recognition (ICDAR'07). 2007b. Brazil. pp. 442-446.

[Macé et al.'07c] Macé, S., E. Anquetil, and B. Bossis, Pen-Based Interaction for Intuitive Music Composi-tion and Editing, in Intelligent Music Information Systems: Tools and Methodologies, J. Shen, et al., Editors. 2007c, IGI Global. pp. 261-288.

[Macé'08] Macé, S., Modélisation de connaissances structurelles pour l’interprétation à la volée de documents structurés manuscrits en ligne. 2008, Thèse de l’INSA de Rennes, soutenue le 28 novembre 2008.

[Macé et al.'08a] Macé, S. and E. Anquetil, Incremental Interpretation of On-Line Hand-Drawn Structured Documents, in Eleventh International Conference on Frontiers in Handwriting Recogni-tion(ICFHR). 2008a: Montréal. pp. 499-504.

[Macé et al.'08b] Macé, S. and E. Anquetil, Eager Interpretation of On-Line Hand-Drawn Structured Docu-ments: The DALI Methodology. Pattern Recognition (PR), 2008b. Accepté, à paraître.

[Macé et al.'08c] Macé, S. and E. Anquetil, Conception de logiciels orientés stylo pour la composition in-crémentale de documents structurés manuscrits. Revue internationale I3 (Information - In-teraction – Intelligence), 2008c. Accepté, à paraître.

[MacKenzie et al.'97] MacKenzie, I.S. and S.X. Zhang. The immediate usability of graffiti. in Proceedings of the conference on Graphics interface '97. 1997. Toronto, Ont., Canada: Canadian Information Processing Society. pp. 129-137.

[MacKenzie et al.'02] MacKenzie, I.S. and R.W. Soukoreff, Text Entry for Mobile Computing: Models and Meth-ods, Theory and Practice. Human-Computer Interaction, 2002. 17: pp. 147-198.

[MacKenzie et al.'03] MacKenzie, I.S. and R.W. Soukoreff. Phrase sets for evaluating text entry techniques. in CHI '03 extended abstracts on Human factors in computing systems. 2003. New York, NY, USA: ACM. pp. 754-755.

[Madhvanath et al.'97] Madhvanath, S. and V. Krpasundar, Pruning Large Lexicons Using Generalized Word Shape Descriptors, in 4th International Conference on Document Analysis and Recognition (ICDAR). 1997, IEEE Computer Society. pp. 552-555.

[Madhvanath et al.'01] Madhvanath, S. and V. Govindaraju, The role of holistic paradigms in handwritten word recognition. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2001. 23(2): pp. 149-164.

[Mamdani'77] Mamdani, E.H., Applications of Fuzzy Set Theory to Control Systems: A Survey, in Fuzzy Automata and Decision Processes, M.M. Gupta, G.N. Saridis, and B.R. Gaines, Editors. 1977: North-Holland, New York. pp. 1-13.

[Manke et al.'95] Manke, S., M. Finke, and A. Waibel, NPen++: A Writer Independent, Large Vocabulary On-line Cursive Handwriting Recognition System, in ICDAR. 1995. pp. 403-408.

[Manning et al.'99] Manning, C. and H. Schütze, Foundations of Statistical Natural Language Processing. 1999, Cambridge, United States: MIT Press.

[Markou et al.'03a] Markou, M. and S. Singh, Novelty detection: a review - part 2: neural network based ap-proaches. Signal Processing, 2003a. 83(12): pp. 2499-2521.

[Markou et al.'03b] Markou, M. and S. Singh, Novelty detection: a review - part 1: neural network based ap-proaches. Signal Processing, 2003b. 83(12): pp. 2481-2497.

[Marriott et al.'98] Marriott, K., B. Meyer, and K. Wittenburg, A Survey of Visual Language Specification and Recognition, in Theory of Visual Languages, K. Marriott and B. Meyer, Editors. 1998, Springer-Verlag.

[Marriott.'94] Marriott., K. Constraint multiset grammars. in Visual Language (VL). 1994. pp. 118–125. [Marsala et al.'03] Marsala, C. and B. Bouchon-Meunier, Choice of a method for the construction of fuzzy

decision trees., in Proc. of the FUZZIEEE'03 Int. Conf. on Fuzzy Systems. 2003. pp. 584–589.

[Martin et al.'98] Martin, S., J. Liermann, and H. Ney, Algorithms for Bigram and Trigram Word Clustering. Speech Communication, 1998. 24(1): pp. 19-37.

[Marukatat et al.'02] Marukatat, S., T. Artières, and P. Gallinari. Rejection Measures for Handwriting Sentence Recognition. in 8th International Workshop on Frontiers in Handwriting Recognition


(IWFHR'02). 2002. Ontario, Canada. pp. 24-29. [Mas et al.'05] Mas, J., G. Sanchez, and J. Llados. An Adjacency Grammar to Recognize Symbols and

Gestures in a Digital Pen Framework. in IbPRIA'05, LNCS 3523. 2005: Springer-Verlag. pp. 115-122.

[Matic et al.'93] Matic, N., I. Guyon, J. Denker, and V. Vapnik, Writer-adaptation for on-line handwritten character recognition., in ICDAR93. 1993, IEEE Computer Society Press. pp. 187–191.

[McClelland et al.'81a] McClelland, J.L. and D.E. Rumelhart, An Interactive Activation Model of Context Effects in Letter Perception. Psychological Review, 1981a.

[McClelland et al.'81b] McClelland, J.L. and D.E. Rumelhart, An interactive activation model of context effects in letter perception: Part 1. An account of basic findings. Psychological Review, 1981b. 88(5): pp. 375-707.

[Milgram et al.'04] Milgram, J., M. Cheriet, and R. Sabourin. Two-Stage Classification System combining Model-Based and Discriminative Approaches. in 17th International Conference on Pattern Recognition (ICPR'04). 2004. pp. 152-155.

[Mitoma et al.'05] Mitoma, H., S. Uchida, and H. Sakoe. Online character recognition based on elastic matching and quadratic discrimination. in Eighth International Conference on Document Analysis and Recognition (ICDAR). 2005. pp. 36-40.

[Miyao et al.'07] Miyao, H. and M. Maruyama, An online handwritten music symbol recognition system. International Journal on Document Analysis and Recognition (IJDAR), 2007. 9(1): pp. 49-58.

[Mohamed et al.'96] Mohamed, M.A. and P.D. Gader, Handwritten Word Recognition Using Segmentation-Free Hidden Markov Modeling and Segmentation-Based Dynamic Programming Techniques. IEEE Trans. Pattern Anal. Mach. Intell., 1996. 18(5): pp. 548-554.

[Mouchère et al.'04] Mouchère, H., E. Anquetil, and N. Ragot. Etude des mécanismes d'adaptation pour l'opti-misation de classifieurs flous dans le cadre de la reconnaissance d'écriture manuscrite. in 12es rencontres francophones sur la Logique Floue et ses Applications (LFA'04). 2004. Nantes, France. pp. 93-100.

[Mouchère et al.'05] Mouchère, H., E. Anquetil, and N. Ragot. Writer Style Adaptation of On-line Handwriting Recognizers: A Fuzzy Mechanism Approach. in Proceedings of the 12th Conference of the International Graphonomics Society (IGS). 2005. Salerno, Italy. pp. 193-197.

[Mouchère et al.'06a] Mouchère, H. and E. Anquetil. A Unified Strategy to Deal with Different Natures of Reject. in Proceedings of the International Conference on Pattern Recognition (ICPR'06). 2006a. pp. 792-795.

[Mouchère et al.'06b] Mouchère, H. and E. Anquetil. Generalization Capacity of Handwritten Outlier Symbols Rejection with Neural Network. in Proceedings of the 10th International Workshop on Fron-tier in Handwriting Recognition (IWFHR'06). 2006b. La Baule, France. pp. 187-192.

[Mouchère et al.'06c] Mouchère, H., E. Anquetil, and N. Ragot. Etude et gestion des types de rejet pour l'optimi-sation de classifieurs. in 15eme congrès francophone Reconnaissance des Formes et In-telligence Artificielle (RFIA 2006). 2006c. Tours, France: Presses Universitaire François-Rabelais.

[Mouchère'07] Mouchère, H., Étude des mécanismes d'adaptation et de rejet pour l'optimisation de classi-fieurs: Application à la reconnaissance de l'écriture manuscrite en-ligne. 2007, Thèse de l'INSA de Rennes.

[Mouchère et al.'07a] Mouchère, H., E. Anquetil, and N. Ragot, Writer Style Adaptation in On-line Handwriting Recognizers by a Fuzzy Mechanism Approach: The ADAPT Method. International Journal of Pattern Recognition and Artificial Intelligence (IJPRAI), 2007a. 21(1): pp. 99-116.

[Mouchère et al.'07b] Mouchère, H., S. Bayoudh, E. Anquetil, and L. Miclet. Synthetic On-line Handwriting Gen-eration by Distortions and Analogy. in 13th Conference of the International Graphonomics Society (IGS'2007). 2007b. pp. 10-13.

[Nakagawa et al.'93] Nakagawa, M.i., K. Machii, Kato, and T. Souya. Lazy recognition as a principle of pen interfaces. in Proceedings of the conference companion on Human factors in computing systems (INTERACT '93 and CHI '93). 1993. New York, NY, USA: ACM Press. pp. 89-90.

[Nakamura'04] Nakamura, A. A Method to Accelerate Adaptation for On-Line Handwriting Recognition of Large Character Set. in IWFHR-9 2004. 2004. pp. 426-431.

[Ney et al.'94] Ney, H., U. Essen, and R. Kneser, On Structuring Probabilistic Dependences in Stochastic Language Modelling. Computer Speech and Language, 1994. 8(1): pp. 1-38.

[Nicolas et al.'06] Nicolas, S., T. Paquet, and L. Heutte. Extraction de la structure de documents manuscrits complexes à l'aide de champs markoviens. in Colloque International Francophone sur l'Ecrit et le Document (CIFED). 2006. Fribourg. pp. 13-18.

[Nicolas et al.'08] Nicolas, S., J. Dardenne, T. Paquet, and L. Heutte. Un modèle de champ aléatoire condi-tionnel 2D appliqué à la segmentation d'images de documents. in 6e congrès francophone AFRIF-AFIA, Reconnaissance des Formes et Intelligence Artificielle, (RFIA). 2008. Amiens.

[Niels'04] Niels, R., Dynamic Time Warping: An Intuitive Way of Handwriting Recognition? in Faculty of Social Sciences, Department of Artificial Intelligence / Cognitive Science. 2004, Thèse, Radboud University Nijmegen.


[Niels et al.'05] Niels, R. and L. Vuurpijl, Dynamic time warping applied to Tamil character recognition. Eighth International Conference on Document Analysis and Recognition (ICDAR). Vol. 2. 2005. 730-734.

[Nielsen'93] Nielsen, J., Usability engineering. 1993, San Diego: Academic press. [Niesler'97] Niesler, T., Category-Based Statistical Language Models. 1997, University of Cambridge:

Cambridge, United Kingdom. [Nosary'02] Nosary, A., Reconnaissance automatique de textes manuscrits par adaptation au scrip-

teur. 2002, Thèse de doctorat de l'Université de Rouen. [Nosary et al.'04] Nosary, A., L. Heutte, and T. Paquet, Unsupervised writer adaptation applied to handwrit-

ten text recognition. Pattern Recognition, 2004. 37(2): pp. 385-388. [Olaru et al.'03] Olaru, C. and L. Wehenkel, A complete fuzzy decision tree technique. Fuzzy Sets and

Systems, 2003. 138: pp. 221–254. [Oliveira et al.'02] Oliveira, L.S., R. Sabourin, F. Bortolozzi, and C.Y. Suen, Automatic Recognition of Hand-

written Numerical Strings: A Recognition and Verification Strategy. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002. 24(11): pp. 1438-1454.

[Oliveira et al.'05] Oliveira, L.S., A.S. Britto Jr, and R. Sabourin. Improving Cascading Classifiers with Particle Swarm Optimization. in Proc. of 8th ICDAR. 2005. Seoul, South Korea: IEEE CS Press. pp. 570-574.

[Ota et al.'07] Ota, I., R. Yamamoto, S. Sako, and S. Sagayama, On-line handwritten kanji recognition based on inter-stroke grammar, in 9th International Conference on Document Analysis and Recognition (ICDAR'07). 2007. pp. 1188-1192.

[Oudot'03] Oudot, L., Fusion d'informations et adaptation pour la reconnaissance de textes manus-crits dynamiques. 2003, Thèse de l'Université de Paris VI.

[Oudot et al.'04a] Oudot, L., L. Prevost, and A. Moises. Self-supervised adaptation for On-line Text Recogni-tion. in Proceedings of the 9th International Workshop on Frontiers in handwriting Recogni-tion (IWFHR). 2004a. Tokyo. pp. 9-13.

[Oudot et al.'04b] Oudot, L., L. Prevost, and M. Milgram. An Activation-Verification Model for On-Line Texts Recognition. in 9th International Workshop on Frontiers in Handwriting Recognition (IWFHR'04). 2004b. Tokyo. pp. 485-490.

[Oudot et al.'05] Oudot, L., L. Prevost, and M. Milgram, Fusion d informations et adaptation pour la recon-naissance de textes manuscrits dynamiques. Traitement du Signal, Numéro Spécial: Trai-tement du document écrit, 2005: pp. 239-248.

[Parsopoulos et al.'02] Parsopoulos, K.E. and M.N. Vrahatis. Particle swarm optimization method in multiobjective problems. in SAC '02: Proceedings of the 2002 ACM symposium on Applied computing. 2002. New York, NY, USA: ACM Press. pp. 603-607.

[Pasquer et al.'99] Pasquer, L., E. Anquetil, and G. Lorette, Coherent Knowledge Source Integration through Perceptual Cycle Framework for Handwriting Recognition, in Advances in Handwriting Recognition, S.-W. Lee, Editor. 1999, World Scientific. pp. 59-68.

[Pasquer'00] Pasquer, L., Conception d'un modèle d'interprétation multi-contextuelle, application à la reconnaissance en-ligne d'écriture manuscrite. 2000, Thèse de doctorat de l'université de Rennes 1.

[Pasquer et al.'00] Pasquer, L., E. Anquetil, and G. Lorette. Système itératif d'interprétation multicontextuelle pour la lecture d'écriture manuscrite. in RFIA'2000. 2000. Paris. pp. 347-356.

[Pasquer et al.'03] Pasquer, L. and G. Lorette, Système de perception et d'interprétation de formes structu-rées (spi). RTSI-TSI (Technique et science informatiques), 2003(Vol.22/7-8): pp. 879-902.

[Perraud et al.'03] Perraud, F., E. Morin, C. Viard-Gaudin, and P.M. Lallican, Modèles n-grammes et n-classes pour la reconnaissance de l'écriture manuscrite en-ligne. TAL (Traitement Automa-tique des Langues), 2003. 44(1): pp. 63-92.

[Pettier'94] Pettier, J.-C., Extraction d'une représentation adaptée à la reconnaissance de l'écriture. 1994, Thèse de doctorat de l'Université de Rennes 1.

[Pitrelli et al.'00] Pitrelli, J.F. and E.H. Ratzlaff. Quantifyiing the Contribution of Language Modeling to Write -independent On-line Handwriting Recognition. in Proceedings of the Seventh International Workshop on Frontiers in Handwriting Recognition (IWFHR). 2000. Amsterdam. pp. 383-392.

[Pitrelli et al.'06] Pitrelli, J.F., J. Subrahmonia, and M.P. Perrone, Confidence Modeling for Handwriting Recognition: Algorithms and Applications. International Journal on Document Analysis and Recognition (IJDAR), 2006. 8(1): pp. 35-46.

[Plamondon et al.'98] Plamondon, R. and W. Guerfali, The generation of handwriting with delta-lognormal syner-gies. Biological Cybernetics, 1998. 78: pp. 119-132.

[Plamondon et al.'00] Plamondon, R. and S. Srihari, On-Line and Off-Line Handwriting Recognition: A compre-hensive Survey. IEEE Transactions On Pattern Analysis and Machine Intelligence, 2000. 22(1): pp. 63-84.

[Plamondon et al.'06] Plamondon, R. and M. Djioua, A multi-level representation paradigm for handwriting stroke generation. Human Movement Science, 2006. 25: pp. 586-607.

[Platt et al.'97] Platt, J.C. and N.P. Matic. A Constructive RBF Network for Writer Adaptation. in Advances in Neural Information Processing Systems. 1997: The {MIT} Press. pp. 765.


[Poisson et al.'02a] Poisson, E., C. Viard Gaudin, and P.M. Lallican, Multi-modular architecture based on convolutional neural networks for online handwritten character recognition, in Proceedings of the 9th International Conference on Neural Information Processing, ICONIP '02. 2002a. pp. 2444-2448.

[Poisson et al.'02b] Poisson, É., C. Viard-Gaudin, and P.M. Lallican, Combinaison et analyse de réseaux de neurones à convolution pour la reconnaissance de caractères manuscrits en-ligne, in Col-loque International Francophone sur l'Écrit et le Document, CIFED'02. 2002b: Hammamet, Tunisie. pp. 315-324.

[Prevost et al.'03] Prevost, L., C. Michel-Sendis, A. Moises, L. Oudot, and M. Milgram. Combining Model-based and Discriminative Classifiers: Application to Handwritten Character Recognition. in Proceedings of The Seventh International Conference on Document Analysis and Recog-nition (ICDAR). 2003. Edinburgh. pp. 31-35.

[Prevost et al.'05] Prevost, L., L. Oudot, A. Moises, C. Michel-Sendis, and M. Milgram, Hybrid genera-tive/discriminative classifier for unconstrained character recognition. Pattern Recognition Letters, 2005. 26(12): pp. 1840-1848.

[Quiniou et al.'05] Quiniou, S., E. Anquetil, and S. Carbonnel. Statistical Language Models for On-line Hand-written Sentence Recognition. in Proceedings of the 8th International Conference on Document Analysis and Recognition (ICDAR'05). 2005. Seoul, Korea. pp. 516-520.

[Quiniou et al.'06] Quiniou, S. and E. Anquetil. A Priori and A Posteriori Integration and Combination of Lan-guage Models in an On-line Handwritten Sentence Recognition System. in Proceedings of the 10th International Workshop on Frontiers in Handwriting Recognition (IWFHR'06). 2006. La Baule, France. pp. 403-408.

[Quiniou'07] Quiniou, S., Intégration de connaisances linguistiques pour la reconnaissance de textes manuscrits en-ligne. 2007, Thèse de l'Institut National des Sciences Appliquées de Rennes (INSA).

[Quiniou et al.'07a] Quiniou, S. and E. Anquetil. Use of a Confusion Network to Detect and Correct Errors in an On-line Handwritten Sentence Recognition System. in 9th International Conference on Document Analysis and Recognition (ICDAR'07). 2007a. Curitiba, Brazil. pp. 382-386.

[Quiniou et al.'07b] Quiniou, S., F. Bouteruche, and E. Anquetil. Word Extraction for the Recognition of On-Line Handwritten Sentences. in 13th Conference of the International Graphonomics Soci-ety (IGS'2007). 2007b. Melbourne, Australia. pp. 52-55.

[Quiniou et al.'08a] Quiniou, S. and E. Anquetil. Utilisation de réseaux de confusion pour la reconnaissance de phrases manuscrites en-ligne. in 16ème Congrès Francophone de Reconnaissance des Formes et d'Intelligence Artificielle (RFIA'08). 2008a. Amiens, France.

[Quiniou et al.'08b] Quiniou, S. and E. Anquetil, Détection et correction d’erreurs basée sur les probabilités a posteriori dans un système de reconnaissance de phrases ma-nuscrites en-ligne. Revue internationale I3 (Information - Interaction – Intelligence), 2008b. Accepté, à paraître.

[Rabiner'89] Rabiner, L.R., A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. Proceedings of the IEEE, 1989. 77: pp. 257-286.

[Ragot et al.'01] Ragot, N. and E. Anquetil. A new hybrid learning method for fuzzy decision trees. in Pro-ceedings of the 10th IEEE International Conference on Fuzzy Systems. 2001. Melbourne. pp. 1380-1383.

[Ragot et al.'02] Ragot, N. and E. Anquetil. Combinaison hiérarchique de systèmes d'inférence floue: appli-cation à la reconnaissance en-ligne de chiffres manuscrits. in Actes du congrès CIFED'02, Colloque International Francophone sur l'Ecrit et le Document. 2002. Hammamet. pp. 305-314.

[Ragot'03] Ragot, N., MÉLIDIS: Reconnaissance de formes par modélisation mixte intrin-sèque/discriminante à base de systèmes d'inférence floue hiérarchisés. 2003, Thèse de l'Université Rennes 1.

[Ragot et al.'03a] Ragot, N. and E. Anquetil. A Generic Hybrid Classifier Based on Hiearchical Fuzzy Model-ing: Experiments on On-line Handwritten Character Recognition. in Proceedings of The Seventh International Conference on Document Analysis and Recognition (ICDAR). 2003a. Edinburgh. pp. 963-967.

[Ragot et al.'03b] Ragot, N. and E. Anquetil, Système de classification hybride interprétable par construction automatique de systèmes d'inférence floue. Technique et science informatiques (TSI), 2003b. 22(7): pp. 853-878.

[Ragot et al.'04] Ragot, N. and E. Anquetil. MELIDIS: Pattern recognition by intrinsic/discriminant dual modeling based on a hierarchical organization of fuzzy inference systems. in 10th Interna-tional Conference on Information Processing and Management of Uncertainty in Knowl-edge-Based Systems, (IPMU'04). 2004. Perugia, Italy. pp. 2069-2076.

[Ramel et al.'06] Ramel, J.Y., S. Busson, and M.L. Demonet. AGORA: the Interactive Document Image Analysis Tool of the BVH Project. in International Workshop on Document Image Analysis for Libraries (DIAL). 2006. pp. 145-155.

[Renaudin et al.'07] Renaudin, C., Y. Ricquebourg, and J. Camillerapp. A General Method of Segmentation-Recognition Collaboration Applied to Pairs of Touching and Overlapping Symbols. in Pro-ceedings of the 9th International Conference on Document Analysis and Recognition.


2007. Curitiba, Brazil. pp. 659-663. [Rousseau et al.'04] Rousseau, L., E. Anquetil, and J. Camillerapp. Reconstitution du parcours du tracé ma-

nuscrit hors-ligne de caractères isolés. in 8ème Colloque Internationnal Francophone sur l'écrit et le Document, (CIFED'04). 2004. La Rochelle, France. pp. 123-127.

[Rousseau et al.'05a] Rousseau, L., E. Anquetil, and J. Camillerapp. Recovery of a Drawing Order from Off-line Isolated Letters Dedicated to Online Recognition. in Proceedings of the Eight International Conference on Document Analysis and Recognition (ICDAR'05). 2005a. Seoul. pp. 1121-1125.

[Rousseau et al.'05b] Rousseau, L., E. Anquetil, and J. Camillerapp. Reconnaissance de l'écriture manuscrite hors-ligne par reconstruction de l'ordre du tracé. in Proceedings of MAJECSTIC. 2005b. Rennes, France.

[Rousseau et al.'06] Rousseau, L., E. Anquetil, and J. Camillerapp. What knowledge about handwritten letters can be used to recover their drawing order? in Proceedings of the 10th International Work-shop on Frontiers in Handwriting recognition (IWFHR 2006). 2006. La Baule, France. pp. 355-360.

[Rousseau'07] Rousseau, L., Reconnaissance d'écriture manuscrite hors-ligne par reconstruction de l'ordre du tracé en vue de l'indexation de document d'archives. 2007, Thèse de l'Institut National des Sciences Appliquées de Rennes (INSA).

[Rousseau et al.'07] Rousseau, L., E. Anquetil, and J. Camillerapp. Word Extraction for the Recognition of On-Line Handwritten Sentences. in 13th Conference of the International Graphonomics Soci-ety (IGS'2007). 2007. Melbourne, Australia. pp. 44-47.

[Rumelhart et al.'86] Rumelhart, D.E., J.L. McClelland, and P.D.P.R.G. the, Parallel Distributed Processing, Exploration in the Microstructure of Cognition, Vol. 1: Foundations, Vol. 2: Psychological and Biological Models. 1986: MIT Press.

[Sayre'73] Sayre, K.M., Machine recognition of handwritten words: A project report. Pattern Recogni-tion, 1973. 5(3): pp. 213-228.

[Schapire'99a] Schapire, R.E., A Brief Introduction to Boosting, in International Joint Conference on Artifi-cial Intelligence (IJCAI). 1999a. pp. 1401-1406.

[Schapire'99b] Schapire, R.E. Theoretical Views of Boosting and Applications. in 10th International Con-ference of Algorithmic Learning Theory(ALT '99). 1999b. Tokyo, Japan: Springer. pp. 13-25.

[Schenkel et al.'94] Schenkel, M., I. Guyon, and D. Henderson, On-line cursive script recognition using time delay neural networks and hidden Markov models, in IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP-94. 1994. pp. 637-640.

[Schomaker et al.'93] Schomaker, L., E. Helsper, H. Teulings, and G. Abbink, Adaptive recognition of online, cursive handwriting, in In 6th International Conference on Handwriting and Drawing (ICOHD’93). 1993: Paris. pp. 19–21.

[Sears et al.'02] Sears, A. and R. Arora. Data entry for mobile devices: an empirical comparison of novice performance with Jot and Graffiti. in In Interacting with Computers. 2002. pp. 413-433.

[Seni et al.'96a] Seni, G., R.K. Srihari, and N. Nasrabadi, Large Vocabulary Recognition of On-line Hand-written Cursive Words. IEEE Trans. on PAMI, 1996a. 18(7): pp. 757-762.

[Seni et al.'96b] Seni, G., V. Kripasundar, and R.K. Srihari, Generalizing edit distance to incorporate do-main information: Handwritten text recognition as a case study. Pattern Recognition, 1996b. 29(3): pp. 405-414.

[Senior et al.'98] Senior, A.W. and A.J. Robinson, An Off-Line Cursive Handwriting Recognition System. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998. 20(3): pp. 309-321.

[Shilman et al.'03] Shilman, M., Z. Wei, S. Raghupathy, P. Simard, and D. Jones. Discerning Structure from Freeform Handwritten Notes. in Proceedings of the seventh International Conference on Document Analysis and Recognition (ICDAR'03). 2003. Edinburgh, Scotland. pp. 60-65.

[Shridhar et al.'97a] Shridhar, M. and F. Kimura, Segmentation-Based Cursive Handwriting recognition, in Handbook of Character Recognition and Document Image Analysis, H. Bunke and P.S.P. Wang, Editors. 1997a, World Scientific. pp. 123-156.

[Shridhar et al.'97b] Shridhar, M., G. Houle, and F. Kimura, Handwritten Word Recognition Using Lexicon Free and Lexicon Directed Word Recognition Algorithms. icdar, 1997b: pp. 861-865.

[Simon et al.'89] Simon, J.C. and O. Baret, Formes régulières et singulières; application à la reconnais-sance de l'écriture manuscrite. C.R. Académie des Sciences, 1989. 309(II): pp. 1901-1906.

[Simon et al.'92] Simon, J.C. and O. Baret, Cursive words recognition, in Pixels to Features III: Frontiers in Handwriting Recognition. 1992, S. Impedovo and J.C. Simon (eds.), Elsevier Science Pub-lishers B.V. pp. 241-260.

[Skurichina et al.'98] Skurichina, M. and R.P.W. Duin, Bagging for linear classifiers. Pattern Recognition, 1998. 31(7): pp. 909-930.

[Skurichina et al.'00] Skurichina, M. and R.P.W. Duin, Boosting in linear discriminant analysis. Multiple Classifi-ers Systems. LNCS 1857, 2000: pp. 190-199.

[Sridha et al.'06] Sridha, M., D. Mandalapu, and M. Patel, Active-DTW: A Generative Classifier that com-


bines Elastic Matching with Active Shape Modeling for Online Handwritten Character Rec-ognition, in Tenth International Workshop on Frontiers in Handwriting Recognition (IWFHR). 2006.

[Srihari et al.'97] Srihari, S.N. and E.J. Kuebert. Integration of Hand-written Address Interpretation Technol-ogy into the United States Postal Service Remote Computer Reader System. in 4th Inter-national Conference on Document Analysis and Recognition (ICDAR'97). 1997. pp. 892-896.

[Sweller et al.'91] Sweller, J. and P. Chandler, Evidence for cognitive load theory. Cognition and Instruction, 1991. 8: pp. 351-362.

[Takagi et al.'85] Takagi, T. and M. Sugeno, Fuzzy identification of systems and its applications to modeling and control. IEEE Transactions on Systems, Man and Cybernetics, 1985. 15(1): pp. 116-132.

[Tay et al.'01a] Tay, Y., P. Lallican, M. Khalid, C. Viard-Gaudin, and S. Knerr. An offline cursive handwrit-ten word recognition system. in Tecom'01. 2001a. pp. 519 - 524.

[Tay et al.'01b] Tay, Y.H., M. Khalid, P.M. Lallican, S. Knerr, and C. Viard-Gaudin, An Analytical Handwrit-ten Word Recognition System with Word-level Discriminant Training. 2001b.

[Titsias'02] Titsias, M.K., Likas, A., Mixture of experts classication using a hierarchical mixture model. Neural Computation, 2002. 14: pp. 2221–2244.

[Toyozumi et al.'01] Toyozumi, K., K. Mori, Y. Suenaga, and T. Suzuki. A System for Real-time Recognition of Handwritten Mathematical Formulas. in Proceedings of the sixth International Conference on Document Analysis and Recognition (ICDAR'01). 2001. Seattle, WA, USA. pp. 1059-1064.

[Valois et al.'01] Valois, J.P., M. Cote, and M. Cheriet. Online recognition of sketched electrical diagrams. in the Sixth International Conference on Document Analysis and Recognition (ICDAR’01). 2001. Seattle, USA. pp. 460-464.

[Viard-Gaudin et al.'99] Viard-Gaudin, C., P.M. Lallican, P. Binter, and S. Knerr. The IRESTE On/Off (IRONOFF) Dual Handwriting Database. in ICDAR '99: Proceedings of the Fifth International Confer-ence on Document Analysis and Recognition. 1999. Washington, DC, USA: IEEE Com-puter Society. pp. 455-458.

[Vuori et al.'99] Vuori, V., J. Laaksonen, and E. Oja. On-line Adaptation in Recognition of Handwritten Alphanumeric Characters. in 5th ICDAR. 1999. pp. 792-795.

[Vuori et al.'00] Vuori, V., M. Aksela, J. Laaksonnen, and E. Oja. Adaptive Character Recognizer for a Hand-held Device: Implementation and Evaluation Setup. in Proceedings of the seventh International Workshop on Frontiers on Handwriting Recognition. 2000. Amsterdam, Ned-erland. pp. 13-22.

[Vuori'02] Vuori, V., Adaptive methods for on-line recognition of isolated handwritten characters. 2002, Phd of the Helsinki University of Technology.

[Vuurpijl et al.'00] Vuurpijl, L. and L. Schomaker. Two-stage Character Classification: A Combined Approach of Clustering and support Vector Classifiers. in Proceedings of the Seventh International Workshop on Frontiers in Handwriting Recognition (IWFHR). 2000. Amsterdam. pp. 423-432.

[Wimmer et al.'97] Wimmer, Z., S. Garcia-Salicetti, B. Dorizzi, and P. Gallinari, Off-Line Cursive Word Recog-nition with a Hybrid Neural-HMM System, in BSDIA. 1997. pp. 249-260.

[Xue et al.'02] Xue, H. and V. Govindaraju, On the dependence of handwritten word recognizers on lexicons. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002. 24(12): pp. 1553-1564.

[Yang et al.'07] Yang, D. and L. Jin, Kernel modified quadratic discriminant function for on-line handwritten chinese characters recognition, in 9th International Conference on Document Analysis and Recognition (ICDAR'07). 2007. pp. 38-42.

[Zadeh'65] Zadeh, L.A., Fuzzy sets. Information and Control, 1965. 8(3): pp. 338-353. [Zheng et al.'97] Zheng, J., X. Ding, and Y. Wu, Recognizing on-line handwritten chinese character via farg

matching, in the 4th International Conference on Document Analysis and Recognition (ICDAR'97). 1997. pp. 621-624.

[Zhu et al.'06] Zhu, H., L. Tang, and P. Liu, An MLP-orthogonal Gaussian mixture model hybrid model for Chinese bank check printed numeral recognition. International Journal of Document Analysis and Recognition, 2006. 8(1): pp. 27--34.

[Zimmermann et al.'04a] Zimmermann, M. and H. Bunke. Optimizing the Integration of a Statistical Language Model in HMM based Offline Handwritten Text Recognition. in 17th International Conference on Pattern Recognition (ICPR'04). 2004a. Cambridge, United Kingdom. pp. 541-544.

[Zimmermann et al.'04b] Zimmermann, M. and H. Bunke. N-Gram Language Models for Offline Handwritten Text Recognition. in 9th International Workshop on Frontiers in Handwriting Recognition (IWFHR'04). 2004b. Tokyo, Japan. pp. 203-208.

[Zimmermann et al.'04c] Zimmermann, M., R. Bertolami, and H. Bunke. Rejection Strategies for Offline Handwritten Sentence Recognition. in 17th International Conference on Pattern Recognition (ICPR'04). 2004c. Cambridge, United Kingdom. pp. 550-553.

[Zimmermann et al.'06] Zimmermann, M., J.C. Chappelier, and H. Bunke, Offline Grammar-Based Recognition of


Handwritten Sentences. IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), 2006. 28(5): pp. 818-821.