39
le 04/06/2002 Journée Doctorant PSI Reconstruction d’objets en XML Reconstruction d’objets en XML par approche statistico-structurelle par approche statistico-structurelle pour l’interprétation pour l’interprétation de documents techniques de documents techniques Delalandre Mathieu

Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Embed Size (px)

Citation preview

Page 1: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

le 04/06/2002Journée Doctorant PSI

Reconstruction d’objets en XML Reconstruction d’objets en XML par approche statistico-structurellepar approche statistico-structurelle

pour l’interprétation pour l’interprétation de documents techniquesde documents techniques

Delalandre Mathieu

Page 2: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

SommaireSommaire

Introduction

Présentation du sujet

Présentation des travaux

Conclusions & Perspectives

Page 3: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

SommaireSommaire

Introduction

Présentation du sujet

Présentation des travaux

Conclusions & Perspectives

Page 4: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

IntroductionIntroduction

Avancement Première année de thèse dans la continuité du

stage de DEA Directeurs de thèse

Eric Trupin (PSI université Rouen) Jacques Labiche (PSI université Rouen) Jean-Marc Ogier (L3I université La Rochelle)

Page 5: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

IntroductionIntroduction

Collaboration doctorant et maîtres de conférence Pierre Héroux, Sébastien Adam, Youssouf Saidali

Contexte industriel projet Doc-Mining (RNTL) FT R&D Lannion Laboratoire L3I La Rochelle Département informatique de l’université de Friboug Équipe ISA de l’INRIA Lorraine

Sites de thèse http://mathieu.delalandre.free.fr/ http://site.voila.fr/roxml/

Page 6: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

SommaireSommaire

Introduction

Présentation du sujet

Présentation des travaux

Conclusion & Perspectives

Page 7: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

Système d’Interprétation « SI » (1)

Système d’interprétation

‘adaptable’de documents

techniques

Reconstruction des résultats de la

reconnaissance

Documents non-structurés (images) et semi-structurés (PDF, DXF, PS)

Page 8: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

SI (2)

Chaîne de Reconnaissance

De Formes « RDF »statistico

structurelle

Base demodèles

Base descénarios

Commande-Interface-Pilotage de chaîne-SMA

Page 9: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

Approche statistico-structurelle (1)

moyenAngle

eiance_angl

ortioniance_prop

etotal_angl

_

var

var

Modèle de type structurelModèle de type statistique

Primitivesvectorielles

Rapportsangulaires

Rapports : connexion, distance,

etc…

Primitives :arc,courbe,

pattern

Page 10: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

Approche statistico-structurelle (2) Approche statistique

Plus robuste aux bruits, meilleurs résultats de reconnaissance

‘Plus facile’ de mise en oeuvre Inapplicable dans les cas connectés

Approche structurelle Seule approche pour détecter les

objets composites, ou connectés Sensible aux bruits Approche NP complexe

Page 11: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

Approche statistico-structurelle (3)

Près-Traitementde l’Image

(TI) Extractionde Modèle

(EM)structurel

Extractionde Modèle

(EM)statistique

Chaîne de TI et EM Chaîne RDF

Classifieursstructurels

Classifieursstatistiques

Reconstruction de modèles

Optimisation Fusion de

données

Page 12: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

XML (1) Présentation XML

eXtensible Markup Language Norme du W3C Langage de description de données

Documents électroniques (statiques et dynamiques) Flots de données (Communications entre applications, BDD)

Page 13: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

XML (2) Présentation XML

Document

CSS :Style

XML :Données

DTD :Structure & types de données

DocumentHTML :DonnéesStyle

Page 14: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

XML (3) Présentation XML

Meta-langage : SVG Vecteurs XGMML Graphes MathML Mathématiques DAML-OIL Ontologies

Langages de traitement Langage de requêtes XML-QL Langage transformation de données XSLT

Page 15: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

XML (4) XML en interprétation de documents

C’est un outil informatique, il apporte :1. Conversion de formats

Interne au système : Interfaçage entre outils Externe au système : ‘Export’ tous formats (format pivot)

2. Permet de structurer et de représenter les résultats de la reconnaissance (XML & DTD, SVG)

3. Contrôle des modèles de représentation des formes (XSLT) Sélection de primitives Choix de modélisation du graphe

Page 16: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

Conclusions (1) Les approches statistique et structurelle sont

nécessaires et complémentaires pour l’interprétation de documents techniques dans les cas connectés

Page 17: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

Conclusions (2) Pourquoi XML : Système de RDF = Première brique

d’un SI, il faut prendre en compte son exploitation dans le SI, XML s’impose :

1. Représentation des résultats de la reconnaissance (DTD et SVG)

2. Contrôle des modèles (XSLT) La qualité de la RDF est fonction

de l’efficacité de l’étape d’extraction de modèles, de l’efficacité de l’étape de classification, de la qualité du modèle de représentation pour une forme donnée dans

un contexte donnée

Page 18: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

SommaireSommaire

Introduction

Présentation du sujet

Présentation des travaux

Conclusions & Perspectives

Page 19: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

Chaîne de RDF

statisticostructurelle

Base demodèles

Base descénarios

Commande-Interface-Pilotage de chaîne-SMA

Introduction (1) Partie 1 :

Système de RDF statistico structurel & l’interface XML avec le SI

Partie 2 : Base de modèles commune au système de RDF

Page 20: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

Introduction (2)

Près-TI

EMstructurel

EMstatistique

Chaîne de TI et EM Chaîne RDF

Classifieursstructurels

Classifieursstatistiques

Reconstruction de modèles

Optimisation Fusion de

données

Page 21: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

Introduction (3) Thématique une (T1) : Reconnaissance

statistico-structurelle de symboles Thématique deux (T2) : Bibliothèque de

traitements pour la RDF statistico-structurelle Thématique trois (T3) : Extraction de modèle

structurel à base d’objets complexes

Page 22: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

T1 : Reconnaissance statistico-structurelle de symboles (1) Stage de DEA Travaux de thèse Deux articles

SSPR (accepté) CIFED (en cours de soumission)

Collaborations Travaux de thèse de S.Adam et P.Héroux Projet étudiants (Maîtrise EEA) Stage de DEA (Stéphane Nicolas)

Page 23: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

T1 : Reconnaissance statistico-structurelle de symboles (2)

Page 24: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

T1 : Reconnaissance statistico-structurelle de symboles (3) Perspectives (court terme)

Page 25: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

T2 : Bibliothèque de traitements pour la RDF statistico-structurelle (1) Travaux de thèse Collaborations

Projets étudiants (DESS GIE)

Page 26: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

T2 : Bibliothèque de traitements pour la RDF statistico-structurelle (2) Regroupement d’outils du laboratoire PSI

Bibliothèque d’outils de traitement d’images PSI Image Processing Library (psi.ipl)

Bibliothèque d’outils pour la classification PSI Classification Tool Library (psi.ctl)

Bibliothèque d’interfaces dédiées au document PSI Document Interface Library (psi.dil)

Page 27: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

T2 : Bibliothèque de traitements pour la RDF statistico-structurelle (3) Quelques caractéristiques :

Écrite et interfaçable en Java/C-C++ Mécanisme des librairies dynamiques Portable Windows/Linux Documentée à la JavaDoc Flot XML et dérivé (SVG,XGMML) JAI, LibTIFF, STL

Page 28: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

T2 : Bibliothèque de traitements pour la RDF statistico-structurelle (4) Perspectives (moyen terme)

Réflexion conjointe sur les modèles en terme de: Traitements Scénarios Représentation des formes

Comparaison avec les bibliothèques existantes sur Internet

Page 29: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

T3 : Extraction de modèle structurel à base d’objets complexes (1) Stage de DEA et Travaux de thèse Collaborations

Travaux de DEA de A.Lassaulzais & S.Adam Projets étudiants (Maîtrise EEA et IUP2) Voyage GDR-ISIS La Rochelle Collaborations futures

Xavier Hilaire « ISA » (vectorisation robuste stable et précise) Philippe Dosh « ISA » (signatures vectorielles)

Page 30: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

T3 : Extraction de modèle structurel à base d’objets complexes (2)

Page 31: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

T3 : Extraction de modèle structurel à base d’objets complexes (3)

Problèmes de complexité, solutions envisagées : Pas de ‘tout structurel’ (applications simples, exploitation

l’approche structurelle en émission-validation d’hypothèses) Exploitation de primitives complexes (arcs, courbes, patterns)

isomorphisme à base d’objets complexes Contrôle du modèle = Restriction du graphe à un modèle

exploitable Problèmes de sensibilité aux bruits, solutions

envisagées : isomorphisme inexact, tolérance dans l’appariement

Page 32: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

T3 : Extraction de modèle structurel à base d’objets complexes (4)

Perspectives (court terme) Méthodes de réduction unitaire

Détection de contours Squelettisation Taconnet, Dibaja, suivi de traits

Primitives Vecteurs : Polygonisation la corde & Merge, Wall & Danielson,

degré intériorité Arc de cercle : Courbes : Approximation par polynômes de Bézier

Détection des nœuds par reconstruction Correction du modèle et calcul d’attributs

Page 33: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

T3 : Extraction de modèle structurel à base d’objets complexes (5) Perspectives (court terme)

Tolérance dans l’appariement de graphe Isomorphisme de sous-graphes Isomorphisme à base d’objets complexes

Page 34: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

SommaireSommaire

Introduction

Présentation du sujet

Présentation des travaux

Conclusions & Perspectives

Page 35: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Conclusions et PerspectivesConclusions et Perspectives

Conclusions (1) Intérêt de l’approche statisitico-structurelle

Pour les cas connectés

Intérêt d’XML dans un système d’interprétation de documents Manipulation de données Manipulation des

modèles de représentation

Page 36: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Conclusions et PerspectivesConclusions et Perspectives

Conclusions (2) Limite de l’approche structurelle

Extraction de primitives complexes Pas de ‘tout structurel’

Page 37: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Conclusions et PerspectivesConclusions et Perspectives

Perspectives (1) Court terme

Finalisation de la chaîne structurelle (EM et classifieur) afin d’obtenir un système de RDF statistico-structurel ‘suffisant’

Exploitation depuis un SI Moyen terme

Réflexion sur les modèles, constitution d’une bases de modèles de représentation et de scénarios commune au système

Page 38: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Conclusions et PerspectivesConclusions et Perspectives

Perspectives (2) Long terme

Extension du système de RDF (TI, EM, Classifieurs) Exploitation depuis un SMA et confrontation avec un

système de pilotage ‘classique

Page 39: Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche statistico-structurelle pour linterprétation de documents techniques Delalandre

Journée Doctorant PSI le 04/06/2002

Conclusions et PerspectivesConclusions et Perspectives

Merci de votre attention Sites de thèse

http://mathieu.delalandre.free.fr/ http://site.voila.fr/roxml/