Journée Doctorant PSI le 04/06/2002 Reconstruction dobjets en XML par approche...

Preview:

Citation preview

le 04/06/2002Journée Doctorant PSI

Reconstruction d’objets en XML Reconstruction d’objets en XML par approche statistico-structurellepar approche statistico-structurelle

pour l’interprétation pour l’interprétation de documents techniquesde documents techniques

Delalandre Mathieu

Journée Doctorant PSI le 04/06/2002

SommaireSommaire

Introduction

Présentation du sujet

Présentation des travaux

Conclusions & Perspectives

Journée Doctorant PSI le 04/06/2002

SommaireSommaire

Introduction

Présentation du sujet

Présentation des travaux

Conclusions & Perspectives

Journée Doctorant PSI le 04/06/2002

IntroductionIntroduction

Avancement Première année de thèse dans la continuité du

stage de DEA Directeurs de thèse

Eric Trupin (PSI université Rouen) Jacques Labiche (PSI université Rouen) Jean-Marc Ogier (L3I université La Rochelle)

Journée Doctorant PSI le 04/06/2002

IntroductionIntroduction

Collaboration doctorant et maîtres de conférence Pierre Héroux, Sébastien Adam, Youssouf Saidali

Contexte industriel projet Doc-Mining (RNTL) FT R&D Lannion Laboratoire L3I La Rochelle Département informatique de l’université de Friboug Équipe ISA de l’INRIA Lorraine

Sites de thèse http://mathieu.delalandre.free.fr/ http://site.voila.fr/roxml/

Journée Doctorant PSI le 04/06/2002

SommaireSommaire

Introduction

Présentation du sujet

Présentation des travaux

Conclusion & Perspectives

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

Système d’Interprétation « SI » (1)

Système d’interprétation

‘adaptable’de documents

techniques

Reconstruction des résultats de la

reconnaissance

Documents non-structurés (images) et semi-structurés (PDF, DXF, PS)

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

SI (2)

Chaîne de Reconnaissance

De Formes « RDF »statistico

structurelle

Base demodèles

Base descénarios

Commande-Interface-Pilotage de chaîne-SMA

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

Approche statistico-structurelle (1)

moyenAngle

eiance_angl

ortioniance_prop

etotal_angl

_

var

var

Modèle de type structurelModèle de type statistique

Primitivesvectorielles

Rapportsangulaires

Rapports : connexion, distance,

etc…

Primitives :arc,courbe,

pattern

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

Approche statistico-structurelle (2) Approche statistique

Plus robuste aux bruits, meilleurs résultats de reconnaissance

‘Plus facile’ de mise en oeuvre Inapplicable dans les cas connectés

Approche structurelle Seule approche pour détecter les

objets composites, ou connectés Sensible aux bruits Approche NP complexe

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

Approche statistico-structurelle (3)

Près-Traitementde l’Image

(TI) Extractionde Modèle

(EM)structurel

Extractionde Modèle

(EM)statistique

Chaîne de TI et EM Chaîne RDF

Classifieursstructurels

Classifieursstatistiques

Reconstruction de modèles

Optimisation Fusion de

données

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

XML (1) Présentation XML

eXtensible Markup Language Norme du W3C Langage de description de données

Documents électroniques (statiques et dynamiques) Flots de données (Communications entre applications, BDD)

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

XML (2) Présentation XML

Document

CSS :Style

XML :Données

DTD :Structure & types de données

DocumentHTML :DonnéesStyle

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

XML (3) Présentation XML

Meta-langage : SVG Vecteurs XGMML Graphes MathML Mathématiques DAML-OIL Ontologies

Langages de traitement Langage de requêtes XML-QL Langage transformation de données XSLT

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

XML (4) XML en interprétation de documents

C’est un outil informatique, il apporte :1. Conversion de formats

Interne au système : Interfaçage entre outils Externe au système : ‘Export’ tous formats (format pivot)

2. Permet de structurer et de représenter les résultats de la reconnaissance (XML & DTD, SVG)

3. Contrôle des modèles de représentation des formes (XSLT) Sélection de primitives Choix de modélisation du graphe

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

Conclusions (1) Les approches statistique et structurelle sont

nécessaires et complémentaires pour l’interprétation de documents techniques dans les cas connectés

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

Conclusions (2) Pourquoi XML : Système de RDF = Première brique

d’un SI, il faut prendre en compte son exploitation dans le SI, XML s’impose :

1. Représentation des résultats de la reconnaissance (DTD et SVG)

2. Contrôle des modèles (XSLT) La qualité de la RDF est fonction

de l’efficacité de l’étape d’extraction de modèles, de l’efficacité de l’étape de classification, de la qualité du modèle de représentation pour une forme donnée dans

un contexte donnée

Journée Doctorant PSI le 04/06/2002

SommaireSommaire

Introduction

Présentation du sujet

Présentation des travaux

Conclusions & Perspectives

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

Chaîne de RDF

statisticostructurelle

Base demodèles

Base descénarios

Commande-Interface-Pilotage de chaîne-SMA

Introduction (1) Partie 1 :

Système de RDF statistico structurel & l’interface XML avec le SI

Partie 2 : Base de modèles commune au système de RDF

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

Introduction (2)

Près-TI

EMstructurel

EMstatistique

Chaîne de TI et EM Chaîne RDF

Classifieursstructurels

Classifieursstatistiques

Reconstruction de modèles

Optimisation Fusion de

données

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

Introduction (3) Thématique une (T1) : Reconnaissance

statistico-structurelle de symboles Thématique deux (T2) : Bibliothèque de

traitements pour la RDF statistico-structurelle Thématique trois (T3) : Extraction de modèle

structurel à base d’objets complexes

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

T1 : Reconnaissance statistico-structurelle de symboles (1) Stage de DEA Travaux de thèse Deux articles

SSPR (accepté) CIFED (en cours de soumission)

Collaborations Travaux de thèse de S.Adam et P.Héroux Projet étudiants (Maîtrise EEA) Stage de DEA (Stéphane Nicolas)

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

T1 : Reconnaissance statistico-structurelle de symboles (2)

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

T1 : Reconnaissance statistico-structurelle de symboles (3) Perspectives (court terme)

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

T2 : Bibliothèque de traitements pour la RDF statistico-structurelle (1) Travaux de thèse Collaborations

Projets étudiants (DESS GIE)

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

T2 : Bibliothèque de traitements pour la RDF statistico-structurelle (2) Regroupement d’outils du laboratoire PSI

Bibliothèque d’outils de traitement d’images PSI Image Processing Library (psi.ipl)

Bibliothèque d’outils pour la classification PSI Classification Tool Library (psi.ctl)

Bibliothèque d’interfaces dédiées au document PSI Document Interface Library (psi.dil)

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

T2 : Bibliothèque de traitements pour la RDF statistico-structurelle (3) Quelques caractéristiques :

Écrite et interfaçable en Java/C-C++ Mécanisme des librairies dynamiques Portable Windows/Linux Documentée à la JavaDoc Flot XML et dérivé (SVG,XGMML) JAI, LibTIFF, STL

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

T2 : Bibliothèque de traitements pour la RDF statistico-structurelle (4) Perspectives (moyen terme)

Réflexion conjointe sur les modèles en terme de: Traitements Scénarios Représentation des formes

Comparaison avec les bibliothèques existantes sur Internet

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

T3 : Extraction de modèle structurel à base d’objets complexes (1) Stage de DEA et Travaux de thèse Collaborations

Travaux de DEA de A.Lassaulzais & S.Adam Projets étudiants (Maîtrise EEA et IUP2) Voyage GDR-ISIS La Rochelle Collaborations futures

Xavier Hilaire « ISA » (vectorisation robuste stable et précise) Philippe Dosh « ISA » (signatures vectorielles)

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

T3 : Extraction de modèle structurel à base d’objets complexes (2)

Journée Doctorant PSI le 04/06/2002

Présentation du sujetPrésentation du sujet

T3 : Extraction de modèle structurel à base d’objets complexes (3)

Problèmes de complexité, solutions envisagées : Pas de ‘tout structurel’ (applications simples, exploitation

l’approche structurelle en émission-validation d’hypothèses) Exploitation de primitives complexes (arcs, courbes, patterns)

isomorphisme à base d’objets complexes Contrôle du modèle = Restriction du graphe à un modèle

exploitable Problèmes de sensibilité aux bruits, solutions

envisagées : isomorphisme inexact, tolérance dans l’appariement

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

T3 : Extraction de modèle structurel à base d’objets complexes (4)

Perspectives (court terme) Méthodes de réduction unitaire

Détection de contours Squelettisation Taconnet, Dibaja, suivi de traits

Primitives Vecteurs : Polygonisation la corde & Merge, Wall & Danielson,

degré intériorité Arc de cercle : Courbes : Approximation par polynômes de Bézier

Détection des nœuds par reconstruction Correction du modèle et calcul d’attributs

Journée Doctorant PSI le 04/06/2002

Présentation des travauxPrésentation des travaux

T3 : Extraction de modèle structurel à base d’objets complexes (5) Perspectives (court terme)

Tolérance dans l’appariement de graphe Isomorphisme de sous-graphes Isomorphisme à base d’objets complexes

Journée Doctorant PSI le 04/06/2002

SommaireSommaire

Introduction

Présentation du sujet

Présentation des travaux

Conclusions & Perspectives

Journée Doctorant PSI le 04/06/2002

Conclusions et PerspectivesConclusions et Perspectives

Conclusions (1) Intérêt de l’approche statisitico-structurelle

Pour les cas connectés

Intérêt d’XML dans un système d’interprétation de documents Manipulation de données Manipulation des

modèles de représentation

Journée Doctorant PSI le 04/06/2002

Conclusions et PerspectivesConclusions et Perspectives

Conclusions (2) Limite de l’approche structurelle

Extraction de primitives complexes Pas de ‘tout structurel’

Journée Doctorant PSI le 04/06/2002

Conclusions et PerspectivesConclusions et Perspectives

Perspectives (1) Court terme

Finalisation de la chaîne structurelle (EM et classifieur) afin d’obtenir un système de RDF statistico-structurel ‘suffisant’

Exploitation depuis un SI Moyen terme

Réflexion sur les modèles, constitution d’une bases de modèles de représentation et de scénarios commune au système

Journée Doctorant PSI le 04/06/2002

Conclusions et PerspectivesConclusions et Perspectives

Perspectives (2) Long terme

Extension du système de RDF (TI, EM, Classifieurs) Exploitation depuis un SMA et confrontation avec un

système de pilotage ‘classique

Journée Doctorant PSI le 04/06/2002

Conclusions et PerspectivesConclusions et Perspectives

Merci de votre attention Sites de thèse

http://mathieu.delalandre.free.fr/ http://site.voila.fr/roxml/

Recommended