Upload
adnot-braun
View
104
Download
0
Embed Size (px)
Citation preview
le 04/06/2002Journée Doctorant PSI
Reconstruction d’objets en XML Reconstruction d’objets en XML par approche statistico-structurellepar approche statistico-structurelle
pour l’interprétation pour l’interprétation de documents techniquesde documents techniques
Delalandre Mathieu
Journée Doctorant PSI le 04/06/2002
SommaireSommaire
Introduction
Présentation du sujet
Présentation des travaux
Conclusions & Perspectives
Journée Doctorant PSI le 04/06/2002
SommaireSommaire
Introduction
Présentation du sujet
Présentation des travaux
Conclusions & Perspectives
Journée Doctorant PSI le 04/06/2002
IntroductionIntroduction
Avancement Première année de thèse dans la continuité du
stage de DEA Directeurs de thèse
Eric Trupin (PSI université Rouen) Jacques Labiche (PSI université Rouen) Jean-Marc Ogier (L3I université La Rochelle)
Journée Doctorant PSI le 04/06/2002
IntroductionIntroduction
Collaboration doctorant et maîtres de conférence Pierre Héroux, Sébastien Adam, Youssouf Saidali
Contexte industriel projet Doc-Mining (RNTL) FT R&D Lannion Laboratoire L3I La Rochelle Département informatique de l’université de Friboug Équipe ISA de l’INRIA Lorraine
Sites de thèse http://mathieu.delalandre.free.fr/ http://site.voila.fr/roxml/
Journée Doctorant PSI le 04/06/2002
SommaireSommaire
Introduction
Présentation du sujet
Présentation des travaux
Conclusion & Perspectives
Journée Doctorant PSI le 04/06/2002
Présentation du sujetPrésentation du sujet
Système d’Interprétation « SI » (1)
Système d’interprétation
‘adaptable’de documents
techniques
Reconstruction des résultats de la
reconnaissance
Documents non-structurés (images) et semi-structurés (PDF, DXF, PS)
Journée Doctorant PSI le 04/06/2002
Présentation du sujetPrésentation du sujet
SI (2)
Chaîne de Reconnaissance
De Formes « RDF »statistico
structurelle
Base demodèles
Base descénarios
Commande-Interface-Pilotage de chaîne-SMA
Journée Doctorant PSI le 04/06/2002
Présentation du sujetPrésentation du sujet
Approche statistico-structurelle (1)
moyenAngle
eiance_angl
ortioniance_prop
etotal_angl
_
var
var
Modèle de type structurelModèle de type statistique
Primitivesvectorielles
Rapportsangulaires
Rapports : connexion, distance,
etc…
Primitives :arc,courbe,
pattern
Journée Doctorant PSI le 04/06/2002
Présentation du sujetPrésentation du sujet
Approche statistico-structurelle (2) Approche statistique
Plus robuste aux bruits, meilleurs résultats de reconnaissance
‘Plus facile’ de mise en oeuvre Inapplicable dans les cas connectés
Approche structurelle Seule approche pour détecter les
objets composites, ou connectés Sensible aux bruits Approche NP complexe
Journée Doctorant PSI le 04/06/2002
Présentation du sujetPrésentation du sujet
Approche statistico-structurelle (3)
Près-Traitementde l’Image
(TI) Extractionde Modèle
(EM)structurel
Extractionde Modèle
(EM)statistique
Chaîne de TI et EM Chaîne RDF
Classifieursstructurels
Classifieursstatistiques
Reconstruction de modèles
Optimisation Fusion de
données
Journée Doctorant PSI le 04/06/2002
Présentation du sujetPrésentation du sujet
XML (1) Présentation XML
eXtensible Markup Language Norme du W3C Langage de description de données
Documents électroniques (statiques et dynamiques) Flots de données (Communications entre applications, BDD)
Journée Doctorant PSI le 04/06/2002
Présentation du sujetPrésentation du sujet
XML (2) Présentation XML
Document
CSS :Style
XML :Données
DTD :Structure & types de données
DocumentHTML :DonnéesStyle
Journée Doctorant PSI le 04/06/2002
Présentation du sujetPrésentation du sujet
XML (3) Présentation XML
Meta-langage : SVG Vecteurs XGMML Graphes MathML Mathématiques DAML-OIL Ontologies
Langages de traitement Langage de requêtes XML-QL Langage transformation de données XSLT
Journée Doctorant PSI le 04/06/2002
Présentation du sujetPrésentation du sujet
XML (4) XML en interprétation de documents
C’est un outil informatique, il apporte :1. Conversion de formats
Interne au système : Interfaçage entre outils Externe au système : ‘Export’ tous formats (format pivot)
2. Permet de structurer et de représenter les résultats de la reconnaissance (XML & DTD, SVG)
3. Contrôle des modèles de représentation des formes (XSLT) Sélection de primitives Choix de modélisation du graphe
Journée Doctorant PSI le 04/06/2002
Présentation du sujetPrésentation du sujet
Conclusions (1) Les approches statistique et structurelle sont
nécessaires et complémentaires pour l’interprétation de documents techniques dans les cas connectés
Journée Doctorant PSI le 04/06/2002
Présentation du sujetPrésentation du sujet
Conclusions (2) Pourquoi XML : Système de RDF = Première brique
d’un SI, il faut prendre en compte son exploitation dans le SI, XML s’impose :
1. Représentation des résultats de la reconnaissance (DTD et SVG)
2. Contrôle des modèles (XSLT) La qualité de la RDF est fonction
de l’efficacité de l’étape d’extraction de modèles, de l’efficacité de l’étape de classification, de la qualité du modèle de représentation pour une forme donnée dans
un contexte donnée
Journée Doctorant PSI le 04/06/2002
SommaireSommaire
Introduction
Présentation du sujet
Présentation des travaux
Conclusions & Perspectives
Journée Doctorant PSI le 04/06/2002
Présentation des travauxPrésentation des travaux
Chaîne de RDF
statisticostructurelle
Base demodèles
Base descénarios
Commande-Interface-Pilotage de chaîne-SMA
Introduction (1) Partie 1 :
Système de RDF statistico structurel & l’interface XML avec le SI
Partie 2 : Base de modèles commune au système de RDF
Journée Doctorant PSI le 04/06/2002
Présentation des travauxPrésentation des travaux
Introduction (2)
Près-TI
EMstructurel
EMstatistique
Chaîne de TI et EM Chaîne RDF
Classifieursstructurels
Classifieursstatistiques
Reconstruction de modèles
Optimisation Fusion de
données
Journée Doctorant PSI le 04/06/2002
Présentation des travauxPrésentation des travaux
Introduction (3) Thématique une (T1) : Reconnaissance
statistico-structurelle de symboles Thématique deux (T2) : Bibliothèque de
traitements pour la RDF statistico-structurelle Thématique trois (T3) : Extraction de modèle
structurel à base d’objets complexes
Journée Doctorant PSI le 04/06/2002
Présentation des travauxPrésentation des travaux
T1 : Reconnaissance statistico-structurelle de symboles (1) Stage de DEA Travaux de thèse Deux articles
SSPR (accepté) CIFED (en cours de soumission)
Collaborations Travaux de thèse de S.Adam et P.Héroux Projet étudiants (Maîtrise EEA) Stage de DEA (Stéphane Nicolas)
Journée Doctorant PSI le 04/06/2002
Présentation des travauxPrésentation des travaux
T1 : Reconnaissance statistico-structurelle de symboles (2)
Journée Doctorant PSI le 04/06/2002
Présentation des travauxPrésentation des travaux
T1 : Reconnaissance statistico-structurelle de symboles (3) Perspectives (court terme)
Journée Doctorant PSI le 04/06/2002
Présentation des travauxPrésentation des travaux
T2 : Bibliothèque de traitements pour la RDF statistico-structurelle (1) Travaux de thèse Collaborations
Projets étudiants (DESS GIE)
Journée Doctorant PSI le 04/06/2002
Présentation des travauxPrésentation des travaux
T2 : Bibliothèque de traitements pour la RDF statistico-structurelle (2) Regroupement d’outils du laboratoire PSI
Bibliothèque d’outils de traitement d’images PSI Image Processing Library (psi.ipl)
Bibliothèque d’outils pour la classification PSI Classification Tool Library (psi.ctl)
Bibliothèque d’interfaces dédiées au document PSI Document Interface Library (psi.dil)
Journée Doctorant PSI le 04/06/2002
Présentation des travauxPrésentation des travaux
T2 : Bibliothèque de traitements pour la RDF statistico-structurelle (3) Quelques caractéristiques :
Écrite et interfaçable en Java/C-C++ Mécanisme des librairies dynamiques Portable Windows/Linux Documentée à la JavaDoc Flot XML et dérivé (SVG,XGMML) JAI, LibTIFF, STL
Journée Doctorant PSI le 04/06/2002
Présentation des travauxPrésentation des travaux
T2 : Bibliothèque de traitements pour la RDF statistico-structurelle (4) Perspectives (moyen terme)
Réflexion conjointe sur les modèles en terme de: Traitements Scénarios Représentation des formes
Comparaison avec les bibliothèques existantes sur Internet
Journée Doctorant PSI le 04/06/2002
Présentation des travauxPrésentation des travaux
T3 : Extraction de modèle structurel à base d’objets complexes (1) Stage de DEA et Travaux de thèse Collaborations
Travaux de DEA de A.Lassaulzais & S.Adam Projets étudiants (Maîtrise EEA et IUP2) Voyage GDR-ISIS La Rochelle Collaborations futures
Xavier Hilaire « ISA » (vectorisation robuste stable et précise) Philippe Dosh « ISA » (signatures vectorielles)
Journée Doctorant PSI le 04/06/2002
Présentation des travauxPrésentation des travaux
T3 : Extraction de modèle structurel à base d’objets complexes (2)
Journée Doctorant PSI le 04/06/2002
Présentation du sujetPrésentation du sujet
T3 : Extraction de modèle structurel à base d’objets complexes (3)
Problèmes de complexité, solutions envisagées : Pas de ‘tout structurel’ (applications simples, exploitation
l’approche structurelle en émission-validation d’hypothèses) Exploitation de primitives complexes (arcs, courbes, patterns)
isomorphisme à base d’objets complexes Contrôle du modèle = Restriction du graphe à un modèle
exploitable Problèmes de sensibilité aux bruits, solutions
envisagées : isomorphisme inexact, tolérance dans l’appariement
Journée Doctorant PSI le 04/06/2002
Présentation des travauxPrésentation des travaux
T3 : Extraction de modèle structurel à base d’objets complexes (4)
Perspectives (court terme) Méthodes de réduction unitaire
Détection de contours Squelettisation Taconnet, Dibaja, suivi de traits
Primitives Vecteurs : Polygonisation la corde & Merge, Wall & Danielson,
degré intériorité Arc de cercle : Courbes : Approximation par polynômes de Bézier
Détection des nœuds par reconstruction Correction du modèle et calcul d’attributs
Journée Doctorant PSI le 04/06/2002
Présentation des travauxPrésentation des travaux
T3 : Extraction de modèle structurel à base d’objets complexes (5) Perspectives (court terme)
Tolérance dans l’appariement de graphe Isomorphisme de sous-graphes Isomorphisme à base d’objets complexes
Journée Doctorant PSI le 04/06/2002
SommaireSommaire
Introduction
Présentation du sujet
Présentation des travaux
Conclusions & Perspectives
Journée Doctorant PSI le 04/06/2002
Conclusions et PerspectivesConclusions et Perspectives
Conclusions (1) Intérêt de l’approche statisitico-structurelle
Pour les cas connectés
Intérêt d’XML dans un système d’interprétation de documents Manipulation de données Manipulation des
modèles de représentation
Journée Doctorant PSI le 04/06/2002
Conclusions et PerspectivesConclusions et Perspectives
Conclusions (2) Limite de l’approche structurelle
Extraction de primitives complexes Pas de ‘tout structurel’
Journée Doctorant PSI le 04/06/2002
Conclusions et PerspectivesConclusions et Perspectives
Perspectives (1) Court terme
Finalisation de la chaîne structurelle (EM et classifieur) afin d’obtenir un système de RDF statistico-structurel ‘suffisant’
Exploitation depuis un SI Moyen terme
Réflexion sur les modèles, constitution d’une bases de modèles de représentation et de scénarios commune au système
Journée Doctorant PSI le 04/06/2002
Conclusions et PerspectivesConclusions et Perspectives
Perspectives (2) Long terme
Extension du système de RDF (TI, EM, Classifieurs) Exploitation depuis un SMA et confrontation avec un
système de pilotage ‘classique
Journée Doctorant PSI le 04/06/2002
Conclusions et PerspectivesConclusions et Perspectives
Merci de votre attention Sites de thèse
http://mathieu.delalandre.free.fr/ http://site.voila.fr/roxml/