21
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy

Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy

Embed Size (px)

Citation preview

Page 1: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy

Algèbre de composants : une approche fonctionnelle à la

sémantique de documents

Bart Lamiroy

LORIA/INPL

QGar - École des Mines de Nancy

Page 2: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy

Notre approche

• Présentation de recherche prospective• Aborder la notion de sémantique d’un

document (à des fins de manipulation de documents par leur contenu)

• Réinvestissment de l’existant et aller vers la généricité

• Rester pragmatique

Page 3: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy

Plan

• Situation du contexte de travail• Exemple : Scan2XML• Définition de la notion « Algèbre de

composants »• Pistes et outils pour la formalisation de la

sémantique et sa manipulation

Page 4: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy

Analyse de documents : buts

• Rétroconversion• Interprétation• Recherche d’information• Aide à la navigation/consultation

Appuyé sur des méthodes d'analyse du signal et des structures visuelles

Page 5: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy

Formes de document

• Avant : origine papier, format bitmap• Maintenant :

− bitmap− électronique, mais pauvrement structuré

• Documents électroniques complètement structurés

− lourdeur à la saisie− extrêmement lié au contexte de création

Page 6: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy

Contenu de documents

Propriété principale : produit par des humains pour des humains

Texte Graphique

Analyse linguistique

Sémantique

• Reconnaissance de formes• Matching• Indexation

?

?

Page 7: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy

Conclusion

• Texte− beaucoup de progrès (rétroconversion)− hors domaine QGar− frein linguistique

• Graphique− ad hoc− performant dans des cas particuliers− sémantique « figée » au contexte

Objectifs : Exploiter le contenu sémantique des parties graphiques et établir des liens entre le texte et le graphique

Page 8: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy

Scan2XML : cas d’étude

• Images de type « éclaté »• Démarche

− identifier 3 types de zones :dessin - légende - index

− associer les zones se correspondant− rendre le document navigable

• In fine : navigation intra- et inter-document

Page 9: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy

Exemple

Page 10: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy

Scan2XML : suite

Extraction de sémantique à plusieurs niveaux :

• notion de zone (connecté, déconnecté)• type de zone (dessin, texte, légende, index

…)• lien (association entre zones)• sens (analyse de la légende, du graphique)

Page 11: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy

Scan2XML : analyse

• Preuve de faisabilité (démo)• Composition de briques existantes• Mise en pipeline

Généralisation à la majorité des applications d'analyse de documents (toutes ?)

Page 12: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy

Algèbre de composants

Préambule :− syntaxe + métrique + contexte =

sémantique− C

métr, ctxt(syntaxe) = sémantique

− Pipeline :C

1(C

2(...C

n(syntaxe)))) = sémantique

syntaxe = sémantique !

Page 13: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy

Algèbre de composants

• Domaine = données initiales + données produites

• Opérateurs = composants élémentaires (implémentations d'algorithmes)

• Sémantique = « preuve » par combinaison d'opérateurs

• Contexte ? Enfoui dans le composant et dans le pipeline.

Page 14: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy

Formalisation : définitions

• Composant : C : D D'

s |C (s)

• Contexte applicatif : ensemble K de tous les C disponibles

• Sémantique : D' = D1'D

2'D

n'

• Sémantique intrinsèque d'un document I est la fermeture de I sur K.

Page 15: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy

Sémantique intrinsèque

• Contraintes :− ordre d'application des composants− disponibilité des données

• Structure hiérarchisée en forme de semi-treillis (origine = document)

− noeuds = sémantique− chemins = contexte

(plusieurs chemins peuvent mener au même noeud)

Page 16: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy

Récapitulatif

• Sémantique bornée par les composants• Géométrie variable (modularité,

extensible, ...)• Structuration hierarchique avec expression

des interdépendances (héritage ?)• Pragmatique, puisque construit sur des

composants opérationnels

Page 17: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy

Avantages

• Expression des interdépendances (automatisable)

• Extraction partielle du contexte• Support de raisonnement

− inférence− prédiction/vérification− validation

Page 18: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy

Besoins

• Composants

www.qgar.org• Langage d'expression des chaînes de

composants (liant entre composants)

Scripting ?• Représentation des documents et des

résultats produits

SVG++ ?

Page 19: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy

Applications possibles :

• Inférence de connaissances pour l'aide à la navigation ou la recherche d'information

• Combinaison text/graphique• Evaluation de fiabilité par combinaison de

chaînes de composants• Articulation/intégration web sémantique et

outils formels de raisonnement

Page 20: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy

Défis

• Les paramètres : données ou contexte ?• Evaluation de la validité du contexte• Pertinence des données• ...

Page 21: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy

Questions ?