Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Indices textuels et connaissances de domaine :apport du TAL à l'ICT
Adeline Nazarenko, Nouha Omrane et Sylvie Szulman
Laboratoire Informatique de Paris Nord - LIPN
Université Paris 13 & CNRS
TAL & IA-2012
12-mars-2012
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Plan
1 TAL & IA : Le verrou de l'acquisition des connaissances
2 Les indices textuels pour la construction d'une ontologie
3 Du texte au modèle des connaissances : le grand écart
4 Bilan
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Ingénierie des connaissances textuelles
Acquérir des connaissances à partir des textes
Exploiter des connaissances pour mieux explorer le textes
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 2/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Le verrou de l'acquisition
Intelligence arti�cielle (IA) : construire des systèmesintelligents i.e. à base de connaissances
Enjeux :
D'où viennent les connaissances ?
Comment peut-on les acquérir ?
Rôle du TAL pour l'IA : alimenter les bases des connaissances
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 3/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Construction d'une ontologie à partir de textes
Web [SWGM05]
Ontologie générique [DHL03]
Corpus spécialisé
TIA [Cim06]
Ontologie de domaine
[AGDS08, SAG+09]
DomaineApplication
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 4/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Pourquoi le texte ?Indices textuels
Motivation (1)
L'expertise humaine est di�cile à exploiter :
verbaliser ses connaissances est di�cile pour un expert
l'expert est parfois inconscient des connaissances qu'il utilise
Les textes comme des sources d'informations précieuses :
intégrés dans des systèmes d'information (GED ⊂ SI)
porteurs des connaissances stabilisées et partagées dans unecommunauté
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 5/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Pourquoi le texte ?Indices textuels
Motivation (2)
Partir des textes permet en outre d'acquérir la terminologie dudomaine et de construire une ontologie lexicalisée qui va êtreutile pour toutes les applications d'accès au contenu textuel :
l'annotation des documents
la recherche d'information, etc
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 6/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Pourquoi le texte ?Indices textuels
Un cas d'usage
Projet ONTORULE : construire des systèmes d'aide à ladécision et les bases de règles métiers correspondantes
Rôle des ontologies : le vocabulaire conceptuel à utiliser pourformuler les règles métiers
Corpus d'American Airlines : décrit les règles et conditionsd'attribution de � miles � pour des voyageurs
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 7/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Pourquoi le texte ?Indices textuels
Quoi dans le texte ?
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 8/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Pourquoi le texte ?Indices textuels
Unités terminologiques
Dé�nition
Un terme est une unité syntaxique qui peut être composée d'un ouplusieurs mots. Le terme re�ète un sens stable reconnu dans unecommunauté.
Les outils de TAL extraient à partir d'un corpus d'acquisitionune liste de � termes candidats �
Le repérage des termes dans le texte permet d'identi�er levocabulaire conceptuel : AAdvantage member, miles
On s'appuie sur les termes pour construire des concepts dudomaine
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 9/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Pourquoi le texte ?Indices textuels
Entités nommées
Dé�nition
Les entités nommées sont des noms propres (de personnes, lieux,organisations, etc.) et plus largement des expressions (temporellesou autres) désignant de manière univoque une entité référentielle(valeur sémantique référentielle et stable).
Les outils de REN permettent d'extraire des entités nomméeset de leur associer des types sémantiques :
American Airlines : Organization
February 28 : Date
Les entités nommées servent au peuplementd'ontologies [BCM05], [Cim06]
Elles peuvent être exploitées pour la constructiond'ontologies [ONS11]
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 10/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Pourquoi le texte ?Indices textuels
Relations terminologiques
Types de relations :
les relations lexicales sont indépendantes du domaine :hyperonymie, synonymie (AAdvantage Gold is equivalent tooneworld Ruby), méronymie
les relations syntaxiques sont relatives à la structure interne duterme ou de la phrase
les relations spécialisées dépendent du domaine : Mileage canonly be accumulated one time per �ight
La détection des relations terminologiques sert à établir desrelations entre les concepts
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 11/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Pourquoi le texte ?Indices textuels
Classes sémantiques
Dé�nition
Les classes sémantiques sont des regroupements de mots qui sontsémantiquement proches.
Les approches distributionnelles permettent de regrouper lesmots en fonction de leurs contextes (phrase, fenêtre de mots)
Les groupes de mots formés sont considérés comme desconcepts :
Lan Express
Japan Airlines
British AirlinesAmerican Airlines
Horizon Air
Quantas Airways
AAdvantage participant
American Airlines
AAdvantage participant
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 12/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Pourquoi le texte ?Indices textuels
Motifs linguistiques
Les motifs linguistiques sont des con�gurations d'indicestextuels souvent lexicaux et syntaxiques
Les patrons sont construits manuellement ou par apprentissageà partir du texte
Ils sont caractéristiques d'un certain type d'objets textuels(terme, entité nommée, etc) et sont utilisés pour leuridenti�cation dans le texte
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 13/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Pourquoi le texte ?Indices textuels
Synthèse
Repérage des indices textuels :
Méthodes directes : guidées par le but, à base de patronslinguistiques
Méthodes indirectes : guidées par les données, à based'induction, de distribution
Tous les niveaux d'analyse linguistique sont pris en compte :typographie [NA07], morphologie, syntaxe, sémantique, structuretextuelle, etc.
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 14/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Pourquoi le texte ?Indices textuels
Limites du TAL pour l'ICT
La qualité des résultats des outils de TAL laisse à désirer
Passer du niveau texte au concept est une questionintrinsèquement di�cile
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 15/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Bruit
Les indices extraits ne sont pas tous pertinents pour lamodélisation : les outils de TAL produisent des résultats bruités
Corpus #mots #Termes candidats #Termes validés
AAdvantage 5 744 973 634
Il faut qu'un ingénieur de la connaissance �ltre et valide cesrésultats
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 16/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Ambiguité
Les éléments extraits peuvent être ambigusAAdvantage member décrit deux sens pertinents pour le domaine :
un voyageur adhérant au programme de �délité : Elite member
une compagnie aérienne participant dans ce programme :AAdvantage participant
Il faut désambiguïser les termes extraits en s'appuyant sur leurscontextes
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 17/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Silence
Certaines connaissances sont implicites dans le texte :
des connaissances de sens commun : JFK est un aéroport, toutvol est relié à un point de départ et d'arrivée
travail d'explicitation : itinerary est synonyme de segment
Le corpus d'acquisition ne re�ète que partiellement le domaine àmodéliser et il faut apporter une expertise complémentaire
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 18/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Neutralité du texte
Le texte est neutre par rapport aux grandes distinctionsontologiques [Gua09] :
concept et instance : American airlines
concept et relation : member, member-of
L'ingénieur de la connaissance doit faire des choix demodélisation [BIT02], [Gua09] : véri�cation de la structure desontologies, di�érenciation du père des �ls et les �ls entre eux,dé�nition des concepts en langage naturel, etc.
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 19/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Textuel vs Conceptuel
Une ontologie de domaine ne peut pas être dérivéeautomatiquement du texte : le modèle est une constructionLe modèle linguistique constitue généralement une étapeintermédiaire [AGDS08, SCAG+09]
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 20/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Ce qui est déjà fait
Le TAL a rendu disponible des outils et des plateformes quisont faciles à utiliser
L'ingénierie des connaissances a développé des méthodes deconstruction d'ontologies à partir de textes en mettant l'accentsur :
l'existence d'un modèle linguistique intermédiaire
le rôle de l'ingénieur de la connaissance
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 21/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Que reste-il à faire ?
Ingénierie des connaissances :
A�ner les méthodes de construction d'ontologies
Développer des métriques pour mesurer la progression dutravail de conceptualisation et évaluer le résultat
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 22/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Que reste-il à faire ?
Traitement automatique de la langue :
Injecter des connaissances en amont pour guider l'analyse dutexte
Développer une méthode de TAL qui produise des résultatsintégrés (6= résultats hétérogènes, disparates et peu reliés)
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 23/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Merci pour votre attention
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 24/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
[AGDS08] Nathalie Aussenac-Gilles, Sylvie Després, and SylvieSzulman. The terminae method and platform forontology engineering from texts. In Paul Buitelaar andPhilipp Cimiano, editors, Bridging the Gap between
Text and Knowledge - Selected Contributions to
Ontology Learning and Population from Text, pages199�223. IOS Press, janvier 2008.
[BCM05] Paul Buitelaar, Philipp Cimiano, and BernardoMagnini, editors. Ontology Design and Population.IOS Press, 2005.
[BIT02] Bruno Bachimont, Antoine Isaac, and Raphael Troncy.Semantic commitment for designing ontologies : Aproposal. In Knowledge Engineering and Knowledge
Management. Ontologies and the Semantic Web, 13th
International Conference EKAW 2002� October 1-4,
2002, Proceedings of (EKAW'02), volume 2473 ofA.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 24/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
Lecture Notes in Computer Science, pages 114�121,Siguenza, Spain, October 2002. Springer.
[Cim06] Philipp Cimiano. Ontology Learning and Population
from Text : Algorithms, Evaluation and Applications.Springer-Verlag New York, Inc., Secaucus, NJ, USA,2006.
[Gua09] Nicola Guarino. Conceptual modeling : Foundationsand applications. chapter The Ontological Level :Revisiting 30 Years of Knowledge Representation,pages 52�67. Springer-Verlag, Berlin, Heidelberg, 2009.
[NA07] Adeline Nazarenko and Touria Aït El Mekki. Buildingback-of-the-book indexes. In Fidelia Ibekwe-SanJuan,Anne Condamines, and M. Teresa Cabré Castellvi,editors, Application-Driven Terminology Engineering,,pages 179�202. John Benjamins Publishing Company,Amsterdam, 2007.
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 24/24
TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart
BilanRéférences
[ONS11] Nouha Omrane, Adeline Nazarenko, and SylvieSzulman. From Linguistics to Ontologies The Role ofNamed Entities in the Conceptualisation Process. InProceedings of the International Conference on
Knowledge Engineering and Ontology Development,pages 249�254, Paris, France, October 2011.
[SCAG+09] Sylvie Szulman, Jean Charlet, Nathalie Aussenac-Gilles,Adeline Nazarenko, Eric Sardet, and H.V. Teguiak.Dafoe : an ontology building platform from text orthesauri. In International Conference on Knowledge
Engineering and Ontology Development (KEOD 2009),pages 1�4, Madeira, Portugal, October 2009.
A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 24/24