28

Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Indices textuels et connaissances de domaine :apport du TAL à l'ICT

Adeline Nazarenko, Nouha Omrane et Sylvie Szulman

Laboratoire Informatique de Paris Nord - LIPN

Université Paris 13 & CNRS

TAL & IA-2012

12-mars-2012

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle

Page 2: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Plan

1 TAL & IA : Le verrou de l'acquisition des connaissances

2 Les indices textuels pour la construction d'une ontologie

3 Du texte au modèle des connaissances : le grand écart

4 Bilan

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle

Page 3: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Ingénierie des connaissances textuelles

Acquérir des connaissances à partir des textes

Exploiter des connaissances pour mieux explorer le textes

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 2/24

Page 4: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Le verrou de l'acquisition

Intelligence arti�cielle (IA) : construire des systèmesintelligents i.e. à base de connaissances

Enjeux :

D'où viennent les connaissances ?

Comment peut-on les acquérir ?

Rôle du TAL pour l'IA : alimenter les bases des connaissances

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 3/24

Page 5: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Construction d'une ontologie à partir de textes

Web [SWGM05]

Ontologie générique [DHL03]

Corpus spécialisé

TIA [Cim06]

Ontologie de domaine

[AGDS08, SAG+09]

DomaineApplication

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 4/24

Page 6: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Pourquoi le texte ?Indices textuels

Motivation (1)

L'expertise humaine est di�cile à exploiter :

verbaliser ses connaissances est di�cile pour un expert

l'expert est parfois inconscient des connaissances qu'il utilise

Les textes comme des sources d'informations précieuses :

intégrés dans des systèmes d'information (GED ⊂ SI)

porteurs des connaissances stabilisées et partagées dans unecommunauté

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 5/24

Page 7: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Pourquoi le texte ?Indices textuels

Motivation (2)

Partir des textes permet en outre d'acquérir la terminologie dudomaine et de construire une ontologie lexicalisée qui va êtreutile pour toutes les applications d'accès au contenu textuel :

l'annotation des documents

la recherche d'information, etc

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 6/24

Page 8: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Pourquoi le texte ?Indices textuels

Un cas d'usage

Projet ONTORULE : construire des systèmes d'aide à ladécision et les bases de règles métiers correspondantes

Rôle des ontologies : le vocabulaire conceptuel à utiliser pourformuler les règles métiers

Corpus d'American Airlines : décrit les règles et conditionsd'attribution de � miles � pour des voyageurs

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 7/24

Page 9: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Pourquoi le texte ?Indices textuels

Quoi dans le texte ?

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 8/24

Page 10: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Pourquoi le texte ?Indices textuels

Unités terminologiques

Dé�nition

Un terme est une unité syntaxique qui peut être composée d'un ouplusieurs mots. Le terme re�ète un sens stable reconnu dans unecommunauté.

Les outils de TAL extraient à partir d'un corpus d'acquisitionune liste de � termes candidats �

Le repérage des termes dans le texte permet d'identi�er levocabulaire conceptuel : AAdvantage member, miles

On s'appuie sur les termes pour construire des concepts dudomaine

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 9/24

Page 11: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Pourquoi le texte ?Indices textuels

Entités nommées

Dé�nition

Les entités nommées sont des noms propres (de personnes, lieux,organisations, etc.) et plus largement des expressions (temporellesou autres) désignant de manière univoque une entité référentielle(valeur sémantique référentielle et stable).

Les outils de REN permettent d'extraire des entités nomméeset de leur associer des types sémantiques :

American Airlines : Organization

February 28 : Date

Les entités nommées servent au peuplementd'ontologies [BCM05], [Cim06]

Elles peuvent être exploitées pour la constructiond'ontologies [ONS11]

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 10/24

Page 12: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Pourquoi le texte ?Indices textuels

Relations terminologiques

Types de relations :

les relations lexicales sont indépendantes du domaine :hyperonymie, synonymie (AAdvantage Gold is equivalent tooneworld Ruby), méronymie

les relations syntaxiques sont relatives à la structure interne duterme ou de la phrase

les relations spécialisées dépendent du domaine : Mileage canonly be accumulated one time per �ight

La détection des relations terminologiques sert à établir desrelations entre les concepts

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 11/24

Page 13: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Pourquoi le texte ?Indices textuels

Classes sémantiques

Dé�nition

Les classes sémantiques sont des regroupements de mots qui sontsémantiquement proches.

Les approches distributionnelles permettent de regrouper lesmots en fonction de leurs contextes (phrase, fenêtre de mots)

Les groupes de mots formés sont considérés comme desconcepts :

Lan Express

Japan Airlines

British AirlinesAmerican Airlines

Horizon Air

Quantas Airways

AAdvantage participant

American Airlines

AAdvantage participant

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 12/24

Page 14: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Pourquoi le texte ?Indices textuels

Motifs linguistiques

Les motifs linguistiques sont des con�gurations d'indicestextuels souvent lexicaux et syntaxiques

Les patrons sont construits manuellement ou par apprentissageà partir du texte

Ils sont caractéristiques d'un certain type d'objets textuels(terme, entité nommée, etc) et sont utilisés pour leuridenti�cation dans le texte

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 13/24

Page 15: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Pourquoi le texte ?Indices textuels

Synthèse

Repérage des indices textuels :

Méthodes directes : guidées par le but, à base de patronslinguistiques

Méthodes indirectes : guidées par les données, à based'induction, de distribution

Tous les niveaux d'analyse linguistique sont pris en compte :typographie [NA07], morphologie, syntaxe, sémantique, structuretextuelle, etc.

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 14/24

Page 16: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Pourquoi le texte ?Indices textuels

Limites du TAL pour l'ICT

La qualité des résultats des outils de TAL laisse à désirer

Passer du niveau texte au concept est une questionintrinsèquement di�cile

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 15/24

Page 17: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Bruit

Les indices extraits ne sont pas tous pertinents pour lamodélisation : les outils de TAL produisent des résultats bruités

Corpus #mots #Termes candidats #Termes validés

AAdvantage 5 744 973 634

Il faut qu'un ingénieur de la connaissance �ltre et valide cesrésultats

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 16/24

Page 18: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Ambiguité

Les éléments extraits peuvent être ambigusAAdvantage member décrit deux sens pertinents pour le domaine :

un voyageur adhérant au programme de �délité : Elite member

une compagnie aérienne participant dans ce programme :AAdvantage participant

Il faut désambiguïser les termes extraits en s'appuyant sur leurscontextes

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 17/24

Page 19: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Silence

Certaines connaissances sont implicites dans le texte :

des connaissances de sens commun : JFK est un aéroport, toutvol est relié à un point de départ et d'arrivée

travail d'explicitation : itinerary est synonyme de segment

Le corpus d'acquisition ne re�ète que partiellement le domaine àmodéliser et il faut apporter une expertise complémentaire

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 18/24

Page 20: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Neutralité du texte

Le texte est neutre par rapport aux grandes distinctionsontologiques [Gua09] :

concept et instance : American airlines

concept et relation : member, member-of

L'ingénieur de la connaissance doit faire des choix demodélisation [BIT02], [Gua09] : véri�cation de la structure desontologies, di�érenciation du père des �ls et les �ls entre eux,dé�nition des concepts en langage naturel, etc.

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 19/24

Page 21: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Textuel vs Conceptuel

Une ontologie de domaine ne peut pas être dérivéeautomatiquement du texte : le modèle est une constructionLe modèle linguistique constitue généralement une étapeintermédiaire [AGDS08, SCAG+09]

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 20/24

Page 22: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Ce qui est déjà fait

Le TAL a rendu disponible des outils et des plateformes quisont faciles à utiliser

L'ingénierie des connaissances a développé des méthodes deconstruction d'ontologies à partir de textes en mettant l'accentsur :

l'existence d'un modèle linguistique intermédiaire

le rôle de l'ingénieur de la connaissance

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 21/24

Page 23: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Que reste-il à faire ?

Ingénierie des connaissances :

A�ner les méthodes de construction d'ontologies

Développer des métriques pour mesurer la progression dutravail de conceptualisation et évaluer le résultat

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 22/24

Page 24: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Que reste-il à faire ?

Traitement automatique de la langue :

Injecter des connaissances en amont pour guider l'analyse dutexte

Développer une méthode de TAL qui produise des résultatsintégrés (6= résultats hétérogènes, disparates et peu reliés)

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 23/24

Page 25: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Merci pour votre attention

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 24/24

Page 26: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

[AGDS08] Nathalie Aussenac-Gilles, Sylvie Després, and SylvieSzulman. The terminae method and platform forontology engineering from texts. In Paul Buitelaar andPhilipp Cimiano, editors, Bridging the Gap between

Text and Knowledge - Selected Contributions to

Ontology Learning and Population from Text, pages199�223. IOS Press, janvier 2008.

[BCM05] Paul Buitelaar, Philipp Cimiano, and BernardoMagnini, editors. Ontology Design and Population.IOS Press, 2005.

[BIT02] Bruno Bachimont, Antoine Isaac, and Raphael Troncy.Semantic commitment for designing ontologies : Aproposal. In Knowledge Engineering and Knowledge

Management. Ontologies and the Semantic Web, 13th

International Conference EKAW 2002� October 1-4,

2002, Proceedings of (EKAW'02), volume 2473 ofA.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 24/24

Page 27: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

Lecture Notes in Computer Science, pages 114�121,Siguenza, Spain, October 2002. Springer.

[Cim06] Philipp Cimiano. Ontology Learning and Population

from Text : Algorithms, Evaluation and Applications.Springer-Verlag New York, Inc., Secaucus, NJ, USA,2006.

[Gua09] Nicola Guarino. Conceptual modeling : Foundationsand applications. chapter The Ontological Level :Revisiting 30 Years of Knowledge Representation,pages 52�67. Springer-Verlag, Berlin, Heidelberg, 2009.

[NA07] Adeline Nazarenko and Touria Aït El Mekki. Buildingback-of-the-book indexes. In Fidelia Ibekwe-SanJuan,Anne Condamines, and M. Teresa Cabré Castellvi,editors, Application-Driven Terminology Engineering,,pages 179�202. John Benjamins Publishing Company,Amsterdam, 2007.

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 24/24

Page 28: Indices textuels et connaissances de domaine : apport du TAL à … · 2012. 3. 15. · A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances extuelleT20/24. ALT & IA :

TAL & IA : Le verrou de l'acquisition des connaissancesLes indices textuels pour la construction d'une ontologieDu texte au modèle des connaissances : le grand écart

BilanRéférences

[ONS11] Nouha Omrane, Adeline Nazarenko, and SylvieSzulman. From Linguistics to Ontologies The Role ofNamed Entities in the Conceptualisation Process. InProceedings of the International Conference on

Knowledge Engineering and Ontology Development,pages 249�254, Paris, France, October 2011.

[SCAG+09] Sylvie Szulman, Jean Charlet, Nathalie Aussenac-Gilles,Adeline Nazarenko, Eric Sardet, and H.V. Teguiak.Dafoe : an ontology building platform from text orthesauri. In International Conference on Knowledge

Engineering and Ontology Development (KEOD 2009),pages 1�4, Madeira, Portugal, October 2009.

A.Nazarenko, N.Omrane et S.Szulman Ingénierie des Connaissances Textuelle 24/24