21
5 décembre 2002 TIA - prise en compte de l'applica tion - Assises I3 1 Prise en compte de l’application dans la constitution de produits terminologiques Groupe TIA Nathalie Aussenac-Gilles – IRIT Anne Condamines – ERSS Sylvie Szulman – LIPN L’application et les utilisateurs sont-ils mal pris en compte ? Passage du corpus à une application Différents types d’impacts Corpus Techniques linguistiques Choix des outils Représentation des connaissances Contenu du modèle – niveaux linguistique / conceptuel

5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe

Embed Size (px)

Citation preview

Page 1: 5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe

5 décembre 2002 TIA - prise en compte de l'application - Assises I3 1

Prise en compte de l’application dans la constitution de produits terminologiques

Groupe TIA Nathalie Aussenac-Gilles – IRIT

Anne Condamines – ERSS

Sylvie Szulman – LIPN

L’application et les utilisateurs sont-ils mal pris en compte ? Passage du corpus à une application Différents types d’impacts

Corpus Techniques linguistiques Choix des outils Représentation des connaissances Contenu du modèle – niveaux linguistique / conceptuel

Page 2: 5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe

5 décembre 2002 TIA - prise en compte de l'application - Assises I3 2

L’application est-elle mal prise en compte ?

« la construction d’ontologies à partir de textes ne permet pas de construire des ontologies adaptées aux utilisateurs »

Application ou utilisateur de l’application ? Vocabulaire des textes serait celui des experts, non celui

des utilisateurs L’utilisateur ne serait pas prévu pour évaluer le modèle

Application ou type d’application ? Éventail de types de modèles : terminologies, thésaurus … Éventail de types d’applications : gestion des

connaissances, RI, classement documentaire, SBC, indexation

Page 3: 5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe

5 décembre 2002 TIA - prise en compte de l'application - Assises I3 3

Variétés des applications, variétés des ressources terminologiques utilisées…

Point de vue classique : des ressources terminologiques dédiées pour des types d’application particulières la base de données terminologiques pour le traducteur le langage documentaire pour le documentaliste, …

Renouvellement : des ressources terminologiques de types variés pour des applications variées : Bases de données terminologiques multilingues pour traduction

automatique Thesaurus pour indexation automatique Index hypertextuels pour documents électroniques Réseaux de termes pour moteurs de recherche spécialisés Ontologies pour systèmes à base de connaissances

Page 4: 5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe

5 décembre 2002 TIA - prise en compte de l'application - Assises I3 4

… une approche unifiée

Assurer des fondements linguistiques à un réseau conceptuel Construction à partir de l’analyse d’un corpus de textes Processus supervisé par l’analyste en concertation avec experts

et utilisateurs Utilisation de techniques linguistiques et de logiciels de TAL

Recherches nécessairement pluridisciplinaires Terminologie Linguistique Traitement automatique des langues Ingénierie des connaissances (en dehors de TIA) Recherche d’information et sciences de

l’information

Page 5: 5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe

5 décembre 2002 TIA - prise en compte de l'application - Assises I3 5

Problématique du passage du corpus à une application

Type d’application

Usages

•Méthodes•Outils de TAL•Outils de modélisation•Principes linguistiques

Intégration

Ressources terminologiques

Corpus

Page 6: 5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe

5 décembre 2002 TIA - prise en compte de l'application - Assises I3 6

Points d’impact de l’application et de son usage

Type d’application

Usages

•Méthodes•Outils de TAL• Outils de modélisation•Principes linguistiques

Intégration

Ressources terminologiques •Contenu•Représentation des connaissances

Corpus

Page 7: 5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe

5 décembre 2002 TIA - prise en compte de l'application - Assises I3 7

Objectifs de la présentation

Illustrer, sur des études de cas, l’impact de l’application visée sur des aspects de la démarche de construction de ressources terminologiques

1) Profil du « constructeur »2) Construction du corpus 3) Utilisation des techniques d’analyse linguistique et d’outils de TAL 4) Choix de la structure de données

représentation des connaissances – contenu du modèle5) Utilisation des outils de modélisation 6) Validation, évaluation

Dresser des perspectives vers une meilleure maîtrise et adéquation du processus de

construction et des ressources construites aux besoins et aux types d’application

Page 8: 5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe

5 décembre 2002 TIA - prise en compte de l'application - Assises I3 8

Etudes de cas : les applications

VERRE : Classement de documents et veille stratégique sur la fabrication de la fibre de verre Ontologie : formuler des recherches, représenter des documents

REA : codage des diagnostics et actes médicaux traumatologie en réanimation chirurgicale Ontologie comme squelette conceptuel d’un thésaurus

DROIT : recherche d’information sur www.droit.org (édition Lois et décrets du J.O. de la République française) Réseau sémantique du droit pour la reformulation de requêtes

SAMOVAR : mémoire d’entreprise, domaine automobile plusieurs ontologies pour l’accès à des comptes rendus d’incidents de test

COMMA : SMA pour la gestion des connaissances : veille et formation ontologie pour consultation et pour agents logiciels

Page 9: 5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe

5 décembre 2002 TIA - prise en compte de l'application - Assises I3 9

Etude de cas : les applications

Application de traitement de l’information textuelle. Cas « idéal » pour une approche basée sur les textes

Projets de R&D Pas toujours de « vrais » utilisateurs au début du

projet L’application elle-même est définie plus ou moins

au cours du projet L’objectif est aussi de tester des méthodes et outils.

Page 10: 5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe

5 décembre 2002 TIA - prise en compte de l'application - Assises I3 10

2) Construction du corpus

Etape cruciale Le corpus est (une des) source(s) de connaissances Le corpus va servir à documenter la ressources construite

Paramètres de construction Homogénéité avec les textes traités dans l’application cible

(diversité de vocabulaire) Recours aux experts, disponibilité Diversité de genre, taille Préparation, balisage, pour les outils de TAL Traitement global ou par parties différentiées

Importance du balisage : localiser les phrases à interpréter dans l’ensemble du document

Page 11: 5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe

5 décembre 2002 TIA - prise en compte de l'application - Assises I3 11

2) Construction du corpus – étude de cas

REA 600 compte rendus d’hospitalisation (CRH) en réanimation chirurgicale

(380 000 mots), balisés de façon homogène (<Motif>, <Histoire de la maladie>, <Conséquence>, …)

VERRE 3 sous-corpus (250 000 mots) : livre (découpé en chapitres), brevets,

dépêches d’agence de presse pour la veille regroupées par mois

Vocabulaire générique de la fibre de verre

Livre

Vocabulaire technique des procédés du verre textile

Brevets

Vocabulaire technique des dépôts de brevets

Veille

Vocabulaire de la finance et économie

Page 12: 5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe

5 décembre 2002 TIA - prise en compte de l'application - Assises I3 12

3) Utilisation des techniques d’analyse linguistique et d’outils de TAL

Dépendances application-corpus et corpus-technique d’analyse : ex de la recherche de relation par marqueurs

Ex : marqueur de relation EST-UNtous les N1 sauf dét N2 (tous les mammifères sauf la

baleine)

Tous les marqueurs d’un même type de relation ne fournissent pas les mêmes résultats sur un corpus

Ex : l’anaphore, marqueur de la relation EST-UN fournit des génériques de plus haut niveau (La baleine s’approchait. Ce mammifère…)

Un corpus contient des marqueurs et des relations spécifiques Ex : relation de « production » entre « process » et « product » dans

Verre

Page 13: 5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe

5 décembre 2002 TIA - prise en compte de l'application - Assises I3 13

3) Utilisation des techniques d’analyse linguistique et d’outils de TAL

SAMOVAR : Nomino et patrons de fouille Première conceptualisation « manuelle » du domaine Extraction de termes avec Nomino : ontologies des pièces Patrons d’extraction d’instances ou de concepts et de relations spécifiques

pour enrichir l’ontologie à partir de textes

BRUIT DE CRISSEMENT DU VOLANT PENDANT SON REGLAGE EN HAUTEUR

Nom[ type= Problème, n= i] Prep[ lemme=« de »] Nom[ type Problème, n= i+1]

Si on rencontre l’expression <Terme1 de Terme2>où <Terme1> est connu comme correspondantà un concept <Concept1> dans l’ontologie Problème,alors suggérer d’attacher le concept dénoté par le terme <Terme2>comme fils de <Concept1> dans l’ontologie Problème

Page 14: 5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe

5 décembre 2002 TIA - prise en compte de l'application - Assises I3 14

3) Utilisation des techniques d’analyse linguistique et d’outils de TAL

Différents types d’outils de TAL pour la constructions de ressources terminologique Extraction de candidats termes, ex : Termino, Syntex Extraction de relations candidates, ex : Caméléon, Likes Analyse distributionnelle, ex : Upery Outils statistiques de repérage de classes (concepts) et de relations

Ces outils s’appuient sur des techniques linguistiques (morphosyntaxiques) et/ou statistiques (apprentissage)

Difficultés Dépouiller les résultats de ces outils Faire face au volume de données Trouver des indices pour repérer des données pertinentes Mettre au point des outils spécifiques

Page 15: 5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe

5 décembre 2002 TIA - prise en compte de l'application - Assises I3 15

3) Utilisation des techniques d’analyse linguistique et d’outils de TAL

REA : Syntex et Upery analyse humaine (200 h) guidée par les résultats de l’analyse

distributionnelle

DROIT : Syntex et Upery Pas de validation humaine : on conserve le réseau de

candidats termes nominaux extrait par Syntex enrichi des liens de proximité distributionnelle, de

coordination et de cooccurrence statistique. Elimination des éléments reliés à aucun autre (300 000

100 000)

Page 16: 5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe

5 décembre 2002 TIA - prise en compte de l'application - Assises I3 16

4) Structure de données

Types de ressources : Thesaurus, index, taxonomie, réseau sémantique, ontologie, etc. Composantes : texte, composante lexicale, composante

conceptuelle Degré de formalisation :

Ontologie formelle ---Réseau de termes avec relations non étiquetées Contenu : couverture, choix de priorité entre la fidélité au texte,

la fidélité aux experts et l’adéquation aux utilisateurs Rôle de la ressource

Le contenu, la forme, la couverture, le degré de formalisation, etc. sont choisis en fonction du rôle que doit jouer la ressource terminologique ou ontologique dans l’application cible.

Page 17: 5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe

5 décembre 2002 TIA - prise en compte de l'application - Assises I3 17

4) Structure de données – Ontologies pour la mémoire d’entreprise

Un composant de la mémoire, destiné à être exploré par l’utilisateur final. Contenu : définitions ou de liens vers des textes explicatifs, compréhensibles par un

utilisateur humain adapté aux tâches des utilisateurs (degré de détail, niveau de visibilité…)

Une référence pour indexer/ annoter sémantiquement la mémoire afin d’améliorer la recherche de ressources ou d’information. Contenu : concepts importants pour l’annotation faits (relations entre instances particulières …) heuristiques (inférences pour la recherche d’info)

Une base pour la communication et l'échange d’information entre des programmes, des agents logiciels ontologie formelle contenu : besoins en messages des agents logiciels

Page 18: 5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe

5 décembre 2002 TIA - prise en compte de l'application - Assises I3 18

4) Contenu du modèle : Fibre de verre

PROCESS

ManufacturingProcess

WashingScraps

ManufacturingGlassYarns

DRAWINGPROCESS

CONVERSIONINTO

SALEABLEPRODUCTS

GLASSMANUFACTURING

PROCESS

MouldingProcess

PressMouldingProcessWashingScrapsSteps

SheetMouldingProcess

ManufacturingThinProfiles

OpenLayUpMouldingProcess

ReinforcedReactionInjectionMouldingProcess

ReinforcedPlasticMouldingProcess

CompositeMouldingProcess

InjectionMouldingProcess

SeparatingFibresOfYarns

UnwindingGlassYarns

DippingSheetOfGlassFibres

HotShaping

HeatingSheet

ReCirculatingSolvent

TransferringResine

FeedingScraps

AddingCleanSolvent

CirculatingScraps

CollectingResinLoadedSolvent

DryingWashedScraps

DetectingLossSolvent

PROCESS

ManufacturingProcess

WashingScraps

ManufacturingGlassYarns

DRAWINGPROCESS

CONVERSIONINTO

SALEABLEPRODUCTS

GLASSMANUFACTURING

PROCESS

MouldingProcess

PressMouldingProcessWashingScrapsSteps

SheetMouldingProcess

ManufacturingThinProfiles

OpenLayUpMouldingProcess

ReinforcedReactionInjectionMouldingProcess

ReinforcedPlasticMouldingProcess

CompositeMouldingProcess

InjectionMouldingProcess

SeparatingFibresOfYarns

UnwindingGlassYarns

DippingSheetOfGlassFibres

HotShaping

HeatingSheet

ReCirculatingSolvent

TransferringResine

FeedingScraps

AddingCleanSolvent

CirculatingScraps

CollectingResinLoadedSolvent

DryingWashedScraps

DetectingLossSolvent

PROCESS

ManufacturingProcess

WashingScraps

ManufacturingGlassYarns

DRAWINGPROCESS

CONVERSIONINTO

SALEABLEPRODUCTS

GLASSMANUFACTURING

PROCESS

MouldingProcess

PressMouldingProcessWashingScrapsSteps

SheetMouldingProcess

ManufacturingThinProfiles

OpenLayUpMouldingProcess

ReinforcedReactionInjectionMouldingProcess

ReinforcedPlasticMouldingProcess

CompositeMouldingProcess

InjectionMouldingProcess

SeparatingFibresOfYarns

UnwindingGlassYarns

DippingSheetOfGlassFibres

HotShaping

HeatingSheet

ReCirculatingSolvent

TransferringResine

FeedingScraps

AddingCleanSolvent

CirculatingScraps

CollectingResinLoadedSolvent

DryingWashedScraps

DetectingLossSolvent

Page 19: 5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe

5 décembre 2002 TIA - prise en compte de l'application - Assises I3 19

4) Contenu du modèle - VERRE

Décisions de modélisation liées aux textes ET à l’application Concepts individuel ou générique ? Concept ou relation ?

TransferringResine, FeedingScrap, … sont étapes de WashingScraps : texte

Relation has-steps ou concept WashingScrapsSteps ?

Les définitions d’instances peuvent modifier celles des concepts génériques

Un ou plusieurs concepts Faut-il définir 2 concepts différents Process et ManufacturingProcess ?

Concepts de structuration non terminologiques : process

Page 20: 5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe

5 décembre 2002 TIA - prise en compte de l'application - Assises I3 20

Conclusion

Première analyse pragmatique : comment aller plus loin Trouver un cadre de présentation plus formel Une piste pour un groupe de travail et non pour une seule

équipe de recherche Points non résolus

Impact du TYPE d’application Généraliser des observations à des classes de situations

Perspectives Renouveler les expériences, s’appuyer sur plus de projets Confrontation upper level ontologies / connaissances acquises Vers des ressources dynamiques, évolutives

Page 21: 5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe

5 décembre 2002 TIA - prise en compte de l'application - Assises I3 21

4) Structure de données – VERRE

Demande Profils : classes définies par les utilisateurs, caractérisées par des concepts

(ou des sous-graphes de l’ontologie) ; Documents à classer caractérisés par l’ensemble des concepts reconnus

Modèle de données : ontologie TERMINAE ontologie formalisée, contenant des concepts et relations (pas de règles ou

d’axiomes) composante lexicale riche : relations de synonymie et marqueurs pour

retrouver les formes lexicales associées à un concept ou à une relation Composante textuelle inutile dans le modèle opérationnel

Formalisation Nécessaire pour parcourir les liens sémantiques entre concepts et associer

un profil et un texte Réalisée au sein du système de classification et non dans l’environnement

de modélisation