View
103
Download
0
Category
Preview:
Citation preview
1ASSTICCOT, RTP-DOC, Paris3 décembre 2002
ASSTICCOT : Constitution de produits terminologiques à partir de corpus
N. Aussenac-Gilles (IRIT), A. Condamines (ERSS)
www.irit.fr/ASSTICCOT/ De janvier à décembre 2002
PlanRappels : objectifs initiaux et mode de
fonctionnementMéthode de travail
Expériences interdisciplinaires Réponses à une grille de réflexion commune
Résultats Perspectives
3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 2
Objectifs de l’Action Spécifique
• Faire se rencontrer plusieurs communautés sur la question de la modélisation de connaissances à partir de corpus :• Linguistique de corpus et terminologie• Sciences de l’information• Informatique
• Ingénierie des connaissances• Recherche d’information• Traitement Automatique de la Langue• Apprentissage à partir de textes
RappelsRappels PerspectivesM2/Questions RésultatsM1/Expériences
3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 3
Motivations
• Des problématiques similaires à mieux identifier• Vers plus d’interdisciplinarité
– L’existant : des relations bilatérales – L’enjeu : une évaluation systématique des
complémentarités
• Repérer des axes de recherche à développer• Valoriser et fédérer les acquis dans un contexte
pluridisciplinaire– rendre plus efficace l’élaboration de ressources
terminologiques en fonction des besoins– repérer l’impact de ces questions sur chaque
discipline
RappelsRappels PerspectivesM2/Questions RésultatsM1/Expériences
3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 4
Mode de fonctionnement
• Composition– Une trentaine de chercheurs issus de différentes disciplines – Une dizaine de laboratoires dont DYALANG, LIPN, IRIT et ERSS.
• 4 groupes– Linguistique de corpus et terminologie (M. Bouveret)– TAL et apprentissage (P. Zweigenbaum)– Sciences de l’information et recherche d’information (S. Lainé-
Cruzel)– Ingénierie des connaissances (S. Després)
• Deux types de réunions (6 réunions + 1 prévue)– travail par groupe (selon une grille commune de questions)– séances plénières (mises en commun, confrontations entre
disciplines)
• Organisation d’un atelier associé à CFD (oct. 2002)
RappelsRappels PerspectivesM2/Questions RésultatsM1/Expériences
3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 5
Méthode de travail
1. Partage d’expériences pluridisciplinaires
2. Grille de réflexion commune3. Exposés de synthèse disciplinaire
(non développé dans l’exposé)
Rappels PerspectivesM2/QuestionsM2/Questions RésultatsM1/ExpériencesM1/Expériences
3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 6
Exemples de collaborations bilatérales (1)
• Terminologie textuelle et TAL– TAL pour la construction de ressources : Syntex et
Caméléon
– Données terminologiques comme ressources pour le TAL : thésaurus pour traiter des dossiers patients
– TAL et RI: Syntex et catégorisation automatique pour la Recherche d’Information
Rappels PerspectivesM2/Questions RésultatsM1/ExpériencesM1/Expériences
3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 7
Exemples de collaborations bilatérales (2)
• Ontologies et recherche d’information– Hiérarchie de termes pour la classification de
documents DocCUBE– Ontologies pour la reformulation de requêtes – Ontologies pour l’interrogation de données semi-
structurée PICSEL
• Terminologie textuelle et outils de TAL pour la construction d’ontologies– Index d’un livre, Ontologie de l’ingénierie des
connaissances
Rappels PerspectivesM2/Questions RésultatsM1/ExpériencesM1/Expériences
3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 8
Expériences pluridisciplinaires
• Collaboration entre IC, Terminologie Textuelle et TAL :– Bénéficie de l’expérience du groupe TIA (pb de
frontière)
• Collaborations entre RI, IC et Sciences de l’information : réseau Rhône Alpes
• Passer d’expériences ponctuelles à une théorisation des problèmes et une vraie approche pluridisciplinaire
Rappels PerspectivesM2/Questions RésultatsM1/ExpériencesM1/Expériences
3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 9
Grille de questions pour une réflexion interdisciplinaire
1. Définition des besoins -> 2. Rôle des corpus 3. Positionnements théoriques4. Définition des méthodes et outils : logiciels
de Traitement Automatique de la Langue, d’apprentissage, d’exploration de textes
5. Description des modèles produits ou utilisés
6. Mode d’évaluation des résultats
Rappels PerspectivesRésultatsM2/QuestionsM2/QuestionsM1/Expériences
3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 10
1 - Besoins : Documents et connaissances
• Documents et collections de documents comme possibles sources de connaissances d’un domaine– Comment accéder à ces connaissances ?– Comment accéder aux documents à travers les connaissances ?– Quels produits terminologiques intermédiaires pourraient
faciliter cet accès ?– > problèmes communs à l’ingénierie des connaissances et aux
sciences de l’information, recouvrant des problématiques différentes
• Documents comme moyens d’accès à des manifestations linguistiques (s’oppose à l’introspection) : mise en œuvre vs enrichissement des connaissances de la langue– Documents comme révélateurs d’usages (corpus)– > lien avec la linguistique de corpus, la terminologie, les
sciences de l’information
Rappels PerspectivesRésultatsM2/QuestionsM2/QuestionsM1/Expériences
3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 11
1 - Besoins : Nature des ressources terminologiques
• Ressources existantes– Sans lien vers les textes (construites par introspection ou
entretiens avec des experts)– Générales (indépendantes du domaine et/ou de
l’application)– Figées dans le temps
• > peut-on les intégrer dans les applications ?
• Nouveaux besoins– Domaines spécifiques => constituer des ressources
terminologiques spécialisées – Rôle majeur des documents => construire ces ressources à
partir de textes pour mieux tenir compte des usages et rendre plus efficace l’accès aux documents
– Masse et évolutivité => savoir gérer la cohérence entre documents et ressources
Rappels PerspectivesRésultatsM2/QuestionsM2/QuestionsM1/Expériences
3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 12
Grille de questions pour une réflexion interdisciplinaire
1. Définition des besoins2. Rôle des Corpus -> 3. Positionnements théoriques4. Définition des méthodes et outils : logiciels
de Traitement Automatique de la Langue, d’apprentissage, d’exploration de textes
5. Description des modèles produits ou utilisés
6. Mode d’évaluation des résultats
Rappels PerspectivesRésultatsM2/QuestionsM2/QuestionsM1/Expériences
3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 13
2 - Corpus
• Définition commune– L’existant : des textes (ou portions de textes)– Le corpus est construit en fonction d’un besoin
particulier ou d’une hypothèse d’étude• Des réalités différentes
– Collection, document, corpus– Nature et taille– critères de construction– modes et objectifs d’exploitation
Rappels PerspectivesRésultatsM2/QuestionsM2/QuestionsM1/Expériences
3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 14
2 - Bilan d’étude sur les corpus
• Des besoins communs– Nécessité de caractériser les textes au delà de
leur thématique (problème des genres textuels)
– Meilleure maîtrise du lien entre caractéristiques des textes et nature des applications
– Prise en compte de la méthode utilisée pour construire des ressources dans la constitution du corpus
Rappels PerspectivesRésultatsM2/QuestionsM2/QuestionsM1/Expériences
3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 15
2 - Une étude sur genre textuel et variation des phénomènes langagiers
• Le genre d’un texte influe sur sa syntaxe, mais aussi sur son lexique
• Diversité des critères descriptifs : public visé (grand public vs spécialistes : Crise cardiaque / Infarctus du myocarde), statut du locuteur, finalité du discours, …
• Ex : Productivité des adjectifs dérivés dans des corpus médicaux (hématologie) : les dérivés en –al sont plus productifs dans des documents Web que dans des comptes rendus hospitaliers
• Une typologie des genres est-elle possible ?• Multiplication des situations possibles• Classes trop générales • Hétérogénéité des genres (ex: écrit vs oral)• Plusieurs genres dans un même texte• Trop grande diversité des critères descriptifs
Rappels PerspectivesRésultatsM2/QuestionsM2/QuestionsM1/Expériences
3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 16
Grille de questions pour une réflexion interdisciplinaire
1. Définition des besoins2. Rôle des corpus 3. Positionnements théoriques4. Définition des méthodes et outils :
logiciels de Traitement Automatique de la Langue, d’apprentissage, d’exploration de textes
5. Description des modèles produits ou utilisés (ressources et applications) ->
6. Mode d’évaluation des résultats
Rappels PerspectivesRésultatsM2/QuestionsM2/QuestionsM1/Expériences
3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 17
5 – Ressources et applications : Objets de l’étude
• S’appuyer sur des études de cas• Identifier des points d’impact de l’application
visée sur la démarche de construction de ressources terminologiques
1) Profil du « constructeur »2) Construction du corpus 3) Choix de la structure de données4) Utilisation des outils de TAL, de fouille de textes5) Utilisation des outils de modélisation 6) Validation, évaluation
• Dresser des perspectives pour une meilleure maîtrise et adéquation du processus
Rappels PerspectivesRésultatsM2/QuestionsM2/QuestionsM1/Expériences
3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 18
5 - Résultats sur ressources et applications (1)
• Il existe des résultats théoriques, des méthodes et des outils, qui aboutissent à des résultats prometteurs.
• Un cadre unifié, un éventail de pratiques• Approche qui rend compte de l’usage
spécialisé de la langue– Quelle complémentarité avec des ressources
existantes (dictionnaires, WordNet) ?• Exploitation par les outils (Synoterm)• Exploitation par le cogniticien
– Faut-il replacer ces ontologies dans des cadres de haut niveau ?
Rappels PerspectivesRésultatsM2/QuestionsM2/QuestionsM1/Expériences
3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 19
5 - Résultats sur ressources et applications (2)
• Efforts à poursuivre– Mieux intégrer les différents outils– Mieux maîtriser le paramétrage par type de projet
• Trouver le bon compromis entre investissement et gain– L’ontologie formelle n’est pas toujours nécessaire.– Trouver le modèle optimal par contexte d’application– Anticiper les besoins d’évolution
• Savoir faire des propositions pragmatiquement acceptables, utilisables dans un objectif d’ingénierie– Aller au delà de propositions théoriques et disciplinaires
Rappels PerspectivesRésultatsM2/QuestionsM2/QuestionsM1/Expériences
3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 20
Résultats
• Productions– Documents par discipline– Atelier lors de la conférence CFD2002– Document de synthèse– Collaborations bilatérales– MoI en vue d’un réseau européen «SemTech» (6
PCRD)
• Résultats théoriques– Théorisation des expériences pluridisciplinaires et
situation des points de vue monodisciplinaires– Identification de principes communs– Perspectives de recherche
Rappels PerspectivesRésultatsRésultatsM2/QuestionsM1/Expériences
3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 21
Principes communs
• La construction de ressources terminologiques est un processus d’interprétation humaine de résultats fournis par des outils
• Les ressources doivent être spécialisées par domaine et par application (réutilisabilité ?)
• Les concepts sont élaborés à partir de réalisations textuelles avec lesquelles ils conservent un lien terminologique
Rappels PerspectivesRésultatsRésultatsM2/QuestionsM1/Expériences
3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 22
Perspectives scientifiques (1)
• Problème du genre des textes– Définition de critères de caractérisation des textes – Objectif de l’utilisation des textes comme un des
critères de caractérisation
• Se donner les moyens de gérer l’évolution des besoins et des ressources (textes, terminologie)– Cohérence usages – ressources crées– Évolution des besoins
Rappels PerspectivesPerspectivesRésultatsM2/QuestionsM1/Expériences
3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 23
Perspectives scientifiques (2)
• Influence de l’application visée sur la nature des ressources terminologique à constituer– Vers une typologie (caractérisation) des applications ?– Mieux maîtriser les potentialités des différents types
de ressources
• Prise en compte de la variation par les outils de TAL– Intégration d’outils– Par rapport au genre textuel : liens entre critères de
caractérisation et résultats des outils de TAL – Par rapport aux applications visées (accès à
l’information, etc.)
Rappels PerspectivesPerspectivesRésultatsM2/QuestionsM1/Expériences
3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 24
Perspectives de l’AS
• Equipe projet • Livre• Justifie demande de prolongation
Rappels PerspectivesPerspectivesRésultatsM2/QuestionsM1/Expériences
Recommended