84
Analyse syntaxique Analyse syntaxique et systèmes de et systèmes de questions-réponses questions-réponses Présentation Master Présentation Master Recherche Informatique Recherche Informatique d'Orsay d'Orsay

Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

Embed Size (px)

Citation preview

Page 1: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

Analyse syntaxique et Analyse syntaxique et systèmes desystèmes de

questions-réponsesquestions-réponses Présentation Master Présentation Master

Recherche Informatique Recherche Informatique d'Orsayd'Orsay

Page 2: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

22

Objectifs du coursObjectifs du cours

Présenter les systèmes de questions-Présenter les systèmes de questions-réponsesréponses

Montrer un Montrer un cadre d’applicationcadre d’application des des différents domaines du TAL différents domaines du TAL présentés: morphologie, syntaxe, présentés: morphologie, syntaxe, sémantique et multilinguismesémantique et multilinguisme– En particulier, utilisation de En particulier, utilisation de

connaissances syntaxiquesconnaissances syntaxiques pour la pour la recherche d’informations précisesrecherche d’informations précises

Page 3: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

33

Plan de la présentationPlan de la présentation

XIP, un analyseur robusteXIP, un analyseur robusteo Les systèmes de questions-réponsesLes systèmes de questions-réponseso Etude du système QALCEtude du système QALCo Exemple d’appariement syntaxiqueExemple d’appariement syntaxiqueo Evolution du domaine et perspectivesEvolution du domaine et perspectives

Page 4: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

44

XIP : un analyseur robusteXIP : un analyseur robuste

o RobustesseRobustesse = capacité d'un = capacité d'un analyseur à fournir des analyses analyseur à fournir des analyses correctescorrectes pour des corpus pour des corpus tout venanttout venant

oProduire une analyse même minimale pour Produire une analyse même minimale pour toute entréetoute entrée

oLimiter le nombre d’analyses produites ou Limiter le nombre d’analyses produites ou donner des indications sur les préférencesdonner des indications sur les préférences

Page 5: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

55

Présentation de XIPPrésentation de XIPo XIP = Xerox Incremental ParserXIP = Xerox Incremental Parsero Développé par XRCE, Centre de Recherche Développé par XRCE, Centre de Recherche

Européen de Xerox [Européen de Xerox [Aït-Mokhtar, Chanod and Aït-Mokhtar, Chanod and Roux 2002]Roux 2002]

o Analyseur Analyseur partielpartiel : sortie pas : sortie pas forcémentforcément complète complète (mais robustesse)(mais robustesse)

o Sorties :Sorties :o Etiquetage morpho-syntaxiqueEtiquetage morpho-syntaxiqueo ConstituantsConstituants ou chunks ou chunkso RelationsRelations de dépendancede dépendance

(entre les têtes de 2 syntagmes)(entre les têtes de 2 syntagmes)

Page 6: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

66

Syntaxe = étude de Syntaxe = étude de l’organisation des mots en l’organisation des mots en

phrasesphrases Structure Structure

syntagmatiquesyntagmatique– Arbre de constituantsArbre de constituants– Catégories et Catégories et

frontières des frontières des constituantsconstituants

Fonctions ou relations Fonctions ou relations de dépendancede dépendance– Arbre de dépendanceArbre de dépendance

Marie aime

le chocolat

NP

GN

P

GV

V GN

Det N

Marie

aime

chocolat

le

sujetobjet

det

Page 7: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

77

Caractéristiques de XIPCaractéristiques de XIPo IncrémentalIncrémental grâce à des paquets grâce à des paquets

ordonnés de règlesordonnés de règleso Sortie uniqueSortie unique mais mais

o DéterministeDéterministe pour la segmentation en pour la segmentation en constituants constituants

o Non déterministeNon déterministe pour l'extraction des pour l'extraction des dépendancesdépendances

o SoupleSouple : grammaires facilement : grammaires facilement modifiablesmodifiables

Page 8: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

88

Sorties de XIPSorties de XIPLe chat de la voisine - au demeurant peu aimable – Le chat de la voisine - au demeurant peu aimable –

est parti en miaulant capturer une souris qui est parti en miaulant capturer une souris qui traînait là.traînait là.

Segmentation en constituantsSegmentation en constituants { SC {NP {Le chat} PP {de NP {la voisine} }

INS {- AP {au demeurant peu aimable} -}FV {est parti} } GV {en miaulant}

IV {capturer} NP {une souris}SC { BG {qui} FV {traînait} }

là .}

Page 9: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

99

Sorties de XIPSorties de XIP

GROUPE(1)GROUPE(1) ++ || SCSC +------------+----------------------------------+----------------------------++------------+----------------------------------+----------------------------+ | | | || | | | NP PP INS FVNP PP INS FV +-----+ +---------+ +------------------+---------------+ +------++-----+ +---------+ +------------------+---------------+ +------+ | | | | | | | | || | | | | | | | | DET NOUN PREP NP PUNCT AP PUNCT VERB DET NOUN PREP NP PUNCT AP PUNCT VERB

VERBVERB + + + +------+ + +---------+-------+ + + ++ + + +------+ + +---------+-------+ + + + | | | | | | | | | | | || | | | | | | | | | | | Le chat de DET NOUN - ADV ADV ADJ - est Le chat de DET NOUN - ADV ADV ADJ - est

partiparti + + + + + + + + + + | | | | || | | | | la voisine au demeurant peu aimablela voisine au demeurant peu aimable

(…)

Page 10: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

1010

Sorties de XIPSorties de XIP

SUBJ_NOUN(parti,chat)

SUBJ_REL_COREF_NOUN(traînait,souris)

SUBJ(capturer,chat)

VARG_NOUN_DIR(capturer,souris)

VARG_INF_DIR(parti,capturer)

COREF_POSIT1_REL(souris,qui)

VMOD_POSIT1_ADV(traînait,là)

NMOD_POSIT1_RIGHT_ADJ(voisine,aimable)

NMOD_POSIT1_NOUN_INDIR(chat,de,voisine)

PREPOBJ_CLOSED(de,voisine)

DETERM_DEF_NOUN_DET(Le,chat)

++ Relations de dépendanceRelations de dépendance

Page 11: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

1111

Architecture de XIPArchitecture de XIPPré-traitement

Contrôle des entrées

Désambiguïsation

Segmentation

Analyse des dépendances

Règles de Désambiguïsation

Règles de dépendance

Règles de segmentation

Texte en entrée

Texte analysé morphologiquement

Texte désambiguïsé (pos)

Texte annoté syntaxiquement

Ressources

Modules Textes traités

Texte analysé

Page 12: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

1212

FonctionnementFonctionnement

3 étapes principales :3 étapes principales :– DésambiguïsationDésambiguïsation

des parties du discours (pos)des parties du discours (pos)

– SegmentationSegmentation

– DépendancesDépendances

Page 13: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

1313

DésambiguïsationDésambiguïsationo 292 règles ~292 règles ~

o Choix de l'Choix de l'interprétationinterprétation la plus probable d'un la plus probable d'un mot en fonction de son contextemot en fonction de son contexte

o Désambiguïsation de certains traitsDésambiguïsation de certains traits

o Règles de la forme : Règles de la forme : interprétationsinterprétations = = | Contexte-G || Contexte-G | choix choix | Contexte-D|| Contexte-D|

/*** REGLE DESAMB 68 ***\/*** REGLE DESAMB 68 ***\/ même lui\/ même lui\

1> 1> adj,adv adj,adv = adv = adv |pron[noun:~]||pron[noun:~]|

Page 14: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

1414

SegmentationSegmentationo 121 règles ~121 règles ~

o Groupement desGroupement des mots en segments mots en segments (chunks) (chunks)o Règles organisées par niveaux, pas de retour arrière, Règles organisées par niveaux, pas de retour arrière,

pas de récursivitépas de récursivité

o Règles de la forme :Règles de la forme :

nœud non lexicalnœud non lexical ->-> || Ctxte|Ctxte| suite de nœudssuite de nœuds |Ctxte||Ctxte|

/ / très grandtrès grand \\

1> 1> APAP -> -> (adv+[last:~])(adv+[last:~]),adj[verb:~].,adj[verb:~].

Page 15: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

1515

Dépendanceso 22 règles ~22 règles ~o Création de Création de relations de dépendancerelations de dépendance entre les mots entre les motso Deux types de règles :Deux types de règles :

o Création de dépendancesCréation de dépendanceso Ajout de nouvelles caractéristiquesAjout de nouvelles caractéristiques

o Règles de la forme :Règles de la forme :

|pattern| if <conditions><d-term1>…<d-termK>| SC { NP}, VP, NP} |if (~Subj(#,#2)) Subj (#1,#2) ,Obj (#2,#3)

#2

#3

#1

TOP

SCNP

NP VP

Det

Det

Nom

Nom

chatLe

Verbe

mange

la souris

Subj(chat,manger)Obj(manger,souris)

Page 16: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

1616

o XIP, un analyseur robusteXIP, un analyseur robuste Les systèmes de questions-réponsesLes systèmes de questions-réponseso Etude du système QALCEtude du système QALCo Exemple d’appariement syntaxiqueExemple d’appariement syntaxiqueo Evolution du domaine et perspectivesEvolution du domaine et perspectives

Page 17: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

1717

Recherche d’informations Recherche d’informations précisesprécises

Type d’informationsType d’informations– Accès aux informations externesAccès aux informations externes– Veille scientifique, technique, Veille scientifique, technique,

commerciale, …commerciale, …– Gestion des informations internesGestion des informations internes

Besoin informationnelBesoin informationnel– Large : constitution d’un dossierLarge : constitution d’un dossier

SangatteSangatte

– PrécisPrécis : question précise : question précise Date de création de SangatteDate de création de Sangatte

Page 18: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

1818

Différentes applications pour Différentes applications pour différents besoinsdifférents besoins

Recherche de documents Recherche de documents liés au thèmeliés au thème

Les camps de réfugiés : Les camps de réfugiés : SangatteSangatte

Recherche de réponses à des questions précises

Quand Sangatte a-t-il été créé ?

RésuméVisualisation

24 septembre 1999

Page 19: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

1919

Recherche d’informations Recherche d’informations précisesprécises

… là), marche à pied (on a déjà surpris des étrangers marchant dans le tunnel). Les tentatives de traversées de la Manche sont à peine moins surveillées que les baignades. Quand le temps n'est pas mauvais, on perçoit les côtes anglaises distantes d'une quinzaine de kilomètres. Sur la mer, naviguent en permanence d'énormes ferries.

Le camp ouvert à Sangatte — on dira ici plutôt « camp » que « centre », à cause des conditions de vie qui y prévalent (voir ci-dessous) et de l'improbable statut juridique de cette « chose » sans précédent, sauf les camps des Républicains espagnols à la fin des années 30 — a été inauguré le 24 septembre 1999 dans un hangar où était installée, pendant le forage du tunnel sous la Manche, la logistique technique française.

L'ouvrage, qui appartenait à la société du tunnel, a été réquisitionné in extremis par les pouvoirs publics pour le transformer en lieu d'accueil, alors qu'il allait être vendu. Il a la …

Page 20: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

2020

Questions-réponsesQuestions-réponseso Objectif: répondre de façon Objectif: répondre de façon exacteexacte à des questions à des questions

en en langue naturellelangue naturelle

o Recherche d’Information + Traitement Automatique Recherche d’Information + Traitement Automatique des Languesdes Langues

•ALASKA.com|FAQ:How can I become a state park volunteer ?… How can I become a state park volunteer ?...•Alaska Elections – State Division of Elections Home Page•Alaska State Legislature Homepage…

in 1959

GOOGLE QALC*

When did Alaska become a state?

When did Alaska become a state?

*QALC : système de Question-Réponse du LIMSI

When did Alaska become a state?

Page 21: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

2121

Caractéristiques des systèmes Caractéristiques des systèmes de questions-réponses (SQR)de questions-réponses (SQR)

o Questions en Questions en domaine ouvertdomaine ouverto Vs domaine fermé (météo, voyages)Vs domaine fermé (météo, voyages)

o Systèmes actuels :Systèmes actuels :o Questions factuelles ou encyclopédiquesQuestions factuelles ou encyclopédiques : :

o Qui a conçu l’ordinateur Macintosh ?Qui a conçu l’ordinateur Macintosh ?o Quel métal a le plus haut point de fusion ?Quel métal a le plus haut point de fusion ?o Qui a été le premier gouverneur de l’Alaska Qui a été le premier gouverneur de l’Alaska

??o Qu’est-ce que l’homéopathie ?Qu’est-ce que l’homéopathie ?

o Réponses courtesRéponses courtes

Page 22: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

2222

Exemples de questionsExemples de questions Questions de définitionQuestions de définition

Acronymes: What is the ESA?Acronymes: What is the ESA? Personnes: Who is Goodwill Zwelithini?Personnes: Who is Goodwill Zwelithini? Objet ou organisation: What is the Civic Alliance?Objet ou organisation: What is the Civic Alliance?

Questions factuellesQuestions factuelles Instances: Name a university in Berlin.Instances: Name a university in Berlin. Personnes: What is the Serbian President's Personnes: What is the Serbian President's

name?name? Caractéristique: How old is Jacques Chirac?Caractéristique: How old is Jacques Chirac? Evénementielles: What did astronomers from Evénementielles: What did astronomers from

Alabama University discover?Alabama University discover? Descriptives: Which genes regulate the immune Descriptives: Which genes regulate the immune

system?system?

Page 23: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

2323

EvaluationsEvaluations Venues de la communauté de la RIVenues de la communauté de la RI

InternationalesInternationales– TREC pour l’anglaisTREC pour l’anglais– CLEF : nombreuses langues + multilingueCLEF : nombreuses langues + multilingue

FrancophoneFrancophone– EQueREQueR

CaractéristiquesCaractéristiques– Corpus = grandes collections majoritairement Corpus = grandes collections majoritairement

journalistiquesjournalistiques– Jugement sur la réponse + sur sa fiabilitéJugement sur la réponse + sur sa fiabilité

Page 24: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

2424

Evaluation des réponses Evaluation des réponses (1/2)(1/2)

Critères inspirés du dialogue (maximes de Critères inspirés du dialogue (maximes de Grice)Grice)

Evaluation des réponses en fonction de leur :Evaluation des réponses en fonction de leur :– PertinencePertinence

La réponse doit répondre à la question !La réponse doit répondre à la question ! Quelle est la taille de la statue de la Liberté ?Quelle est la taille de la statue de la Liberté ?

– PrécisionPrécision Niveau de granularité adéquatNiveau de granularité adéquat Où est né Harry Truman ? Où est né Harry Truman ? aux Etats-Unis/ aux Etats-Unis/Lamar, MissouriLamar, Missouri

– ConcisionConcision La réponse ne doit pas contenir d’information inutileLa réponse ne doit pas contenir d’information inutile Quel fleuve des Etats-Unis est surnommé le « Big Muddy » ?Quel fleuve des Etats-Unis est surnommé le « Big Muddy » ? « « Le MississippiLe Mississippi, connu aussi sous le nom de « Big Muddy », , connu aussi sous le nom de « Big Muddy »,

est la plus »est la plus »

Page 25: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

2525

Evaluation des réponses Evaluation des réponses (2/2)(2/2)

– ComplétudeComplétude La réponse doit être complèteLa réponse doit être complète 500 au lieu de 500 au lieu de 500500€€

– SimplicitéSimplicité L’utilisateur doit pouvoir lire la réponse facilementL’utilisateur doit pouvoir lire la réponse facilement

– JustificationJustification La réponse doit être fournie avec un contexte qui La réponse doit être fournie avec un contexte qui

permet de comprendre pourquoi la réponse a été permet de comprendre pourquoi la réponse a été choisiechoisie

Qui était le 16ème Président des Etats-Unis ? Qui était le 16ème Président des Etats-Unis ? le le texte doit préciser que Lincoln était le 16èmetexte doit préciser que Lincoln était le 16ème

– ContexteContexte Contexte de validité de la réponseContexte de validité de la réponse Qui est le Premier Ministre Français ? Qui est le Premier Ministre Français ? date date

Page 26: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

2626

Etat de l’artEtat de l’art

Actuellement, les meilleurs systèmes Actuellement, les meilleurs systèmes à TREC répondent à environ à TREC répondent à environ 70%70% des des questionsquestions

Approches variées :Approches variées :– Méthodes s’appuyant sur des bases de Méthodes s’appuyant sur des bases de

connaissances et des techniques de TALconnaissances et des techniques de TAL– Méthodes utilisant des techniques de Méthodes utilisant des techniques de

surfacesurface

Page 27: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

2727

Architecture d'un SQRArchitecture d'un SQR

Question

Traitement des questions

Traitement des documents

Recherche de la réponse

Réponse

Moteur de recherche

Question ou mots-clefs

Phrases candidates

Documents pertinentsInformations pertinentes

Page 28: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

2828

o XIP, un analyseur robusteXIP, un analyseur robusteo Les systèmes de questions-réponsesLes systèmes de questions-réponses Etude du système QALCEtude du système QALC

Analyse des questionsAnalyse des questionso Sélection et traitement des documentsSélection et traitement des documentso Analyse des phrases candidatesAnalyse des phrases candidateso RésultatsRésultats

o Exemple d’appariement syntaxiqueExemple d’appariement syntaxiqueo Evolution du domaine et perspectivesEvolution du domaine et perspectives

Page 29: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

2929

Caractérisation des Caractérisation des questionsquestions

Quelles informations ?Quelles informations ?– Sur le Sur le type de la réponse attenduetype de la réponse attendue

Entité nomméeEntité nommée Type généralType général

– Sur le Sur le contexte de la réponsecontexte de la réponse LexicalLexical

– Mots de la questionMots de la question SyntaxiqueSyntaxique

– Forme syntaxique de la question Forme syntaxique de la question Formulation de la Formulation de la réponseréponse

SémantiqueSémantique– Objet (focus, thème?) de la question Objet (focus, thème?) de la question Entité présente Entité présente

dans la réponsedans la réponse– Catégorie de la questionCatégorie de la question

Page 30: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

3030

Exemple d’analyse de la Exemple d’analyse de la questionquestion

What currency does Argentina use?

Forme de la questionForme syntaxique de la question

What GN GV GN GV

Type attendu de la réponseType général : currency

Objet de la question :Entité présente dans la phrase

réponse : Argentina / currency ?

Formulation de réponse : GNRéponse , GNObjet

The austral, Argentina 's currency

Page 31: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

3131

Module d’analyse de la Module d’analyse de la questionquestionQuestion

Etiquetagemorpho-syntaxique

Analyse syntaxique

Analyse de la question

Reconnaissance du type attendu

Reconnaissance dela catégorie

Caractéristiques de la question(XML)

Lexiques

Patrons+

Lexiques

Page 32: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

3232

Performances sur l’analyse Performances sur l’analyse des questionsdes questions

o Module d'analyse des questions Module d'analyse des questions fiablefiable (TREC 10) (TREC 10)

o Performances variables selon le type de la Performances variables selon le type de la question :question :

o Meilleure reconnaissance des questions attendant une ENMeilleure reconnaissance des questions attendant une ENo Mauvaise reconnaissance de l’objet de la question sur Mauvaise reconnaissance de l’objet de la question sur

certaines catégoriescertaines catégories

o Pertinence de l’objet de la question (TREC 9) o 90 % des questions ont une phrase réponse contenant l'objeto 57 % des phrases réponses contiennent l’objet

Forme de la Forme de la questionquestion

Type de la Type de la réponseréponse

Objet de la Objet de la questionquestion

97 %97 % 90 %90 % 85 %85 %

Page 33: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

3333

Analyse syntaxique des Analyse syntaxique des questionsquestions

o Analyseurs syntaxiques non Analyseurs syntaxiques non appropriés pour les questions :appropriés pour les questions :– Verbe non reconnu : Verbe non reconnu :

What year did What year did the Titanic sinkthe Titanic sink? ?

– Superlatif non reconnu :Superlatif non reconnu :

What metal has What metal has the highestthe highest melting point? melting point?

Remaniement des sortiesRemaniement des sorties

Page 34: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

3434

Caractérisation des Caractérisation des questionsquestions

o Objet de la question : pas toujours Objet de la question : pas toujours l'entité sur laquelle il faut se focaliserl'entité sur laquelle il faut se focaliser

QuestionQuestion : What is one : What is one national parknational park in in IndianaIndiana ? ?

RéponseRéponse : The study examine haze and visitor statistics at : The study examine haze and visitor statistics at Acadia NationalAcadia National Park in Maine ; Big bend national park in Park in Maine ; Big bend national park in Texas ; … Texas ; … Indiana Dunes National LakeshoreIndiana Dunes National Lakeshore in in IndianaIndiana ; ; Mount RainierMount Rainier National ParkNational Park in Washington … in Washington …

=> Focalisation sur « national park » donne «=> Focalisation sur « national park » donne «RainierRainier National Park » au lieu de «National Park » au lieu de «Indiana Dunes National Indiana Dunes National Lakeshore »Lakeshore »

Page 35: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

3535

o XIP, un analyseur robusteXIP, un analyseur robusteo Les systèmes de questions-réponsesLes systèmes de questions-réponses Etude du système QALCEtude du système QALC

o Analyse des questionsAnalyse des questions Sélection et traitement des documentsSélection et traitement des documentso Analyse des phrases candidatesAnalyse des phrases candidateso RésultatsRésultats

o Exemple d’appariement syntaxiqueExemple d’appariement syntaxiqueo Evolution du domaine et perspectivesEvolution du domaine et perspectives

Page 36: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

3636

Sélection et traitement des Sélection et traitement des documentsdocuments

Dans QALCDans QALC– Moteur de rechercheMoteur de recherche

Passages de texte de la taille d’un paragraphe en Passages de texte de la taille d’un paragraphe en sortiesortie

Etiquetage morpho-syntaxiqueEtiquetage morpho-syntaxique

– Traitement des documentsTraitement des documents Ré-indexation et pondération en utilisant FastrRé-indexation et pondération en utilisant Fastr SélectionSélection Etiquetage des entités nomméesEtiquetage des entités nommées

Pré ou post-traitement ?Pré ou post-traitement ?

Page 37: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

3737

Variation linguistique (1/2)Variation linguistique (1/2)

QuestionQuestion Phrase réponsePhrase réponse CommentairesCommentaires

How many scandals How many scandals

was Tapie was Tapie implicated in,implicated in,

while boss at while boss at Marseille?Marseille?

While boss at Marseille, While boss at Marseille, TapieTapie

said : I have been implicated said : I have been implicated inin

four scandals in seven four scandals in seven years.years.

Tous les mots (pleins) Tous les mots (pleins) dede

la question se la question se retrouventretrouvent

dans le passage dans le passage réponse,réponse,

mais il y a une mais il y a une référence.référence.

What is Alexander What is Alexander

Solzhenitsyn's wife'sSolzhenitsyn's wife's

name?name?

However his wife NatalyaHowever his wife Natalya

suggested Solzhenitsyn'ssuggested Solzhenitsyn's

criticism of the government criticism of the government (…).(…).

Le prénom deLe prénom de

Solzhenitsyn n'estSolzhenitsyn n'est

pas donné.pas donné.

Who is the Who is the NorwegianNorwegian

king?king?

Even Crown Prince Harald, Even Crown Prince Harald, whowho

is now Norway's king, called is now Norway's king, called it ait a

wild idea.wild idea.

king est dans la phrase king est dans la phrase

réponse, mais réponse, mais NorwegianNorwegian

devient Norway'sdevient Norway's

Page 38: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

3838

Variation linguistique (2/2)Variation linguistique (2/2)QuestionQuestion Phrase réponsePhrase réponse CommentairesCommentaires

When will the HumanWhen will the Human

Genome Project beGenome Project be

completed?completed?

The Human Genome Project, The Human Genome Project, aa

15-year, $3-billion effort, is 15-year, $3-billion effort, is set forset for

completion in 2005.completion in 2005.

will be completedwill be completed

devient is setdevient is set

for completionfor completion

Which space probe set Which space probe set offoff

for the Moon on 25 for the Moon on 25

January 1994 ?January 1994 ?

Clementine, which will map Clementine, which will map thethe

moon and fly by an asteroid moon and fly by an asteroid whilewhile

testing military sensors, had testing military sensors, had been inbeen in

a circular orbit around Earth a circular orbit around Earth sincesince

it was launched Jan. 25 from it was launched Jan. 25 from

Vandenberg Air Force Base.Vandenberg Air Force Base.

space probe disparaît, space probe disparaît, set offset off

devient launched, devient launched, January estJanuary est

abrégé en Jan.abrégé en Jan.

When was the safety When was the safety zonezone

in southern Lebanonin southern Lebanon

created?created?

Israel has held to an Israel has held to an occupation occupation

strip in south Lebanon since strip in south Lebanon since 19781978

(...) in order to protect itself (...) in order to protect itself fromfrom

Crossborder guerrilla attacks.Crossborder guerrilla attacks.

zone devient strip, zone devient strip, southernsouthern

devient south, safety devient south, safety devientdevient

to protect itself, createdto protect itself, created

devient since...devient since...

Page 39: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

3939

Fastr pour re-indexer (1/2)Fastr pour re-indexer (1/2)

(Christian Jacquemin)(Christian Jacquemin) Regroupement de termes multi-mots : Regroupement de termes multi-mots :

les variantes linguistiques d'un conceptles variantes linguistiques d'un concept– genetic diseasegenetic disease

genetic diseasesgenetic diseases Flexion Flexion disease is geneticdisease is genetic Syntaxe Syntaxe hereditary diseasehereditary disease Sémantique Sémantique genetically determined forms of the diseasegenetically determined forms of the disease Morphologie Morphologie disease is familialdisease is familial Sémantique + Sémantique +

Syntaxe Syntaxe transmissible neurodegenerative diseases transmissible neurodegenerative diseases Sémantique + Sémantique +

Syntaxe Syntaxe genetic risk factors for artery diseasegenetic risk factors for artery disease Variante incorrecte Variante incorrecte

Page 40: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

4040

Fastr pour re-indexer (2/2)Fastr pour re-indexer (2/2) RessourcesRessources

– Famille sémantique d'un motFamille sémantique d'un mot (à partir du thésaurus (à partir du thésaurus WordNet),WordNet),

par exemple, par exemple, manufacturer, shaper manufacturer, shaper pour le nom pour le nom makermaker

– Famille morphologique d'un motFamille morphologique d'un mot (à partir de la base CELEX), (à partir de la base CELEX),par exemple,par exemple, maker, make, remake, to make maker, make, remake, to make et et to to

remakeremake pour le pour le nom nom makemakerr

Application de patronsApplication de patrons : :… … making many automobiles… making many automobiles…

-> variante de -> variante de car makercar maker

Page 41: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

4141

Etiquetage des entités Etiquetage des entités nommées (EN)nommées (EN)

Entités nommées = Entités nommées = éléments qu’il est éléments qu’il est intéressant de pouvoir distinguer du reste du texteintéressant de pouvoir distinguer du reste du texte Entités : personnes, organisations, lieuxEntités : personnes, organisations, lieux Dates : dates, heuresDates : dates, heures Quantités : montants financiers, pourcentagesQuantités : montants financiers, pourcentages

Pour tous les documents retenus :Pour tous les documents retenus :– Par utilisation de listes :Par utilisation de listes :

Pour les prénoms, les villes,…Pour les prénoms, les villes,…– Par application de règles (grammaires locales)Par application de règles (grammaires locales)

Organisation ->Organisation -> NomOrg NomOrg SPSP – <EN organisation> <EN organisation> MinistèreMinistère des Affaires des Affaires ÉÉtrangèrestrangères </EN></EN>

Personne -> Personne -> PrénomPrénom NPropreNPropre– <EN personne><EN personne>Jacques Jacques ChiracChirac</EN></EN>

Page 42: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

4242

Hiérarchie des entités Hiérarchie des entités nomméesnomméesEntité nommée

Nom propre

Lieu Organisation

Personne

Entité numérique

Nombre

Pourcentage

Montant financier

Physique

Température

Longueur

VolumeVitesse

Poids

Expression temporelle

Age

Période

Durée Jour

Date

Page 43: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

4343

Exemple de documentExemple de documentTheThe DTDT thetheHumanHuman NPNP HumanHumanGenomeGenome NNNN genomegenomeProjectProject NPNP ProjectProject,, ,, ,,aa DTDT aa<numex type="FINANCIAL_AMOUNT"><numex type="FINANCIAL_AMOUNT">$$ $$ $ $3-billion3-billion CDCD 3-billion3-billion</numex></numex>efforteffort NNNN efforteffort,, ,, ,,isis VBZVBZ bebesetset VVN setVVN setforfor ININ forforcompletioncompletion NNNN completioncompletion<timex type="DATE"><timex type="DATE">inin ININ inin20052005 CDCD @card@@card@</timex></timex>.. SENTSENT ..

Variantes Fastr:

human genome project Human Genome Project

When will the Human Genome Project be completed ?

Page 44: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

4444

Des documents aux Des documents aux phrases…phrases…

Poids pour toutes les phrases :Poids pour toutes les phrases :– Lemmes de la question et leurs Lemmes de la question et leurs

variantesvariantes poids de référencepoids de référence

– + si mots exacts et proximité de ces + si mots exacts et proximité de ces motsmots

– + si entité nommée du type attendu+ si entité nommée du type attendu– X phrases par question : dépend des X phrases par question : dépend des

évaluations!évaluations!

Page 45: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

4545

o XIP, un analyseur robusteXIP, un analyseur robusteo Les systèmes de questions-réponsesLes systèmes de questions-réponses Etude du système QALCEtude du système QALC

o Analyse des questionsAnalyse des questionso Sélection et traitement des documentsSélection et traitement des documents Analyse des phrases candidatesAnalyse des phrases candidateso RésultatsRésultats

o Exemple d’appariement syntaxiqueExemple d’appariement syntaxiqueo Evolution du domaine et perspectivesEvolution du domaine et perspectives

Page 46: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

4646

Stratégie fondée sur les ENStratégie fondée sur les EN

Sélection de l’EN du bon type la plus Sélection de l’EN du bon type la plus proche des mots de la questionproche des mots de la question

En quelle En quelle annéeannée a été achetée a été achetée l’l’AlaskaAlaska? ? Type EN attendu : Type EN attendu : annéeannée

« En « En 18671867, lorsque W.H.Seward a , lorsque W.H.Seward a négocié l’achat de l’négocié l’achat de l’AlaskaAlaska… »… »

Page 47: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

4747

Recherche des ENRecherche des ENEn quelle année a été achetée l’Alaska ?

Traitement des questions

Traitement des documents

Recherche de la réponse

1867

Moteur de recherche

En 1867, lorsque W.H.Seward anégocié l’achat de l’Alaska…

(…)En 1867, lorsque W.H.Seward a

négocié l’achat de l’Alaska…(…)

EN Date attendue

Page 48: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

4848

Stratégie insuffisante Stratégie insuffisante (1/3)(1/3)

o Très bonne reconnaissances des EN mais :Très bonne reconnaissances des EN mais :o Difficultés de délimitation des ENDifficultés de délimitation des ENo Certaines EN ne sont pas reconnues (incomplétude Certaines EN ne sont pas reconnues (incomplétude

des listes d’EN, de déclencheurs, de règles…)des listes d’EN, de déclencheurs, de règles…)

o Ambiguïté du type attendu de la réponseAmbiguïté du type attendu de la réponseo Qui a gagné la dernière coupe du monde de Qui a gagné la dernière coupe du monde de

foot ?foot ? o Organisation (équipe) attendue et non pas personneOrganisation (équipe) attendue et non pas personne

o Où la bile est-elle produite ?Où la bile est-elle produite ? o Partie du corps attendue et non pas lieuPartie du corps attendue et non pas lieu

Page 49: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

4949

Stratégie insuffisante Stratégie insuffisante (2/3)(2/3)

o Ambiguïté des phrases candidatesAmbiguïté des phrases candidates– Présence de plusieurs EN du type Présence de plusieurs EN du type

attenduattenduo Question : Question : How late is Disneyland open?How late is Disneyland open?

Phrase réponse : During the summer, the park is open from Phrase réponse : During the summer, the park is open from 8 a.m.8 a.m. until until midnightmidnight

– Présence d’une EN du bon type, mais qui Présence d’une EN du bon type, mais qui ne correspond pas du tout à la réponsene correspond pas du tout à la réponse

o Question : Question : What is What is Marilyn MonroeMarilyn Monroe's real name?'s real name?Type attendu de la réponse : PersonneType attendu de la réponse : PersonnePhrase candidate : "the rumors about Phrase candidate : "the rumors about J.F. KennedyJ.F. Kennedy and and Marilyn MonroeMarilyn Monroe …« …«

Page 50: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

5050

Stratégie insuffisante Stratégie insuffisante (3/3)(3/3)

o Certaines questions n’attendent pas Certaines questions n’attendent pas une réponseune réponse ENEN

o De quel instrument Mozart jouait-il ?De quel instrument Mozart jouait-il ?o Comment est mort Micky Mantel ?Comment est mort Micky Mantel ?

o Nécessité de connaissances Nécessité de connaissances linguistiqueslinguistiqueso Recherche plus précise de la réponseRecherche plus précise de la réponseo Analyse de questions non ENAnalyse de questions non EN

Page 51: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

5151

Utilisation de l’analyse de la Utilisation de l’analyse de la questionquestion

o On dispose des informations suivantes :On dispose des informations suivantes :– Objet + autres mots de la questionObjet + autres mots de la question– Type attendu de la réponse - EN ou type Type attendu de la réponse - EN ou type

généralgénéral– Forme de la question et donc formulations Forme de la question et donc formulations

possibles de la réponsepossibles de la réponse

o Stratégies adoptées :Stratégies adoptées :– Recherche de reformulations de la questionRecherche de reformulations de la question

o Patrons syntaxiquesPatrons syntaxiques

Page 52: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

5252

Utilisation des informations Utilisation des informations lors de la recherche de la lors de la recherche de la

réponseréponseo Patrons syntaxiquesPatrons syntaxiques

Question : Question : What does What does Knight RidderKnight Ridder publish? publish?Forme de la question : WhatDoGNverbe Forme de la question : WhatDoGNverbe Formulation : GN verbe GNréponseFormulation : GN verbe GNréponse« « Knight RidderKnight Ridder published published 30 daily newspapers30 daily newspapers

… »… »o Stratégie efficace mais Stratégie efficace mais

– écriture manuelle fastidieuseécriture manuelle fastidieuse– pas toujours fiables : patrons de proximitépas toujours fiables : patrons de proximité– mettre en place des règles de vérificationmettre en place des règles de vérification

Page 53: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

5353

o XIP, un analyseur robusteXIP, un analyseur robusteo Les systèmes de questions-réponsesLes systèmes de questions-réponses Etude du système QALCEtude du système QALC

o Analyse des questionsAnalyse des questionso Analyse des phrases candidatesAnalyse des phrases candidatesRésultatsRésultats

o Exemple d’appariement syntaxiqueExemple d’appariement syntaxiqueo Evolution du domaine et perspectivesEvolution du domaine et perspectives

Page 54: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

5454

Résultats du système QALCRésultats du système QALC Sur les questions anglaises de la Sur les questions anglaises de la

campagne d’évaluation CLEF 2005campagne d’évaluation CLEF 2005

0

10

20

30

40

50

60

70

Pourcentage de réponses correctes

phrases (5 premiers rangs)

phrases (1er rang)

réponses (5 premiers rangs)

réponses (1er rang)

Page 55: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

5555

Outils externes principaux Outils externes principaux de QALC (et autres)de QALC (et autres)

Moteurs de rechercheMoteurs de recherche– MG en anglais, Lucene en françaisMG en anglais, Lucene en français

Etiqueteurs morpho-syntaxiquesEtiqueteurs morpho-syntaxiques– TreeTagger en anglais, TreeTagger+XIP en TreeTagger en anglais, TreeTagger+XIP en

françaisfrançais Analyseurs syntaxiquesAnalyseurs syntaxiques

– Cass en anglais, XIP en françaisCass en anglais, XIP en français Ressources terminologiquesRessources terminologiques

– Fastr pour variationsFastr pour variations– WordNet pour synonymes en anglaisWordNet pour synonymes en anglais

Page 56: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

5656

o XIP, un analyseur robusteXIP, un analyseur robusteo Les systèmes de questions-réponsesLes systèmes de questions-réponseso Etude du système QALCEtude du système QALC Exemple d’appariement syntaxiqueExemple d’appariement syntaxiqueo Evolution du domaine et perspectivesEvolution du domaine et perspectives

Page 57: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

5757

Pourquoi analyser les Pourquoi analyser les phrases réponses ?phrases réponses ?

Question : Who Question : Who killedkilled Lee Harvey OswaldLee Harvey Oswald??

Phrase réponse : Phrase réponse : Jack RubyJack Ruby, who , who killedkilled JFKJFK’s ’s assassin assassin Lee Harvey OswaldLee Harvey Oswald …. ….

Stratégies actuelles inefficacesStratégies actuelles inefficaces

Utilisation de relations syntaxiques :Utilisation de relations syntaxiques :

Question: sujet (?, Question: sujet (?, killkill) et objet () et objet (killkill, , L.H.O.L.H.O.))Réponse: sujet (Réponse: sujet (Jack RubyJack Ruby, , killkill) et objet () et objet (killkill, , L.H.O.L.H.O.))

Page 58: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

5858

Principe de l'appariementPrincipe de l'appariement

o Analyse syntaxiqueAnalyse syntaxique Who is the evil H. R. Director in Dilbert ?Who is the evil H. R. Director in Dilbert ?

sujetsujet (?, be) et (?, be) et attributattribut (Director, be) (Director, be)

o Recherche des relations de la question Recherche des relations de la question ou de reformulationsou de reformulations→ Catbert is the evil H. R. Director in Dilbert…Catbert is the evil H. R. Director in Dilbert…

sujetsujet (Catbert, be) et (Catbert, be) et attributattribut (Director, be) (Director, be) Catbert, the evil H. R. Director in Dilbert, …Catbert, the evil H. R. Director in Dilbert, …

appositionapposition (Catbert, Director) (Catbert, Director)

Page 59: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

5959

Méthodes pour Méthodes pour l’appariementl’appariement

o Appariement à partir des relations de Appariement à partir des relations de dépendancedépendance– Quel Quel formalisme de représentationformalisme de représentation pour les pour les

questions et les phrases candidates ?questions et les phrases candidates ?– Quel Quel mécanisme d’appariementmécanisme d’appariement ? ?

o Quelques possibilitésQuelques possibilités– Graphes + algorithme de relaxation de Graphes + algorithme de relaxation de

contraintescontraintes– Réseaux sémantiques + règles d’inférence Réseaux sémantiques + règles d’inférence – Représentation logique + démonstrateurReprésentation logique + démonstrateur

Page 60: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

6060

Un exemple d’appariement Un exemple d’appariement fondé sur les relations fondé sur les relations

syntaxiquessyntaxiqueso LCC (Language Computer LCC (Language Computer

Corporation) [Moldovan et al., 2002]Corporation) [Moldovan et al., 2002]– Analyse syntaxique des questions et des Analyse syntaxique des questions et des

phrases candidatesphrases candidates– Passage à une forme logiquePassage à une forme logique– Appariement question-réponse grâce à :Appariement question-réponse grâce à :

o Ressources sémantiquesRessources sémantiqueso Démonstrateur logiqueDémonstrateur logique

– Extraction de la réponseExtraction de la réponse

Page 61: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

6161

Architecture du systèmeArchitecture du système

Analyse syntaxique

Transformationsémantique

Reconnaissance du typeattendu de la réponse

Extraction de

mots-clefs

Passages

Recherche depassages

Index de

documents

Extraction dela réponse

Justification

Classement

Démonstrateur

Base de

connaissances

Question

Réponse

Traitement dela question

Traitement desdocuments

Extraction dela réponse

ReconnaissancedesEN

Hiérarchiedes types

de réponses

Collection dedocuments

Harabagiu et al., 2004(schéma simplifié, valable uniquement pour les questions factuelles)

Page 62: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

6262

Formes logiquesFormes logiques Représentation intermédiaire entre l’analyse Représentation intermédiaire entre l’analyse

syntaxique et une forme sémantique profondesyntaxique et une forme sémantique profonde Utilisation de relations de dépendance : sujets, Utilisation de relations de dépendance : sujets,

objets, rattachements prépositionnels…objets, rattachements prépositionnels…

ExempleExemple– Phrase : Heavy selling of Standard & Poor ‘s 500-stock Phrase : Heavy selling of Standard & Poor ‘s 500-stock

index futures in Chicago relentlessly beat stocks index futures in Chicago relentlessly beat stocks downward.downward.

– Forme logique : heavy_JJ(x1) & selling_NN(x1) & Forme logique : heavy_JJ(x1) & selling_NN(x1) & of_IN(x1,x6) & Standard_NN(x2) & &_CC(x13,x2,x3) & of_IN(x1,x6) & Standard_NN(x2) & &_CC(x13,x2,x3) & Poor_NN(x3) & ‘s_POS(x6,x13) & 500-stock_JJ(x6) & Poor_NN(x3) & ‘s_POS(x6,x13) & 500-stock_JJ(x6) & index_NN(x4) & future_NN(x5) & nn_NNC(x6,x4,x5) & index_NN(x4) & future_NN(x5) & nn_NNC(x6,x4,x5) & in_IN(x1,x8) & Chicago_NN(x8) & relentlessly_RB(e12) & in_IN(x1,x8) & Chicago_NN(x8) & relentlessly_RB(e12) & beat_VB(e12,x1,x9) & stocks_NN(x9) & downward_RB(e12)beat_VB(e12,x1,x9) & stocks_NN(x9) & downward_RB(e12)

x : variables, e : prédicatsx : variables, e : prédicats

Page 63: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

6363

Extended WordNetExtended WordNeto Enrichissement sémantique :Enrichissement sémantique :

– Wordnet :Wordnet : Base de données lexicaleBase de données lexicale Organisation : concepts (ensemble de synonymes)Organisation : concepts (ensemble de synonymes) Catégories de mots : noms, verbes, adjectifs et adverbesCatégories de mots : noms, verbes, adjectifs et adverbes Relations entre ces concepts : hyponymie, hyperonymie, méronymieRelations entre ces concepts : hyponymie, hyperonymie, méronymie

– Extended WordNetExtended WordNet : Transcription sous forme logique : Transcription sous forme logique de toutes les informations de WordNetde toutes les informations de WordNet

o Exemples d’utilisation d’Extended WordNet par LCC :Exemples d’utilisation d’Extended WordNet par LCC :– Q : How many chromosomes does a human zygote have ?Q : How many chromosomes does a human zygote have ?– A : 46 chromosomes that lie in the nucleus of every normal human cellA : 46 chromosomes that lie in the nucleus of every normal human cell– Chaîne lexicale formée :Chaîne lexicale formée :

zygote:n#1 -> HYPERNYM -> cell:n#1 -> HAS_PART -> nucleus:n#1zygote:n#1 -> HYPERNYM -> cell:n#1 -> HAS_PART -> nucleus:n#1

– Q : What Spanish explorer discovered the Mississipi River ?Q : What Spanish explorer discovered the Mississipi River ?– A : Spanish explorer Hernando de Soto reached the Mississipi River A : Spanish explorer Hernando de Soto reached the Mississipi River – Chaîne lexicale : Chaîne lexicale :

Discover:v#7 -> GLOSS -> reach:v#1Discover:v#7 -> GLOSS -> reach:v#1

Page 64: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

6464

Exemple d’appariementExemple d’appariemento QuestionQuestion

Which company created the Internet Browser Mosaic?

o Forme logique de la questionForme logique de la questionorganization AT(x2) & company NN(x2) & create organization AT(x2) & company NN(x2) & create VB(e1,x2,x6) & Internet NN(x3) & browser NN(x4) & VB(e1,x2,x6) & Internet NN(x3) & browser NN(x4) & Mosaic NN(x5) & nn NNC(x6,x3,x4,x5) Mosaic NN(x5) & nn NNC(x6,x3,x4,x5)

o Phrase réponsePhrase réponse(…) a program called (…) a program called MosaicMosaic , , developeddeveloped by the by the National National Center for Supercomputing ApplicationsCenter for Supercomputing Applications……

o Exemple de chaînes extraites de WordNetExemple de chaînes extraites de WordNet– Develop Develop make et make make et make create create

Page 65: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

6565

Exemples de difficultés Exemples de difficultés (1/2)(1/2) o Reconnaissance du texte brut, avec erreurs de frappe ou Reconnaissance du texte brut, avec erreurs de frappe ou

d’orthographed’orthographeo NiagraNiagra « Niagara »« Niagara » non reconnunon reconnu

o Erreur d’étiquetage morpho-syntaxiqueErreur d’étiquetage morpho-syntaxiqueo Where did the Maya people live?Where did the Maya people live? « live » étiqueté comme un nom« live » étiqueté comme un nom

o Mauvais type de réponse attenduMauvais type de réponse attenduo In what area of the world was the Six day War In what area of the world was the Six day War

fought?fought? typetype Quantity attendu au lieu de LocationQuantity attendu au lieu de Location

o What is the average life span of an agouti? What is the average life span of an agouti? typetype Average attendu au lieu de NumberAverage attendu au lieu de Number

Page 66: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

6666

o Mauvais mots-clefs dans la requête au moteur de Mauvais mots-clefs dans la requête au moteur de rechercherecherche

o « Where did the Battle of the Bulge take place ? » « Where did the Battle of the Bulge take place ? » place conservéplace conservé

o Expansion de requête incomplèteExpansion de requête incomplèteo « What is the murder rate in Windsor, Ontario ? » « What is the murder rate in Windsor, Ontario ? » phrase réponse contient «homicide»phrase réponse contient «homicide»

o Requêtes trop largesRequêtes trop largeso « Who was the first president of the U.S. ? » « Who was the first president of the U.S. ? » la réponse n’est pas dans les 500 premiers la réponse n’est pas dans les 500 premiers

documentsdocuments

o EN non reconnuesEN non reconnues

Exemples de difficultés Exemples de difficultés (2/2)(2/2)

Page 67: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

6767

Résultats TREC 2002Résultats TREC 2002o Tâche principaleTâche principale

CWS = Confidence-Weighted Score :scores pondérés par la confiance que les systèmes donnent à leurs réponses

Page 68: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

6868

o XIP, un analyseur robusteXIP, un analyseur robusteo Les systèmes de questions-réponsesLes systèmes de questions-réponseso Etude du système QALCEtude du système QALCo Exemple d’appariement syntaxiqueExemple d’appariement syntaxique Evolution du domaine et perspectivesEvolution du domaine et perspectives

Page 69: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

6969

Evolution du domaineEvolution du domaine

Evolution des réponses depuis 1er Evolution des réponses depuis 1er TREC : chaîne de 250 caractères à TREC : chaîne de 250 caractères à réponse préciseréponse précise

Evolution des types de questions Evolution des types de questions dans les évaluationsdans les évaluations– Questions « à thème » (TREC 2004)Questions « à thème » (TREC 2004)– Questions temporelles (CLEF 2005)Questions temporelles (CLEF 2005)

Page 70: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

7070

Catégories classiques de Catégories classiques de questionsquestions

Questions factuelles généralesQuestions factuelles générales– How many people live in Iceland?How many people live in Iceland?

Questions de définitionQuestions de définition– définir une personne : Who is Antonia Coello définir une personne : Who is Antonia Coello

Novello?‘Novello?‘– un groupe de personnes : What is Destiny's Child?un groupe de personnes : What is Destiny's Child?– ou un objet quelconque : What is Bollywood?, ou un objet quelconque : What is Bollywood?,

What is a quasar?What is a quasar? Questions ``listes'' qui attendent un ensemble Questions ``listes'' qui attendent un ensemble

de réponsesde réponses– Who are professional female boxers?, List the Who are professional female boxers?, List the

names of casinos owned by Native Americans.names of casinos owned by Native Americans.

Page 71: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

7171

Extensions : Extensions : Questions « à Questions « à thème » thème » (1/3)(1/3)

Plusieurs questions portant sur un même thèmePlusieurs questions portant sur un même thème

<target id = "8" text = "Black Panthers"><target id = "8" text = "Black Panthers"> <qa> <qa>

<q id = "8.1" type="FACTOID"><q id = "8.1" type="FACTOID"> Who founded the Black Panthers organization?Who founded the Black Panthers organization?</q></q>

</qa> </qa>

<qa><qa><q id = "8.2" type="FACTOID"><q id = "8.2" type="FACTOID"> When was it founded?When was it founded?</q></q>

</qa> </qa>

Bobby Seale

1966

Page 72: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

7272

Questions « à thème » (2/3)Questions « à thème » (2/3) <qa><qa>

<q id = "8.3" type="FACTOID"><q id = "8.3" type="FACTOID"> Where was it founded?Where was it founded?</q></q>

</qa> </qa>

<qa> <qa><q id = "8.4" type="LIST"><q id = "8.4" type="LIST"> Who have been members of the organization?Who have been members of the organization?</q></q>

</qa> </qa>

Oakland, California

Mumia Abu-Jamal, Jamil Abdullah Al-Amin, Bill Brent, Elaine Brown, Rap Brown, Tony Bryant, Stokeley Carmichael, Mark Clark, Eldridge Cleaver, Fred Hampton, David Hilliard, Ericka Huggins, Lonnie McLucas, Huey Newton, Elmer "Geronimo" Pratt, Alex Rackley, Bobby Rush, Bobby Seale

Page 73: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

7373

Questions « à thème » (3/3)Questions « à thème » (3/3)

<qa><qa><q id = "8.5" type="OTHER"><q id = "8.5" type="OTHER"> OtherOther</q></q>

</qa> </qa></target></target>

8.5 1 vital Black militant group. 8.5 2 vital Radical chic heroes of the 60's. 8.5 3 okay Emphasized multiculturalism.8.5 4 okay Emphasized community empowerment. 8.5 5 okay Hilliard later ran for Oakland City Council. 8.5 6 okay Seale later ran for Oakland mayor. 8.5 7 okay Rush later became congressperson. 8.5 8 okay Infiltrated by FBI COINTELPRO. 8.5 9 okay Provided health care to poor.

Page 74: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

7474

Questions « temporelles » Questions « temporelles » (1/2)(1/2)

CLEF 2005 : introduction des CLEF 2005 : introduction des questions temporellesquestions temporelles : :

– What newspaper was founded in Kiev What newspaper was founded in Kiev in 1994in 1994? ?

– Who played the role of Superman Who played the role of Superman before before being paralyzedbeing paralyzed? ?

– Who was the President of the United States of Who was the President of the United States of America America between 1976 and 1980between 1976 and 1980? ?

Page 75: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

7575

Questions « temporelles Questions « temporelles »(2/2)»(2/2)

Who praised Indurain for his « capacity for Who praised Indurain for his « capacity for sacrifice, class and healthy spirit of competition », sacrifice, class and healthy spirit of competition », when he won the Tour de France for the fourth when he won the Tour de France for the fourth time?time?

Who continued to be supplied with contaminated Who continued to be supplied with contaminated blood products blood products six months after an American six months after an American blood-screening test and heat-treatment process blood-screening test and heat-treatment process were available in other countries? were available in other countries?

Whose government broke off negotiations with Whose government broke off negotiations with the Tamil rebels, the Tamil rebels, following Dissanayake's murder?following Dissanayake's murder?

Page 76: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

7676

D’une langue à plusieurs…D’une langue à plusieurs… CLEF : CLEF :

– Question dans une langue, documents dans Question dans une langue, documents dans une autreune autre

– CLEF 2006CLEF 2006 Monolingue : bulgare, allemand, espagnol, français, Monolingue : bulgare, allemand, espagnol, français,

italien, néerlandais et portugaisitalien, néerlandais et portugais Autres langues sources : anglais, indonésien, Autres langues sources : anglais, indonésien,

roumainroumain Autre langue cible : anglaisAutre langue cible : anglais

Contexte de recherche : RI interlingue et Contexte de recherche : RI interlingue et multilinguemultilingue

Page 77: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

7777

Architecture du système Architecture du système bilinguebilingue

Analyse de la question

Moteur derecherche

Traitementdes

documents

Questionen français Fusion

Réponsesen anglais

Traductionvers

l’anglais

Termes enanglais

Questionsen anglais

Collectionde documents

Page 78: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

7878

Stratégies possiblesStratégies possibles

Traduction de la questionTraduction de la question– Avantages : une seule traduction assez fiableAvantages : une seule traduction assez fiable– Inconvénients : questions non grammaticalesInconvénients : questions non grammaticales

Traduction des termesTraduction des termes– Traductions mot à mot et validation des Traductions mot à mot et validation des

multitermes en corpusmultitermes en corpus– Avantages : analyse de la question sur une Avantages : analyse de la question sur une

question bien forméequestion bien formée– Inconvénients : bruit des traductionsInconvénients : bruit des traductions

Page 79: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

7979

Résultats des systèmes Résultats des systèmes bilinguesbilingues

Système du LIMSI, sur les questions de la tâche français vers Système du LIMSI, sur les questions de la tâche français vers anglais de CLEF 2005anglais de CLEF 2005– Traduction des questionsTraduction des questions

0

10

20

30

40

50

60

Pourcentage de réponses correctes

phrases (5 premiers rangs)

phrases (1er rang)

réponses (5 premiers rangs)

réponses (1er rang)

Page 80: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

8080

Difficultés de traductionDifficultés de traduction Forme syntaxiqueForme syntaxique

– Quand est mort Gengis Khan ?Quand est mort Gengis Khan ?When When dieddied Gengis Khan? Gengis Khan?

– Qu'est-ce que le GATT ?Qu'est-ce que le GATT ?What theWhat the GATT? GATT?

– Depuis quand Israël et la Jordanie sont-ils en guerre ?Depuis quand Israël et la Jordanie sont-ils en guerre ?Since when Israel and Jordan Since when Israel and Jordan they are atthey are at war? war?

Choix lexicaux de traductionChoix lexicaux de traduction– Dans combien de scandales fut impliqué Dans combien de scandales fut impliqué TapieTapie, lorsqu'il , lorsqu'il

était patron de Marseille ?était patron de Marseille ?In how many scandals was involved In how many scandals was involved HiddenHidden, when he , when he

was a boss of Marseille?was a boss of Marseille?– Quel Quel montantmontant Selten, Nash et Harsanyi ont-ils reçu pour le Selten, Nash et Harsanyi ont-ils reçu pour le

prix Nobel d'économie ?prix Nobel d'économie ?What What going upgoing up Selten, Nash and Harsanyi did they Selten, Nash and Harsanyi did they

receive for the Nobel prize of economy?receive for the Nobel prize of economy?

Page 81: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

8181

Quelques limitations des Quelques limitations des systèmes de QR actuelssystèmes de QR actuels

o Questions Questions factuelles ou encyclopédiquesfactuelles ou encyclopédiqueso Pas de traitement de Pas de traitement de l’ambiguïtél’ambiguïté dans dans

les questionsles questionso Réponses extraites Réponses extraites d’un seul documentd’un seul documento Peu de Peu de raisonnementraisonnement nécessaire nécessaireo Architecture des systèmes influencée Architecture des systèmes influencée

par les par les évaluationsévaluations

o Pas de modélisation de l’utilisateurPas de modélisation de l’utilisateur

Page 82: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

8282

Extensions possiblesExtensions possibles

o InteractivitéInteractivité– Q : Q : Quelle est la longueur d’un Boeing 747 ? Et Quelle est la longueur d’un Boeing 747 ? Et

sa hauteur ?sa hauteur ?

o Méthodes de raisonnement simplesMéthodes de raisonnement simples– Q : Q : Comment est mort Socrate ?Comment est mort Socrate ?– R : En buvant du vin empoisonnéR : En buvant du vin empoisonné

o Fusion d’informationFusion d’information– Q : Q : Comment fabriquer une bicyclette ?Comment fabriquer une bicyclette ?

o Capacités spéculatives, récapitulatives…Capacités spéculatives, récapitulatives…– Q : Q : Les Etats-Unis sont-ils sortis de la Les Etats-Unis sont-ils sortis de la

récession ?récession ?

Page 83: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

8383

En conclusion…En conclusion…

o Analyse syntaxique robuste = atout pour Analyse syntaxique robuste = atout pour les systèmes de Question-Réponseles systèmes de Question-Réponse

o Questions :Questions :– Détermination des informations nécessaires Détermination des informations nécessaires

à la recherche de la réponseà la recherche de la réponseo Phrases candidates :Phrases candidates :

– Possibilité de passage à un formalisme plus Possibilité de passage à un formalisme plus profondprofond

– Possibilité de lien avec des connaissances Possibilité de lien avec des connaissances sémantiquessémantiques

Page 84: Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique d'Orsay

8484

RéférencesRéférencesQuelques références…Quelques références…

o XIPXIPo Aït-Mokhtar S., Chanod J.-P., Roux C. (2002), Robustness beyond shallowness: Aït-Mokhtar S., Chanod J.-P., Roux C. (2002), Robustness beyond shallowness:

incremental deep parsing, Journal of incremental deep parsing, Journal of Natural Language EnginerringNatural Language Enginerring, Vol. 8 (3-, Vol. 8 (3-2). 2).

o QALC ou autres systèmes du LIMSIQALC ou autres systèmes du LIMSIo http://www.limsi.fr/Scientifique/lir/http://www.limsi.fr/Scientifique/lir/o L'extraction des réponses dans un système de question-réponse; A.-L'extraction des réponses dans un système de question-réponse; A.-

L. Ligozat, B. Grau, I. Robba, A. Vilnat, TALN 2006, Louvain, L. Ligozat, B. Grau, I. Robba, A. Vilnat, TALN 2006, Louvain, Belgique. Belgique.

o Evaluation and Improvement of Cross-Lingual Question Answering Evaluation and Improvement of Cross-Lingual Question Answering Strategies; A.-L. Ligozat, B. Grau, I. Robba, A. Vilnat, Workshop Strategies; A.-L. Ligozat, B. Grau, I. Robba, A. Vilnat, Workshop MLQA d'EACL, Trente, 2006. MLQA d'EACL, Trente, 2006.

o LCCLCCo http://http://www.languagecomputer.comwww.languagecomputer.como Dan I. Moldovan, Marius Pasca, Sanda M. Harabagiu, Mihai Surdeanu: Dan I. Moldovan, Marius Pasca, Sanda M. Harabagiu, Mihai Surdeanu:

Performance Issues and Error Analysis in an Open-Domain Question Performance Issues and Error Analysis in an Open-Domain Question Answering System. ACL 2002: 33-40 Answering System. ACL 2002: 33-40

o Evaluations Question-RéponseEvaluations Question-Réponseo TREC : TREC : http://http://trec.nist.govtrec.nist.gov/data//data/qa.htmlqa.htmlo CLEF : CLEF : http://http://clef-qa.itc.itclef-qa.itc.it//o Equer : Equer : http://http://www.technolangue.netwww.technolangue.net/article61.html/article61.html