24
La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-Belis ISSCO, Université de Génève http://www.issco.unige.ch/staff/andrei Isabelle Robba LIMSI, Orsay http://www.limsi.fr/Individu/isabelle Gérard Sabah LIMSI, Orsay http://www.limsi.fr/Individu/gs Journée ATALA du 18 novembre 2000

La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

Embed Size (px)

Citation preview

Page 1: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

La résolution de la référence et son évaluation: un

Atelier de Traitement de la Référence mettant en

œuvre les « représentations mentales »

Andrei Popescu-Belis ISSCO, Université de Génèvehttp://www.issco.unige.ch/staff/andrei

Isabelle Robba LIMSI, Orsayhttp://www.limsi.fr/Individu/isabelle

Gérard Sabah LIMSI, Orsayhttp://www.limsi.fr/Individu/gs

Journée ATALA du 18 novembre 2000

Page 2: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

22

CERVICAL

• Communication et Référence : Vers une Informatique Collaborant Avec la Linguistique

• Soutenu par le GIS Sciences de la Cognition (1996)

• Équipe Langue et Dialogue du LORIA (CNRS & INRIA)Groupe Langage et Cognition du LIMSI-CNRS

• Responsable scientifique : Anne Reboul (LORIA)

• Buts : solutions théoriques du problème de la référence et mises en œuvre pratiques

Page 3: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

33

La notion de « représentation mentale »

• Une approche sémantico-pragmatique de la référence

• Aspects principaux du projet :

– développement d’une sémantique-pragmatique de la référence

– développement d’outils informatiques compatibles

Page 4: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

44

• Intermédiaire entre la réalité des référents et le discours où apparaissent les expressions référentielles = une représentation de la situation

• Ensemble des données hétérogènes, perceptuelles, linguistiques et conceptuelles pertinentes relative au même objet

Deux missions pour la notion de représentation mentale

Page 5: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

55

Contenu d’une représentation mentale

• étiquette ou adresse• données encyclopédiques

– informations catégorielles• informations

sémantiques• informations

fonctionnelles – notations spécifiques

• entrée logique• aspects visuels

– image par défaut– notation visuelle

• informations spatiales– orientation intrinsèque– position et déplacements

• entrée lexicale{ER}

Page 6: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

66

Opérations sur les représentations mentales

• Création

• Modification

• Duplication

• Fusion

• Groupement

• Extraction

Page 7: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

77

Mise en œuvre informatique

Présentation par

• Andrei Popescu-Belis

• Isabelle Robba

Page 8: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

88

Les « représentations mentales »

• CERVICAL– RM : une structure gérant les propriétés des référents– opérations sur les RM en fonction des énoncés

• Solution de compromis adoptée :– « RM » = ensemble des expressions désignant une même

entité (objet, personnage) au long de la communication– « RM » = liste d’ER coréférentes dans un texte

programme « résolvant les références » dans les textes = regrouper les ER coréférentes

ressources et outils = évaluer le résolveur sur des textes narratifs, en français

Page 9: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

99

Réalisations : traitement de la référence

• Mécanisme du résolveur– pour chaque expression référentielle ER : – appliquer les contraintes de sélection pour déterminer les RM

compatibles avec l’ER– rattacher l’ER à la RM la plus active, ou créer une nouvelle RM– recalculer les activations des RM (en fonction de l’opération)

• Contraintes de sélection (ER ER)– sémantique, genre, nombre

• Heuristiques de combinaison (ER RM)– compatibilité avec x % des ER (0<x<100)

• Calcul de l’activation– nature de l’ER, position

• Taille de la mémoire des RM

Page 10: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

1010

Fonctionnement du résolveur

Pour chaque ER : contraintes de sélection (ERRMi)calcul des activations des RM

Page 11: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

1111

Atelier de traitement de la référence

Modules réalisés

Autres modules

Données ConversionSGML Objets

Gestion des UdT

Saisie des RMcorrectes

Analyseur LFG Fichier SGML

(avec ER, RM)

Sélection desER et analyse

Optimiseurdu RDR

Textesimple

Évaluateurdu RDR

Texte SGMLavec ER et RM

balisées

Texte SGMLavec ERbalisées

UNITÉ DETRAITEMENT n°i

• texte structuré • liste ER • liste RM • liste RM correctes

RÉSOLVEUR DERÉFÉRENCES (RDR)

• calcul de la compatibilitéréférentielle (ERRM)

• calcul de l’activation(RM)

Résultats : nécessitent le calcul de la qualité d’une réponse

Page 12: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

1212

Les ressources textuelles

Utilisées à la fois pour tester et pour évaluer les méthodes mises en œuvre. Deux textes littéraires ont été choisis :

• Une nouvelle tirée des Chroniques Italiennes de StendhalEncodé au Limsi en SGML : toutes les ER ont été étiquetées, ainsi que les RM

• Le premier chapitre du Père Goriot de BalzacEncodé au Loria en SGML : les ER correspondant aux principaux personnages, lieux et objets ont été étiquetées, ainsi que les RM

Les ER sont ensuite converties en objets (du langage Smalltalk), puis analysées par l’analyseur LFG développé au LIMSI.

Les RM sont engendrées automatiquement à partir des étiquettes SGML. Elles constituent la clé permettant l’évaluation.

Page 13: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

1313

VA LPG éq. LPG

Mots 2630 7405 28576

ER 638 686 3359

RM 372 216 480

ER / RM 1.72 3.18 7.00

ER nominales 510 390 1864

ER pronominales 102 262 1398

ER non analysées 26 34 97

VA : Vittoria Accoramboni, Stendhal LPG : Le Père Goriot, BalzacLPG éq. : les 10 premières pages de LPG

Amélioration des ressources- autres types de textes : documentation technique, articles de journaux ...- automatisation de l’analyse des ER et ajout de connaissances sémantiques

Caractéristiques des textes utilisés

Page 14: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

1414

Le problème de l’évaluation

• Évaluer un système de TAL– mesurer sa « qualité » ou son utilité par rapport à une tâche

et éventuellement un type d’utilisateur– ici, mesurer la capacité de notre résolveur (ou d’un autre) à

regrouper les ER coréférentes

• Proposition d’un modèle formel– mesure de qualité : distance entre une clé (réponse

correcte) et une réponse (du système)

• Critères de cohérence des mesures de qualité– savoir quand une mesure atteint 0%– savoir quand une mesure atteint 100%– savoir comparer deux mesures (sévérité relative)

Page 15: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

1515

Évaluation de la résolution de la référence: exemple

CLÉLe sommet Ouest(1) se trouve à 3854m. Pour l'(2)atteindre, emprunter sur 150m un petit couloir(3) qui(4) est souvent glacé. Ce couloir(5) démarre derrière le sommet Sud(6) (3742m), qui(7) est, lui(8), facile à atteindre. Ce deuxième sommet(9) est bien visible, car il(10) est très saillant. Pour rejoindre ce petit bastion(11), on doit le(12) viser depuis le grand couloir inférieur(13), assez facile à gravir. Bien qu'il(14) soit initialement large, celui-ci(15) se(16) resserre peu à peu. Attention, ce rassurant entonnoir(17) reste très longtemps enneigé.

RÉPONSELe sommet Ouest(1) se trouve à 3854m. Pour l'(2)atteindre, emprunter

sur 150m un petit couloir(3)

qui(4) est souvent glacé. Ce couloir(5) démarre derrière le sommet Sud(6) (3742m), qui(7) est, lui(8), facile à atteindre. Ce deuxième sommet(9) est bien visible, car il(10) est très saillant. Pour

rejoindre ce petit bastion(11), on

doit le(12) viser depuis le grand couloir inférieur(13), assez facile à

gravir. Bien qu'il(14) soit initialement

large, celui-ci(15) se(16) resserre peu à peu. Attention, ce rassurant entonnoir(17) reste très longtemps enneigé.

Page 16: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

1616

Une représentation des réponses

• On suppose que le système dispose des ER correctes

• Analyse de l’exemple :

K1 : 1, 2

K2 : 3, 4, 5

K3 : 6, 7, 8, 9, 10, 11, 12

K4 : 13, 14, 15, 16, 17

R1 : 1, 2, 6, 7, 8, 9, 10

R2 : 3, 4, 5, 11, 12, 13, 14, 15, 16

R3 : 17

Qualité de la réponse : distance par rapport à la partition correcte du même ensemble d’ER

Page 17: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

1717

Mesures existantes et proposées

• Utilisation des liens de coréférences – Les partitions sont les classes d ’équivalence pour la relation

de coréférence (ensembles d ’ER coréférentes)

~ Rappel : nombre de liens trouvés parmi les liens corrects

~ Précision : nombre de liens corrects parmi le total de liens postulés

• Inconvénients des mesures existantes – mesure MUC : indulgente, fondée sur la coréférence ( RM) – mesure B3 : plus indulgente, n’atteint jamais zéro – mesure : un seul nombre, à partir de MUC

• Mesures proposées– mesures C (noyaux) et XC (noyaux exclusifs) : plus sévères– coefficients distributionnels : indicatifs– mesure entropique exemple

Page 18: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

1818

Théorie de l’information et référence

… expr1… … expr2… … expr3…

• Application du modèle du canal de communication à l’information référentielle

… expr6…

Variable aléatoire source K

Événement = production d’une ER

Valeur = « référent émis »

Variable aléatoire récepteur R

Événement = le même

Valeur = « référent compris »

… expr11…

Page 19: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

1919

Théorie de l’information et référence

• L’information moyenne de la v.a. source H(pK)ou entropie de la distribution de probabilité pK

information référentielle source H(PK) % la partition clé

• L’information moyenne de la v.a. récepteur H(pR) ou entropie de la distribution de probabilité pR

information référentielle récepteur H(PR) % la partition réponse

• L’information moyenne véhiculée par le récepteur à propos de la source H(pK)–H(pK|pR) pertes d’information référentielle H(PK|PR)

• L’information moyenne véhiculée par la source à propos du récepteur H(pR)–H(pR|pK) gains injustifiés d’information référentielle H(PR|PK)

Page 20: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

2020

• Calcul de l’entropie H(..) et l’entropie conditionnelle H(..|..) grâce aux corrélations statistiques entre représentations mentales de l’émetteur et du récepteur

• Théorème : H(PR) = H(PK)  – H(PR|PK) + H(PK|PR)

Interprétation : information référentielle

Information référentielle

émise

Pertes en ligne

Gainsinjustifiés

Information référentielle

reçue

• Théorème : les représentations de l’émetteur et du récepteur sont identiques (compréhension parfaite) si et seulement si il n’y a ni pertes en ligne ni gains injustifiés

Page 21: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

2121

Rappel et précision entropiques

• Rappel = quantité d’information pertinente dans l’information

reçue : [ H(PR)–H(PR|PK) ] / H(PR)

• Précision = quantité d’information pertinente reçue par rapport

à l’information transmise : [ H(PK)–H(PK|PR) ] / H(PK)

• Avantages– interprétation cohérente d’un modèle théorique existant

– nombreuses propriétés démontrables

– possibilité de vérifier les critères de cohérence des mesures

– possibilité de décrire tous les cas d’égalité à zéro

– application à la fois à la compréhension de textes et à la

communication entre agents

Page 22: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

2222

Évaluation numérique du RDR

• Textes utilisés– VA : 638 ER 372 RM-clé

– LPG : 3359 ER 480 RM-clé

– LPG.eq : 686 ER 216 RM-clé

• Résultats dans la meilleure configuration du système

– f-mesure : 2 / (1/r + 1/p)

MUC B3 C XC H

VA .74 .75 .57 .50 .74 .89

LPG.eq .69 .53 .20 .39 .50 .71

LPG .78 .43 .09 .43 .44 .61

Page 23: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

2323

Résultats obtenus

• Optimum de la mémoire des référents : ~20 RM

• Optimisation automatique des paramètres numériques :– gains d’environ 2-3% sur VA et LPG.eq– optimisation indépendante du texte (sur les 3 textes)

• Mesure de la pertinence des règles :– la contrainte de sélection la plus importante est la compatibilité

sémantique, puis l’accord en genre

– les heuristiques suivantes ne semblent pas pertinentes :• ER indéfinie créer une nouvelle RM

• ER définie rattacher cette ER à une RM existantenécessité de distinguer des « cas référentiels » plus fins

Page 24: La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

2424

Conclusion

• Atelier de Traitement de la Référence– résolveur de références dans les textes– balisage de ressources, outils– évaluation : nouvelles mesures de qualité, preuves– méthodes d’analyse des résultats numériques

• Perspectives– ajout incrémental de connaissances en préservant la robustesse– implémentation des résultats théoriques sur les RM– utilisation des cas référentiels mis en évidence– intégration à « CARAMEL »

• résolveur de références : « processus conscient »

– intégration à des applications