30
30 mars 01- A3CTE P.Paroubek / Limsi-CNRS Programmes d’évaluation pour le traitement de la langue écrite et de la parole Patrick Paroubek / Limsi-CNRS [email protected] Journée A3CTE: L’évaluation 30 mars 2001, La Pitié Salpétrière

Programmes d’évaluation pour le traitement de la langue écrite et de la parole

  • Upload
    shona

  • View
    30

  • Download
    2

Embed Size (px)

DESCRIPTION

Journée A3CTE: L’évaluation 30 mars 2001, La Pitié Salpétrière. Programmes d’évaluation pour le traitement de la langue écrite et de la parole. Patrick Paroubek / Limsi-CNRS [email protected]. Plan. 1 Le paradigme d’ évaluation 2 Les Etats-Unis 3 L’ Europe 4 Un exemple heureux: GRACE / MULTITAG - PowerPoint PPT Presentation

Citation preview

Page 1: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

Programmes d’évaluation pour le traitement de la langue écrite et de la

parole

Patrick Paroubek / [email protected]

Journée A3CTE: L’évaluation 30 mars 2001, La Pitié Salpétrière

Page 2: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

1 Le paradigme d’ évaluation

2 Les Etats-Unis

3 L’ Europe

4 Un exemple heureux: GRACE / MULTITAG

5 L’avenir

Plan

Page 3: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

évaluation comparative de technologie

• Utilisée avec succès aux USA par le DARPA et le NIST (depuis 1984)

• Échelle plus réduite en Europe (Sqale, Grace, Senseval, CLEF, Amaryllis, ARC-AUF…)

• Choisir une tâche• Rassembler des participants• Organiser la campagne

(protocoles/mesures/données etc.)• nécessaire en fonction de l’état de la technologie

Page 4: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

Bénéfices

• Information partagée par les participants: comment obtenir les meilleurs résultats? Partage de données

• Informations obtenues par les commanditaires: performance de technologies, progrès/investissement, fixer les priorités

• Information obtenues par les industriel et les chercheurs non-participants: état de l’art, choix des technologies, stratégie de marché, nouveaux produits.

Page 5: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

TARGET

PRECISION

RECALL

A

S1

S2

S3

S4

XEROX

0,0

0,2

0,4

0,6

0,8

1,0

0,0 0,2 0,4 0,6 0,8 1,0

N

S1

S2

S3

S4 XEROX

0,0 0,2 0,4 0,6 0,8 1,0

V

S1

S2

S3

S4XEROX

0,0

0,2

0,4

0,6

0,8

1,0

0,0 0,2 0,4 0,6 0,8 1,0

ALL

S1

S2

S3

S4 XEROX

0,0 0,2 0,4 0,6 0,8 1,0

transp. de J. Mariani / Limsi-CNRS

Page 6: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

TEST P0 - RE

0,00

10,00

20,00

30,00

40,00

50,00

60,00

l02m l0

6fl17f

l13f

l20m l1

8fl12m l0

4fl19m l1

4f

Locuteurs

Ta

ux

d'E

rre

ur

P0-1

P0-2

P0-3

P0-4

P0-5

P0-c

transp. de J. Mariani / Limsi-CNRS

Page 7: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

SPEAKING RATE ...

ERROR RATE vs SPEAKING RATE

-0,2

0

0,2

0,4

0,6

0,8

Systèmes

Co

ef.

Co

rré

lati

on

Serie1 0,334806 0,6502868 -0,035978 -0,130378 -0,047449

SII-1 SII-2 SII-3 SII-4 SII-5

DELETION vs SPEAKING RATE

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

Systèmes

Co

eff

icie

nt

de

Co

rré

lati

on

Serie1 0,67111342 0,78953743 0,46185723 0,5629943 0,40595503

SII-1 SII-2 SII-3 SII-4 SII-5

INSERTION vs SPEAKING RATE

-0,6

-0,5

-0,4

-0,3

-0,2

-0,1

0

SystemesC

oe

ff.

Co

rré

lati

on

Serie1 -0,118368 -0,3814003 -0,5382499 -0,4911884 -0,2979311

SII-1 SII-2 SII-3 SII-4 SII-5

SUBSTITUTION vs SPEAKING RATE

-0,4

-0,3

-0,2

-0,1

0

0,1

0,2

0,3

0,4

0,5

Systèmes

Co

eff

. d

e C

orr

éla

tio

n

Serie1 0,16731504 0,45790744 0,1449405 -0,3040958 -0,2083695

SII-1 SII-2 SII-3 SII-4 SII-5

CAT. II

transp. de J. Mariani / Limsi-CNRS

Page 8: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

Page 9: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

• Évaluation de Technologie– Attirer des participants

– Générique / performance seules– Être peu éloignée d’une application réélle

• Évaluation utilisateur– application / langage spécifique– satisfaction de l’utilisateur / performance

é

Dans les 2 cas, les étapes d’une campagne:

entraînement, essais, tests, étude d’impacte

Page 10: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

Ressources Langagières • Données de Référence construites manuellement

(coût + cohérence + guides)

• Taille Minimale des unités élémentaires

• Critères de Qualité Minimaux

• Représentativité des Phénomènes de Langue

• Réutilisabilité & Multilingualité

• Les produits de l’ évaluation deviennent des Ressources

Page 11: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

Les Acteurs

Commission EuropéenneELRA

ParticipantsÉvaluateurs

Utilisateurs & Consommateurs

(UE/ non UE)

Producteurs R.L.

Recherche Industrie Citoyens

Page 12: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

Partie 2: Évaluation aux USA (écrit)

• Programme Tipster (DARPA & NIST)

• MUC-1 (1987) to MUC-7 (1998)

• MET-1 (1995) and MET-2 (1998)

• TREC-1 (1992) to TREC-7 (1998)

• SUMMAC

• MT Evaluation (1992, 1993, 1994)

Page 13: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

Evaluation aux USA (Parole)

• CSR (DARPA) read & found english, 89-97

• LVCSR conversationnel, multilingue

• ATIS (DARPA)

• DARPA/NSF en 1998 (multilingue):– Extraction d ’entité nommées– Détection et suivit de thèmes– Transcription de nouvelles – COMMUNICATOR

Page 14: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

Evaluation aux USA (maintenant)

COMMUNICATOR dialogue oral pour la réservation de transport, l’hébergement et planification d’ itinéraire

TIDES extraction d’information interlingue, traduction et résumé automatique

Page 15: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

Evaluation aux USA (bientôt)

AQUAINT (Defense Ministry) programme de l’ ARDA, extraction d'information étendue en amont et en aval sur des données multimodales, pour incorporer des connaissances à des données factuelles du types de celles manipulées dans les évaluations TREC

ITR (NSF) recherche en technologie de l'information), dont le budget passe de 199 a 215 millions de dollars

Page 16: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

Evaluation aux USA (bientôt)

SYMPHONY (DARPA) suite de COMMUNICATOR et dont les objectifs sont : la reconnaissance de la parole robuste en milieu bruité, le compte rendu automatique de réunion, la fusion de données multimodales, l'interprète automatique, les interfaces homme-machine dialogiques, la traduction automatique (déjà présente dans le programme TIDES), et l'exploitation rapide et automatique de langues nouvelles (programme PUSH).

Page 17: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

Les directions de recherche favorisées par le DARPA:

les technologies robustes à large couverture,les technologie de base largement réutilisables, la multilingualité, le partage des données ( LDC)les corpus arborés (U. Penn)

les évaluation comparatives supportées par des métriques quantitatives,

les expériences d'intégration et de faisabilité

L’objectif à plus long terme étant la compréhension du langage.

Page 18: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

Partie 3: Evaluation en Europe

• EAGLES• TSNLP• DIET• TEMAA• SQALE• SPARKLE• DISC• MATE

• COCOSDA• SAM & SAM-A• Morpholympics• Actions de recherche

concerté de l  ’AUPELF

• GRACE (CNRS)• VerbMobil• ELSE

Page 19: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

Evaluation en Europe

CLEF: recherche d’information interlingue (fin Sept. 01)

SENSEVAL-2 : désambiguïsation sémantique (fin Juin 01)

SMARTKOM: nouveau projet d’évaluation allemand.

CLASS: projet européen (NIS, DFKI, ITC-IRTS, LIMSI)3 clusters thématiques & évaluation

Page 20: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

CLASS Evaluation WEB subsite URL: http://www.limsi.fr/TLP/CLASS

Available now: Proceedings of the LREC2000 satellite CLASS workshop on evaluation.

EACL 2OO1, Toulouse, atelier (2 jours) “Evaluation for Language & Dialog Systems”Appel à contribution ouvert !

CLASS

Page 21: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

Partie 4:

Les projets GRACE et MULTITAG du CNRS.

http://www.limsi.fr/TLP/graceGRACE: campagne d’ évaluation de

l’annotation morpho-syntaxique du français MULTITAG: la production économique de

ressources linguistiques de grande qualité à partir des résultats de GRACE.

Page 22: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS P.Paroubek / Limsi-CNRS

GRACE, évaluation d'étiquetage morpho-syntaxique pour le français, 21 participants, 5 pays:

3 phases: entraînements (10 millions de mots),essais (450.000), test (836.500)

17 participants aux essais, 13 participants aux tests finaux

mesure précision/décision, sur 20.000 mots, puis 40.000 mots.étiquettes EAGLES et MULTEXT

Page 23: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

000000 Au DTC:sg000001 cours SBC:sg000002 de PREP

000000 Au Sp+Da-ms-d000001 cours Ncfs|Ncms000002 de Da----i|Da-fp-i|Da-mp-i|Sp

Formatter (15 systèmes différents pour les tests)

Projection des étiquettesdans le jeu GRACE

000000 Au Sp/1.3 6/14[0.428571] 1/4[0.25] 1/14[0.0714286]000001 cours Ncms|Sp/2.3 6/15[0.4] 1/2[0.5] 3/15[0.2]000002 de Sp 7/13[0.538462] 1/2[0.5] 4/13[0.307692]

CombinaisonVote &Mesure deconfiance

P.Paroubek / Limsi-CNRS

Page 24: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

•Meilleur (P, Dmax): score( P, D ): (0.948489 , 1.000000) intervalle[Pmin, Pmoy, Pmax]: [0.948489 , 0.948489 , 0.948489 ]

• Meilleur P: score( P, D ): (0.978802 , 0.256331) intervalle[Pmin, Pmoy, Pmax]: [0.251084 , 0.404534 , 0.952951 ]

•Vote 15 systèmes: score( P, D ): (0.936202 , 0.961558) intervalle[Pmin, Pmoy, Pmax]: [0.903685 , 0.917102 , 0.933155 ]

•Vote 5 meilleurs P: score( P, D ): (0.966567 , 0.928952) [Pmin, Pmoy, Pmax]: [0.902195 , 0.925850 , 0.961424 ]

P.Paroubek / Limsi-CNRS

Page 25: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

Page 26: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

000000 Au Sd{1}|Sd/1.3{2}|Sp{1}|Sp+D[ad]-ms-d{1}|Sp+Da-ms-d{5}|Sp/1.2{1}|Sp/1.3{6}|Sp/1.4+Sp/2.4{1}

000001 cours Ncfp{3}|Ncfs{1}|Ncmp{2}|Ncms{6}|Sd/2.3{2}|Sp/2.2{1}|Sp/2.3{6}|Sp/3.4{1}|Vmip1s-{2}|Vmip2s-{2}|Vmmp2s-{2}

000002 de Da----i{3}|Da-fp-i{2}|Da-mp-i{3}|Di-fp--{1}|Di-fs--{1}|Di-mp--{1}|Di-ms--{1}|Sd/3.3{2}|Sp{7}|Sp/3.3{6}|Sp/4.4{1}

Apprentissage Automatique / Combiner plusieurs méthodes pour améliorer les résultats Ada Boost (Schwenk, 1999), cascade de sytèmes similaires pour la reconnaissance de parole.

Plus loin dans le temps, stratégie du Winner Take All compétition en unités similaires de traitement (Simpson 1990)

Page 27: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

Combiner pour améliorer

NIST, reconnaissance de la parole ROVER - Recognizer Output Voting Error Reduction (Fiscus 1997)

Système composite, meilleur performance que le meilleur des systèmes.

Graphe de mot (alignement), vote à majorité (pondéré par la fréquence maximale d'occurrence et un score de confiance).

Réduction d'erreur mesurée par Fiscus: 5,6 % en absolu (et 12,5% en relatif).

Principe de combinaison de systèmes utilisé par Marquez & Prado 1998 (combinaison de 2 étiqueteurs pour marquer un corpus)

Tufis 1999 (plusieurs versions du même système entraîné sur des données différentes)

Page 28: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

Validation

Phase 1: 38643 formes (4 % des 836500 formes) relues pour la catégorie et la sous-catégorie

Phase 2: 64061 formes (8 % des 836500 formes) relues pour les indications de genre, nombre et personne

Validation: sélection aléatoire de 511 formes, 53 formes identifiées comme douteuses (pas de décision de vote); 27 d'entres elles n'étaient pas correctement étiquetées (erreur de relecture, ou erreur ou ambiguïté résiduelle; traits autres que G, N, P), c.a.d. env. 50 % (+-13% avec risque 95%)

Inversement sur 458 formes qui n'étaient pas à relire, seules 10 étaient mal étiquetées, ce qui représente un taux d'erreur résiduelle de 2,18% (+-1.34% avec risque 95%)

Page 29: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

CONCLUSION de la Partie 4

La campagne GRACE et l'expérience MULTITAG ont prouvé que le paradigme d'évaluation peut servir à produire de manière économique des ressources linguistiques validées de qualité.

La généralisation à d'autre tâches de contrôle permettrait d'augmenter rapidement la quantité de données annotées et validées tout en permettant de déployer le paradigme d'évaluation plus avant.

Page 30: Programmes d’évaluation pour le traitement de la langue écrite et de la parole

30 mars 01- A3CTE P.Paroubek / Limsi-CNRS

Partie 5: NO FUTURE?

Aller évaluer aux USA ?

Ouvrir l’Europe aux USA ?

Une infrastructure européenne descendante (peu probable)

Un institut européen d’évaluation ?

Une infrastructure européenne ascendante (initialisationpar des campagnes bilatérales), plus probable mais a plus long terme.