41
automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui Directrices de thèse : N. Vigouroux R. André- Obrecht Soutenance de thèse en vue de l’obtention du doctorat d’informatique

Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Embed Size (px)

Citation preview

Page 1: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Analyse, modélisation, et détection automatique

des disfluences dans le dialogue oral spontané contraint :

le cas du Contrôle Aérien

Jean-Léon Bouraoui

Directrices de thèse : N. Vigouroux R. André-Obrecht

Soutenance de thèse en vue de l’obtention du doctorat d’informatique

           

Page 2: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 2

Plan de la

présentation

Problématique et contexte

Analyse linguistique

Modélisation et reconnaissance automatique des disfluences

Validation

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 3: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 3

Plan de la

présentation

Problématique et contexte

Analyse linguistique

Modélisation et reconnaissance automatique des disfluences

Validation

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 4: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 4

Problématiques

Linguistiques : Un phénomène de l’oral spontané est-il dépendant

du contexte linguistique dans lequel il apparaît ? Si oui, quelles sont les caractéristiques résultantes

?

Cognitives : Influence d’une tâche particulière sur les

performances cognitives d’un opérateur Que nous apprennent les disfluences sur l’état

mental de l’opérateur ?

Interaction : Améliorer la robustesse de tout dispositif oral

sensible aux disfluences

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

 

Page 5: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 5

Le contrôle de trafic aérien

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 6: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 6

La phraséologie du contrôle aérien

Définition : l’ensemble des mots et des règles que doit respecter la production d’un message

Rôle : permettre une communication rapide, intelligible, et non-ambiguë

Caractéristiques (Falzon, 1982, 1989) : Lexique restreint, finalisé à l’application Fréquences disparates d’utilisation Langage restreint

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 7: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 7

Pilote : « ENAC Cotam 203 bonjour le niveau 180 route Balon »

Contrôleur : « Cotam 203 bonjour maintenez 180 route Balon Poitiers Absis Nantes euh rappelez Poitiers »

Pilote : « 180 Balon Poitiers Absis Nantes je vous rappelle à Poitiers Cotam 203 »

Exemple de dialogue

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 8: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 8

Définition(s) des disfluences (1)

Première définition : tout phénomène qui altère la fluence (préfixe grec : dys)

Différentes classifications et terminologies selon les auteurs

Sources des différences : Cause des disfluences Type de manifestation Unités affectées, etc.

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 9: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 9

Auteurs Shriberg (1994) Candea (2004) Henry et Pallaud (2002, 2003 2004)

Kurdi (2003)

Nature du corpus

3 corpus avec des situations

variées de dialogues oraux

spontanés

Histoires racontées

oralement par des enfants

Corpaix : dialogues

oraux spontanés

(différentes situations)

Négociations de transport de

marchandises

Phénomènes étudiés/termi-

nologie employée

RépétitionsPauses pleinesTermes explicites d’éditionMarqueurs du discoursFragments de motsInsertionsSuppressionsSubstitutions

Pauses silencieuses« euh » dits d’hésitation Allongements vocaliquesRépétitionsAutocorrection

RépétitionsPausesFragments de mots (ou amorces) :

oInachevésoComplétésoModifiés

Extragrammaticalit-és lexicales :

oPausesoMots orauxoMots incomplets, amalgames.

Extragrammaticalit-és Supralexicales :

oRépétitionsoAuto-correctionsoFaux-départo Incomplétudes.

Définition(s) des disfluences (2)

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 10: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 10

Plan de la présentation

Problématique et contexte

Analyse linguistique

Modélisation et reconnaissance automatique des disfluences

Validation

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 11: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 11

Méthodologie

Objectif : identifier les différents types de disfluences, leur distribution, et leurs mode de manifestations

Démarche : Méthodologie de transcription Analyse linguistique de deux corpus du

domaine de tâche Comparaison des résultats avec des

études sur des corpus non contraints

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 12: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 12

Répétition : un mot ou groupe de mots apparaît plus d’une fois consécutivement. Uniquement les mots « complets » pas des fragments de mots ou des hésitations par exemple.

station station calling euh repeat your callsign

Hésitation : le « euh » d’hésitation maintenons niveau 1 0 0 Poitiers Amboise euh Lacan

Amorce : la production d’un mot s’arrête avant la fin

TAT G I [mont] euh montez niveau 1 7 0

Terminologie adoptée (1)

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 13: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 13

Terminologie adoptée (2)

Fragment de mot : un ou plusieurs phonèmes inidentifiables, contrairement aux amorces

due to [ou] due traffic euh descend level 9 0

Allongement : allongement d’une unité phonétique, > 0,2 sec.1 1 8 3 5 D [allongement] I K C C good bye sir thank you

Pause longue : pause > 0,2 sec. Britair 510 B X contactez euh [...] ENAC 123 décimale 8

(Auto)-correction : le locuteur s’aperçoit que l’énoncé qu’il est en train de produire (ou un de ses énoncés précédents) comporte une erreur, et cherche à rectifier celle-ci

Euh Air Littoral euh 23 10 euh euh correction Air Littoral euh [vingtr] euh 231 O M

montez euh descendez niveau 1 6 0 vitesse 200 Kts minimum

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 14: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 14

Corpus d’étude (1)

Nombre moyen de mots par énoncé

Durée totale des dialogues

Nombre d'énoncés

Nombre de mots

Pourcentage d'énoncés en

anglais

Pourcentage d'énoncés en

français

6,67 36h50mns 11 427 76 306 48% 52%

Contexte d’enregistrement : dialogues

de «pseudo pilotage » Entraînement et évaluation des

contrôleurs aériens en formation Dispositif:

Le contrôleur est dans un environnement similaire à celui de son futur travail

Les avions virtuels (jusqu’à 30) sont simulés par une seule personne: le « pseudo-pilote »

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 15: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 15

Corpus d’étude (2)

Nombre moyen de mots par énoncé

Durée totale des

dialogues

Nombre d'énoncés

Nombre de mots

Pourcentage d'énoncés en

anglais

Pourcentage d'énoncés en

français

9,56 60 h 12 546 120 000 57% 43%

Contexte d’enregistrement : dialogues en situation « réelle » de contrôle aérien : dialogues «en route »

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 16: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 16

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Répétitions

Hésitations

Amorces et

Fragment de mots

Allongement

Pause longue

(Auto)-correctio

n

Nombre / % (parrapport

au nombre total demots)

0,03% 3.38% 0.47% 0.9% 1.08% 2,46%

Distributions des principaux

types de disfluences (1)

Page 17: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 17

Distributions des principaux

types de disfluences (2)

Hésitations; 2583; 63%Répétitions; 20; 0,49%

Amorces; 75; 2%

Pauses longues; 202; 5%

Fragments de mots; 287; 7%

Allongements; 725; 18%

Auto-corrections (complètes et amorces);

192; 5%

Hésitations

Répétitions

Amorces

Pauses longues

Fragments demots

Allongements

Auto-corrections(complètes etamorces)

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 18: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 18

Un sujet d’étude particulier: les corrections et auto-

corrections

Corrections et auto-corrections marqueurs de l’erreur, utiles dans le contrôle du trafic aérien

Etude primordiale pour le design des stratégies de dialogue dans un système interactif

Indices sur la manière dont un locuteur peut intervenir sur le discours de l’autre, ou sur son propre discours

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 19: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 19

Typologie des erreurs

Erreur sur un « mot » : Une donnée alpha-numérique ; par exemple l’indicatif d’un avion (« Britair 452 »), une

position (« 9 0 »), une ville (« Paris »), etc. Une commande, telle qu’un ordre, comme « grimpez », « demande », etc.,

France Air France 44 30 contact ENAC 129 123 décimale 8 .

Erreur sur l’organisation de l’énoncé : un mot ou un groupe de mots n’occupe pas sa position correcte dans l’énoncé.

[poi] Absie Poitiers Balon Reson Britair B X

Erreur sur la langue utilisée : le locuteur remarque (ou bien on lui fait remarquer) qu’il n’a pas parlé dans la langue appropriée : français à la place de l’anglais ou vice versa.

Air Vendée 333 K Q euh speed maximum vitesse maximum 210 Kts

Erreur de prononciation : comme son nom l’indique…

c’est le [lio] Littoral

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 20: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 20

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Typologie des erreurs: distribution

Erreur de prononciation; 9; 5%

Erreur sur l'organisation de

l'énoncé; 41; 21%

Erreur sur la langue utilisée; 19; 10% Erreur sur un "mot" ;

123; 64%

Erreur sur un "mot"

Erreur sur la langueutilisée

Erreur sur l'organisationde l'énoncé

Erreur de prononciation

Page 21: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 21

Bilan de l’analyse linguistique

Grandes différences entre les disfluences de nos corpus et celles de corpus non contraints :

Niveau quantitatif : distribution très faibleNiveau qualitatif : modes de manifestation

différents (par exemple, simplicité de la structure des répétitions, cf. Henry, 2002, 2004)

Hypothèses explicatives :Attention accrue de l’opérateur sur la tâcheLa contrainte de la tâche facilite le processus de

planification de la production orale (cf. Oviatt, 1995) Au niveau interactionnel, les indices lexico-

syntaxiques ne suffisent pas à identifier les disfluences

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 22: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 22

Plan de la présentation

Problématique et contexte

Analyse linguistique

Modélisation et reconnaissance automatique des disfluences

Validation

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 23: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Traitement automatique des disfluences : quel intérêt dans le contrôle aérien?

Objectif : améliorer la robustesse d’applications existantes : Agent de pseudo-pilotage : comprendre

les ordres donnés par le contrôleur en formation - faire évoluer les avions simulés selon ces ordres soulager le pseudo-pilote

Signal d’une instruction mal comprise : dispositif basé sur un système de compréhension automatique (cf. Projet Escale – Eurocontrol 2005)

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 24: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 24

Modélisation : quel formalisme? (1)

Cahier des charges : Adaptation à l’objet d’étude Capacité d’expression et de représentation Modularisation selon les besoins de l’utilisateur

Deux courants : Approches conceptuelles: prise en compte du

sens véhiculé par un (ou plusieurs) élément lexical (Minker, 1999, Pérénou Bousquet, 1998, 2002)

Approches syntaxiques: catégorisation syntaxique de chaque élément lexical ― définition de relations, et de groupes d’éléments (Abney, 1991)

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 25: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 25

Formalisme d’annotation par patrons (Bear, Dowding, Shriberg 1992) : Objectif principal : modéliser les

phénomènes de l’oral spontané (disfluences, problèmes structuraux, etc.)

Méthode : définition d’un système de notation

Exemple :

I’d like I’d like to stop in Washington M1 M2 | M1 M2

Où Mn = répétition d’un mot

Modélisation: quel formalisme? (2)

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 26: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 26

Modélisation: application au corpus

Nécessité d’adapter le formalisme pour prendre en compte les spécificités de notre étude et de la phraséologie Ajouts de symboles pour affiner la

représentation des disfluences et de leur contexte: pauses, excuses, etc.

Représentation des disfluences dans les indicatifs et niveaux

Exemple: I contact ENAC 1 2 9 euh

129 R1 R2 R3 FP | R1^R2^R3

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 27: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 27

Bilan de la modélisation

Les patrons observés dans le corpus sont : Peu variés : 67% des disfluences

sont représentées par 3 catégories différentes de patrons

De petite taille : 79,17% comportent 4 éléments ou moins

Simples : 57,50 % ne comportent que des répétitions ou des corrections

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 28: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 28

Description générale du module

Principes de fonctionnement : Recherche de patrons caractéristiques des

disfluences Prise en compte d’un niveau « sémantico-

pragmatique » pour augmenter la précision 1 élément de l’énoncé 1 paire attribut-valeur

(classe de mots-mot) montez niveau 200 verbe_Niveau=montez mot_Niveau=niveau chiffre=200

Règles de prise en compte des cas particuliers : indicatif, niveau, etc.

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 29: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 29

Identifier une disfluence

Tous les patrons observés montrent qu’il y a toujours une symétrie de part et d’autre du point de réparation.Exemples :nous avons sommes en vue du PA 31 R1 | R1niveau 130 route Amboise direct

Amboise pardon R1 M1 | R1 M1

2 types de répétitions : Répétition exacte d’un mot ou groupe de mots Répétition d’une classe de mot, le contenu étant

modifié (exemple: montezdescendez) auto-correction

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 30: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 30

Délimiter la zone disfluente

Parcourir chaque énoncé, avec une fenêtre glissante de 10 éléments

A chaque item est associé une classe de mots (par exemple, « ordre », ou « indicatif »)

Si au cours du parcours, on détecte une répétition, de classe et/ou contenu :

1er test: s’agit-il d’un cas particulier ? 2ème test: s’agit-il d’une répétition disfluente ?

Si les deux tests échouent, alors on a affaire à une auto-correction

Identifier : L’élément corrigé La correction

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 31: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 31

Intégration dans VOICE

Historique des ordres

Agent SRA

Agent de reconnaissance vocaleGrammaire “Context-Free” chargée

dynamiquement

(Middleware )

émetl’ordre reconnu

émet les données des aéronefs

Avions “actifs”

Données de l’exercice (REJEU)

émetn

alternatives

Compréhe-nsion

Reconnaissancedisfluences

identifie les disfluences dans les n alternatives

Génère une grammaire

Context-free

auto-Gram

connaissances

“génériques” :

• Alphabet• Compagnies• Balises

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 32: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 32

Plan de la présentation

Problématique et contexte

Analyse linguistique

Modélisation et reconnaissance automatique des disfluences

Validation

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 33: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 33

Objectifs : mesurer la pertinence et l’efficacité du module proposé

Moyens : Constitution d’un corpus de 400 énoncés Traitement de la chaîne orthographique de

ces énoncés Principaux paramètres :

Taux de précision : Taux de rappel :

Validation (1)

Nbre de détections correctes

Nbre total de disfluences

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Nbre de détections correctes

Nbre total de détections

Page 34: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 34

Validation (2)

Composition du corpus : Enoncés dérivés selon la méthode

d’évaluation « par défi » à partir de : Patrons observés sur notre corpus (153 énoncés) Patrons observés sur des corpus non

contraints (153 énoncés) Enoncés non disfluents (51 énoncés) Enoncés disfluents du corpus B (43

énoncés)

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 35: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 35

Validation (3)

Résultats obtenus : Temps d’exécution très rapide (temps max

≈ 5 ms) Relation avérée entre le temps d’exécution

et le nombre de mots par énoncés Performances globales bonnes voire très

bonnes selon le corpus : Taux de précision Є [84%-95%] Taux de rappel Є [56%-93%]

Comparaison avec les performances d’autres systèmes : se situe dans la moyenne supérieure

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 36: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 36

Conclusion (1)

Analyse linguistique fine de corpus de contrôle aérien Différence avérée (fréquence,

manifestation) entre les disfluences dans ce type de dialogues, et d’autres

Les disfluences apparaissent plus fréquemment dans le contexte des valeurs numériques (indicatifs, etc.)

Prise en compte des aspects psycholinguistiques et cognitifs

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 37: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 37

Conclusion (2)

Conception et implémentation d’un module de détection automatique des disfluences Méthode par détection de patrons +

règles Intégration à un système de

compréhension automatique de la parole

Validation du module

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 38: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 38

Perspectives (1)

Evaluation du module : Recueil de corpus en situation « réelle

» Prise en compte des sorties de la

reconnaissance vocale Amélioration du module : prise en

compte des amorces

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 39: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 39

Perspectives (2)

Interaction Homme-Machine : intégration du module à une interface de pseudo-pilotage

Sciences cognitives : Mesurer les effets de cette intégration sur

les processus cognitifs de l’opérateur, et sur son efficience

Utiliser les disfluences comme indicateur de fatigue ou de surcharge cognitive ?

Linguistique : Prise en compte de paramètres prosodiques Ce travail est-il généralisable à tout type de

langage contraint ? Projection aux erreurs de l’écrit

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives

Page 40: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 40

Page 41: Analyse, modélisation, et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du Contrôle Aérien Jean-Léon Bouraoui

Soutenance de thèse ― Jean-Léon Bouraoui 41

3 catégories de patrons

R1 | R1France Air Force 40 44 30 contactez ENAC

123 décimale 8 M1 R1 |M1 R1niveau 1 2 0 route Lacan route Amboise R1 M1 | R1 M1

41 1000 feet euh above us crossing for descending for your level

•Plan de la présentation

•Problématique et contexte

•Analyse linguistique

•Modélisation et reconnaissanceautomatique des disfluences

•Validation

•Conclusion

•Perspectives