119
DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon http://www.ddl.ish-lyon.cnrs.fr/ [email protected]

DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

Embed Size (px)

Citation preview

Page 1: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 1

Le traitement automatiquede la parole

Comment reproduire les processus physiologiques et cognitifs humains?

Ivan Magrin-Chagnolleau, CNRS

Laboratoire Dynamique Du Langage, Lyonhttp://www.ddl.ish-lyon.cnrs.fr/

[email protected]

Page 2: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 2

Plan

1. Introduction aux processus de la communication parlée

2. Analyse de la parole

3. Synthèse de la parole

4. Reconnaissance de la parole

5. Reconnaissance du locuteur

Page 3: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 3

1. Introduction aux processus de la communication parlée

Page 4: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 4

Quelques segments d’un signal

Page 5: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 5

Quelques propriétés du signal de parole

• La parole est quasi-stationnaire

• La parole est 70% du temps(pseudo-)périodique(bruit ou silence le reste du temps)

• La parole est un signal large bande(il remplit toute la largeur de bande)

• La parole est un signal à bande limitée(0-8000 Hz essentiellement)

Page 6: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 6

Anatomie de l’appareil vocal (1)

Page 7: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 7

Anatomie de l’appareil vocal (2)

Page 8: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 8

Anatomie de l’appareil vocal (3)

Page 9: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 9

Fonctionnement acoustique de l’appareil vocal

• Système acoustique = excitateur + résonateur

• Trois modes de fonctionnement– Excitation glottique du conduit vocal– Excitation du conduit vocal en un point de

constriction par un bruit d’écoulement– Excitation du conduit vocal par une impulsion

acoustique

Page 10: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 10

Transcription phonétique du français

Page 11: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 11

Transcription phonétique du français

Page 12: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 12

Description acoustique de la parole

Page 13: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 13

Voyelles orales françaises

Page 14: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 14

Triangle vocalique

Page 15: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 15

Représentation acoustique (ex. 1)

Page 16: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 16

Représentation acoustique (ex. 2)

Page 17: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 17

Grille polaire de Maeda

Page 18: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 18

Coupes saggitales des voyelles

Page 19: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 19

Fonctions d’aires des voyelles

Page 20: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 20

Anatomie de l’oreille

Page 21: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 21

Les limites de l’oreille

• L’oreille est à bande limitée

• L’oreille est fausse sur des sons purs

• L’oreille n’est pas également sensible

• L’oreille a une résolution en temps limitée

• L’oreille a une résolution en fréquence limitée

Page 22: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 22

2. Analyse de la parole

Page 23: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 23

Objectifs de l’analyse de parole

Extraire des paramètres du signal de parole

afin de :• Retirer l’information non pertinente• Réduire la redondance• Obtenir une représentation plus compacte• Atteindre un niveau d’abstraction plus élevé• Définir des mesures de ressemblance simples

Page 24: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 24

Principes

• Prétraitement

• Découpage en trames– Taille des trames– Décalage entre trames

• Fenêtrage

• Extraction de paramètres acoustiques

Page 25: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 25

Principe d’une analyse acoustique

Page 26: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 26

Paramètres acoustiques non spectraux

• Energie

• Fréquence fondamentale

• Taux de passage par zéro du signal

• Taux de passage par zéro de la dérivée du signal

Page 27: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 27

L’enveloppe spectrale

Les approches conventionnelles

visent à extraire des caractéristiques

de l’enveloppe spectrale.

• Analyse par banc de filtres

• Analyse par prédiction linéaire

• Coefficients cepstraux

Page 28: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 28

Analyse par banc de filtres (1)

Page 29: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 29

Analyse par banc de filtres (2)

Page 30: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 30

Analyse par banc de filtres (3)

Page 31: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 31

Analyse par prédiction linéaire (1)

Modélisation de la parole sous forme

d’un filtre de prédiction linéaire

Filtre de

prédiction linéaire

e(t) s(t)

)()(0

teitsap

ii

Page 32: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 32

Analyse par prédiction linéaire (2)

Page 33: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 33

Coefficients cepstraux

• On applique une transformée de Fourier inverse sur le module du spectre logarithmique.

• Les premiers coefficients caractérisent l’enveloppe spectrale.

Page 34: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 34

L’information dynamique

• On représente l’information dynamique par la dérivée première (vitesse) et la dérivée seconde (accélération) des paramètres cepstraux→ paramètres deltas et deltas-deltas

pk

pk

pk

pk

k

ktck

tc

)(

)(

pk

pk

pk

pk

k

ktck

tc2

2 )(

)(

Page 35: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 35

3. Synthèse de la parole

Page 36: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 36

La synthèse, pour quoi faire ?• Services de télécommunications

– Rendre toute information écrite disponible via le téléphone (horaires de cinéma, horaires de train, informations routières, état d’un compte en banque, dernière facture téléphonique, etc.)

• Applications en bureautique– Terminaux parlants, lecture des emails par la voix, etc.

• Applications dans les transports– Information dans les automobiles, aide à l’exploitation des trains, lecture de

cadrans dans les avions, etc.

• Aide aux personnes handicapées– Un handicapé peut s’exprimer par le biais d’un synthétiseur (cours du célèbre

astrophysicien Stephen Hawking)

• Apprentissage des langues étrangères– Dictionnaires électronique avec prononciation intégrée, logiciels

d’apprentissage des langues étrangères, traduction automatique, etc.

• Livres et jouets parlants– À l’usage des enfants en bas âge

• Communication naturelle avec la machine

Page 37: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 37

Structure d’un système de synthèse

SYNTHESE DE LA PAROLE A PARTIR DU TEXTE

TRAITEMENT DULANGAGE NATUREL

Formalismes linguistiques

Moteurs d’inférenceInférences logiques

TRAITEMENT DUSIGNAL NUMERIQUE

Modèles mathématiques

AlgorithmesCalculs numériques

Texte ParolePhonèmes

Prosodie

Page 38: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 38

Traitement du langage naturel

Pré-processeurAnalyseur

morphologique

Analyseur contextuel

Analyseur syntaxique- prosodique

Phonétiseur

Générateur de prosodie

Texte

Structurede

données

Phonèmes

Prosodie

Page 39: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 39

Analyse morpho-syntaxique

Page 40: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 40

Phonétisation (1)

Page 41: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 41

Phonétisation (2)

Page 42: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 42

Synthétiseur par prédiction linéaire

Page 43: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 43

Synthétiseur à formants

Page 44: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 44

Synthèse par règles (1)

Page 45: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 45

Synthèse par règles (2)

Page 46: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 46

Synthèse par concaténation d’unités

Page 47: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 47

Qu’est-ce qu’un diphone ?

Page 48: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 48

Concaténation de diphones

Page 49: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 49

Prosodie : la « musique » de la parole

Page 50: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 50

Exemples• ICP-Grenoble (F), 1993

• CNET-Lannion (F), 1993 (TD-PSOLA)

• KTH-Stockholm (S), 1993

• LAIP-Lausanne (CH), 1996 (MBR PSO)

• University-Mons (B), 1993 (LPC)

• University-Mons (B), 1993 (MBE)

• University-Mons (B), 1993 (MBR PSO)

• University-Mons (B), 1993 (TD PSO)

Page 51: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 51

Liens Internet sur la synthèse

• http://tcts.fpms.ac.be/synthesis/mbrola.html• http://www.bell-labs.com/project/tts/#examples• http://www.cstr.ed.ac.uk/projects/festival/• http://www.research.att.com/projects/tts/

Page 52: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 52

4. Reconnaissance de la parole

Page 53: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 53

Objectifs

Transformer un signal de parole en :

• Texte (dictée vocale, transcription)

• Action (commande vocale, systèmes de dialogue)

• Information indexée (annotation, indexation)

Page 54: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 54

Les sources de variabilité• Les facteurs intra-locuteurs :

co-articulation, variation dans la prononciation, etc.

• Les facteurs inter-locuteurs :physiologie, age, sexe, psychologie, familiarité avec l’application, etc.

• L’environnement :bruit, micro, canal de transmission, présence d’autres locuteurs, etc.

Page 55: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 55

Variabilité intra- et inter-locuteur

Page 56: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 56

Variabilité intra-locuteur

Page 57: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 57

Typologie des systèmes

• Type de parole

• Taille du vocabulaire

• Niveau de dépendance par rapport aux locuteurs

• Environnement d’utilisation

• Profil des utilisateurs potentiels

Page 58: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 58

Type de parole

• Mots isolés

• Mots connectés

• Détection de mots clés

• Parole contrainte

• Parole continue

• Parole spontanée

Page 59: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 59

Taille du vocabulaire

• Quelques mots (5 – 50)

• Petit vocabulaire (50 – 500)

• Vocabulaire moyen (500 – 5000)

• Grand vocabulaire (5000 – 50000)

• Très grand vocabulaire (> 50000)

Page 60: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 60

Dépendance au locuteur

• Dépendant du locuteur :le système fonctionne correctement avec un utilisateur particulier

Adaptation au locuteur =utilise quelques données spécifiquesd’un locuteur pour adapter le système

à une nouvelle voix

• Indépendant du locuteur :le système fonctionne avec n’importe quel utilisateur

Page 61: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 61

Environnement d’utilisation

• Parole large-bande(ordinateur, etc.)

• Parole bande-étroite avec distorsion (téléphone, etc.)

• Environnement calme (bureau + micro-casque)

• Bruit de fond

Page 62: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 62

Profil des utilisateurs potentiels

• Utilisation professionnelle par des spécialistes

• Grand public

• Entraîné / naïf

• Fréquent / occasionnel

• Utilité

• Coopération

Page 63: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 63

Deux exemples

Dictée vocale• Parole continue

• Grand vocabulaire• Adaptation au locuteur

• Bureau+micro-casque• Utilisateurs

d’ordinateurs

Service téléphonique• Détection de mots

clés• Quelques mots• Indépendant du

locuteur• Parole téléphonique• Grand public

Page 64: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 64

Système de reconnaissance de mots

Page 65: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 65

Programmation dynamique (DTW)

meilleurchemin

),()Y,X( 2jid yx

Mot inconnu Y

Mot

X

Mot 1

Mot 2

Mot n

Page 66: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 66

Contraintes locales

Page 67: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 67

Contraintes locales : exemple

Page 68: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 68

Modèle de Markov caché : principe

Page 69: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 69

Modèles de Markov cachés (HMM)

meilleurchemin

)S(Plog)Y,X(iXjy

Mot 2

Mot 1

Mot n

Mot inconnu Y

Mot

X

Page 70: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 70

Viterbi : exemple

Page 71: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 71

Algorithme de Viterbi : exercice

Page 72: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 72

Les trois composantes d’un système

• Les modèles acoustiques– Pour transformer des paramètres acoustiques

en phonèmes (ou parfois directement des mots)

• Le lexique– Pour transformer une suite de phonèmes en

mots

• Le modèle de langage– Pour transformer une suite de mots en

phrases

Page 73: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 73

Modèles acoustiques (1)

Page 74: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 74

Modèles acoustiques (2)

Le mot « américain »

Page 75: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 75

Modèles de langage• A un instant donné, tous les mots n’ont

pas la même probabilité de présence :– Le petit chat boit du …

• Grammaires probabilistes : toutes les phrases sont possibles mais avec des probabilités différentes

• Grammaires à états finis : partition binaire des séquences de mots en « séquences possibles » et « séquences impossibles »

Page 76: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 76

Modèle acoustique + Modèle de langage

Page 77: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 77

Performances

Page 78: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 78

Recherche actuelle

Page 79: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 79

5. Reconnaissance du locuteur

Page 80: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 80

Définition de la RAL

Reconnaissance automatique du locuteur (RAL)

=reconnaître l’identité d’une personne à partir d’un enregistrement de sa voix à

l’aide d’une technique entièrement automatique, et donc reproductible.

Page 81: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 81

Un domaine pluri-disciplinaire

RAL

traitement du signal

reconnaissance des formes

statistiques

probabilités

théorie de la décision phonétique

linguistique

ergonomie

théorie de l’informationS T

I C

S H

S

Page 82: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 82

Typologie des tâches

• Identification du locuteur en ensemble fermé• Vérification du locuteur• Identification du locuteur en ensemble ouvert

• Suivi de locuteurs• Détection de changement de locuteur• Segmentation par locuteurs

• Classes de locuteurs• Adaptation au locuteur

Page 83: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 83

Niveau de dépendance au texte

• Systèmes à mot de passe individuel, fixe• Systèmes à mot de passe commun, fixe• Systèmes à vocabulaire fixe (ordre des

mots variables)• Systèmes à texte imprédictible (imposé

par le système)• Systèmes dépendant d’un évènement

phonétique• Systèmes à texte totalement libre

Page 84: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 84

Typologie des erreurs

• Identification du locuteur en ensemble fermé :– Mauvaise classification

NOMBRE DE LOCUTEURS• Vérification du locuteur :

– Fausse acceptation (non détection)– Faux rejet (fausse alarme)– EER (taux d’égale erreur)

SEUIL DE DECISION

Page 85: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 85

Empreinte ou signature ?

• Motivations :– Caractéristiques physiologiques– Origine géographique– Contexte socioculturel

• Difficultés :– Non reproductibilité (état de santé, facteurs psychologiques,

état émotionnel, âge, etc.) dérive temporelle de la voix– Bruits ambiants, canal de transmission– Modifications intentionnelles (masquage, imitation)

→ pas d’empreinte vocalemais plutôt une signature vocale

Page 86: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 86

Et l’homme ?

• L’homme n’est pas particulièrement bon pour ce type de tâche.

• Il faut beaucoup d’entraînement pour y arriver.• Même sur des voix familières, on a parfois des

difficultés.• C’est encore plus dur à travers le téléphone.• Quand c’est possible, on utilise plutôt le visage.

Page 87: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 87

Les enjeux scientifiques de la RAL

• Quelles sont les informations utilisées par l’homme pour reconnaître une voix ?

• Faut-il utiliser les mêmes dans un système automatique ?

• Quelles sont les informations extractibles d’un enregistrement d’une voix ?

• Comment faire un modèle de locuteur ?

Page 88: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 88

Comment reconnaître une personne ?

• Quelles informations ?– Spectrales (analyse acoustique)– Phonétiques (façon de prononcer les sons)– Idiolectales (façon d’utiliser les mots)– Prosodiques (intensité, hauteur, longueur)

• Comment les exploiter ?– Modèles statistiques– Réseaux de neurones– Réseaux bayésiens

Page 89: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 89

Les enjeux applicatifs de la RAL

• Surtout vérification• 3 grandes familles :

– Applications sur site– Applications télécoms– Applications policières / judiciaires

• Mais aussi :– Organisation de l’information– Jeux– Etc.

Page 90: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 90

Applications sur site La personne doit être physiquement présente en un lieu

précis- Serrure vocale (pour des locaux, un compte informatique, etc.)- Interactivité matérielle (retrait d’argent à un guichet automatique,

etc.)

Environnement contrôlable Système dissuasif L’utilisateur peut porter sur lui ses caractéristiques

vocales Possibilité de techniques additionnelles de vérification

de l’identité Possibilité d’intervention humaine

Page 91: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 91

Applications télécoms

La vérification s’opère à distance- Accès à des services pour des abonnés (serveurs, données,

etc.)- Transactions à distance (opérations bancaires, paiements par

carte bancaire, etc.)

Signal de mauvaise qualité et fluctuant Dissuasion médiocre (anonymat) Les caractéristiques vocales doivent être centralisées Difficulté à implanter d’autres techniques de vérification

de l’identité Pas d’intervention humaine possible

Page 92: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 92

Applications policières/judiciares Recherche de suspects, d’éléments de preuve, de

preuves, etc.- Tests auditifs par des experts- Lecture de spectrogrammes par des experts- Méthodes (semi-)automatiques

Identification ou vérification Pas de contraintes de temps réel Très importante hétérogénéité des enregistrements Possibilité de modifications intentionnelles Indépendance au texte souhaitable

→ Nécessité d’une précaution extrêmepas toujours garantie

Page 93: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 93

Mais aussi…

• Organisation de l’information– Structuration, archivage de documents sonores– Navigation dans ces documents

• Jeux– Augmenter l’interactivité– Utilisation de profils de joueurs

• Personnalisation des services– Stocker un profil d’utilisateur pour accéder plus

rapidement à des services

Page 94: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 94

Les enjeux applicatifs : conclusion

• La technologie est prête pour des applications ne nécessitant pas un niveau de sécurité très élevé.

• L’ergonomie peut pallier certaines faiblesses des algorithmes.

• La parole n’est pas le moyen le plus robuste en vérification de l’identité, mais c’est l’un des plus naturels (avec la reconnaissance de visage).

• Il est nécessaire d’informer largement les milieux policiers et judiciaires des limites de la reconnaissance du locuteur.

Page 95: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 95

Les enjeux stratégiques

• Ecoutes téléphoniques– Protection de la démocratie ?– Intrusion dans la vie privée ?

• Recherche de suspects / Authentification– Le corbeau de l’affaire Grégory– La cassette Ben Laden

Page 96: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 96

Historique

Trois étapes• Reconnaissance par l’écoute faite par des

« experts » (à partir de 1940)• Reconnaissance par la lecture de

spectrogrammes réalisée par des« experts » (de 1960 à 1970)

• Reconnaissance par des systèmes automatiques (ou pseudo-automatiques)(à partir de 1970)

Page 97: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 97

Reconnaissance par l’écoute

Tests par paires

Page 98: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 98

Reconnaissance par spectrogrammes

Page 99: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 99

Reconnaissance automatique

• Systèmes reposant sur des modélisations statistiques• Ordres de grandeur pour la vérification (EER)

– En laboratoire :

– Pour des applications commerciales :• Performances connues mais non publiques• Jugées suffisantes pour quelques produits pionniers

– Pour des applications policières / judiciaires :• Performances évaluées ?

conditions idéales parole téléphonique(lignes fixes)

dépendant du texte <0.1 % 0.5 à 2 %

indépendant du texte 0.5 à 1 % 5 à 10 %

Page 100: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 100

Composantes d’un système

• Une phase d’apprentissage– Construction d’un modèle de locuteur

• Une phase de test– Comparaison entre un énoncé et un modèle

de locuteur

Page 101: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 101

Phase d’apprentissage

analysesignal

identité

paramètres modélisation

Dictionnairede modèlesde référence

ENTREES

SORTIE

Page 102: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 102

Phase de test en identification

analysesignal paramètres modélisation

Dictionnairede modèlesde référence

ENTREE

comparaison

Scores

décision

SORTIE

Page 103: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 103

Phase de test en vérification

analyse paramètres modélisation

Dictionnairede modèlesde référence

comparaison

Score

décision

SORTIE

signal

identité

ENTREES

Page 104: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 104

La phase de paramétrisation

Page 105: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 105

Paramètres d’analyse

• Paramètres spectraux :– Analyse par banc de filtres ou analyse LPC– Transformation cepstrale– Paramètres delta (et delta-delta)

• Paramètres prosodiques :– (Log-énergie et) delta-Log-énergie– Fréquence fondamentale– Paramètres de durée

→ Existe-t-il des paramètres spécifiquesà la reconnaissance du locuteur?

Page 106: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 106

Modélisation

• Les précurseurs• Programmation dynamique (DTW)• Quantification vectorielle (VQ)• Modèles de Markov cachés (HMM)• Réseaux de neurones (NN)• Modèles auto-régressifs vectoriels (ARVM)• Modèles par mélange de Gaussiennes (GMM)

Page 107: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 107

Les précurseurs

PRUZANSKY 1963

Mesure de corrélation entre spectres à long terme

ATAL 1968

Utilisation de contours prosodiques normalisés

BRICKER 1971

Mesure de Mahalanobis sur spectres à long terme

Page 108: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 108

Programmation dynamique (DTW)

meilleurchemin

),()Y,X( 2jid yx

“Bonjour” locuteur test Y

“Bon

jour

” lo

cute

ur X

“Bonjour” locuteur 1

“Bonjour” locuteur 2

“Bonjour” locuteur n

DODDINGTON 1974, ROSENBERG 1976, FURUI 1981, etc.

Page 109: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 109

Quantification vectorielle (VQ)

meilleurequant.

),()Y,X( X2

jiCd y

Dictionnaire locuteur 1

Dictionnaire locuteur 2

Dictionnaire locuteur n

“Bonjour” locuteur test Y

Dic

tionn

aire

locu

teur

X

SOONG, ROSENBERG 1987

Page 110: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 110

Modèles de Markov cachés (HMM)

meilleurchemin

)S(Plog)Y,X(iXjy

“Bonjour” locuteur 1

“Bonjour” locuteur 2

“Bonjour” locuteur n

“Bonjour” locuteur test Y

“Bon

jour

” lo

cute

ur X

ROSENBERG 1990, TSENG 1992

Page 111: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 111

Modèles de Markov cachés (HMM)

meilleurchemin

)S(Plog)Y,X(iXjy

HMM locuteur 1

HMM locuteur 2

HMM locuteur n

“Bonjour” locuteur test Y

HM

M lo

cute

ur X

PORITZ 1982, SAVIC 1990

Page 112: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 112

Modèles par mélange de Gaussiennes(GMM)

REYNOLDS 1995

Page 113: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 113

La phase de décision

• Calcul d’un score– Avec le modèle de locuteur considéré

– Avec un « modèle du monde »

– Rapport entre les deux scores

• Comparaison à un seuil– Si supérieur au seuil, on « accepte »

– Si inférieur au seuil, on « rejette »

Page 114: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 114

L’évaluation

• EER : fausse acceptation = faux rejet

• Courbe DET :

• Les évaluations NIST

Page 115: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 115

La caractérisation du locuteur à DDL

• Recherche d’une technique d’analyse du signal plus adaptée

• Amélioration des modèles statistiques et recherche d’algorithmes plus efficaces pour les apprendre

• Intégration des informations prosodiques dans les systèmes

• Modélisation de la dérive temporelle de la voix• Utilisation de la reconnaissance du locuteur

dans des tâches d’indexation sonore

Page 116: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 116

Conclusion sur la RAL

• Domaine pluridisciplinaire nécessitant des connaissances multiples

• Bonnes performances sur des données propres et en laboratoire, mais très insuffisantes pour des domaines nécessitant un haut degré de sécurité ou le domaine judiciaire

• On peut parler de signature vocale mais pas d’empreinte vocale

Page 117: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 117

Perspectives de la RAL

• Améliorer les systèmes– Nouvelles sources d’information (prosodie)– Analyse du signal plus adaptée– Meilleurs modèles statistiques– Robustesse (meilleure prise en compte de la

variabilité)– Etude de la dérive temporelle de la voix

• Autres tâches– Segmentation par locuteurs– Indexation par locuteurs

Page 118: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 118

Discussion sur une actualité récente

• La vérification d’identité dans les milieux judiciaires

• L’affaire Grégory – la cassette Ben Laden

• Des articles de journaux la semaine dernière

• La prise de position des scientifiques français

Page 119: DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

DEA de Sciences Cognitives 119

Bibliographie• R. Boite, H. Bourlard, T. Dutoit, J. Hancq, and H. Leich.

Traitement de la parole. Presses Polytechniques Romandes.

• Calliope. La parole et son traitement automatique. Masson, 1989.