Traitement du Signal et Télécommunicationsperso.telecom-bretagne.eu/pastor/data/Theses/Memoire_These_Jarifi.pdf · VOT Voice Onset Time ... 4.2 TSC à 20 ms pour le corpus français

No d'ordre : 2007telb0032 Thèseprésentée àl'É ole Nationale Supérieuredes Télé ommuni ations de Bretagneen habilitation onjointe ave l'Université de Rennes 1pour obtenir le grade deDo teur de l'ENST bretagneMention : Traitement du Signal et TélécommunicationsparSafaa JARIFIÉquipes d'a ueil : Département Signal & Communi ations, GET-ENST-BretagneÉquipe synthèse vo ale, TECH-SSTP-VMI, Fran e Télé om R&DSegmentation automatique de orpus de parole ontinue dédiés à la synthèse vo aleSoutenue le 10 Janvier 2007 devant la ommission d'Examen :Composition du Jury :Président : Olivier BOËFFARD, Professeur, ENSSAT-IRISARapporteurs : Régine ANDRÉ-OBRECHT, Professeur, Université Paul SabatierYves LAPRIE, Chargé de re her he, LORIAExaminateurs : Dominique PASTOR, Maître de onféren e, ENST BretagneOlivier ROSEC, Ingénieur de re her he, Fran e Télé om R&DSamir SAOUDI, Professeur, ENST BretagneInvité : Gérard CHOLLET, Dire teur de re her he, ENST

Cette thèse a été préparée au département Signal et Communications (TAMCIC UMR2872) de l’École Nationale Supérieure de Télécommunications de Bretagne (ENSTBretagne) et dans l’équipe de synthèse vocale TECH/SSTP/VMI de France Télécom R&D.Elle a été financée par France Télécom R&D dans le cadre d’un contrat industriel avecl’ENST Bretagne.

Ne cherchez pas à comprendre le sens d’une parole, mais plutôt à maîtriser chacun de cesmots.

par Alain HARVEY

Remerciements

Pendant mes trois années de thèse, j’ai largement bénéficié de l’aide de plusieurs per-sonnes. Je tiens à les remercier chaleureusement.

En premier lieu, je voudrais exprimer toute ma reconnaissance à Olivier Rosec et à FranceTélécom d’avoir financé et proposé ce sujet de recherche, ainsi que de m’avoir aidé et encadrépendant les mois que j’ai passés à France Télécom R&D.

Je remercie particulièrement Dominique Pastor, mon encadrant pendant toute la périodeque j’ai passée à l’ENST Bretagne, pour son dynamisme, sa disponibilité et pour les longuesdiscussions scientifiques que nous avons eu ensemble.

Je voudrais également remercier Samir Saoudi d’avoir accepté de diriger ma thèse et des’être occupé des nombreuses démarches administratives que cela implique.

Je remercie sincérement Mme Régine André-Obrecht et M. YvesLaprie qui ont acceptéde venir de loin pour ma soutenance, de juger ce travail et d’en être les rapporteurs. Que M.Olivier Boëffard, reçoive toute l’expression de ma reconnaissance pour avoir fait l’honneurde présider cette commission d’examen. Je suis également très sensible à la présence dansce jury de M. Gérard Chollet qui m’a fait l’honneur de participer à ma soutenance.

Travailler en parti à l’ENST Bretagne au département Signalet Communications et àFrance Télécom R&D dans l’équipe Synthèse vocale a été très enrichissant et très agréable etceci grâce à plusieurs personnes (permanents, thésards et stagiaires) qui ont contribué à créercette atmosphère. Je remercie en particulier Asmaa, Fadoua, Massinissa, Olivier, Patricia ettous ceux qui se reconnaîtront pour leur soutien, leur amitié et leur aide précieuse le jour dela soutenance.

Je remercie très fortement Emmanuel pour son aide et ses idées qui m’ont été très utileset pour leur soutien, leur amour, ma famille et mes amis.

Table des matières

Remerciements 1

Abbréviations 7

Liste des figures 9

Liste des tables 13

Introduction 17

1 Généralités sur la production de la parole et sa synthèse 19

1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.2 Généralités sur la parole . . . . . . . . . . . . . . . . . . . . . . . . . .. 19

1.2.1 Production des sons . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.2.2 Modélisation de la parole . . . . . . . . . . . . . . . . . . . . . . . 20

1.2.3 Phonétique et caractéristiques des sons de parole . . .. . . . . . . 23

1.3 Synthèse de la parole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.3.2 Principales approches de la synthèse . . . . . . . . . . . . . .. . . 27

1.3.3 Création du dictionnaire acoustique en SPC . . . . . . . . .. . . . 29

1.3.4 Traitement de synthèse . . . . . . . . . . . . . . . . . . . . . . . . 31

1.3.5 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

1.3.6 Évaluation des systèmes de synthèse vocale . . . . . . . . .. . . . 34

1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2 Généralités sur la segmentation de la parole 37

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.2 Segmentation automatique de la parole . . . . . . . . . . . . . . .. . . . . 37

4 TABLE DES MATIÈRES

2.2.1 Segmentations sans contrainte linguistique . . . . . . .. . . . . . 38

2.2.2 Segmentation avec contrainte linguistique . . . . . . . .. . . . . . 39

2.3 Chaînes de Markov cachées et application à la segmentation . . . . . . . . 42

2.3.1 Description d’un HMM . . . . . . . . . . . . . . . . . . . . . . . . 42

2.3.2 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

2.3.3 Décodage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

2.3.4 Intérêts et limitations . . . . . . . . . . . . . . . . . . . . . . . . .46

2.4 Segmentation manuelle de la parole . . . . . . . . . . . . . . . . . .. . . 47

2.4.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.4.2 Fonctionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2.5 Critères d’évaluation de la segmentation automatique .. . . . . . . . . . . 48

2.5.1 Comparaison avec la segmentation manuelle . . . . . . . . .. . . 48

2.5.2 Évaluation objective sans connaissance de la référence . . . . . . . 49

2.5.3 Évaluation indirecte ou globale . . . . . . . . . . . . . . . . . .. 49

2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3 Mises en oeuvre d’algorithmes de segmentation et évaluation 51

3.1 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.2 Choix des algorithmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.3 Mise en œuvre de la segmentation par HMM . . . . . . . . . . . . . . .. 53

3.4 Post-traitement par modèle de frontière [157] . . . . . . . .. . . . . . . . 54

3.4.1 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.4.2 Affinement ou correction . . . . . . . . . . . . . . . . . . . . . . . 57

3.5 Algorithme de Brandt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.5.1 Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.5.2 Intégration de contraintes phonétiques dans l’algorithme de Brandt . 59

3.6 Résultats et discussion . . . . . . . . . . . . . . . . . . . . . . . . . . .. 60

3.6.1 Corpus de parole utilisés . . . . . . . . . . . . . . . . . . . . . . . 60

3.6.2 Choix des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . 60

3.6.3 Évaluation des algorithmes . . . . . . . . . . . . . . . . . . . . . .63

3.7 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4 Une approche par fusion pour la segmentation automatique de la parole 69

4.1 Motivations et objectif . . . . . . . . . . . . . . . . . . . . . . . . . . .. 69

4.2 Définition de la fusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.3 Fusion dans le domaine de la parole . . . . . . . . . . . . . . . . . . .. . 71

TABLE DES MATIÈRES 5

4.4 Une approche générique pour la segmentation automatique . . . . . . . . . 72

4.4.1 Sélection des marques . . . . . . . . . . . . . . . . . . . . . . . . 74

4.4.2 Supervision des scores . . . . . . . . . . . . . . . . . . . . . . . . 76

4.5 Expérimentation et résultats . . . . . . . . . . . . . . . . . . . . . .. . . 78

4.5.1 Évaluation objective de la fusion par calcul des TSC . .. . . . . . 78

4.5.2 Évaluation de la qualité de la parole synthétique . . . .. . . . . . . 84

4.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5 Détection des erreurs de segmentation 91

5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

5.2 Utilisation des mesures de confiance pour détecter les erreurs . . . . . . . . 91

5.2.1 Courbes ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

5.2.2 Courbes DET . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

5.3 Exemples de mesures de confiance . . . . . . . . . . . . . . . . . . . . .. 95

5.4 Proposition de deux mesures de confiance pour qualifier une frontière . . . 96

5.5 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

5.6 Combinaison des deux mesures . . . . . . . . . . . . . . . . . . . . . . .. 102

5.6.1 Opérateurs ET et OU . . . . . . . . . . . . . . . . . . . . . . . . . 102

5.6.2 Propriétés des opérateurs ET et OU . . . . . . . . . . . . . . . . .103

5.6.3 Résultats de la combinaison . . . . . . . . . . . . . . . . . . . . . 105

5.7 Nouveau test de décision pour la détection des erreurs . .. . . . . . . . . . 108

5.7.1 Définition du nouveau test . . . . . . . . . . . . . . . . . . . . . . 108

5.7.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

5.7.3 Détermination des points de fonctionnement . . . . . . . .. . . . 114

5.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

6 Détection et correction des erreurs de la phonétisation 119

6.1 Description du problème . . . . . . . . . . . . . . . . . . . . . . . . . . .119

6.2 Étiquetage manuel et automatique . . . . . . . . . . . . . . . . . . .. . . 120

6.2.1 Étiquetage manuel . . . . . . . . . . . . . . . . . . . . . . . . . . 120

6.2.2 Étiquetage automatique . . . . . . . . . . . . . . . . . . . . . . . . 120

6.3 Localisation des erreurs de phonétisation sachant une référence . . . . . . . 121

6.4 Détection des erreurs de phonétisation . . . . . . . . . . . . . .. . . . . . 123

6.5 Correction des erreurs de phonétisation . . . . . . . . . . . . .. . . . . . 124

6.5.1 Description du système de correction de la phonétisation . . . . . . 124

6.5.2 Améliorations proposées . . . . . . . . . . . . . . . . . . . . . . . 126

6 TABLE DES MATIÈRES

6.6 Évaluation de la détection et de la correction des erreurs . . . . . . . . . . . 129

6.6.1 Évaluation de la mesurenFLPP . . . . . . . . . . . . . . . . . . . 130

6.6.2 Évaluation de la méthode de correction . . . . . . . . . . . . .. . 133

6.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

Conclusions et perspectives 141

A AMREC 149

A.1 Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

A.2 Application à la segmentation de la parole . . . . . . . . . . . .. . . . . . 150

B Taux de Segmentation Correcte (TSC) 153

C Efficacité des algorithmes de segmentation sur le corpus français 155

D Classes phonétiques des corpus français et anglais 157

E Liste des publications 161

Bibliographie 172

Abbréviations

AMDF Average Magnitude Difference Function

AMR Analyse Multi-Résolution

AMREC Analyse Multi-Résolution sur l’Enveloppe Complexe

API Alphabet phonétiqué International

AR AutoRegressive

ARMA AutoRegressive Moving Average

CART Classification And Regression Tree

CE Categorical Estimation

DAV Détection d’Activité vocale

DBN Dynamic Bayesian Network

DCR Degradation Category Rating

DCT Discret Cosinus Transform

DET Detection Error Trade-off

DTW Dynamic Time Wraping

EER Equal Error Rate

EM Expectation-Maximisation

EMD Empirical Mode Decomposition

FA Fausse Alarme

FFT Fast Fourier Transform

FLPP Frame-based Log Posterior Probability

HNR Harmonic-to-Noise Ratio

GLR Generelized Likelihood Ratio

GMM Gaussian Mixture Model

HMM Hidden Markov Model

HNM Harmonic Plus Noise Model

HTK Hidden Markov Model Toolkit

IHM Interface Homme-Machine

8 Abbréviations

LLR Log Likelihood Ratio

LPC Linear Prediction Coefficients

MFCC Mel Frequency Cepstral Coefficients

MIT Massachusetts Institute of Technology

MOS Mean Opinion Score

PSOLA Pitch Synchronopus OverLap-Add

RAPT Robust Algorithm for Pitch Tracking

ROC Receiver Operating Characteristic

SPC Synthèse Par Corpus

SOAP Speech Output Asessment Package

STM Statistical Trajectory Model

SUS Semantically Unpredictable Sentences

SVF Spectral Variation Function

SVM Support Vector Machines

TD Time Domain

TIMIT Texas Instruments (TI) and Massachusetts Institute of Technology (MIT)

TSC Taux de Segmentation Correcte

TTS Text-To-Speech

VOT Voice Onset Time

Tableau 1 —Définitions utiles à connaître pour la suite de ce document

Définition

HMMSeg1Segmentation par HMM quand on utilise un appren-tissage itérative des modèles sur tout le corpus

AffinSeg1Segmentation obtenue avec le post-traitement par mo-dèle de frontière appliqué àHMMSeg1

BrandtSeg1Segmentation produite avec l’algorithme de Brandtappliqué àHMMSeg1

HMMSeg2Segmentation par HMM quand on utilise un appren-tissage des modèles sur un petit corpus segmenté ma-nuellement

AffinSeg2Segmentation obtenue avec le post-traitement par mo-dèle de frontière appliqué àHMMSeg2

BrandtSeg2Segmentation produite avec l’algorithme de Brandtappliqué àHMMSeg2

TailleAlgoTaille du corpus d’apprentissage utilisé pour ap-prendre les HMM et les modèles de frontière

Liste des figures

1.1 Appareil phonatoire et principaux organes de cet appareil [1]. . . . . . . . . 20

1.2 Spectrogramme (Fréquences en fonction des échantillons) d’un signal deparole échantillonné à 16 KHz. La phrase prononcée est “ses adaptes”. Lespectre utile s’étend de 0 à 8 kHz. . . . . . . . . . . . . . . . . . . . . . . 21

1.3 Chaîne d’analyse produisant les coefficients MFCC. . . . .. . . . . . . . . 23

1.4 Fonctionnement d’un système de synthèse vocale par corpus. . . . . . . . . 30

2.1 Exemple d’un HMM de 4 états et avec une typologie gauche-droite. . . . . 43

2.2 Illustration du fonctionnement de l’alignement forcé avec l’algorithme deViterbi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.1 Étapes de la segmentation par HMM avec un apprentissage itératif. . . . . . 53

3.2 Étapes de la segmentation par HMM basée sur un petit corpus segmentémanuellement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.3 Étapes du post-traitement par modèle de frontière. . . . .. . . . . . . . . . 54

3.4 Constitution d’un super-vecteur. . . . . . . . . . . . . . . . . . .. . . . . 55

3.5 Exemples de diphones de la phrase “On comptait deux projets d’entreprisedistincts”. L’étiquette “SILD” correspond au silence de début. . . . . . . . 56

3.6 Recherche d’un noeud final pour le diphone L-X+R en parcourant le CART. 57

3.7 Nombre d’itérations vs taux de segmentation correcte deHMMSeg1. . . . . 61

4.1 Schéma général pour le calcul det(s) avec la fusion linéaire de plusieursmarques de segmentation :δk est égal à 1 si lakième participe à l’estimationde t(s) et 0 sinon. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

4.2 TSC à 20 ms pour le corpus français des segmentations issues de l’utilisa-tion de la supervision douce avec plusieurs valeurs deθ degθ. Les courbescorrespondent à plusieurs valeurs des couples(TailleComb,TailleAlgo). Lacourbe correspondant à l’utilisation de tout le corpus est la limite de perfor-mances de cette méthode de fusion. . . . . . . . . . . . . . . . . . . . . . 81

10 LISTE DES FIGURES

4.3 TSC à 20 ms pour le corpus anglais des segmentations issues de l’utilisa-tion de la supervision douce avec plusieurs valeurs deθ degθ. Les courbescorrespondent à plusieurs valeurs des couples(TailleComb,TailleAlgo). Lacourbe correspondant à l’utilisation de tout le corpus est la limite de perfor-mances de cette méthode de fusion. . . . . . . . . . . . . . . . . . . . . . 82

4.4 Fonctionnement du calcul des vecteurs acoustiques nécessaire pour évaluerles discontinuités à la frontière d’un couple de diphones. .. . . . . . . . . 88

5.1 Exemples de courbes ROC : courbe idéale, courbe typique et courbe non-informative. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

5.2 Représentation graphique de la mesure de confiance en fonction du rapportde vraisemblanceV(tm). . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

5.3 Courbes ROC des mesuresCBrandtetCAffin pour les erreurs supérieures à50 ms et à 20 ms pour le corpus français. . . . . . . . . . . . . . . . . . . .101

5.4 Courbes ROC des mesuresCBrandtetCAffin pour les erreurs supérieures à50 ms et à 20 ms pour le corpus anglais. . . . . . . . . . . . . . . . . . . . 101

5.5 Évaluation de la capacité des mesuresCBrandtetCAffin et de leurs combi-naisons avec les opérateurs ET et OU à détecter les erreurs supérieures à 50ms pour le corpus français. . . . . . . . . . . . . . . . . . . . . . . . . . . 106

5.6 Évaluation de la capacité des mesuresCBrandtetCAffin et de leurs combi-naisons avec les opérateurs ET et OU à détecter les erreurs supérieures à 20ms pour le corpus français. . . . . . . . . . . . . . . . . . . . . . . . . . . 106

5.7 Évaluation de la capacité des mesuresCBrandtetCAffin et de leurs combi-naisons avec les opérateurs ET et OU à détecter les erreurs supérieures à 50ms pour le corpus anglais. . . . . . . . . . . . . . . . . . . . . . . . . . . 107

5.8 Évaluation de la capacité des mesuresCBrandtetCAffin et de leurs combi-naisons avec les opérateurs ET et OU à détecter les erreurs supérieures à 20ms pour le corpus anglais. . . . . . . . . . . . . . . . . . . . . . . . . . . 107

5.9 Évaluation de la capacité de la mesureCD à détecter les erreurs sur les duréesde segments supérieures à 20 et 50 ms pour le corpus français.. . . . . . . 109

5.10 Évaluation de la capacité de la mesureCD à détecter les erreurs sur les duréesde segments supérieures à 20 et 50 ms pour le corpus anglais. .. . . . . . . 110

5.11 Évaluation de la capacité à détecter les segments erronés de plus de 50 msdu test de décision combinant les mesuresCD, CAffin et CBrandt et le testde décision de l’opérateur OU pour le corpus français. . . . . .. . . . . . . 111

5.12 Évaluation de la capacité à détecter les segments erronés de plus de 20 msdu test de décision combinant les mesuresCD, CAffin et CBrandt et le testde décision de l’opérateur OU pour le corpus français. . . . . .. . . . . . . 112

5.13 Évaluation de la capacité à détecter les segments erronés de plus de 50 msdu test de décision combinant les mesuresCD, CAffin et CBrandt et le testde décision de l’opérateur OU pour le corpus anglais. . . . . . .. . . . . . 112

LISTE DES FIGURES 11

5.14 Évaluation de la capacité à détecter les segments erronés de plus de 20 msdu test de décision combinant les mesuresCD, CAffin et CBrandt et le testde décision de l’opérateur OU pour le corpus anglais. . . . . . .. . . . . . 113

6.1 Exemple d’alignement entre deux séquences phonétiques(ϕ1,ϕ2,ϕ3,ϕ4,ϕ5,ϕ6) et (ϕre f

1 ,ϕre f2 ,ϕre f

3 ,ϕre f4 ,ϕre f

5 ,ϕre f6 ,ϕre f

7 ) et vi-

sualisation des trois chemins possibles arrivant au noeud(ϕ5,ϕre f4 ). D’après

le chemin emprunté, on peut déduire qu’il y a 3 insertions et 4omissions. . 122

6.2 Étapes du système de correction de la phonétisation. . . .. . . . . . . . . . 125

6.3 Grammaire utilisée dans [114] pour le décodage acoustico-phonétique dessegments rejetés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

6.4 Grammaire proposée pour le décodage acoustico-phonétique desN segmentsrejetés voisins lorsque la phonétisation est produite par un phonétiseur auto-matique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

6.5 Première grammaire (Gram1) dans le cas général pour le décodageacoustico-phonétique des N segments rejetés. . . . . . . . . . . .. . . . . 127

6.6 Deuxième grammaire (Gram2) pour le décodage acoustico-phonétique desN segments rejetés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

6.7 Troisième grammaire (Gram3) pour le décodage acoustico-phonétique desN segments rejetés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

6.8 Quatrième grammaire (Gram4) pour le décodage acoustico-phonétique desN segments rejetés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

6.9 Évaluation de la capacité de la mesurenFLPPà détecter tous les types deserreurs de phonétisation et chaque type d’erreur individuellement pour lecorpus français. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

6.10 Évaluation de la capacité de la mesurenFLPPà détecter tous les types deserreurs de phonétisation et chaque type d’erreur individuellement pour lecorpus anglais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

6.11 Système pour la segmentation et la phonétisation de grands corpus . . . . . 146

A.1 Fonctionnement de l’AMREC. . . . . . . . . . . . . . . . . . . . . . . . .149

A.2 Modules des coefficients de l’AMREC enBF, HF, etMF. . . . . . . . . . . 152

A.3 SegmentationsBF, HF et MF d’une phrase avec l’AMREC. . . . . . . . . 152

A.4 Segmentation en classes acoustico-phonétiques. . . . . .. . . . . . . . . . 152

B.1 Localisation des omissions et des insertions sur un exemple. . . . . . . . . 154

Liste des tableaux

1 Définitions utiles à connaître pour la suite de ce document .. . . . . . . . 8

1.1 Quelques phonèmes de l’API et leurs caractéristiques articulatoires et acous-tiques moyennes [31]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.1 Quelques critères d’évaluation d’une segmentation automatique connaissantune référence. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.1 Taux de segmentation correcte (TSC) à 20 ms pour différentes valeurs duseuil (T) du log de vraisemblance et du nombre minimum (MTI) d’élémentspar noeud final du CART, quandN = 2 et e = 30 ms. Les valeurs de T etMTI qui donnent le meilleur TSC sont respectivement 100 et 10. En effet,avec ces valeurs on obtient un TSC égal à 88.50 supérieur à tous les autresvaleurs du TSC de ce tableau. . . . . . . . . . . . . . . . . . . . . . . . . . 62

3.2 TSC à 20 ms pour différentes valeurs du(N,e) quandT = 100,MTI = 10 etla taille du corpus d’apprentissage est fixée à 300. Les valeurs de N et e quidonnent le meilleur TSC sontN = 2 ete= 30. . . . . . . . . . . . . . . . . 63

3.3 TSC deHMMSeg1etBrandtSeg1. . . . . . . . . . . . . . . . . . . . . . . 64

3.4 TCSs deAffinSeg1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

3.5 TSC deHMMSeg2, AffinSeg2et BrandtSeg2. . . . . . . . . . . . . . . . . 65

3.6 Meilleur algorithme parmi les trois étudiés pour chaquecouple de classesphonétiques et pour le corpus français. Les termes “H”, “G” et “B” corres-pondent respectivement à la segmentation par HMM, au post-traitement parmodèle de frontière et à l’algorithme de Brandt. Les classesphonétiques dufrançais sont : voyelles orales (Vv), voyelles nasales (Vn), plosives voisées(Cpv), plosives non voisées (Cps), fricatives voisées (Cfv), frictives non voi-sées (Cfs), diphtongues (Diph), consonnes nasales (Cn), liquides (cl) , semi-voyelles (Csv), pauses (Pau) et silences (Sil).−−−− signifie qu’il n’existepas dans le corpus des représentants de cette classe de transition. . . . . . . 66

3.7 Limite de performances pour chaque algorithme. . . . . . . .. . . . . . . 66

14 LISTE DES TABLEAUX

4.1 TSC à 20 ms pour le corpus français des segmentations issus de la fusionavec les deux types de sélection des marques, la supervisionuniforme, lasupervision dure et la supervision douce avec les fonctionsde pondérationg1 et h. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

4.2 TSC à 20 ms pour le corpus anglais des segmentations issusde la fusionavec les deux types de sélection des marques, la supervisionuniforme, lasupervision dure et la supervision douce avec les fonctionsde pondérationg1 et h. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

4.3 TSC des segmentations obtenues avec la fusion quand un même corpus d’ap-prentissage est utilisée pour le calcul des scores et pour l’apprentissage desmodèles de la segmentation par HMM et du post-traitement parmodèle defrontière. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

4.4 TSC pour différentes tolérances deHMMSeg1et de la segmentation issuede la fusion optimale avec supervision douce quand le même corpus d’ap-prentissage de taille 300 est utilisé pourHMMSeg2, AffinSeg2et le calcul desscores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

4.5 Niveaux de la qualité de la parole avec le test MOS. . . . . . .. . . . . . . 84

4.6 Résultats des tests MOS pour les voix française et anglaise et pour les troissegmentations (HMMSeg1, segmentation issue de lafusion optimale par su-pervision douce, segmentation manuelle) utilisées pour créer le dictionnairede diphones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

4.7 Résultats du critère objectif appliqué aux corpus anglais et français et auxtrois segmentations (HMMSeg1, segmentation issue de lafusion optimalepar supervision douce, segmentation manuelle). . . . . . . . . . . . . . . . 88

4.8 Résultats du critère objectif appliqué aux corpus anglais et français et auxtrois segmentations (HMMSeg1, segmentation issue de lafusion optimale parsupervision douce, segmentation manuelle). Le test est effectué sur le corpusde textes choisi de telle sorte qu’il n’y a pas d’erreur de la segmentation parHMM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

5.1 les 4 cas possibles de décision d’un test d’hypothèse. . .. . . . . . . . . . 92

5.2 Résultats du critère objectif appliqués aux corpus anglais et français et auxdictionnairesdictHMM,dictFUS, dictFUSCORRet dictMAN. . . . . . . . . 115

6.1 Taux de phonétisation correcte et nombres des erreurs desubstitutions, d’in-sertions et d’omissions générées par la perturbation de la phonétisation ma-nuelle et pour les deux corpus. . . . . . . . . . . . . . . . . . . . . . . . . 130

6.2 Les nombres de substitutions, d’insertions et d’omissions, le taux de phoné-tisation correcte et le nombre d’itérations qui ont été nécessaires à la conver-gence du système de correction pour le corpus français. . . . .. . . . . . . 134

LISTE DES TABLEAUX 15

6.3 Les nombres de substitutions, d’insertions et d’omissions, le taux de phoné-tisation correcte et le nombre d’itérations qui ont été nécessaires à la conver-gence du système de correction pour les corpus français et anglais. Ces ré-sultats sont donnés pour le cas où on utilise la grammaireGram1toute seuleet le cas où on l’utilise conjointement avec des modèles de langage. . . . . 136

6.4 Matrice de confusion entre la phonétisation manuelle etla phonétisation er-ronée choisie initialement. . . . . . . . . . . . . . . . . . . . . . . . . . .138

6.5 Matrice de confusion entre la phonétisation manuelle etla phonétisation er-ronée en sortie du système de correction utilisant à la foisGram1et les mo-dèles de langage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

A.1 Indices forts et indices faibles caractérisant les classes acoustico-phonétiques. 151

C.1 Pour chaque couple de classes phonétiques du français, on présente lenombre des erreurs de segmentation dépassant 20 ms et le tauxd’erreur à20 ms pour la segmentation par HMM. Les zones rouges représentent lescouples de classes phonétiques pour lesquelles l’approchepar HMM est l’al-gorithme de segmentation le plus adapté parmi les trois étudiés dans le cha-pitre 3. Ces zones sont également représentées dans le tableau 3.6 (voir cetableau pour la nomenclature). . . . . . . . . . . . . . . . . . . . . . . . .155

C.2 Pour chaque couple de classes phonétiques du français, on présente lenombre des erreurs de segmentation dépassant 20 ms et le tauxd’erreur à 20ms pour le post-traitement par modèle de frontière. Les zones rouges repré-sentent les couples de classes phonétiques pour lesquellesle post-traitementpar modèle de frontière est l’algorithme de segmentation leplus adapté parmiles trois étudiés dans le chapitre 3. Ces zones sont également représentéesdans le tableau 3.6 (voir ce tableau pour la nomenclature). .. . . . . . . . 156

C.3 Pour chaque couple de classes phonétiques du français, on présente lenombre des erreurs de segmentation dépassant 20 ms et le tauxd’erreur à 20ms pour l’algorithme de Brandt. Les zones rouges représentent les couples declasses phonétiques pour lesquelles l’algorithme de Brandt est l’algorithmede segmentation le plus adapté parmi les trois étudiés dans le chapitre 3. Ceszones sont également représentées dans le tableau 3.6 (voirce tableau pourla nomenclature). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

D.1 Classes courantes, étiquetage du corpus français, phonèmes API correspon-dant, contexte dans un mot français, voisement (1 : voisé et 0: non voisé) etnombre d’occurrence dans le corpus français. . . . . . . . . . . . .. . . . 157

D.2 Classes courantes, étiquetage du corpus anglais, phonèmes API correspon-dant, contexte dans un mot anglais, voisement et nombre d’occurrence dansle corpus anglais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

Introduction générale

Contexte de l’étude

Au fil des temps, l’utilisation de la parole comme Interface Homme-Machine (IHM) s’estimposée dans de nombreux domaines car c’est un moyen naturelde communiquer pour leshumains. Durant ces dernières années, deux applications dans le domaine du traitement dela parole ont connu des progrès considérables, la reconnaissance vocale et la synthèse de laparole.

Nous allons nous intéresser dans cette thèse au domaine de lasynthèse vocale et plusparticulièrement à la segmentation automatique par phonèmes de grands corpus de parolecontinue, à la détection des erreurs de cette segmentation et à la correction des erreurs de laphonétisation automatique.

En effet, les systèmes de synthèse vocale les plus efficaces sont les systèmes par corpus.Ce genre de systèmes utilise une concaténation d’unités acoustiques (souvent des diphones)sélectionnées dans un grands corpus de parole. Ce grand corpus nécessite donc d’être seg-menté et étiqueté afin de créer le dictionnaire des unités.

Évidemment, la synthèse vocale offre une très bonne qualitéde la parole lorsqu’elleutilise un corpus d’une voix donnée segmenté et étiqueté manuellement par des experts hu-mains. Des résultats similaires sont obtenus en utilisant un corpus de cette voix segmentéet étiqueté automatiquement puis vérifiés manuellement. Cependant, ces tâches manuellesde vérification et de découpage sont très lourdes et coûteuses. Il serait donc intéressant depouvoir segmenter et étiqueter automatiquement des corpusde parole sans détériorer la qua-lité de la parole synthétique. Malheureusement, les méthodes actuelles de segmentation etde phonétisation automatiques de la parole ne permettent pas d’abandonner les vérificationsmanuelles de ces deux processus. Il est donc nécessaire de disposer de méthodes de segmen-tation automatique très précises.

Motivations et objectifs

Avec l’avènement de la synthèse par corpus, la création de nouvelles voix de synthèse estdevenue un processus complexe et surtout très coûteux. En effet, en plus des étapes de défi-nition du corpus de parole et d’enregistrement, de nombreuxtraitements doivent être effec-tués comme notamment, la transcription et la segmentation phonétiques. Si certaines de ces

18 INTRODUCTION GÉNÉRALE

opérations peuvent être en partie automatisées, des étapesde vérification demeurent indis-pensables. Parmi celles-ci, la vérification de la segmentation est particulièrement fastidieuseet coûteuse. Face à la demande croissante de nouvelles voix pour les systèmes de synthèsevocale, il est donc indispensable d’améliorer l’automatisation de cette segmentation.

Le premier objectif de cette thèse est donc de développer uneméthode de segmentationautomatique qui, à partir d’une transcription phonétique correcte, approche la segmentationmanuelle avec une précision meilleure que la technique classique par modèles de Markovcachés (HMM). En effet, l’approche classique par HMM conduit à un taux de segmenta-tion correcte de l’ordre de 88%, mais cette précision est considérée encore insuffisant pourgarantir une bonne qualité de la parole synthétique.

Le deuxième objectif est d’identifier les erreurs de segmentation afin de faciliter la tâchede vérification manuelle faite par des experts humains. Cette identification est réalisée grâceà un test de décision, basé sur des mesures de confiance, qui permet d’évaluer la qualité dechaque marque de segmentation.

Enfin, le troisième objectif est d’étudier la méthode de segmentation automatique pro-posée en présence d’une transcription phonétique automatique contenant des erreurs. Or, untravail antérieur [114] à notre étude a été effectué dans l’équipe TECH/SSTP/VMI de FranceTélécom R&D et portait sur l’amélioration de la phonétisation. Nous avons donc décidéd’appliquer ce système de correction de la phonétisation à nos corpus après améliorations.

Organisation du document

Ce document se compose de 6 chapitres. Le chapitre 1 présentera des généralités sur laparole et sa synthèse. Un deuxième état de l’art est donné dans le chapitre 2. Celui-ci fait unesynthèse des techniques existantes de segmentation automatique de la parole. Précisons qued’autres états de l’art sont présentés dans les chapitres suivants. Ces états de l’art se réduisentà l’essentiel requis pour notre étude.

Le chapitre 3 décrit en détail les méthodes de segmentation phonétique automatique quiont été étudiées et justifiera le choix de celles-ci.

Le chapitre 4 sera consacré à la proposition et à l’étude d’unsystème de segmentationautomatique de grands corpus. Ce système se base sur une approche de fusion des segmen-tations analysées dans le chapitre 3.

La détection des erreurs de segmentation par mesures de qualité est étudiée au chapitre 5.Dans le chapitre 6, nous proposons nos contributions concernant la correction de la phonéti-sation.

Enfin, nous dressons une conclusion de ces travaux et proposons quelques perspectivestant sur les processus de segmentation que de phonétisation.

Notons que quatre annexes, à la disposition du lecteur, permettent de compléter certainesnotions utilisées dans ce mémoire.

CHAPITRE

1 Généralités sur laproduction de la parole etsa synthèse

1.1 Introduction

Dans ce chapitre, nous commençons par une présentation sur la production de la parole,sa modélisation acoustique et sa phonétique. Cette présentation est indispensable pour unebonne compréhension du travail de thèse. Elle reste limitéeà l’essentiel requis pour la suite.Pour davantage de détails, le lecteur pourra se référer aux nombreux ouvrages référencésdans ce chapitre et plus particulièrement [31, 66].

Nous poursuivons ensuite, par l’étude succincte des différents systèmes de synthèse vo-cale. Dans cette section, nous approfondissons essentiellement le fonctionnement de la der-nière génération de systèmes dans laquelle s’inscrivent nos travaux. Il s’agit de la synthèsepar corpus (SPC) qui offre une bonne qualité de la parole synthétique. La description de cha-cun des modules de ce système nous permet de définir le rôle qu’occupe la segmentation degrands corpus de parole et donc de bien définir notre problématique. Nous terminons cettepartie par une énumération non-exhaustive des tests permettant d’évaluer globalement oulocalement un système de synthèse.

1.2 Généralités sur la parole

1.2.1 Production des sons

Un son est produit lorsque l’air contenu dans les poumons estcontraint à passer dansle larynx (et donc au travers des cordes vocales). En effet, l’air s’accumulant dans la cavitésub-glottique exerce une pression sur les cordes vocales etles contraint à s’ouvrir ; puis leurtension normale les aide à se refermer. L’air traverse ensuite le conduit vocal et nasal. Desprécisions sur les types de sons sont données au paragraphe 1.2.3.1.

Sur la figure 1.1, les éléments les plus importants de l’appareil phonatoire qui participentà la chaîne de production d’un son sont représentés.

La vibration quasi-périodique des cordes vocales permet laproduction de toutes les

20 CHAPITRE 1 :ÉTAT DE L’ ART SUR LA PAROLE

voyelles et aussi de certaines consonnes dites sonores ou voisées comme les sons /b/ et /d/.La bouche est un autre élément qui participe à la prononciation d’un son grâce à la mâchoiresupérieure formée par les alvéoles (la partie interne de la gencive), le palais dur (au milieu)et le voile du palais. Au niveau de la partie inférieure, la mobilité de la mâchoire inférieureet la langue effectuent le déplacement. Pour la langue, on distingue la pointe de la langue etle dos de la langue. Les lèvres et les dents participent aussià la phonation.

Figure 1.1 —Appareil phonatoire et principaux organes de cet appareil [1].

1.2.2 Modélisation de la parole

D’un point de vue acoustique, la parole est un phénomène acoustique qui apparaît commeune variation de pression d’air causée par le système phonatoire. Les traits ou indices acous-tiques d’un signal de parole sont sa fréquence fondamentale(ou pitch), son énergie et sontimbre. Ce dernier est très lié aux traits précédents et à l’enveloppe spectrale de ce signal.Chacun de ces traits correspond à un phénomène physique ayant lieu lors de la productiondu son.

Le pitch [40] représente la fréquence de vibration des cordes vocales. Cet élément est dif-férent pour la voix d’un homme (entre 120Hz et 150Hz), la voixd’une femme (aux alentoursde 250Hz) ou celle d’un enfant (entre 300Hz et 400Hz).

L’énergie d’un son est liée à la pression de l’air en amont du larynx et caractérise sonintensité. Souvent l’énergie observée dans un segment voisé est plus importante que celleobservée dans un segment non-voisé.

Le timbre est la caractéristique d’un son permettant de le différencier d’un autre son. Lestransitoires d’attaque ou d’extinction d’un son, la présence de certains formants (enveloppespectrale), leur renforcement ou leur atténuation sont deséléments permettant de caractériserce timbre.

Un signal de parole est une séquence de sons correspondant à une suite d’états de l’appa-reil phonatoire. Le signal de parole est un processus aléatoire non stationnaire à long terme.

Section 1.2 :Généralités sur la parole 21

Par contre, à court terme, il peut être considéré comme quasi-stationnaire dans le sens oùson spectre de fréquence n’évolue que relativement lentement dans le temps. Cette dernièrehypothèse est très utile puisqu’elle a permis de développerplusieurs techniques pour esti-mer ou représenter l’enveloppe spectrale. Parmi ces techniques, il y a l’analyse spectrale.Nous allons donc détailler deux représentations usuelles de l’enveloppe spectrale : la re-présentation temps-fréquence et le cepstre. Nous présentons également la modélisation parprédiction linéaire estimant l’enveloppe spectrale d’un signal de parole. Toutes ces méthodesutilisent l’analyse à court terme. Le traitement du signal de parole se fait donc sur des fe-nêtres d’analyse de l’ordre de 20 à 30 ms. Ces fenêtres se chevauchent (en général de moitié)afin d’assurer la continuité temporelle des caractéristiques de l’analyse ou du modèle et dene pas perdre d’information comme par exemple l’explosion des plosives.

1.2.2.1 Représentation temps-fréquence

La représentation temps-fréquence est la représentation de l’évolution de l’enveloppespectrale dans le temps. Cette représentation consiste donc à analyser en fréquence le signalde chaque fenêtre d’analyse.

L’analyse fréquentielle est effectuée grâce à la transformée de Fourier à court termeet nous permet de représenter le spectre de puissance d’un segment de parole. Ce spectrecontient des pics appelés formants. Ces formants [67] correspondent aux fréquences de ré-sonance du conduit vocal. Les trois premiers formants contiennent l’information la plus im-portante afin d’identifier les sons vocaliques.

La représentation graphique temps-fréquence d’un signal de parole est souvent faite àl’aide d’un spectrogramme. Le spectrogramme est une représentation tridimensionnelle, oùle temps est représenté sur l’axe des abscisses, la fréquence sur l’axe des ordonnées et leniveau d’amplitude est symbolisé par le niveau de gris. Un exemple de spectrogramme d’unsignal de parole échantillonné à 16 kHz est donné dans la figure 1.2. La représentation temps-fréquence permet de segmenter et étiqueter manuellement unsignal de parole et de repérerrapidement les caractéristiques de chaque son.

Figure 1.2 —Spectrogramme (Fréquences en fonction des échantillons) d’un signal de paroleéchantillonné à 16 KHz. La phrase prononcée est “ses adaptes”. Le spectre utile s’étend de 0

à 8 kHz.


1.2.2.2 Analyse cepstrale

L’analyse cepstrale [37, 66, 116] permet en première approximation de séparer la contri-bution de la source de celle du conduit vocal, ce que ne fait pas la FFT. L’utilisation del’analyse cepstrale est donc bien adaptée pour le calcul du pitch et des formants.

L’analyse cepstrale considérée dans ce travail est basée sur l’échelle classique de mel etdonc les coefficients en sortie de cette analyse sont appelésMFCC (Mel Frequency CepstralCoefficients) (cf. équation (1.2)). Ces coefficients sont calculés suivant les étapes représen-tées sur la figure 1.3 :

– Le signal est découpé en plusieurs trames (généralement d’une largeur de l’ordre de20 ms) qui se recouvrent entre elles.

– Sur chacune de ces trames, on effectue les opérations suivantes :

1. Les échantillons de cette trame passent par un filtre de pré-accentuation afin decompenser l’atténuation naturelle du spectre du signal de parole. Le filtre est dela forme :

H(z) = 1−0.97z−1 (1.1)

2. Afin de réduire la distorsion spectrale due à l’extractionde la trame, une fenêtrede Hamming est appliquée sur le signal de la trame.

3. La FFT est ensuite utilisée pour calculer le spectre de la trame.

4. Sur chaque filtre de forme triangulaire de l’échelle de Mel, est calculée l’énergiedu spectre en utilisant les modules de coefficients issus de la FFT. L’échelle deMel est une échelle non linéaire déduite de l’échelle des Hertz. Jusqu’à 1 kHz leséchelles de Mel et des Hz sont identiques. Après 1 kHz, la fréquence Mel suitune relation logarithmique en fonction de la fréquence f exprimée en Hz. Cetterelation est :

mel( f ) = 2595× log10(1+f

700) (1.2)

5. Pour finir, on utilise la transformée en cosinus discrète (Discrete Cosine Trans-form ou DCT) sur les logarithmes des valeurs données par les filtres. La formulede cette transformation est :

ck =√

(2/N)N

∑n=1

log10(En)cos(π(2n+1)k

2N),

oùN est le nombre de filtres, ˆck est lekièmecoefficient cepstral etEn est l’énergiedu spectre calculée sur lenième filtre. Habituellement, on n’utilise que les pre-mières valeurs de ˆck. Dans ce travail de thèse, nous avons utilisé 24 filtres (N =24) et nous avons pris en compte que les 12 premiers coefficients (k = 1, . . . ,12).

En sortie de cette analyse, le nombre de coefficients caractérisant le signal est réduit. Pourrendre l’analyse acoustique plus efficace et robuste, le vecteur MFCC peut comporter outreles coefficients cepstraux, l’énergie du signal pour la détection d’activité vocale, les dérivéespremières et secondes de ces coefficients et de l’énergie du signal. Ces vecteurs acoustiquesvont êtres utilisés dans la suite pour l’approche de segmentation par HMM et pour modéliserles frontières.


du signalde parole

Trame Pré-accentuation Fenêtrage

Log DCTMFCC

Banc de Filtres Mel

|FFT|

Figure 1.3 —Chaîne d’analyse produisant les coefficients MFCC.

1.2.2.3 Modélisation par prédiction linéaire (LPC)

Cette technique [106] permet de modéliser un signal de parole qui résulte de l’excitationdu conduit vocal par la source glottique. On peut alors modéliser les échantillons du signalde paroles(n) à partir d’un signal d’excitatione(n) à l’aide d’un filtre ARMA [25] de fonc-

tion de transfertS(z)E(z) où S(z) et E(z) sont les transformées en z des signauxs(n) et e(n).

Ce modèle consiste à approcher le signals(n) par une combinaison linéaire de ses valeurspassées à laquelle on ajoute une combinaison linéaire dee(n) et des échantillons précédentsdu signal d’excitation. Ce modèle ARMA n’est pas simple à calculer du fait de la non li-néarité des équations. On préfère recourir au modèle AR proposé parG.Fanten 1960 [58].Le signals(n) est dans ce cas obtenu en ajoutant le terme d’excitatione(n) (incluant l’er-reur de modélisation) à une prédiction obtenue par combinaison linéaire dep échantillonsprécédents :

s(n) = −p

∑k=1

aks(n−k)+e(n), (1.3)

oùa1, . . . ,ap sont les coefficients de prédiction linéaire etp est appelé l’ordre du filtre.

La fonction de transfert est alors :

H(z) =1

1+∑pk=1 akz−k

(1.4)

L’estimation du modèle AR revient à déterminer les coefficientsa1, . . . ,ap du filtre de fonc-tion de transfertH(z) dont on connaît le signal de sortie, mais pas complètement l’entrée.Ces coefficients sont déterminés de sorte que l’énergie de l’erreur de prédiction est minimi-sée dans la fenêtre d’analyse. Le modèle ainsi obtenu intègre les caractéristiques spectralesdu conduit et de la source glottique. De plus, quand l’ordre de prédictionp tend vers∞, alorsle processuse(n) devient un bruit blanc. On dit dans ce cas que le filtre de fonction de trans-fert H(z) est un filtre blanchissant. Comme en pratique l’ordre est fini, le signal résiduele(n)n’est pas blanc. Il existe de nombreuses méthodes dédiées à l’estimation des coefficientsd’un modèle AR comme la résolution des équations Yule-Walker [119, 143], l’algorithmede Levinson-Durbin [43, 44], l’algorithme de Burg [20] et lamodélisation tout pôle [80].Notons que les modèles AR seront la base d’une méthode de segmentation que nous allonsutiliser plus loin dans ce document. Il s’agit de l’algorithme de Brandt.

1.2.3 Phonétique et caractéristiques des sons de parole

La phonétique est l’étude des sons de la parole. On distinguela phonétique articulatoirequi étudie la production des différents sons, la phonétiqueacoustique qui étudie les propriétés


physiques des sons et la phonétique perceptive qui étudie lamanière dont sont perçus les sonspar l’appareil auditif. Nous avons tenu à présenter cette discipline car elle est fondamentaledans la détermination des caractéristiques des sons nécessaires pour segmenter un signal deparole.

1.2.3.1 Phonétique articulatoire

La phonétique articulatoire est l’étude des sons du langagehumain envisagé sous l’anglede la production. Cette discipline nécessite une connaissance de la physiologie des organesde la phonation et du rôle des différents organes dans la production des sons du langage.

Il est possible d’opérer une classification des sons du français à partir de critères articu-latoires. Ces critères, au nombre de six, permettent également de décrire les sons d’autreslangues et résument, en quelque sorte, les possibilités et les limites de l’appareil phonatoire.

Les critères permettant de classifier les sons du français sont les suivants :– le mode articulatoire a trait à la qualité du passage de l’air dans le canal buccal. La réa-

lisation des voyelles implique un passage libre de l’air le long du canal buccal. Le de-gré d’ouverture de la cavité buccale permet de distinguer quatre types de voyelles ; lesvoyelles ouvertes, les mi-ouvertes, les mi-fermées et les fermées. Pour les consonnes,deux modes articulatoires sont à distinguer. Le passage de l’air est totalement bloquélors de la production des consonnes occlusives comme /p/ /t/, et /k/. Le passage estrétréci suffisamment pour permettre l’émission d’un bruit continu lors de la réalisationdes consonnes fricatives comme /f/ et /v/ ;

– l’utilisation du conduit nasal permet de produire des voyelles ou des consonnes ditesnasales. Lorsque le voile du palais est relevé, l’air ne passe que parla cavité buccale,donnant naissance aux sons vocaliques et consonantiques dits oraux ;

– le rôle des cordes vocales détermine le caractère sourd ou sonore des différentes arti-culations. Lorsque les cordes vocales vibrent, les sons seront ditsvoisésousonoresparopposition aux sonsnon voisésou sourds;

– le lieu d’articulation se situe nécessairement dans la partie supérieure du canal buccal.Les points d’articulation sont les alvéoles, le palais dur et le voile du palais. Les troisadjectifs correspondant utilisés dans les descriptions des sons sont : alvéolaire, palatal,vélaire ;

– l’articulateur est constitué par la région inférieure du canal buccal. Il s’agit de la lèvreinférieure et des différentes parties de la langue. Les adjectifs donnés aux sons utilisantla pointe et le dos de la langue sont appelés respectivement apical et dorsal.

– le rôle des lèvres détermine le caractère labialisé ou non labialisé d’une articulation.On distingue de la sorte les voyelles arrondies /u/ des non arrondies /i/ et les consonneslabialisées comme /S/ des consonnes non labialisées comme /s/ et /z/.

1.2.3.2 Phonétique acoustique

La phonétique acoustique s’intéresse à la transmission dessons en tant que signauxacoustiques. Dans ce processus, plusieurs éléments peuvent expliquer l’origine des indicesacoustiques [31]. Nous pouvons citer entre autres, la formedu conduit vocal, l’utilisationou non du conduit nasal, ou encore la vibration des cordes vocales. Les paramètres acous-


tiques des sons les plus utilisés sont le pitch et les formants décrits précédemment. Ces para-mètres acoustiques permettent de différencier des classesacoustiques de sons. Par exemple,le spectre d’un son voisé contient plus de composantes (formants) en basse fréquence qu’enhaute fréquence alors que le spectre d’un son non voisé présente une accentuation vers leshautes fréquences.

1.2.3.3 Phonétique perceptive

La phonétique perceptive tente de comprendre et de décrire la perception de la parolehumaine. Pour ce faire, elle a recours à la physiologie du système auditif et à la psycho-acoustique. Cette dernière est l’étude de la perception auditive en fonction du stimulus. Elles’intéresse à la façon dont les ondes sonores sont captées par le système auditif et la manièredont elles sont interprétées par le cerveau.

L’appareil auditif humain est un système très complexe maistrès performant [31, 111,167]. Il se compose de trois éléments essentiels : l’oreilleexterne, l’oreille moyenne etl’oreille interne. Lorsqu’un son parvient au système auditif par les ondes sonores émisespar la bouche, il est transmis par le conduit auditif externe(oreille externe) jusqu’au tympanque les ondes font vibrer. Ensuite, l’oreille moyenne se charge de transmettre ces vibrationsvia les osselets jusqu’à l’oreille interne. Enfin, ces vibrations sont transformées en messagesnerveux avant d’être décodés au niveau du cerveau. Une oreille normale et jeune perçoit dessons de fréquences comprises entre environ 20 Hz (sons graves) et 20000 Hz (sons aigus).

Les principales caractéristiques de la perception auditive sont l’intensité perçue des sons,la hauteur des sons, leur timbre et leur durée.

L’intensité d’un son est déterminée grâce à son amplitude. Elle permet de distinguer unson fort d’un son faible et elle est mesurée en décibels.

La hauteur d’un son pur ou sa tonie est déterminée par sa fréquence. L’échelle de tonieest une échelle de mel que nous avons présentée dans le paragraphe 1.2.2.2.

Le timbre détermine la couleur d’un son. Il est différent pour chaque type de sourcesonore et différencie, à l’oreille, deux sons qui auraient la même fréquence fondamentale etla même intensité. Par exemple, deux sons de même intensité provenant de deux instrumentsdifférents ont des timbres différents.

1.2.3.4 Caractéristiques des sons

Cette partie décrit certaines caractéristiques des voyelles et des consonnes. Notons queces caractéristiques sont très utiles pour la réalisation de la segmentation manuelle et lacompréhension des erreurs d’étiquetage et de segmentationautomatiques.

Les voyelles sont toutes des sons voisés puisqu’elles proviennent des vibrations descordes vocales. Le timbre propre à chacune dépend principalement de la position de la langueou de l’ouverture de la bouche. On peut ainsi distinguer des classes de voyelles selon leur lieud’articulation (antérieures ou postérieures), le degré d’ouverture du conduit vocal (ferméesou ouvertes), la nasalisation (nasales ou orales), la formedes lèvres (labiales ou arrondies). . .

Du point de vue acoustique, les voyelles sont caractériséespar leur formantsF1, F2 etF3.


Plus la fréquenceF1 est grande, plus la voyelle est ouverte, tandis que plusF2 est grande, plusla voyelle est antérieure. La connaissance deF3 est utile pour distinguer les classes prochesacoustiquement et la labialité.

Les caractéristiques des consonnes sont plus complexes du fait de l’existence de diffé-rents modes d’articulation et de la présence de deux sources: une source de bruit (consonnesnon voisées) et une source sonore (consonnes voisées). Avecces critères, nous pouvons dis-tinguer plusieurs classes de consonnes : les fricatives nonvoisées, les fricatives voisées, lesplosives non voisées (sourdes), les plosives voisées et lessonantes.

Les plosives ou occlusives sourdes [54] se caractérisent par un silence initial provenantde la fermeture totale du conduit vocal suivi d’une explosion. Les plosives voisées sont pardéfinition des sons voisés contenant une explosion. Les fricatives [58, 142] sont des bruitsqui résultent d’une turbulence généralement créé par un fort resserrement du conduit vocal.Les sonantes [31] sont des sons sonores qui perdent leur voisement à côté d’une consonnesourde (non voisée). Dans ce groupe, plusieurs sous-classes peuvent être distinguées : lesconsonnes nasales, les liquides et les semi-voyelles.

Pour différencier ces trois types de consonnes, trois indices peuvent être pris en compte :la présence et la durée du silence, la présence du bruit ainsique la position des formants.

L’identification perceptive des sons (voyelles ou consonnes) est basée sur des indicesacoustiques pertinents qui permettent de distinguer visuellement les différentes classes desons. Pour les voyelles, ces indices correspondent à la position, la largeur de bande et l’in-tensité des formants. Il existe plusieurs indices discriminants pour les consonnes tel que ladurée entre le relâchement et la vibration des cordes vocales. Cette durée est appelée VOT(Voice Onset Time) et elle est définie uniquement pour les plosives.

Les différentes classes de phonèmes du français et de l’anglais ainsi que leur correspon-dance dans l’Alphabet Phonétique International (API) [73]sont disponibles dans l’annexe D.De plus, le tableau 1.1 résume les caractéristiques articulatoires et acoustiques de certainesvoyelles et consonnes de la langue française.

1.3 Synthèse de la parole

1.3.1 Définition

L’objectif de la synthèse de la parole [52, 136] est de produire une voix intelligible etnaturelle à partir d’une représentation phonétique d’un message donné. Pour ce faire, elledoit gérer toutes les coarticulations entre les sons et générer la prosodie de chaque son.

Le conduit vocal, comme tout système physique, possède une certaine inertie qui l’em-pêche de "passer" instantanément d’un phone1 à un autre. La modification de la configurationdu conduit vocal se fait donc de façon progressive. Les deux phones subissent alors une dis-torsion appelée coarticulation.

La prosodie permet d’exprimer les effets sonores de l’énoncé tels que l’intonation, l’ex-clamation, le rythme et l’accentuation. Les informations données par la prosodie se mani-

1Un phone est la plus petite unité acoustique qui différencieun discours.

Section 1.3 :Synthèse de la parole 27

Tableau 1.1 —Quelques phonèmes de l’API et leurs caractéristiques articulatoires et acous-tiques moyennes [31].

phonèmes Caractéristiques Caractéristiquesarticulatoires acoustiques

i

Voix d’homme:orale, non arrondie, F1 = 250 Hz etF2 = 2250 Hz etF3 = 2980 Hzantérieure et fermée Voix de femme:

F1 = 360 Hz etF2 = 2680 Hz etF3 = 3670 Hz

a

Voix d’homme:orale, non arrondie, F1 = 760 Hz etF2 = 1450 Hz etF3 = 2590 Hzantérieure et ouverte Voix de femme:

F1 = 950 Hz etF2 = 1570 Hz etF3 = 3150 Hz�E Voix d’homme:nasale, non arrondie, F1 = 600 Hz etF2 = 1470 Hz etF3 = 2770 Hz

antérieure et mi-ouverte Voix de femme:F1 = 860 Hz etF2 = 1780 Hz etF3 = 3150 Hz

porale, labiale, Bruit bref et faible,

occlusives et sourde transition F2 basse

m

Voix d’homme:orale, labiale, F1 = 300 Hz etF2 = 1300 Hz etF3 = 2300 Hz

occlusives et sourde Voix de femme:F1 = 300 Hz etF2 = 1450 Hz etF3 = 2950 Hz

festent par des variations de fréquence, de durée et d’intensité.

Les systèmes de synthèse qui nous intéressent sont des systèmes TTS (Text-To-Speech)qui prennent en entrée un énoncé sous forme d’un texte.

Un système de synthèse à partir du texte [53, 92, 136] est une machine capable de pro-noncer un texte à voix haute. Ce texte peut être directement généré par un clavier ou scanné,puis reconnu par un système de reconnaissance ou produit automatiquement par un systèmede dialogue homme-machine. Les systèmes de synthèse vocaleles plus connus synthétisentdu texte provenant d’un clavier.

1.3.2 Principales approches de la synthèse

Dans cette section, nous allons aborder les principales approches de la synthèse et nousintéresser particulièrement à la synthèse par corpus. C’est en effet l’approche qui offre lameilleure qualité de la parole synthétique ; d’autre part, ce travail de thèse est dédié auxproblèmes rencontrés dans les systèmes de synthèse utilisant cette approche.

Au cours des deux dernières décennies, les approches de synthèse les plus intéressantesqui ont été développées [92, 117, 138] sont : la synthèse par règles, la synthèse articulatoireet la synthèse par concaténation.

La synthèse par règles [6, 53] nécessite de connaître les mécanismes de production et deperception de la parole. Le signal acoustique est d’abord analysé pour extraire une représen-


tation simplifiée du phonème ou de ses allophones sous forme de valeurs cibles. La transitionentre les valeurs cibles est ensuite modélisée à l’aide de règles contextuelles. À partir de l’en-semble des valeurs cibles et des règles de transition, un spectrogramme artificiel est générépuis on utilise des résonateurs et générateurs électriquesafin de produire le signal vocal cor-respondant à ce spectrogramme. La technique de la synthèse par formants [91] est de loinla plus utilisée en synthèse par règles. Le but de cette technique est de générer un signal desynthèse à partir des informations sur les formants (fréquences centrales, amplitudes, lar-geurs de bande) et les règles d’évolution des formants entrephonèmes. Cette approche desynthèse a l’avantage de ne stocker que très peu de données mais doit recourir à un nombretrès important de règles qui doivent être pertinentes afin demodéliser au mieux le signal deparole.

La synthèse dite “articulatoire” [104] se distingue de la synthèse par règles par rapport àl’élément étudié. Alors que la première tente de générer un signal de parole en reproduisantson spectre, cette synthèse s’appuie sur une simulation de l’appareil de production, en mo-délisant la source d’excitation, les cordes vocales et les différents articulateurs participant àla production [103].

La synthèse par concaténation consiste à générer un signal synthétique en concaténantdes unités acoustiques. Ces unités acoustiques sont obtenues par segmentation des signauxde parole. Parmi ces trois approches, celle-ci est la seule qui a permis l’émergence de sys-tèmes de synthèse dont la qualité peut être considérée commeacceptable. Historiquement,les travaux en synthèse par concaténation ont défini un ensemble minimal d’unités permet-tant de vocaliser n’importe quel texte dans une langue donnée.

La première idée testée était d’utiliser le phonème pour plusieurs raisons : le phonème estune unité de base, bien connue des phonéticiens et quelle quesoit la langue étudiée, il pos-sède une cardinalité faible. Néanmoins, des tests ont montré la présence des discontinuitésentre les phonèmes à cause du phénomène de coarticulation. Ceci a conduit à l’approche ditede synthèse par diphone [53, 127] consistant à mettre bout à bout les segments de diphonespuis à effectuer un lissage pour diminuer les discontinuités aux points de concaténation. Cesdiphones sont préalablement enregistrés en contexte neutre, c’est-à-dire en utilisant des loga-tomes2. Les diphones [101] sont les unités acoustiques qui s’étendent du milieu de la partiestable du phone au milieu de la partie stable du phone suivant. Ensuite, des modificationsprosodiques sont effectuées afin de s’approcher de la bonne prosodie, de diminuer les dis-continuités et d’améliorer la qualité de la parole en sortiedu système. Ces modificationspeuvent être des ajustements de la longueur des diphones et de leur intonation par exemplegrâce à la méthode TD-PSOLA [33, 65, 112] qui a été mise au point par France Télécom.Cette méthode permet de changer le pitch et la durée des segments à concaténer en décom-posant temporellement un signal à l’aide de fenêtres recouvrantes et synchrones du pitch,puis en les reconstituant avec de nouvelles valeurs de périodes.

Une technique très récente de synthèse par concaténation est la synthèse par corpus(SPC) [45, 53, 38] appelée aussi synthèse par sélection d’unités. Le principe de cette tech-nique est de découper le corpus en unités, de sélectionner des unités de parole de taillevariable dans un grand corpus et de les concaténer pour générer le signal synthétique. Le

2Un logatome est un son vocal dépourvu de sens et composé d’uneconsonne (ou d’un groupe de consonnes),suivi d’une voyelle, et qui se termine par une consonne (ou ungroupe de consonnes) (CVC).


corpus utilisé, préalablement étiqueté et segmenté, offrepour chacune des unités acoustiquesplusieurs contextes phonétiques et prosodiques. La phase de sélection consiste donc à choi-sir parmi ces contextes le candidat dont le contexte phonétique et la prosodie sont les plusproches de l’unité de la séquence phonétique et de la prosodie à synthétiser. Des modifi-cations prosodiques (avec TD-PSOLA par exemple) peuvent ensuite être effectuées sur cesunités sélectionnées avant de les concaténer. Les unités acoustiques généralement utiliséessont les diphones mais d’autres unités acoustiques peuventêtre considérées. En effet, l’utili-sation d’unités plus longues diminue la densité des points de concaténation et peut produireainsi une meilleure qualité de la parole. De nouvelles unités acoustiques qui regroupent lephone courant avec le phone qui le précède et le phone qui le suit, appelées triphones, ontété récemment utilisés dans ce type de synthèse vocale, nécessitant de plus grandes basesde données et des méthodes de sélection plus efficaces. La synthèse par corpus est la tech-nique qui produit la parole la plus naturelle mais requiert de très grandes bases de donnéesdans la plupart des systèmes commerciaux actuels. Il arrivequ’une séquence d’unités acous-tiques correspondant à une partie du texte à synthétiser soit présente dans la base de données.Sélectionner cette séquence permet d’éviter les modifications des unités de synthèse et desconcaténations inutiles, ce qui préserve le naturel de la parole synthétisée ainsi produite.

Dans la figure 1.4, nous présentons l’architecture d’un système de synthèse par corpus. Cesystème se compose de deux parties distinctes à savoir la création du dictionnaire acoustiqueet le traitement de synthèse. Dans les deux sections suivantes nous allons présenter chacunede ces parties.

1.3.3 Création du dictionnaire acoustique en SPC

Ce bloc qui opère sur un corpus de parole dédié à la synthèse vocale regroupe trois princi-paux processus : la segmentation, l’étiquetage et l’annotation. Les résultats de ces processusforment le dictionnaire acoustique.

Avant de lancer ces processus, il est indispensable de choisir l’unité de synthèse utili-sée. Parmi ces unités on peut citer, le phone, le diphone, la syllabe, le mot et la phrase. Lechoix d’une unité dépend de l’application visée par le système de synthèse et est fortementinfluencé par deux contraintes :

– Plus l’unité est courte, plus petite sera la base de donnéespour un même taux decouverture. Par taux de couverture, on entend le nombre d’unités différentes présentesdans la base de données sur le nombre total d’unités existantdans la langue utilisée.

– L’utilisation d’une unité plus longue, peut améliorer la qualité de la parole synthétiquecar elle diminue le nombre de frontières à concaténer.

Dans la plupart des systèmes de synthèse commercialisés, lediphone est considérécomme l’unité acoustique offrant le meilleur compromis entre toutes ces contraintes.

Une autre étape préalable aux trois processus nommés ci-dessus consiste à enregistrer uncorpus de texte prononcé par un locuteur donné.

Le choix du locuteur est très important [147, 148] puisque savoix est utilisée pour lasynthèse et donc jugée en premier lieu par l’utilisateur. Par conséquent, la satisfaction del’utilisateur est étroitement liée à la voix du locuteur (son timbre et sa vitesse d’élocution). Le


Texte à synthétiser

Pré-traitement

Texte corrigé

Analysemorphosyntaxique

Texte + syntaxe

Conversiongraphème-phonème

Séquence phonétique

Analyse prosodique

Étiquetage + prosodie

Sélection d’unités

Modificationprosodique etconcaténation {

Modules

desynthèse

Signal de synthèse

Création de dictionnaire acoustique

Corpus de parole

Segmentation,étiquetage

et annotation

Dictionnaireacoustique

Figure 1.4 —Fonctionnement d’un système de synthèse vocale par corpus.

choix du corpus de textes est également important car il est important de couvrir l’ensembledes unités requises (diphones dans notre cas) et selon différents contextes linguistique etprosodique.

La manière dont on fait parler un locuteur doit être également déterminée avant la miseen oeuvre de l’enregistrement, car il est possible d’imaginer plusieurs scénarios : le locuteurlit à voix haute des textes qui lui sont présentés, le locuteur répète ce qu’il entend, le locuteurimprovise un texte, le locuteur récite un texte par coeur. . .

Après avoir choisi le locuteur, les textes qui vont être prononcés et la nature de l’élo-cution, l’enregistrement peut commencer. Il est souvent effectué dans une salle insonorisée,voire anéchoïque avec un microphone de haute qualité [127].Ce processus peut durer plu-sieurs jours voire plusieurs semaines et demande de porter attention à la voix du locuteur,celle-ci pouvant devenir moins naturelle à cause de la fatigue.

Une fois que l’enregistrement est terminé, on effectue le découpage du corpus en phones.


Ce découpage est constitué de la transcription phonétique (ou étiquetage) et de la segmenta-tion associée à cette transcription. Sur la figure 1.4, on peut visualiser l’impact de la qualité dela segmentation du corpus sur la qualité de la synthèse. En effet, plus la segmentation du cor-pus en diphones sera correcte, plus fiables seront les unitéssélectionnées et donc meilleuresera la concaténation dans la mesure où les points de concaténation et les longueurs d’unitésacoustiques seront plus exacts. On peut donc se rendre compte de l’importance de ce modulede segmentation et de la nécessité de l’améliorer.

Pour un système de synthèse concaténant des diphones, la segmentation du corpus estd’abord effectuée en phones puis traduite ensuite en diphones. Le passage de la segmentationen phones à la segmentation en diphones se fait en considérant que le diphone commence àla moitié d’un phone et se termine à la moitié du phone suivant. Avec cette hypothèse et à ladifférence avec la définition du diphone donnée dans la section 1.3.2, on approxime le milieude la zone stable d’un phone par le milieu de ce phone. Cette hypothèse de travail, commodepour des applications pratiques, est discutée dans la conclusion de ce mémoire.

L’étiquetage et la segmentation de la parole peuvent s’opérer soit automatiquement soitmanuellement pour de grands corpus de parole. Cette thèse s’intéresse surtout à la segmen-tation automatique de très grands corpus, car il est long et coûteux d’effectuer cette segmen-tation manuellement pour ce type de corpus. Il est donc préférable d’intervenir automatique-ment afin d’éviter des semaines de travail fastidieux et coûteux.

Le troisième processus concernant l’annotation du corpus consiste à extraire les informa-tions prosodiques pour chaque diphone segmenté dans le corpus de parole.

1.3.4 Traitement de synthèse

1.3.4.1 Pré-traitement et analyses morphologique et syntaxique

Lors du pré-traitement, on commence par analyser le texte que l’on souhaite synthétiserafin d’enlever toutes les ambiguïtés qu’il peut comporter. En effet, le texte d’entrée peutcontenir des séquences de caractères qui sont des numéros, des dates, des abréviations ou desformats spécifiques (URL par exemple). Lepré-traitementa pour objectif de remplacer toutélément de ce type par une séquence littérale correspondantà la prononciation de cet élément.Cette phase permet aussi d’identifier les différentes unités (symboles, mots, ponctuations,textes mal formés comme dans les SMS, méls. . .) présentes dans ces expressions particulièreset de supprimer tous les caractères parasites (comme les espaces, les caractères spéciaux. . .).

Ensuite, uneanalyse morphologiqueest effectuée. Elle identifie les mots et analyse lesmots inconnus. Elle peut s’appuyer sur un lexique auquel on peut adjoindre une liste desuffixes et préfixes usuels ou mettre en jeu des règles d’analyse morphologique. Par exemple,pour les sigles : doivent-ils être épelés ou lus ? On peut établir des règles : (les sigles necomportant que deux lettres (UV) sont généralement épelés,ceux ne comportant que desconsonnes (SNCF) ne peuvent être qu’épelés, ceux constitués d’une suite de type consonne-voyelle-consonne-voyelle (CVCV) peuvent être lus (PACA),etc. On peut aussi recourir àdes lexiques dans lesquels sont stockés des sigles dont l’oralisation est déviante par rapportaux règles (MAIF - [maif] et non [mEf]) ou aussi des modèles permettant un apprentissagede la lecture des sigles.


L’ analyse syntaxiquea pour but de déterminer la catégorie syntaxique de chaque motdu texte. Autrement dit, cette étape commence par un premierfiltrage des catégories pos-sibles sur la base de l’analyse morphologique puis attribueune étiquette grammaticale pardes règles contextuelles ou des approches probabilistes (par exemple les modèles de lan-gages). La dernière étape de la décision de la catégorie grammaticale définitive de chaquemot se fait par la recherche du meilleur chemin dans un treillis de catégories syntaxiques,avec l’algorithme de Viterbi par exemple. Dans la phrase “Les poules du couvent couvent”,l’analyse syntaxique va déterminer que le premier “couvent” est un nom alors que le secondest un verbe.

1.3.4.2 Conversion graphème-phonème

Cette conversion [57] vise à créer la séquence phonétique associée à la séquence de gra-phèmes en sortie de l’analyse morphosyntaxique. Un graphème est la plus petite unité dis-tinctive et significative de l’écriture. Dans l’écriture alphabétique, le graphème est communé-ment appelé lettre. Pour la conversion graphème-phonème, des règles phonétiques classiquesde la langue choisie ainsi qu’une base contenant la transcription phonétique de certains motsirréguliers sont utilisées. Plus précisément, dans un premier temps, la transcription phoné-tique est générée sans prendre en compte le contexte grâce à un arbre de décision créé à partird’une base d’apprentissage. Cet arbre trouve pour chaque graphème un phonème correspon-dant en se basant sur la nature lexicale du mot. Ensuite, on remet en cause la transcriptionphonétique en tenant compte cette fois du contexte. Cette étape est importante car la pronon-ciation d’un mot est modifiée par les mots qui l’entourent comme dans le cas d’une liaisondans la langue française. Il est donc nécessaire de faire apparaître ces influences dans latranscription phonétique.

1.3.4.3 Analyse prosodique

Étant donné que la transcription phonétique n’est pas suffisante pour produire de la paroleintelligible et naturelle, le système de synthèse prédit aussi la prosodie correspondant au texted’entrée. Plus la prosodie est riche, plus la parole synthétisée semble naturelle. Cette proso-die est déduite de l’analyse syntaxique. Du point de vue acoustique, la prosodie désigne lesphénomènes liés à la variation des paramètres de hauteur (fréquence fondamentale), d’inten-sité (énergie du signal) et de durée permettant de véhiculerde l’information liée au sens telleque la mise en relief, mais aussi l’assertion, l’interrogation, l’injonction, l’exclamation. . .

La variation des paramètres cités ci-dessus se traduit perceptuellement par le rythme, lamélodie et l’accentuation. Le rythme est perçu grâce à l’enchaînement de segments de duréedifférente. La mélodie correspond à l’évolution dans le temps de la hauteur. L’accentuationest un phénomène provenant de l’augmentation de la durée syllabique, de l’intensité sonoreet de la hauteur mélodique sur certaines syllabes de l’énoncé.

À la différence de la synthèse par diphones qui utilise une prosodie dite numérique (ba-sée sur des informations comme les valeurs de la fréquence fondamentale et de l’énergie dusignal), la synthèse par corpus utilise la prosodie dite symbolique [151] constituée des infor-mations symboliques comme les contours (contours mélodiques descendants et montants)décrits par l’évolution au cours du temps de la fréquence fondamentale.


1.3.4.4 Sélection des unités

Le conversiongraphème-phonèmetranscrit un texte littéral en une séquence phonétique.Les unités acoustiques sélectionnées doivent correspondre aux unités contenues dans cetteséquence phonétique.

La sélection consiste à déterminer pour chaque unité cible,l’unité source dans le diction-naire d’unités qui lui ressemble le plus du point de vue contexte et prosodie. Dans le cadre dela synthèse par corpus, on rappelle que ce dictionnaire est assez grand et contient générale-ment plus de 200000 phonèmes (tous les diphones de la langue avec plusieurs représentantsde chaque diphone).

Quelques critères de sélection sont cités dans [72]. Cette recherche est généralement ef-fectuée par l’algorithme de Viterbi [126], avec un arbre de décision construit sur une based’apprentissage [29] ou avec un critère de minimisation desdiscontinuités spectrales auxpoints de concaténation des unités candidates [49, 72, 147]. Si dans la base de la sélection setrouve un groupe d’unités ou un mot de la séquence phonétiqueà synthétiser, il est entière-ment sélectionné afin d’éviter des concaténations inutiles. Cela permet d’améliorer le naturelde la parole synthétisée.

1.3.4.5 Modification prosodique et concaténation des unités

Cette étape consiste à concaténer les unités sélectionnéesles unes à la suite des autresaprès les avoir modifiées prosodiquement. La modification prosodique est nécessaire car unesimple juxtaposition de ces unités ne suffit pas pour avoir une qualité de voix acceptable. Eneffet, il se peut que l’unité sélectionnée soit peu satisfaisante ou qu’un lissage s’avère utile.Des méthodes de lissage ont été élaborées afin d’homogénéïser et affiner les discontinuitésdes segments acoustiques concaténés. Le lissage peut s’appliquer au niveau spectral commeau niveau prosodique, mais les avis sont mitigés sur l’indispensabilité de ces lissages. Cer-tains montrent que l’utilisation du lissage peut dégrader la qualité de la parole [39]. D’autrespréconisent le lissage [32, 50] quand la mesure évaluant la distorsion spectrale dépasse unevaleur maximale.

Une méthode simple de lissage spectral permettant de rapprocher les formants de deuxsegments successifs est de calculer une distance spectrale[32] entre la dernière trame dupremier segment et la première trame du second après avoir défini l’intervalle dans lequelpeuvent se situer les frontières de ces segments. Ensuite, le couple de frontières minimi-sant cette distance est retenu. Néanmoins, cette méthode est très complexe algorithmique-ment. Une autre méthode consiste à effectuer une interpolation spectrale à l’aide de certainesformes d’onde caractéristiques et extraites aux extrémités des segments. D’autres méthodespour réaliser un lissage prosodique existent, comme TD-PSOLA [34] et les techniques fré-quentielles comme les HNM [145, 149].

1.3.5 Applications

Les applications des systèmes de synthèse sont nombreuses grâce à la demande croissanted’intégration de la parole dans plusieurs domaines.


Le premier domaine d’application est les télécommunications. En effet, on cherche dé-sormais à offrir le maximum de services à bas prix dans ce domaine. La synthèse permet dediminuer le coût des services accessibles par le téléphone comme les horaires de cinéma, lemontant de sa facture téléphonique, annuaires, transactions boursières. . . .

Les systèmes de synthèse peuvent aussi être un bon moyen de communication pour leshandicapés [4]. Ces derniers ont la possibilité de taper surun clavier qui leur est adapté etde s’exprimer avec les autres personnes grâce à une voix de synthèse. On peut égalementimaginer l’utilité de ces systèmes pour des personnes malvoyantes qui peuvent avoir accès àdes informations écrites grâce à une parole synthétisée. Cette dernière nécessite évidemmentune reconnaissance de caractères.

Une autre application intéressante est l’apprentissage des langues car la synthèse vocalecombinée à un outil d’apprentissage peut aider l’élève à apprendre une langue étrangère. Latraduction automatique qui permet de traduire un mot d’une langue en une autre à voix hauteest également un moyen d’apprentissage qui peut se faire parsynthèse. Par rapport à cesservices, la qualité de la parole synthétique doit être la meilleure possible.

Un autre domaine où la synthèse vocale est employé est celui des jeux vidéo utilisant àla fois une interface jeu/joueur basée sur des technologiesde reconnaissance vocale et desfonctionnalités basées sur la synthèse vocale permettant aux personnages de jeux vidéo dedialoguer avec le joueur. Nuance est l’un des fournisseurs leaders de cette technologie enpartenariat avec Nintendo.

D’autres domaines où la synthèse vocale peut apporter une contribution significative sontles voitures et les maisons communicantes. Bientôt, les maisons et les voitures devraientpouvoir nous informer de certaines anomalies afin de diminuer le risque d’accidents.

Pour tous ces domaines d’application l’intelligibilité est cruciale mais le naturel est d’au-tant plus nécessaire lorsque les systèmes de synthèse produisent des textes synthétisés longs.

1.3.6 Évaluation des systèmes de synthèse vocale

L’évaluation de la synthèse de la parole est un domaine indispensable tant que la qualitéde la parole produite sera inférieure à la qualité de la parole naturelle. En effet, l’évaluationde la qualité de la synthèse permet de déterminer certains défauts du système et d’y remédier.

Jusqu’à maintenant la grande majorité des tests utilisent les impressions subjectives deplusieurs sujets humains. Cette évaluation est appelée globale car elle juge la sortie du sys-tème de synthèse sans se préoccuper de son fonctionnement interne. L’autre type d’évalua-tion consiste à évaluer la qualité de chaque module du système synthèse. En effet, le systèmede synthèse est une chaîne de traitements. Dans cette chaîne, le traitement qui fonctionnemal est celui qui va limiter les performances du système.

Dans ce qui suit, nous présentons ces deux types d’évaluation.

1.3.6.1 Tests subjectifs ou évaluation globale

Globalement, les performances d’un système de synthèse se manifestent directementdans la parole générée. Cette dernière peut être jugée selonsa qualité, son intelligibilité, son


naturel, son expressivité, la satisfaction des utilisateurs ou son adéquation pour l’applicationutilisée. Par exemple, pour des applications concernant les malvoyants, l’intelligibilité estplus importante que le naturel. Par contre, le naturel est lecritère le plus important pour desapplications multimédia ou dans les dialogues homme-machine.

Les méthodes utilisées pour évaluer la parole synthétique sont en fait des méthodes per-mettant de juger de la qualité d’un signal de parole quelconque. De plus, elles sont générale-ment subjectives car elles sont basées sur l’écoute et les avis d’un groupe de personnes.

Il est donc clair qu’avant chaque test, certains éléments doivent être déterminés commele type et le contenu des phrases à faire écouter, le scénariode test à suivre et le choix desauditeurs.

Le choix du corpus de phrases à faire écouter dépend de la nature de l’évaluation etde l’application. Par exemple, pour juger l’intelligibilité de la parole, certains tests utilisentdes logatomes, des syllabes ou des phrases sémantiquement imprédictibles (SemanticallyUnpredictable Sentences ou SUS) [26] formées des mots de la langue mais dépourvues desens. Les auditeurs sont ensuite priés d’écrire ce qu’ils ont entendu. Le corpus des phrases àfaire écouter peut aussi contenir des cas de phonèmes, de mots ou groupe de mots qui sontproblématiques dans la langue de l’application. Par exemple, en français, il faut se focaliserplus sur les consonnes que les voyelles et plus particulièrement sur les consonnes nasalesou certaines combinaisons de consonnes (/rt/, /rm/. . .). Ilest également important de traiterles cas de liaisons de la langue française. Les choix de la syntaxe et de la nature du corpusdépendent de l’application et du scénario d’évaluation.

Le choix des auditeurs peut également modifier énormément les résultats de l’évaluation.Ces résultats risquent d’être erronés avec des auditeurs naïfs qui découvrent le test pour lapremière fois et seront plus représentatifs avec des auditeurs habitués au test. Ceci est dûau fait que l’oreille comprend de mieux au mieux au fur et à mesure des répétitions. Il peutêtre donc nécessaire de passer par une étape d’apprentissage afin que les sujets découvrentla qualité globale des phrases à tester.

Il existe plusieurs scénarios d’évaluation de la qualité dela parole et plus particuliè-rement de la parole synthétique. On trouve par exemple la méthode MOS (Mean OpinionScore) [153] qui est incontestablement la plus utilisée et la plus simple. Cette technique uti-lise une échelle de 5 niveaux qui qualifie la parole de très mauvaise (1) à excellente (5).L’auditeur n’a qu’à écouter le signal de parole puis mettre une note entre 1 à 5.

Un autre scénario appelé CE (Categorical Estimation) consiste à évaluer la parole selonplusieurs critères : par exemple du moins ennuyeux au plus ennuyeux, du plus lent au plus ra-pide, du plus naturel au plus artificiel ou encore du plus facile ou plus difficile à comprendre.Ce scénario permet une analyse plus approfondie et donc aideà détecter les limitations etdéfauts du système.

Il est possible aussi de comparer chaque couple de phrases ducorpus et donc de noterune phrase par rapport à une autre.

Il existe aussi un scénario qui permet de juger de la qualité de la parole d’un systèmede synthèse par rapport à la parole issue d’un système de référence. Ce test est basé surle jugement des dégradations (Degradation Category Ratingou DCR) [118] où plusieurspersonnes jugent sur une échelle de 1 à 5 le niveau de dégradation de la synthèse.


On peut également évaluer l’application en elle-même car lasynthèse est souvent com-binée à d’autres briques technologiques telles que des systèmes de reconnaissance ou dedialogue intelligent. Le moyen le plus pratique et efficace pour juger de la qualité de l’appli-cation est l’attente de retour d’utilisateurs réels. Ce n’est pas toujours possible car on préfèregénéralement tester le système avant son apparition sur le marché.

Il n’existe pas de test subjectif considéré par la communauté comme étant le meilleur.Il est en fait souhaitable d’utiliser plusieurs méthodes detest et de combiner les résultatsd’évaluation. Il existe néanmoins des logiciels qui intègrent différents scénarios de test afinde faciliter la mise en oeuvre des procédures d’évaluation de la qualité de la parole synthé-tique. Un de ces logiciels s’appelle SOAP[69] (Speech Output Assessment Package).

1.3.6.2 Évaluation locale

Comme tous les éléments d’un système de synthèse ont des rôles différents, ils influenttous obligatoirement sur la qualité de la parole produite. Avec une approche locale, les perfor-mances du système de synthèse sont déterminées à travers l’évaluation individuelle des per-formances de certains éléments clés du système comme la transcription graphème-phonème,la prosodie, la sélection des unités et la concaténation.

Un moyen d’évaluer la prosodie est, par exemple, de calculerune distance acoustiqueentre la prosodie générée par le système de sélection et la prosodie extraite du signal natu-rel. Les discontinuités au niveau des concaténations des diphones sont évaluées égalementpar des distances [32, 35, 39, 49]. Une des distances [49] sera utilisée et décrite dans lasection 4.5.2. Elle est basée sur l’évaluation des discontinuités spectrales aux frontières desdiphones concaténés.

Même si on a décliné deux façons possibles d’évaluer un système de synthèse, les testssubjectifs qui évaluent la qualité de la parole synthétiséerestent incontestablement prédomi-nants et sont raisonnablement les plus adaptés pour les systèmes de synthèse de la parole.

1.4 Conclusion

Outre, une présentation générale sur la production de la parole, son analyse et sa mo-délisation, ce chapitre a présenté les caractéristiques des consonnes et des voyelles. Cescaractéristiques articulatoires, acoustiques et perceptives sont très importantes pour notreproblème de segmentation. En effet, la connaissance de ces caractéristiques est primordialepour segmenter manuellement un signal de parole et pour comprendre le fonctionnement desalgorithmes de segmentation automatique.

De plus, ce chapitre a présenté l’application principale denotre travail de recherche quiest la synthèse vocale. Nous avons insisté plus particulièrement sur les systèmes de synthèsevocale par corpus qui donnent une meilleure qualité de la parole. Or, pour les applicationspratiques de ces systèmes, on souhaite avoir une segmentation la plus précise possible. Nousavons également décrit quelques moyens possibles pour évaluer la qualité de la parole syn-thétique.

CHAPITRE

2 Généralités sur lasegmentation de la parole

2.1 Introduction

Nous consacrons ce chapitre à la segmentation de la parole pour laquelle nous allonsprésenter un aperçu des recherches déjà faites dans ce domaine.

Il existe deux grandes classes de méthodes de segmentation automatique en phones. Lapremière n’utilise pas la connaissancea priori de la séquence phonétique du signal de parole,tandis que la deuxième utilise cette information. Dans cette partie, nous approfondissonségalement l’étude de l’approche classique par HMM en décrivant les algorithmes utiliséslors de l’apprentissage et du décodage.

Ensuite, nous allons définir la segmentation manuelle car elle représente la référence quenous essayerons d’approcher. Finalement, nous expliquonsles moyens existants pour évaluerla qualité d’une segmentation automatique de la parole.

2.2 Deux grandes classes de méthodes de la segmentationautomatique de la parole

Il ressort de l’étude bibliographique que les algorithmes de segmentation automatiqued’un signal de parole en phones peuvent être regroupés en deux grandes classes. La pre-mière classe est ditesans contrainte linguistiquedans la mesure où il n’est pas nécessairede connaître l’étiquetage du corpus de parole [8, 114]. La deuxième classe est celle desméthodes qui nécessitent uneconnaissance a prioride cette transcription [87, 114].

La première classe peut être également divisée en deux sous-classes : une contenant lesméthodes de segmentationpartielleet l’autre utilisant les segmentationscomplètes. La pre-mière est constituée de méthodes locales dédiées à certaines classes de sons spécifiques.La deuxième sous-classe regroupe des méthodes, locales, qui cherchent à segmenter tout lesignal ainsi que des méthodes globales qui effectuent des analyses sur l’ensemble du signal.

Nous allons maintenant présenter ces méthodes de manière unpeu plus détaillée.

38 CHAPITRE 2 : GÉNÉRALITÉS SUR LA SEGMENTATION DE LA PAROLE

2.2.1 Segmentations sans contrainte linguistique

Ces méthodes [10, 152] ont pour objectif degénérer une segmentation acoustique sansaucune connaissance a priori sur l’étiquetage du signal de parole. Elles conduisent doncà des insertions et des omissions des marques de segmentation. Certaines de ces méthodessont plus adaptées à séparer certaines classes acoustico-phonétiques que d’autres. Parmi cesméthodes nous pouvons citer les suivantes.

2.2.1.1 Détection de ruptures de stationnarité dans le temps

Ces méthodes visent à détecter des ruptures correspondant àdes discontinuités de sta-tionnarité. Pour cela, elles font souvent quelques hypothèses sur le signal de parole. Parexemple, ces méthodes considèrent que la parole est une suite d’unités stationnaires, chaqueunité étant caractérisée par un modèle autorégressif. Trouver une rupture de stationnarité estdonc équivalent à un changement de paramètres dans ces modèles, ce changement étant dé-tecté grâce à un critère statistique. Plusieurs exemples sont décrits dans [17, 8]. L’un d’entreeux, l’algorithme de Brandt, sera détaillé au chapitre suivant (section 3.5).

2.2.1.2 Détection d’activité vocale

Le but des méthodes de détection d’activité vocale [125, 166] est de localiser avec pré-cision les zones contenant de la parole à partir des échantillons du signal de parole. Celarevient à faire une segmentation silence/parole. Celles-ci sont très appliquées dans les do-maines de la compression, du codage et de la reconnaissance de la parole. On y trouve desméthodes simples mais aussi des méthodes plus sophistiquées pour traiter le cas de la parolebruitée. Le lecteur pourra trouver quelques exemples dans les articles [11, 108, 132, 133].Une méthode simple d’identification des segments silence/parole se base sur la comparaisondes amplitudes du signal de parole avec le niveau du bruit. Leniveau de bruit est calculépar exemple avec les valeurs absolues des amplitudes sur uneportion du silence [144]. Uneautre méthode simple [71] est basée sur la fonction d’énergie à court-terme. Cette fonctiond’énergie est calculée par la somme du signal multiplié par une fonction de fenêtrage surNtrames. L’application d’un seuil à cette fonction peut ensuite nous permettre de détecter lestrames contenant de la parole et les trames de silence.

2.2.1.3 Détection de voisement

La détection de voisement peut s’effectuer de plusieurs façons.

Les segments du signal sont considérés voisés suivant les valeurs d’une mesure HNR(Harmonic-to-Noise Ratio) locale, de l’énergie, d’un coefficient de corrélation. . . Les mé-thodes effectuant cette détection peuvent être classées endeux catégories : les méthodestemporelles comme le l’AMDF [94] , le YIN [36], le RAPT [150] et le HNM [95] et lesméthodes fréquentielles comme celles basées sur les ondelettes [158, 160].

La détection du voisement peut se faire également en utilisant l’information sur le nombrede passages par zéro. Le principe de cette technique [18, 144] est de construire la courbe qui

Section 2.2 :Segmentation automatique de la parole 39

passe par les milieux des segments, puis de détecter les passages par zéro de cette courbe.Cette dernière est considérée comme une estimation grossière du contenu des basses fré-quences du signal de parole. Notons que dans le cas de signauxvoisés, la courbe se caracté-rise par peu de passages à zéro.

2.2.1.4 Segmentation fricatif/non-fricatif

La segmentation fricatif/non-fricatif se base sur l’identification d’un bruit de friction. Lestechniques appliquées pour déterminer ce bruit se basent principalement sur une statistiquedu nombre de passages par zéro de la dérivée du signal [74, 139]. L’orientation vers ce typede techniques peuvent être expliquées pour la raison suivante. Les voyelles, les consonnesliquides et nasales se distinguent par une énergie concentrée dans le bas du spectre alors queles fricatives ne présentent que peu ou pas d’énergie en dessous de 2 kHz.

2.2.1.5 Segmentation par ondelettes

Ce sont des méthodes qui analysent le signal en temps et en fréquence. Les plus connussont la segmentation par paquets d’ondelettes [134], par ondelettes de Malvar [135, 160] etl’AMR (Analyse Multi-Résolution) [98]. Les paquets d’ondelettes privilégient la résolutionfréquentielle par rapport à la résolution temporelle, les ondelettes de Malvar privilégient larésolution temporelle par rapport à la résolution fréquentielle et l’AMR est une analyse fré-quentielle dyadique. Une amélioration de l’AMR qui est l’AMREC [76] est proposée dansl’annexe A. Cette dernière analyse le signal autour de n’importe quelle fréquence. Cepen-dant, cette méthode n’est pas utilisée dans le mécanisme de l’amélioration de la segmentationautomatique pour des raisons évoquées au début du chapitre 4.

2.2.1.6 La détection des variations spectrales

La détection des variations spectrales est basée sur le calcul de la fonction de variationspectrale SVF (Spectral Variation Function) définie comme une mesure de corrélation [30,123]. Cette mesure a pour but de localiser des changements spectraux rapides. Ainsi, lesinstants de variations acoustiques sont déterminés par lesmaxima locaux de la fonction SVF.

2.2.2 Segmentation avec contrainte linguistique

Cette catégorie correspond aux méthodes répondant à la définition suivante :une mé-thode de segmentation avec contrainte linguistique est uneméthode qui utilise l’informationlinguistique ou l’étiquetage pour apposer les frontières d’unités acoustiques.L’objectif deces méthodes est d’apposer des frontières de phones de façonà avoir un nombre de seg-mentségal au nombre d’étiquettes de la séquence phonétique. Par rapport aux méthodessans contrainte linguistique, elles ne commettent ni omissions ni insertions si la phonéti-sation correspond à celui du locuteur, bien sûr. Sur la base de cette définition, nous citonsci-dessous des méthodes de segmentation du signal de parolequi tiennent en compte de ladescription phonétique.


2.2.2.1 Segmentation par DTW

Cette méthode est basée sur un système de synthèse de parole.Ce système permet, à partirde la phonétisation connue du signal de parole à segmenter, de produire un signal synthétiquequi va servir comme référence. Les instants des marques de segmentation de ce signal sontconnus grâce au dictionnaire qui a permis d’effectuer la synthèse.

Cette méthode utilise ensuite l’algorithme d’alignement dynamique (en anglais DTWpour Dynamic Time Wraping) afin de comparer le signal de parole à segmenter à un signalde référence. L’algorithme DTW réalise cet alignement en recherchant, parmi tous les aligne-ments possibles, celui qui minimise une fonction de coût cumulée [107] visant à minimiserla distorsion spectrale entre les séquences de trames acoustiques des deux signaux alignés.On peut enfin déduire la segmentation du signal de parole grâce à cet alignement. Certes,cette technique ne requiert pas de phase d’apprentissage, mais son inconvénient est qu’elledoit utiliser un système de synthèse de la langue et d’une voix similaires à ceux du corpus àsegmenter. De plus, elle reste moins performante que la segmentation par HMM [100, 114].

2.2.2.2 Segmentation par HMM

Grâce à l’introduction des modèles de Markov cachés (HMM) par Baum et ses collabo-ratrices dans les années 1960−1970, la qualité et les performances des systèmes de recon-naissance et de synthèse vocales ont pu être améliorées significativement [126, 130, 131].En effet, les HMM ont montré leur capacité à traiter de grandscorpus de parole continue.Cette approche statistique est constituée de deux étapes. La première étape est d’apprendredes modèles (HMM) des unités acoustiques. La deuxième étapeest ledécodageou aligne-ment. On peut avoir deux types de décodage : un décodagesanscontrainte linguistique ou undécodageaveccontrainte linguistique. Dans le premier cas, on cherche à trouver les unitésacoustiques contenues dans le signal de parole et les frontières de chaque unité. Cela corres-pond à une phase de reconnaissance vocale produisant une segmentation pouvant contenirdes erreurs de substitutions, d’omissions et d’insertions. Le deuxième type de décodage uti-lise la connaissancea priori de l’étiquetage et cherche à trouver les frontières de chaqueétiquette. On utilise ce genre de décodage dans les systèmesde synthèse vocale afin de créerles dictionnaires d’unités acoustiques. C’est ce type de décodage que nous étudions tout aulong de ce rapport. Cette technique est connue sous le nom d’alignement forcé. Vu l’impor-tance de cette approche, nous consacrons la section 2.3 à la description des HMM et desétapes de l’apprentissage et du décodage en mettant en avantles algorithmes utilisés.

2.2.2.3 Segmentation par réseaux de neurones

Comme pour la segmentation par HMM, cette méthode utilise des modèles pour dé-terminer les frontières de phones des signaux de parole. En effet, après l’estimation desparamètres des modèles sur un corpus d’apprentissage, un alignement est effectué entre laséquence des trames du signal à segmenter et la séquence des modèles associés au contenulinguistique de l’énoncé. Dans un premier temps, le systèmede segmentation fournit toutesles marques susceptibles d’être des frontières phonétiques. Ensuite, un réseau de neuronesse charge d’éliminer les frontières les moins probables. Lelecteur peut trouver dans la thèse

Section 2.2 :Segmentation automatique de la parole 41

de S. Nefti [114] et dans [82] plus de détails sur cette méthode de segmentation.

2.2.2.4 Pré-traitement à la segmentation par HMM

Les méthodes de pré-traitement à la segmentation par HMM sont des méthodes quifournissent des informations à l’entrée du décodage acoustico-phonétique avec l’alignementforcé. Par exemple, elles peuvent consister à ajouter dans le vecteur acoustique des informa-tions pertinentes provenant d’autres analyses de signal deparole (coefficients d’ondelettes,dérivées spectrales. . .) ou des informations visuelles comme le mouvement des lèvres. Unautre exemple est la décomposition temporelle [14, 15] qui permet de favoriser un cheminparmi d’autres lors de l’alignement forcé avec l’algorithme de Viterbi. Le choix de cheminse fait en augmentant les probabilités de transition pour certains instants.

2.2.2.5 Post-traitement de la segmentation par HMM

Pour pallier l’imprécision de la segmentation par HMM dans les systèmes de synthèsevocale, plusieurs études ont cherché à affiner les marques par HMM avec une méthode auto-matique.

Dans [110], deux techniques de correction des erreurs sur les marques phonétiques pro-duites par HMM sont proposées. La première est basée sur l’ajout d’un décalage constantsur toutes les marques. La deuxième technique se fait en répétant itérativement l’étape sui-vante : on segmente avec l’approche par HMM un corpus de parole puis on ajoute à chaquemarque de la segmentation une déviation. Cette déviation est égale à l’erreur moyenne parrapport à la segmentation manuelle calculée sur un corpus d’apprentissage pour chaque typede transition.

Dans [87], les auteurs proposent un système itératif où chaque itération se compose d’uneétape d’initialisation et d’apprentissage des HMM, une étape d’alignement avec l’algorithmede Viterbi et enfin une étape de correction des marques issuesde l’alignement avec une me-sure calculant la distorsion spectrale. Le but de cette mesure est de minimiser les discontinui-tés spectrales aux frontières lors de la concaténation de deux unités. Ceci permet d’améliorerla qualité de la parole produite avec un système de synthèse vocale.

Dans [5, 140, 157], une autre méthode de segmentation automatique est proposée. Cetteméthode adjoint à l’algorithme de segmentation par HMM, un post-traitement utilisant desmodèles GMM (Gaussian Mixture Models) au voisinage des frontières phonétiques. Par rap-port à la segmentation par HMM, cette méthode est locale puisqu’elle utilise des modèles defrontières qui viennent corriger la segmentation initiale. D’après [157], cette méthode donnede meilleurs résultats que la segmentation par HMM quand elle est testée sur un corpus chi-nois. Par exemple, à une tolérance de 20 ms, elle réduit de presque de 60% le nombre d’er-reurs générées par la segmentation par HMM, ce qui n’est pas négligeable. Cette méthodesera appelée, dans toute la suite de ce document,post-traitement par modèle de frontièreetsera détaillée dans le chapitre suivant (section 3.4).


2.3 Chaînes de Markov cachées et application à la segmen-tation

Comme annoncé, nous présentons quelques éléments de base concernant cette approchecar la segmentation issue de cette approche sera notre référence.

2.3.1 Description d’un HMM

Les modèles de Markov cachés [84, 131] sont des automates décrivant des processusstochastiques temporels. Ces modèles sont dits cachés dansla mesure où les états ne sontpas observés directement. Ces états sont caractérisés par des distributions de probabilité surl’ensemble des observations possibles.

Un HMM est donc :

non déterministe : une même séquence de symboles peut être générée de plusieursma-nières différentes ;

markovien : la séquence des états constitue en effet une chaîne de Markovsimple puisquela probabilité de transition vers un état ne dépend que de l’état actuel et non des étatsprécédents ;

caché : on observe les symboles générés par le modèle mais pas la séquence des états quigénèrent ces symboles ;

Un exemple de HMM avec 4 états est présenté dans la figure 2.1. Il existe plusieurstopologies de HMM. La plus répondue est celle de Bakis [12]. C’est un modèle gauche-droitecomme le montre la figure 2.1 et il est parfaitement adapté à laparole puisqu’il représentebien l’évolution temporelle. Autrement dit, on ne peut avoir que des transitions d’un étatsi àun étatsj sachant quej ≥ i.

Pour des raisons de simplicité, nous allons ici nous restreindre au cas discret. Néanmoins,les équations présentées peuvent être facilement étenduesdans le cas continu [66]. Les élé-ments d’un HMM discret sont :

– Le nombre d’étatsN. Ces états seront nommés :s1, . . . ,sN.– Le nombre de symboles observésM. Ces symboles appartiennent à un alphabet fini{ν1,ν2, . . . ,νM}.

– La matrice des probabilités de transitionA= (ai j ) oùai j est la probabilité de passer del’état si à l’étatsj .

– La matrice des probabilités d’émission des observationsB = (bi(ot)) où bi(ot) est laprobabilité d’être à l’étatsi et d’émettre l’observationot à cet état.

– La matrice donnant la distribution initiale des étatsπ = (πi)i=1,...,N où πi est la proba-bilité a priori de l’étatsi.

Un HMM est donc entièrement défini par le triplet(A,B,π).

Les deux sections suivantes décrivent les solutions des deux principaux problèmes desHMM qui représentent les éléments clés pour effectuer une reconnaissance ou une segmen-tation. Ces deux problèmes sont l’apprentissage et le décodage et ils sont formulés successi-vement par les deux questions suivantes :

– comment calculer les paramètres d’un HMMλ = (A,B,π)?

Section 2.3 :Chaînes de Markov cachées et application à la segmentation 43

2 3 41

a11

a24a13

a12 a23 a34

a33a22 a44

Figure 2.1 —Exemple d’un HMM de 4 états et avec une typologie gauche-droite.

– comment peut on trouver la séquence optimale des états qui apu générer la séquenced’observationsO = (o1,o2, . . . ,oT) ?

2.3.2 Apprentissage

Cette étape est très importante car la qualité du décodage est étroitement liée à la qualitédes modèles en sortie de l’apprentissage. En effet, la qualité du décodage est fonction dela qualité des modèles. Le but de l’apprentissage est d’optimiser les modèles en ré-estimantles paramètresA,B,π à partir de modèles initiaux. Pour ce faire, il maximise la probabilitéP(O|λ) d’observer une séquenceO avec le modèleλ.

Il existe plusieurs méthodes dédiées à l’apprentissage comme les algorithmes de Baum-Welch [19], de la K-moyennes [131] ou de Viterbi [59]. Nous utiliserons Baum-Welch carc’est l’algorithme le plus usuel. Cependant, pour décrire cet algorithme, il faut d’abord dé-crire l’algorithme Forward-Backward.

2.3.2.1 Probabilités avant et arrière (Forward-backward)

Soit αt(i) = P(o1, . . . ,ot ,st = i|λ) la probabilité de générer l’observation partielle(o1, . . . ,ot) et d’occuper l’étati à l’instant t ; αt(i) est appelée la variable “forward” ou“avant” et se calcule itérativement. L’équation d’itération est :

αt( j) = (∑i

αt−1(i)ai j )b j(ot),

avecα1( j) = π jb j(o1). De la même façon on définit la variable “backward” ou “arrière”

βt(i) = P(ot+1, . . . ,oT |st = i,λ),

qui représente la probabilité d’observer la séquence partielle(ot+1, . . . ,oT) sachant qu’on està l’état i à l’instantt. L’équation d’itération de cette variable est :

βt( j) = ∑i

βt+1(i)ai j b j(ot+1),

avecβT(i) = 1.


2.3.2.2 Algorithme de Baum-Welch

Comme nous l’avons déjà mentionné, l’algorithme de Baum-Welch [130] est un algo-rithme d’apprentissage qui estime itérativement les paramètres des modèles de manière àmaximiser la vraisemblance de génération de la séquence d’observation. Cet algorithme n’estqu’une forme particulière de l’algorithme EM (Expectation-Maximisation) [46] dans le casdiscret et se déroule en trois étapes :

1. Le calcul des deux variablesαt(i) et βt(i) avec l’algorithme Forward-backward décritprécédemment.

2. Le calcul de la probabilitéξt(i, j) = P(st−1 = i,st = j|O,λ) d’être à l’étati à l’instantt−1 et d’être à l’étatj à l’instantt. Cet algorithme calcule également durant cette étapela probabilitéγt(i) = P(st = i|O,λ) qui représente la probabilité d’occuper l’étati àl’instant t ; cette probabilité est fonction deαt(i) et βt(i). On a alors :

ξt(i, j) =αt(i)ai j βt+1( j)b j(Ot+1)

∑i ∑ j αt(i)ai j βt+1( j)b j(Ot+1),

γt(i) = ∑j

ξt(i, j) =αt(i)βt(i)

∑ j αt( j)βt( j).

Cette phase correspond à l’étape de l’espérance “E” dans l’algorithme EM.

3. L’estimation des nouveaux paramètres(A, B, π) du modèleλ donnée par les équa-tions (2.1), (2.2) et (2.3).

πi = γ1(i), (2.1)

ai j =∑t ξt(i, j)

∑t γt(i), (2.2)

b j(νk) =∑t γt( j).δ(Ot,νk)

∑t γt( j), (2.3)

où

δ(Ot ,νk) = 0 si Ot 6= νk.

Cette phase correspond à l’étape de maximisation “M” de l’algorithme EM.

Nous pouvons noter que l’initialisation de cet algorithme conditionne l’optimalité desparamètres du modèle. En effet, comme nous l’avons déjà vu, le principe des algorithmesd’apprentissage est de maximiser la probabilité d’observation. Cependant, il est fort possibleque cette probabilité converge vers un maximum local qui n’est pas représentatif. Autrementdit, plus l’initialisation des modèles est proche du maximum global, plus les modèles serontprécis et de meilleure qualité. En pratique, nous utilisonsl’algorithme de la K-moyennes [83,85, 131] qui donne une première initialisation correcte. D’autres initialisations possiblessont : utiliser des modèles existants, c’est-à-dire apprissur un autre corpus ou utiliser unpetite partie de notre corpus de départ segmenté et étiquetémanuellement [87, 110].

Section 2.3 :Chaînes de Markov cachées et application à la segmentation 45

2.3.3 Décodage

Le décodage consiste à trouver la séquence d’unités acoustiques optimale pour un si-gnal de parole donné. Comme nous l’avons déjà mentionné, ce décodage peut utiliser laconnaissancea priori de l’étiquetage ou non. Dans les deux cas, le décodage est effectué parl’algorithme de Viterbi. Dans le cas où la séquence phonétique n’est pas employée, on parlede reconnaissance ou d’alignement. Dans le cas contraire, on parle d’alignement forcé. Dansle paragraphe suivant, nous expliquons le fonctionnement de l’algorithme de Viterbi.

2.3.3.1 Algorithme de Viterbi

Cet algorithme [126] recherche dans un treillis phonétiquele chemin de la séquencecachée d’états la plus probable ayant produit la séquence d’observationO= (o1, . . . ,oT). Untreillis phonétique est obtenu en mémorisant des unités dans le but d’effectuer un décodagephonétique. Dans ce treillis plusieurs hypothèses ou contraintes peuvent être intégrées.

Pour mettre en oeuvre l’algorithme de Viterbi, est évaluée àchaque instantt la quantité :

δt(i) = maxP(s1, . . . ,st = i,o1, . . . ,ot |λ).

Cette équation peut être traduite itérativement par l’équation :

δt( j) = maxi

(δt−1(i)ai j b j(ot)). (2.4)

Afin de déterminer la séquence d’états, on stocke à chaque instant l’état optimal dans lavariableψt( j) = argmax(δt−1(i)ai j ). L’initialisation de cet algorithme est :

δ1( j) = π jb j(o1) et ψ1( j) = 0.

La figure 2.2 illustre le fonctionnement de l’alignement forcé pour un modèle HMM gauche-droit à 3 états tout en raisonnant avec l’algorithme de Viterbi. D’un instant à l’autre, seulsles trois chemins suivants sont possibles :

– On ne change pas d’état. Si on était associé aunième état du modèle dui ième phonème,on reste associé au même état. Ce type de chemin est représenté par un trait horizontalsur la figure 2.2.

– On avance dans le modèle mais on reste associé au même phonème. Par exemple, sion était au deuxième état du modèle associé au deuxième phonème, on passe alors autroisième état (le dernier) de ce même modèle. Ce type de trajet est représenté par untrait continu en diagonal.

– Si on était dans le dernier état d’un modèle, on peut passer au modèle du phonèmesuivant. Dans ce cas là, on note qu’il y a une marque de segmentation dans cette tramede transition. L’instant exact de segmentation étant inconnu, il est donc choisi danscette trame. Les conventions générales sont de la placer au début, au milieu ou encoreà la fin de la trame. Ce type de transition est représenté par untrait pointillé sur lafigure précédente.

Une fois ce treillis construit, il faut donc trouver quel estle chemin le plus probable parmitous ceux représentés. Pour cela l’algorithme de Viterbi s’effectue en deux phases. Dans lapremière, pour chaque nœud du graphe, on calcule quel est le chemin menant à cet état le plus


532 41Modèles

Rupture détectée

Trames

HMM ϕ1

HMM ϕ2

ϕ1 ϕ2

Figure 2.2 — Illustration du fonctionnement de l’alignement forcé avecl’algorithme de Vi-terbi.

probable à partir des chemins optimaux obtenus à l’instant précédent. Par exemple, il n’estpossible d’atteindre l’état 2 du modèle associé au phonèmeϕ2 que depuis l’état 1 ou 2 dumodèleϕ2 à l’instant précédent. Il suffit alors d’utiliser l’équation (2.4) pour trouver lequelde ces deux chemins est le bon. Une fois ceci fait pour tous lesétats et tous les instants, ilsuffit de retrouver le chemin le plus probable pour atteindrele dernier état du modèle associéau dernier phonème pour la dernière trame. Nous obtenons alors la solution du problèmeposé.

2.3.4 Intérêts et limitations

L’emploi des HMM est prédominant en segmentation et en reconnaissance de la parole.En segmentation (le cas qui nous intéresse) l’approche par HMM est considérée de loincomme la méthode standard de segmentation et donc on ne peut échapper à la comparaisonde nos résultats avec ceux issus de cette méthode. L’approche par HMM en segmentationconsiste à apprendre un modèle généralement par phonème surun corpus d’apprentissagepuis à appliquer l’algorithme de Viterbi en alignant le signal de parole sur la séquence pho-nétique dont nous disposons. On pourrait travailler avec des modèles de triphones.

L’approche par HMM présente les limitations suivantes :– Lors de l’apprentissage, les HMM nécessitent un très grandnombre d’exemples pour

estimer avec précision les vraisemblances. Une imprécision sur ces vraisemblances setraduit donc par un mauvais comportement du système.

– Leur mise en oeuvre nécessitent plusieurs hypothèses contraignantes [23] : les obser-vations (les vecteurs acoustiques) doivent être indépendantes (ce qui est évidemmentfaux pour la parole), et la séquence des états doit être un processus Markovien dupremier ordre. Un processus est dit du premier ordre quand l’état courant ne dépendque de l’état qui le précède. Il convient de souligner que la limitation due à l’hypothèsed’indépendance des observations a été compensée avec l’introduction des dérivées pre-

Section 2.4 :Segmentation manuelle de la parole 47

mières et secondes des coefficients cepstraux dans le vecteur acoustique.– Ils modélisent bien les zones stables des phones mais ne sont pas dédiés à la détection

des ruptures dans le signal de parole.

2.4 Segmentation manuelle de la parole

2.4.1 Définition

La segmentation manuelle est considérée comme la segmentation idéale. Elle est réa-lisée par des experts humains ayant des connaissances étendues sur la langue du corpus àsegmenter.

Idéalement, le corpus de parole doit être entièrement segmenté par chaque expert afinde prendre en compte les différences entre les segmentations manuelles. En effet, chaquesegmentation manuelle inclut en grande partie la subjectivité du phonéticien. Par exemple,dans [61], l’auteur a rapporté une déviation de 8 ms entre lesdifférentes segmentations ma-nuelles du corpus de parole spontanéeSwitchboard. Dans [159], une cohérence de 80% enconsidérant les erreurs de plus de 8 ms a été observée entre deux segmentations manuelles ducorpusTIMIT. Une cohérence de 93% en considérant les erreurs de plus de 20ms pour le cor-pusVermobila été constatée dans [89]. Il parraît idéal de calculer la segmentation manuellefinale comme la moyenne des segmentations manuelles produites par plusieurs phonéticiens.

La plupart du temps, cette procédure idéale n’est pas respectée car elle est très lourde,très longue et très coûteuse. La segmentation manuelle est alors réalisée, soit par un seulphonéticien, soit par plusieurs experts qui se partagent lecorpus de parole.

Une dernière méthode consiste à calculer une segmentation automatique que le ou lesexperts vérifient et corrigent manuellement.

Dans tous les cas, les segmentations manuelles malgré leur subjectivité doivent respecterles caractéristiques acoustiques des sons qu’on peut considérer comme des règles (voir lasection 1.2.3) et certaines conventions comme pour les plosives non voisées. En effet, uneconvention peut être par exemple de détecter toute la plosion sans que la frontière entre lesilence et la plosion soit précise. Par conséquent, n’importe quelle segmentation manuellerespectant ces règles est considérée comme fiable.

Lorsque plusieurs experts interviennent et se partagent lecorpus de parole, la durée dela segmentation est considérablement réduite puisque le travail se fait en parallèle sur diffé-rents signaux de parole. Il est également possible que chaque phonéticien ait une spécialitédonnée (segmentation des voyelles par exemple) et que la segmentation soit donc effectuéepartiellement par chaque phonéticien. La segmentation manuelle finale regroupe alors toutesles segmentations partielles de tous les phonéticiens.

Le cas de la correction manuelle de la segmentation automatique réduit encore plus ladurée de la segmentation. En effet, on commence d’abord par une segmentation automa-tique réalisée par un algorithme de segmentation supposé efficace. Ensuite, une interven-tion manuelle est effectuée par des experts humains. Elle consiste à vérifier la segmentationautomatique et à corriger les erreurs grossières. Par abus de langage, cette procédure semi-automatique est souvent dite manuelle. On peut la considérer comme une implémentation


sous-optimale de la segmentation manuelle mais permet un gain de temps non négligeable.

Pour tous les cas cités précédemment, les experts humains ont besoin d’outils et de lo-giciels d’aide à la segmentation, à la correction de la segmentation et à la gestion de grandscorpus de parole. Ces outils ont pour but de faciliter la tâche des phonéticiens et de réduirel’effort humain :Wavesurfer[2], Snorri [3] sont des exemples de logiciels capables de réali-ser cette tâche.

2.4.2 Fonctionnement

Pour segmenter un signal de parole, l’expert humain visualise essentiellement le spec-trogramme (cf. figure 1.2) qui lui permet de distinguer visuellement, en se basant sur descaractéristiques acoustiques, des classes de sons (phones). La connaissance des caractéris-tiques de chaque classe de sons est donc indispensable (voirla section 1.2.3). Cependant, ilarrive que l’expert soit face à certains cas difficiles à segmenter visuellement. Par exemple,il est difficile de trouver la frontière entre deux voyelles.Dans ces cas délicats, l’expert peuts’aider de l’écoute du signal de parole. Si l’étiquetage du signal de parole est disponible,c’est-à-dire sa séquence phonétique, il peut être également utilisé par l’expert pour localiserrapidement les différents sons.

2.5 Critères d’évaluation de la segmentation automatique

L’évaluation des performances d’une méthode de segmentation est une étape importantecar elle permet d’une part de connaître les limitations de laméthode et donc de prévoirles améliorations adéquates. D’autre part, elle est un moyen facile pour comparer plusieursméthodes de segmentation.

Pour juger de la qualité d’une segmentation automatique plusieurs critères s’offrent ànous. On peut soit la comparer à la segmentation manuelle, soit utiliser une mesure deconfiance objective qui ne nécessite pas la connaissance de la segmentation manuelle oualors la juger indirectement à la sortie du système complet,par exemple, en évaluant la qua-lité de la parole synthétisée avec des tests subjectifs telsceux présentés à la section 1.3.6.

2.5.1 Comparaison avec la segmentation manuelle

Cette méthode évalue une segmentation grâce à des critères objectifs qui mettent en jeu,les marques obtenues automatiquement, et les marques de la segmentation manuelle ou deréférence. Cette évaluation est la plus utilisée car elle nous permet d’extraire plusieurs infor-mations utiles suivant l’application. Plus précisément, dans le cas où la segmentation utilisel’information sur l’étiquetage (nombre de marques de la segmentation automatique égal aunombre de frontières de la segmentation manuelle) on peut calculer la moyenne des erreursde segmentation [42] ou la déviation par rapport à la segmentation référence en mesurantla moyenne quadratique des erreurs [105, 122]. Il est possible aussi de calculer le taux desegmentation correcte (en anglais,accuracy) qui mesure le pourcentage des marques qui setrouvent à une distance inférieure à une tolérance choisieε des marques de référence [30, 41].

Section 2.5 :Critères d’évaluation de la segmentation automatique 49

Dans le cas où le nombre de marques de la segmentation automatique n’est pas égal aunombre de frontières de la référence (pas de contrainte linguistique), on peut utiliser des cri-tères comme le taux de sur-segmentation qui est le rapport dunombre de marques proposéespar la méthode sur le nombre d’étiquettes de référence, et lecoefficient de qualité qui indiquele pourcentage de frontières de référence détéctées à moinsdeε ms par la segmentation auto-matique [9, 56]. À l’annexe B, nous proposons d’autres critères à savoir le taux d’insertion,le taux d’omission et les pourcentages de marques bien localisées et mal localisées à unetolérance donnéeε pour une segmentation quelconque.

SoitU = {U1,U2, . . . ,Un} les instants des marques produites par un algorithme de seg-mentation automatique, etV = {V1,V2, . . . ,Vp} les instants des marques de référence. Nousénumérons dans le tableau 2.1 quelques exemples d’équations de critères objectifs d’éva-luation de la segmentationU sachantV et quandn = p. Nous définissonsI[a,b](x) commel’indicatrice de l’intervalle[a,b] : si x appartient à l’intervalle[a,b], I[a,b](x) est égale à 1,sinon elle est égale à 0.

Tableau 2.1 —Quelques critères d’évaluation d’une segmentation automatique connaissantune référence.

Moyenne des erreurs ∑pj=1 (|Vj−U j |)

p

n = pMoyenne quadratique des er-reurs

∑pj=1 ((Vj−U j )

2)

p

Taux de segmentation cor-recte pour une toléranceε

∑pj=1 I[0,ε](|Vj−U j |)

p

2.5.2 Évaluation objective sans connaissance de la référence

Ce type d’évaluation permet de juger objectivement n’importe quelle segmentation sansavoir besoin de choisir une référence. Plusieurs de ces mesures de confiance existent : cer-taines qualifient chaque marque de segmentation [47, 96] et d’autres évaluent la segmentationdans sa globalité [122]. Puisque ces mesures représentent une partie du travail de thèse, nousles étudierons dans le chapitre 5.

2.5.3 Évaluation indirecte ou globale

La segmentation est indirectement évaluée en fonction de l’application. Si l’applicationest la synthèse vocale, on peut effectuer des tests d’écoutepour juger de la qualité de la voixde synthèse et donc indirectement de la qualité de la segmentation [22] (voir la section 1.3.6).Si l’application visée est la reconnaissance de la parole, le taux de reconnaissance peut don-ner une idée sur les performances de la méthode de segmentation. La satisfaction du clientpeut aussi être vue comme une mesure de qualité [105].


2.6 Conclusion

Nous avons passé en revue les différentes méthodes de segmentation automatique de laparole et décrit la segmentation manuelle dont on aura besoin tout au long de ce mémoirepour calculer les taux de segmentation correcte lors des phases d’apprentissage ou de test.

Enfin, nous avons insisté sur l’approche par HMM car la segmentation produite avec cetteapproche sera notre deuxième référence en plus de la segmentation manuelle. Cette approcheest la méthode la plus communément utilisée pour segmenter la parole dans les systèmes desynthèse vocale mais n’échappe pas à certaines limitationscitées dans ce chapitre.

CHAPITRE

3 Mises en oeuvred’algorithmes desegmentation et évaluation

3.1 Problématique

Comme nous l’avons déjà vu dans l’introduction, ce travail de thèse a été proposé afinde remédier à un problème des systèmes de synthèse vocale : lemanque de précision de lasegmentation automatique de grands corpus de parole. À l’heure actuelle, il n’existe pas d’al-gorithme suffisamment efficace qui permettrait d’éviter unevérification manuelle fastidieusedes corpus dédiés à la synthèse vocale.

France Télécom R&D utilise l’approche basée sur les HMM afin de segmenter les corpusde parole. Cette approche sera appelée dans la suite de ce documentHMMSeg1. Le termeHMMSeg1désignera aussi bien la segmentation produite par la méthode que la méthodeelle-même. Une phase de vérification est nécessaire pour corriger HMMSeg1. En effet, lasegmentation par HMM offre des résultats acceptables dans la mesure où 88% des marquesde la segmentation se situent à moins de 20 ms de celles de la segmentation manuelle. Ce-pendant, la précision de la segmentation reste insuffisantecar elle génère des imperfectionsaudibles en sortie du système de synthèse. Ces imperfections sont atténuées par la correc-tion manuelle des erreurs de segmentation. Malheureusement, cette tâche de vérification estlourde car pour un corpus comportant environ 140000 frontières, un taux de segmentationcorrecte égal à 88% nécessite la correction de quelques 16800 marques. De plus, les posi-tions de ces marques ne sont pas connues et par conséquent toutes les frontières doivent êtrevérifiées.

Ce problème nous met face à deux axes de recherche. Le premieraxe est l’amélioration dela segmentation automatique et le deuxième est la localisation des erreurs de segmentation.

Ce chapitre est une réflexion sur le premier axe de recherche.C’est une première partiequi nous a aidé à développer dans le chapitre suivant une approche pour améliorer la seg-mentation automatique par HMM. Nous avons évoqué, dans l’état de l’art, l’existence denombreuses méthodes de segmentation automatique qui sont séparées en plusieurs classes.Les algorithmes retenus dans ce chapitre font partie des deux catégories de méthodes avec etsans contrainte linguistique. Ces méthodes sont la segmentation par HMM, le post-traitementpar modèle de frontière et l’algorithme de Brandt qui est un algorithme de détection de rup-

52 CHAPITRE 3 :ALGORITHMES DE SEGMENTATION ET ÉVALUATION

tures.

Après la description du principe de chaque méthode, les résultats de chacun des algo-rithmes seront exposés dans la section 3.6.3. L’approche desegmentation automatique pro-posée dans le chapitre 4 dérive de l’étude théorique et expérimentale du présent chapitre.

Il est important de préciser que, dans ce chapitre, la séquence phonétique des corpusde parole étudiés est supposée correcte. Le cas d’une phonétisation contenant des erreurs,obtenue de façon automatique, sera traité dans le chapitre 6.

3.2 Choix des algorithmes

Face à la diversité importante des méthodes de segmentationautomatique de la parole, lechoix de décider d’étudier telle ou telle méthode est difficile.

Au début de ce travail de thèse, nous nous sommes focalisés sur des méthodes temps-fréquence. En effet, lors de l’observation d’une base de parole segmentée manuellement, ilapparaît que les frontières de phones se situent en général au voisinage de discontinuitésspectrales.

Pour cette raison nous avons commencé à étudier des méthodesbasées sur les ondelettesde Malvar [134] et des méthodes multi-résolution [76].

L’utilisation de ces méthodes a fini par être abandonnée au profit d’autres algorithmescomme la segmentation par HMM, l’algorithme de Brandt, le post-traitement par modèle defrontière. Nous avons choisi d’abandonner la piste des algorithmes temps-fréquence à causedu manque de critères pertinents permettant la localisation d’une frontière.

La segmentation par HMM étant notre algorithme de référence, nous allons donc étudiersa mise en oeuvre et son évaluation. Cette méthode globale vaservir de référence pour tousles autres algorithmes.

L’algorithme de Brandt est une méthode de détection de rupture basée sur un rapportde vraisemblance. Ce critère est pertinent pour détecter les frontières de phones, même siune détection par simple seuillage de ce rapport risque de produire des insertions et omis-sions. Pour les limiter, nous proposons une méthode par maximisation locale de ce rapportde vraisemblance.

Le post-traitement par modèle de frontière est une méthode de segmentation utilisant desmodèles de frontières pour affiner les marques de la segmentation par HMM.

L’algorithme de Brandt et le post-traitement par modèle de frontière sont deux méthodeslocales de natures différentes et ayant deux objectifs différents : la première est une méthodede détection de rupture de stationnarité et ne nécessite pasla connaissance de la phonétisa-tion et la deuxième est une méthode d’affinement de la segmentation par HMM et requiertde connaître cette phonétisation. Nous allons montrer que les différences entre ces trois mé-thodes sont utiles dans l’approche de segmentation que nousproposons dans le chapitresuivant.

Précisons que ce choix de méthodes n’est pas unique car l’algorithme de Brandt et lepost-traitement par modèle de frontière peuvent être remplacés par d’autres méthodes res-pectant idéalement une contrainte évoquée dans le chapitresuivant. La solution proposée au

Section 3.3 :Mise en œuvre de la segmentation par HMM 53

chapitre 4 se veut donc générique car applicable dans de nombreux cas et sur de nombreuxalgorithmes différents.

3.3 Mise en œuvre de la segmentation par HMM

Certains aspects de la segmentation par HMM ont déjà été évoqués au chapitre précédent.Cette segmentation s’effectue principalement en deux phases. La phase d’apprentissage sertà estimer les modèles HMM via l’algorithme de Baum-Welch. Ensuite, lors de la deuxièmephase appelée aussi phase de test ou de décodage, la séquencedes modèles correspondantà la séquence phonétique supposée exacte de la phrase à segmenter est alignée sur le si-gnal de parole de cette même phrase. Pour effectuer cet alignement, dit forcé, l’algorithmegénéralement utilisé est celui de Viterbi [131]. Celui-ci aété décrit dans la section 2.3.

La phase d’apprentissage est décisive pour obtenir de bons résultats en segmentation. Eneffet, mieux les modèles sont appris, meilleure sera la segmentation. Pour cette raison, leschercheurs se sont focalisés pendant un certain temps sur l’optimisation de la phase d’appren-tissage et l’initialisation des modèles HMM. Ils en ont déduit plusieurs méthodes d’apprentis-sage : nous pouvons utiliser tout le corpus de parole pour initialiser les modèles HMM [87] ;nous pouvons aussi employer un petit corpus de parole segmenté manuellement [110] ; enfinl’approche itérative d’apprentissage [114] est aussi judicieuse.

Cette dernière (cf. figure 3.1) est d’ailleurs très utilisée. Le principe de cette approche estd’effectuer plusieurs fois la phase d’estimation avec Baum-Welch et l’alignement forcé. Àchaque fois nous nous servons, en entrée de l’estimation de Baum-Welch, de la segmentationobtenue à la sortie de l’alignement à l’itération précédente. De cette façon, la disparité entreles segments de phones produits par HMM et les segments de phones manuels diminue. Nousappelerons par la suite cette méthode et la segmentation issue de cette méthodeHMMSeg1.

Séquence phonétique

Signal de parole Initialisation Estimationavec Baum-Welch

(plusieurs itérations)

Alignement forcé Segmentation finale

Figure 3.1 —Étapes de la segmentation par HMM avec un apprentissage itératif.

L’emploi d’un petit corpus segmenté manuellement permet d’estimer les paramètres desmodèles grâce à ce petit corpus. On segmente ensuite le corpus entier sur la base de cesmodèles. La figure 3.2 résume cette approche. Comme l’approche par apprentissage itératif,l’écart entre les frontières de phones produites par HMM et celles obtenues manuellementest largement diminué par le fait que l’initialisation des modèles se fait avec des référencesmanuelles et est donc plus précise.

Nous appelons dans toute la suite de ce documentHMMSeg2la segmentation obtenuepar l’apprentissage basé sur le corpus segmenté manuellement.

Avec les deux types d’apprentissage évoqués ici, la segmentation utilise des vecteursacoustiques incluant les coefficients MFCC, l’énergie et les dérivées premières et secondes


de ces coefficients et de l’énergie. Plusieurs études ont montré que l’utilisation de cette struc-ture de vecteurs acoustiques est plus efficace en segmentation [14, 114]. De plus, nous choi-sissons, comme c’est souvent le cas, d’utiliser une topologie gauche-droite pour les HMM,une matrice de covariance diagonale, et des densités de probabilités d’observation multi-gaussiennes.

Corpusd’apprentissage

Estimation avecBaum-Welch

Alignement forcé

Tout le corpus

Modèles

Segmentation finale

Figure 3.2 —Étapes de la segmentation par HMM basée sur un petit corpus segmenté ma-nuellement.

3.4 Post-traitement par modèle de frontière [157]

Cette méthode est un post-traitement qui peut être adjoint àn’importe quelle segmenta-tion. Le schéma global de cette méthode est présenté sur la figure 3.3 : à partir d’un corpussegmenté et étiqueté manuellement, des modèles associés à chaque type de frontière sontestimés ; ces modèles servent ensuite à corriger la segmentation initiale. Dans la suite, nousprésentons en détail l’apprentissage et la correction.

Segmentation initiale

Affinement

Segmentation finale

Apprentissage

Corpus d’apprentissage

Modèles de frontières

Figure 3.3 —Étapes du post-traitement par modèle de frontière.

3.4.1 Apprentissage

L’apprentissage se fait sur le corpus segmenté et étiqueté manuellement et s’effectue endeux étapes. Tout d’abord, on extrait des signaux de parole des informations acoustiquespertinentes sous forme de super-vecteurs qui caractérisent les frontières et dont la définitionest donnée ci-dessous. Ensuite, pour chaque type de frontière, un modèle multi-gaussien(GMM) est estimé sur l’ensemble des super-vecteurs.

Section 3.4 :Post-traitement par modèle de frontière [157] 55

Le modèle GMM consiste à employer une densité de probabilitéqui est un mélange deK gaussiennes selon l’équation :

p(x) =K

∑k=1

αkG(x;µk,σk) (3.1)

oùαk est le poids de participation de lakièmegaussienne, avec∑Kk=1 αk = 1 et oùG(x;µk,σk)

représente la fonction de densité de probabilité de lakième gaussienne. Les paramètres dumodèle GMM à ajuster sont donc :αk, µk et σk. Pour estimer ces paramètres, on utilisesouvent l’algorithme EM [46] équivalent à l’algorithme de Baum-Welch.

Dans les paragraphes suivants, nous allons présenter les étapes de création des super-vecteurs et des modèles GMM. Précisons que dans la suite de cedocument, les modèlesmulti-gaussiens se réduiront à une loi gaussienne. En effet, dans [157], une étude sur lenombre optimal de gaussiennes à choisir a conduit à un nombreégal à 1. Par abus de langage,nous continuons à parler des GMM.

3.4.1.1 Création des super-vecteurs

Pour caractériser une frontière, les auteurs de [157] ont choisi de calculer les vecteursacoustiques de plusieurs trames autour de la frontière. Chaque vecteur acoustique est com-posé des coefficients cepstraux et de leurs dérivées comme dans la segmentation par HMM.Sur la figure 3.4, est présenté un exemple de super-vecteur construit par la concaténationdes vecteurs acoustiques surN trames à droite de la frontièreB et N trames à gauche deB auxquelles il faut rajouter la trame courante. La taille du vecteur acoustique d’une trameétantNc, la taille du super-vecteur est donc(2N+1)Nc. Le nombreN ne doit pas être tropgrand pour ne pas s’étendre sur les parties stables des phones, ni trop petit pour prendre encompte toute l’information sur la transition du phone à un autre. Il est à noter que ces tramesne se chevauchent pas afin de bien caractériser une frontièreen prenant en compte le plusd’informations possibles non redondantes.

Écart(e)Longueur

de trame (M)Frontière(B)

Super vecteur de taille(2N+1)Nc

−N . . . 0 . . . N

Figure 3.4 —Constitution d’un super-vecteur.


3.4.1.2 Création des modèles de frontières

Une frontièreB n’a de sens que si elle est accompagnée de son contexte. En effet, unefrontière est définie par les phones à sa gauche et à sa droite.Plus précisément, au lieu deparler d’une frontièreB, on parle plutôt du diphone notéX −B+Y, où X est le phone àgauche deB etY est le phone à sa droite (voir les exemples de la figure 3.5).

Figure 3.5 — Exemples de diphones de la phrase “On comptait deux projets d’entreprisedistincts”. L’étiquette “SILD” correspond au silence de début.

Une fois les super-vecteurs de toutes les frontières manuelles du corpus d’apprentissageformés, on cherche à apprendre un modèle pour chaque diphone(X −B+Y). Néanmoins,on ne peut pas construire des modèles pour tous les types de diphones possibles, puisquela taille restreinte du corpus ne permet pas un apprentissage correct de tous ces modèles.Pour cette raison,L. Wanget al [157] proposent de réduire le nombre de diphones en lesregroupant dans des classes à l’aide d’un arbre de classification et de régression (CART) ouplus généralement d’unarbre de décision.

Les arbres de décisions sont particulièrement utilisés dans l’aide à la décision (infor-matique décisionnelle. . .) et en data mining, afin de répartir une population d’individus engroupes homogènes, selon un ensemble de variables discriminantes. Cette répartition se faiten fonction d’un objectif fixé et connu.

Dans notre cas, cet arbre est binaire. L’appellation binaire vient du fait que chaque nœudne peut avoir que deux sous-arbres car nous utilisons comme ensemble de descripteurs desquestions fermées (/R/ est-il une consonne ? /L/ est-il une liquide ? . . .). Les réponses “oui”et “non” aux questions associées au noeud courant forment les deux sous-arbres. Dans notrecas, chaque feuille de l’arbre correspond à une classe particulière. Pour classer un diphoneou une donnée en général, il faut appliquer la question à la racine et suivre à chaque noeudle sous-arbre selon la réponse à la question. Il faut appliquer ces questions jusqu’à ce quela donnée parvienne à un nœud feuille. On considérera alors que la donnée est de la classeassociée à cette feuille (cf. figure 3.6).

De nombreux algorithmes de construction d’arbre de décision ont été proposés. Les plusconnus sont ID3, C4.5, C5 et le CART (Classification And Regression Tree). Nous ne dé-taillons pas ici les trois premiers algorithmes. Pour plus d’informations sur ces algorithmes,le lecteur peut consulter les articles suivants [29, 93, 128, 129, 154].

Le CART [29] est l’algorithme le plus connu pour générer un arbre de décision associéà un problème. L’originalité de cet algorithme par rapport aux autres algorithmes est qu’il

Section 3.4 :Post-traitement par modèle de frontière [157] 57

Non Oui

L−X+R

L est un son voisé?

R est une consonne?

Oui Non

OuiNon

R est une liquide?

Classe du pseudo−triphone

Figure 3.6 —Recherche d’un noeud final pour le diphone L-X+R en parcourant le CART.

peut être utilisé aussi bien dans un contexte de classification que dans un contexte de ré-gression. Un arbre de régression est une variante d’arbre dedécision qui peut accepter desdonnées réelles au lieu de données binaires. Cet algorithmese déroule en deux phases. Dansla première, appelée phase d’expansion, pour chaque noeud de l’arbre de décision, nous re-cherchons le test le plus discriminant possible afin de générer deux nouveaux sous-arbres.Tant que ceci est possible nous le faisons récursivement. Cela permet de générer un arbre trèsgrand, il est donc important de le réduire. Ceci est fait durant la deuxième phase (la phased’élagage) qui permet de supprimer les branches les moins utiles de l’arbre. Pour plus deprécisions sur la création d’un CART, le lecteur est invité àlire la très bonne documentationde [165].

Pour utiliser cet algorithme, on a besoin de quatre éléments:– un ensemble de questions. Ici nous utilisons des questionsphonétiques ou linguistiques

sur les phones à droite et à gauche du diphone considéré ;– un corpus d’apprentissage dont on a déjà déterminé la classe de chaque donnée d’en-

trée ;– un critère d’arrêt. Dans notre cas, c’est le nombre minimald’éléments par nœud final ;– une règle ou un critère pour diviser un noeud. Ce critère peut être une valeur de la

vraisemblance.C’est cet algorithme qu’on a utilisé pour créer l’arbre et donc construire les classes de di-phones. Ensuite, on génère un modèle GMM par classe grâce à une phase d’apprentissage.La création du CART était faite avec un programme de HTK.

3.4.2 Affinement ou correction

Pour chaque frontière de la segmentation initiale à corriger (par exemple la segmentationpar HMM dans [157]), nous faisons l’hypothèse que la frontière réelle se trouve au plus àune distanceR de la frontière initialetB.


Grâce au CART, on peut déterminer la classeC(tB) du diphone de la frontièretB et doncson modèle de frontièreλB, qui se réduit dans notre cas aux paramètres d’un mélange degaussiennes (cf. équation (3.1)).

La procédure d’affinement consiste donc à déplacer la frontière dans l’intervalle[tB−R, tB + R] avec un pas∆ de façon à maximiser l’adéquation au modèleλB. Formellement,nous cherchons donc l’indicei qui maximise la vraisemblancep(Vec(tB + i.∆)|λB) où i estun entier entre−R

∆ et R∆ . Soitk cet indice, l’instanttk = tB+k.∆ est donc la nouvelle estimation

de la vraie frontière.

3.5 Algorithme de Brandt

3.5.1 Description

L’algorithme de Brandt [8, 27, 28] est une méthode locale quipermet de détecter les rup-tures de stationnarité dans un signal de parole. Contrairement à la segmentation par HMMet le post-traitement par modèle de frontière, cet algorithme n’est pas contraint linguistique-ment.

Cet algorithme fait l’hypothèse que le signal de paroley(n) est une suite de segmentsstationnaires et que le signal, sur chacun de ces segments, est modélisable par un modèleautorégressif (AR) :

yn =p

∑i=1

aiyn−i +en,

où p est l’ordre du modèle supposé constant pour tous les segments et oùen est un bruitsupposé gaussien de moyenne nulle et de varianceσ2. Par conséquent, chaque unité estassociée à un vecteur de paramètresΘ = (a1, . . . ,ap,σ). Ici, en représente l’excitation duconduit vocal (voir la section 1.2.2.3).

Soitw0 = (y1, . . . ,yn) une fenêtre d’observation de longueurn et de vecteur de paramètresΘ0. Le principe de l’algorithme de Brandt est de trouver l’instant de rupture de stationnaritédans la fenêtrew0 correspondant à l’instant de changement du vecteur paramètre. Pour cetteraison, nous supposons deux hypothèsesH0 et H1 : H0 est l’hypothèse que le vecteur para-mètre du segment entier estΘ0 etH1 est l’hypothèse qu’il existe un instantr tel que le vecteurparamètre de la séquence d’échantillonsw1 = (y1, . . . ,yr) estΘ1 et le vecteur paramètre dew2 = (y(r+1), . . . ,yn) estΘ2.

L’implémentation optimale de cette méthode de Brandt consiste à chercher dans la fenêtrew0, échantillon par échantillon, la valeur de l’instantr qui maximise les valeurs dépassant unseuilλ de la fonction appeléeDn(r). Cet instant qu’on appelle ˆr est l’instant de changementou de rupture de stationnarité et est l’argument de l’équation suivante :

Dn = maxr(Dn(r)) (3.2)

Le Dn(r) n’est que le rapport de vraisemblance généralisé et est défini par :

Dn(r) = log(p(y1, . . . ,yn|H1)

p(y1, . . . ,yn|H0)) (3.3)

Section 3.5 :Algorithme de Brandt 59

Dans le cas où les échantillonsen sont supposés gaussiens ete1,e2, . . . ,en sont supposésindépendants,Dn(r) a une expression simple :

Dn(r) = nlogσ0− r logσ1− (n− r) logσ2 (3.4)

Pour un signal de parole donné, on commence par placer la fenêtre w0 de taille fixe au débutdu signal. Ensuite, on cherche l’instant de rupture, échantillon par échantillon, dans cettefenêtre comme décrit ci-dessus avec les fenêtres glissantesw1 et w2. Quand on a ce premierinstant de rupture, on cherche à partir de cet instant, l’instant de rupture suivant en utilisantla même procédure avec la fenêtre fixew0.

La complexité de l’implémentation que nous venons de décrire est évidemment très im-portante. Par conséquent, une implémentation sous-optimale a été adoptée dans [7]. Elleconsiste à fixer la taille de la fenêtrew2, à utiliser des fenêtresw0 et w1 glissantes, puis àdétecter un intervalle où se situerait l’instant de ruptureen augmentant petit à petit la taillede w0. Une étape d’estimation est ensuite exécutée pour localiser précisément l’instant derupture.

Comme mentionné précédemment, cet algorithme n’est pas contraint linguistiquement etpar conséquent engendre des omissions et des insertions de marques de segmentation, dontles taux varient en fonction du seuil de détectionλ choisi.

Les paramètres à choisir sont donc :– l’ordre du modèle AR (p) : dans le domaine du traitement de la parole, l’ordre est

souvent fixé à une valeur entre 8 et 16 (10 par exemple pour un signal échantillonné à8 kHz et de 14 à 16 pour un signal échantillonné à 16 kHz). De plus dans [7], l’ordreconseillé est de 16, afin d’éviter les omissions des nasales.On peut aussi introduire unordre variable afin de trouver l’ordre optimal ou estimer cetordre, mais dans [17] celaa introduit des mauvaises détections de ruptures ;

– le seuil de détection de rupture : ce paramètre est difficileà choisir car la fonction GLRest très oscillante. Il est donc important de bien choisir ceparamètre afin d’éviter lesomissions (seuil faible) et la sur-segmentation (seuil élevé).

3.5.2 Intégration de contraintes phonétiques dans l’algorithme deBrandt

Dans le cadre de la segmentation de corpus dédiés à la synthèse vocale, nous disposonsde la phonétisation. Nous proposons ici un moyen simple d’intégrer cette connaissance dansl’algorithme de Brandt dans le cas où nous disposons d’une segmentation initiale alignéeavec cette phonétisation. Cette segmentation initiale peut être par exemple une méthode detype HMM avec alignement forcé.

Pour une chaîne phonétique de tailleL commençant et se terminant par un silence, notonsU = (U0,U1, . . . ,UL) la séquence des marques fournies par la segmentation initiale. À partirde ces marques initiales, nous pouvons alors définir des intervalles temporels sur lesquelssont susceptibles de se produire les transitions entre les différents phones de la séquencephonétique. Ces intervalles sont de la formeIi = [Vi,Vi+1] avecVi =

(Ui−1+Ui)2 pour tout i dans

{1, . . . ,L− 1}. Nous appliquons alors un algorithme de Brandt sur chacun des intervallesIi : la valeur duDn(r) décrit dans l’équation (3.4) est calculée pour chaque valeur r dans


l’intervalle Ii ; ensuite, l’instantr qui maximise cette quantitéDn(r) est considéré commel’instant de rupture optimal au sens de l’algorithme de Brandt. Notons que nous n’utilisonsplus le seuilλ, ce qui permet d’éviter tout risque d’insertion et d’omission.

3.6 Résultats et discussion

Cette section est découpée en plusieurs parties. Dans un premier temps, nous allons dé-crire les corpus de parole sur lesquels sont calculés tous les résultats de ce travail de thèse.Nous présenterons ensuite les valeurs choisies des paramètres de chaque algorithme. Enfin,les résultats obtenus par les algorithmes seront exposés.

3.6.1 Corpus de parole utilisés

Deux corpus sont utilisés tout au long de ce mémoire. Les deuxsont des corpus de paroledédiés à la synthèse vocale, sont construits de façon à garantir une couverture phonétiquesuffisante, sont prononcés par deux sujets féminins et échantillonnés à 16 kHz sur 16 bits.Le premier est un corpus français contenant 7300 phrases et qu’on nommera dans la suite“corpusFR” ; l’autre est un corpus anglais de 8900 phrases appelé “corpusEN”.

Pour chaque phrase de ces corpus nous disposons du texte, de la segmentation manuelleet de la séquence phonétique correspondant à ce texte. La segmentation manuelle est unecorrection manuelle de la segmentation automatiqueHMMSeg1. La phonétisation de cescorpus est supposée exacte. Notons qu’elle ne correspond pas strictement à une phonétisationmanuelle mais plutôt à une phonétisation automatique vérifiée manuellement.

La phonétisation est opérée sur 37 classes pour le français et 50 classes pour l’anglais. Lesdifférentes classes de phonèmes sont disponibles dans les tableaux D.1 et D.2 de l’annexe D.Ces tableaux donnent également le nombre de représentations de chaque phonème dans lescorpus.

3.6.2 Choix des paramètres

3.6.2.1 Segmentation par HMM

Les vecteurs acoustiques sont de dimensionNc = 39 et contiennent 12 coefficientsMFCC, l’énergie ainsi que les dérivées première et seconde de ces quantités ; un HMMgauche-droit de 3 états ; 20 itérations de l’algorithme de Baum-Welch ont été utilisées pourHMMSeg1et HMMSeg2et des fenêtres temporelles de 20 ms ont été choisies. Les densi-tés de probabilité d’émission, qui sont associées aux états, sont décrites par des lois multi-gaussiennes. Le nombre de gaussiennes est fixé à 2. Ce nombre aété fixé grâce à une étuderéalisée au sein de France Télécom par S. Nefti durant sa thèse [114]. L’initialisation desmodèles a été effectué avec l’algorithme de Viterbi.

Sur la figure 3.7, nous montrons l’influence des itérations duprocessusapprentissage-segmentationsur les taux de segmentation correcte de la segmentationHMMSeg1. Nouspouvons déduire de cette figure que le TSC augmente avec le nombre d’itérations : le fait de

Section 3.6 :Résultats et discussion 61

mettre en entrée la segmentation produite par l’itération précédente améliore l’initialisationdes modèles permettant donc un meilleur apprentissage.

Nous pouvons également constater qu’à partir de 2 itérations, le gain en TSC est minime.Nous fixons donc le nombre d’itérations de l’approcheHMMSeg1à deux comme le confirmel’étude faite dans [114].

L’analyse acoustique, l’apprentissage des HMM et la segmentation par l’algorithme deViterbi sont effectués via l’outil HTK [165]. Le choix de cetoutil s’est appuyé sur sa gra-tuité, la disponibilité de ses sources et le fait qu’il soit largement répandu dans le mondede la recherche. Cela permet d’évaluer et de comparer de manière plus précise les résultats.Le logiciel HTK, développé par l’université de Cambridge, est également une boîte à outilstrès complète qui fournit tous les outils nécessaires à la réalisation de systèmes fondés surles chaînes de Markov cachées, essentiellement les systèmes de reconnaissance de la parole.Cet outil a l’avantage d’être flexible puisque la topologie des modèles, le choix d’unités, lamodélisation acoustique sont librement configurables. De plus, on peut intégrer de manièreefficace de nouveaux modules ou modifier des modules existants en s’aidant de la documen-tation disponible et très complète de HTK.

20

30

40

50

60

70

80

90

100

5 10 15 20 25 30

TS

C (

%)

Tolerance (ms)

1ere iteration2eme iteration3eme iteration4eme iteration

Figure 3.7 —Nombre d’itérations vs taux de segmentation correcte deHMMSeg1.

3.6.2.2 Post-traitement par modèle de frontière

Les paramètres de cette méthode ont été initialement ajustés dans [157] sur un corpuschinois. La méthode étant indiquée comme indépendante de lalangue et du locuteur, onpourrait penser que les paramètres déterminés sur le corpuschinois restent valables pour lescorpus français et anglais.

Dans cette section, nous essayerons donc de valider cette hypothèse sur le corpus françaisà partir des valeurs des paramètres choisis pour la langue chinoise.

L’affinement est opéré autour de marques produites par la segmentationHMMSeg1surune zone de recherche fixée à 60 ms et avec un pas de segmentation de 5 ms. Quand on


Tableau 3.1 —Taux de segmentation correcte (TSC) à 20 ms pour différentesvaleurs duseuil (T) du log de vraisemblance et du nombre minimum (MTI) d’éléments par noeud finaldu CART, quandN = 2 ete= 30 ms. Les valeurs de T et MTI qui donnent le meilleur TSCsont respectivement 100 et 10. En effet, avec ces valeurs on obtient un TSC égal à 88.50

supérieur à tous les autres valeurs du TSC de ce tableau.

T MTI = 10 MTI = 20 MTI = 40 MTI = 10020 88.43 88.26 87.57 85.68100 88.50 88.25 87.56 85.68350 88.45 88.03 87.63 85.67

est en présence d’un phonème court, nous risquons de trouverpour une transition donnée,une même frontière que celle de la transition précédente caril se trouve qu’elle est dansl’intervalle de recherche et qu’elle maximise la vraisemblance. Dans ce genre de cas, nouschoisissons pour la transition traitée, l’instant qui maximise la vraisemblance dans le sous-intervalle partant de l’instant trouvé avec cet algorithmepour la transition qui précède. De lamême façon, si la marque suivante trouvée par la segmentation par HMM est très proche dela marque considérée, il peut y avoir un problème. Dans ce cas-là, nous sommes obligés deréduire la longueur du segment considéré pour que la marque suivante ne soit pas prise encompte.

Aussi, seuls les paramètres d’apprentissage seront ici vérifiés. Ces paramètres sont, lataille du corpus d’apprentissage, le nombre 2N + 1 de trames sur lesquelles on calcule lesuper-vecteur, l’espacement entre les tramese, la taille de la trame (20 ms), le nombre degaussiennes pour le GMM (ici égal à 1), le nombre de coefficients par vecteur acoustique(égal à 39), et les critères d’arrêt dans le CART. Ces critères sont, le nombre minimumd’éléments par nœud final (MTI) et le seuil du log de vraisemblance (T) pour associer unequestion à un nœud du CART.

Pour vérifier les paramètres fixés sur le corpus chinois, on choisit une taille du corpusd’apprentissage de 300 phrases. Cette taille de presque 10000 frontières est raisonnabled’après [157]. Ensuite, on a fixéN à 2 ete à 30 (ms) comme dans [157] afin de calculerle couple(T,MTI) optimal, c’est-à-dire celui qui maximise le TSC. D’après letableau 3.1le couple donnant le meilleur TSC à 20 ms pour toutes les valeurs de T et de MTI testéesest(T = 100,MTI = 10). À partir de ces valeurs pour(T,MTI) et toujours pour la mêmetaille du corpus d’apprentissage, nous avons vérifié que lesvaleursN = 2 ete= 30 donnentle meilleur TSC à 20 ms (voir le tableau 3.2). Ce choix semble être un bon compromisentre deux contraintes déjà évoquées : la longueur du super-vecteur doit être suffisammentlongue pour prendre en compte le plus d’informations possibles sur la transition entre lesdeux phones et cette longueur ne doit pas être trop longue afinde ne pas incorporer des in-formations qui ne sont pas liées directement à la frontière elle-même. Pour plus de détailssur ces tests nous suggérons au lecteur de se référer aux deuxarticles [77, 157].

En résumé, nous fixons les valeurs des paramètres d’apprentissage pour le corpus françaisà N = 2, e= 30,MTI = 10,T = 100. Nous conserverons ces valeurs pour le corpus anglaiscar après les tests menés sur deux langues différentes, le chinois et le français, il ne semblepas fondamental de refaire les mêmes tests pour l’anglais.

L’apprentissage des modèles GMM et la création du CART sont effectués avec le logi-


Tableau 3.2 —TSC à 20 ms pour différentes valeurs du(N,e) quandT = 100,MTI = 10et la taille du corpus d’apprentissage est fixée à 300. Les valeurs de N et e qui donnent le

meilleur TSC sontN = 2 ete= 30.

e (ms) N TSC0 0 84.7010 2 86.6530 2 88.5030 4 88.43

ciel HTK. Pour un corpus d’apprentissage de 300 phrases, le nombre de GMM créés aprèsl’utilisation du CART est de l’ordre de 450 pour le corpus français et de 370 pour le corpusanglais.

3.6.2.3 Algorithme de Brandt

Nous avons décrit précédemment la version classique de cet algorithme (il ne requiert au-cune connaissance de la phonétisation) et nous avons également proposé une version simplequi nécessite en entrée une segmentation basée sur la connaissance de la phonétisation. Cettedernière version est la plus adaptée pour la segmentation degrands corpus dédiés à la syn-thèse vocale.

Pour les deux versions de l’algorithme, nous avons décidé deprendre un ordre de modèleégal à 16 comme dans l’article [8].

En ce qui l’algorithme de Brandt standard, nous avons calculé les taux d’insertion etd’omission des marques de segmentation avec les formules que nous proposons dans l’an-nexe B. Le taux de segmentation correcte, la méthode de sélection des insertions et desomissions et les taux d’omission et d’insertion proposés dans l’annexe B, sont valables pourn’importe quelle segmentation et généralisent la notationusuelle de TSC qui est définie dansle cas d’absence d’omission et d’insertion.

Pour un seuil de décision, par exemple, égal à 30, les taux d’insertion et d’omissioncalculés sur 1200 phrases du corpus français sont respectivement égaux à 0.3 et 0.1. Lavaleur élevée du taux d’insertion est due à la valeur particulière choisie pour le seuil et àl’aspect oscillant du GLR [8].

Dans la version de l’algorithme de Brandt qui utilise la phonétisation, le seuil n’existe pascar on n’utilise qu’une maximisation du GLR. Nous fixons la longueur minimale des fenêtresw1 et w2 à 10 ms afin que la modélisation autorégressive puisse se faire correctement àl’intérieur des intervalles de rechercheIi . Seuls les résultats de cette méthode seront présentésdans la section suivante car nous nous intéressons à la segmentation de corpus dédiés à lasynthèse vocale et privilégions les méthodes qui ne commettent ni insertion, ni omission.

3.6.3 Évaluation des algorithmes

Après avoir choisi les paramètres à utiliser avec chaque algorithme, nous allons pré-senter et comparer dans cette section les TSC des segmentations produites parHMMSeg1,


HMMSeg2, le post-traitement par modèle de frontière appliqué àHMMSeg1etHMMSeg2etl’algorithme de Brandt modifié appliqué également àHMMSeg1et HMMSeg2.

Nous notons dorénavantAffinSeg1et AffinSeg2les segmentations générées par l’appli-cation respective du post-traitement par modèle de frontière surHMMSeg1et HMMSeg2.BrandtSeg1et BrandtSeg2sont les segmentations en sortie de l’algorithme de Brandt modi-fié appliqué respectivement àHMMSeg1et HMMSeg2(voir le tableau 1 page 1).

Pour les algorithmesHMMSeg2, AffinSeg1et AffinSeg2utilisant un apprentissage super-visé, la même partie de la base de données segmentée manuellement est utilisée. Dorénavant,TailleAlgodésignera la taille de la base d’apprentissage. Trois valeurs deTailleAlgodu cor-pus sont testées : 100, 300 et 700. Les phrases de chaque corpus d’apprentissage sont choisiesaléatoirement. Ensuite, les TSC sont calculés sur le corpuscomplet privé à chaque fois ducorpus d’apprentissage de tailleTailleAlgo.

Enfin, les taux de cette section sont calculés pour les deux corpus “corpusFR” et “corpu-sEN” avec une tolérance de 20 ms, limite jugée acceptable pour garantir une qualité conve-nable de la parole synthétique. Les TSC sont obtenus en moyennant les résultats obtenus parvalidation croisée, c’est-à-dire que pour chaque valeur deTailleAlgo, on choisit trois corpusd’apprentissage disjoints et nous effectuons pour chaque corpus d’apprentissage, le test surtout le corpus privé de ce corpus. Notons, que nous avons vérifié la stabilité des résultats surles différentes configurations de corpus d’apprentissage et différents tests effectués.

Les tableaux 3.3, 3.4 et 3.5 présentent les TSC pour les deux corpus des segmentationsHMMSeg1, AffinSeg1, BrandtSeg1, HMMSeg2, AffinSeg2et BrandtSeg2.

Tableau 3.3 —TSC deHMMSeg1et BrandtSeg1.

HMMSeg1 BrandtSeg1corpusFR 88.53% 82.20%corpusEN 87.77% 86.56%

Tableau 3.4 —TCSs deAffinSeg1.

TailleAlgo AffinSeg1corpusFR

10089.97%

corpusEN 88.45%corpusFR

30090.77%

corpusEN 91.44%corpusFR

70092.99%

corpusEN 92.02%

Les résultats consignés dans ces tableaux nous fournissentplusieurs enseignements. Toutd’abord, l’algorithmeHMMSeg2apporte une amélioration significative par rapport à sa ver-sion non superviséeHMMSeg1. En effet, on constate un gain du TSC de presque 4% pourune taille égale à 300 pour le corpus français. Un gain similaire est constaté pour le corpusanglais.

Les deux tableaux montrent également que le post-traitement par modèle de frontièreest plus performant queHMMSeg1et HMMSeg2à partir deTailleAlgo= 300 pour le cor-pusFR et pourTailleAlgo= 700 pour le corpusEN. Cela peut s’expliquer par la relation


Tableau 3.5 —TSC deHMMSeg2, AffinSeg2etBrandtSeg2.

TailleAlgo HMMSeg2 AffinSeg2 BrandtSeg2corpusFR

10091.71% 91.08% 83.22%

corpusEN 91.98% 89.58% 86.78%corpusFR

30092.51% 93.26% 83.39%

corpusEN 92.95% 92.46% 87.10%corpusFR

70092.47% 94.00% 83.38%

corpusEN 93.00% 93.50% 87.09%

entre le nombre de frontières du corpus de parole et l’optimisation des paramètres des mo-dèles GMM. En effet, le corpus d’apprentissage doit contenir un nombre minimum de fron-tières pour que l’apprentissage soit bien effectué. Par exemple, un corpus d’apprentissage deTailleAlgo= 300 correspond à 10000 frontières pour le corpus français.

Il est à noter que pour l’apprentissage duHMMSeg2, le corpus de tailleTailleAlgodoitcontenir un nombre minimum d’exemplaires de chaque phone afin de pouvoir optimiser lesparamètres de chaque modèle (37 modèles pour le français et 50 modèles pour l’anglais).

Pour résumer ces résultats, le corpus d’apprentissage doitcouvrir à la fois tous les phonesde la langue du corpus et contenir un nombre minimum de frontières afin de garantir un bonfonctionnement deHMMSeg2, AffinSeg1etAffinSeg2.

Dans les tableaux 3.3, 3.4 et 3.5, on remarque que l’algorithme de Brandt donne de moinsbons résultats que les segmentations issues deHMMSeg1ou deHMMSeg2. Néanmoins, lorsde cette étude, nous avons constaté que l’algorithme de Brandt localise bien certains typesde transitions telles que les transitions parole/silence et non-voisé/voisé. De la même façon,le post-traitement par modèle de frontière et la segmentation par HMM permettent de biendétecter certaines transitions qui ne sont pas bien localisées par l’algorithme de Brandt. Ence sens, le post-traitement par modèle de frontière et l’algorithme de Brandt se complètent,et nous prendrons en compte cette complémentarité au chapitre suivant.

Afin de vérifier cette complémentarité, nous avons calculé dans le tableau 3.6, le meilleuralgorithme parmi les trois étudiés pour chaque couple de classes phonétiques et pour lecorpus français. Nous pouvons voir dans ce tableau que chaque algorithme est utile. Eneffet, pour un algorithme donné, il existe un certain nombrede classes de transition pourlesquelles cet algorithme donne les marques de segmentation les plus précises. Par exemple,l’algorithme de Brandt est meilleur pour détecter les transitions entre les plosives voiséeset les plosives non voisées. Le post-traitement est meilleur pour trouver les marques entreles voyelles nasales et les plosives non voisées. Enfin, l’approche par HMM est adapté àdétecter les marques entre les plosives voisées et les voyelles nasales. Pour le corpus anglais,ces remarques restent également valables.

Pour pouvoir construire ce tableau, nous avons été amené à calculer les taux d’erreur à 20ms de chaque algorithme sur chacune des classes de transition. Ces tableaux, présentés dansl’annexe C, ont été calculés sur le même corpus de test et avecles segmentationsHMMSeg2,AffinSeg2et BrandtSeg2.

Le tableau 3.7 montre les performances limites de chacun desalgorithmes. Ces perfor-mances sont obtenues lorsque les corpus de test et d’apprentissage sont le corpus de parole


Tableau 3.6 —Meilleur algorithme parmi les trois étudiés pour chaque couple de classesphonétiques et pour le corpus français. Les termes “H”, “G” et “B” correspondent respective-ment à la segmentation par HMM, au post-traitement par modèle de frontière et à l’algorithmede Brandt. Les classes phonétiques du français sont : voyelles orales (Vv), voyelles nasales(Vn), plosives voisées (Cpv), plosives non voisées (Cps), fricatives voisées (Cfv), frictivesnon voisées (Cfs), diphtongues (Diph), consonnes nasales (Cn), liquides (cl) , semi-voyelles(Csv), pauses (Pau) et silences (Sil).−−−− signifie qu’il n’existe pas dans le corpus des

représentants de cette classe de transition.

Vv Vn Diph Cpv Cps Cfv Cfs Cn Cl Csv Pau Sil

Vv B G B B G H H B G B B B

Vn G G B H G B B B H B H H

Diph H H/G B B B H H B G G B H

Cpv H G H B B H G H G H B B

Cps H H H B G H H/G G G H B G

Cfv G G H B B H B H B H B B

Cfs H H/B G H/B G H B H/G B H G B

Cn G G H H G H/G/B G/B B H G G B

Cl G H H B B G/B B G B H/G G G

Csv G G B B B B B B B G/B G B

Pau B G/B H/G/B G G G H G G B H/G/B H/G/B

Sil B B H/G/B G G B G G/B G G/B H/G/B H/G/B

Tableau 3.7 —Limite de performances pour chaque algorithme.

AffinSeg1 HMMSeg2 AffinSeg2 BrandtSeg2corpusFR 93.70% 92.68% 95.00% 83.22%corpusEN 92.92% 93.17% 94.30% 87.19%

tout entier. Avec un petit corpus d’apprentissage, on peut atteindre des performances compa-rables à ces performances limites.

3.7 Synthèse

Dans ce chapitre, nous avons mis en avant trois algorithmes de segmentation automa-tique. Deux utilisent l’information de phonétisation dontnous disposons. Le troisième, qui,dans sa forme de base, n’utilise pas cette connaissance, a été adapté pour la prendre compte.Ces méthodes sont la segmentation par HMM, le post-traitement par modèle de frontière etl’algorithme de Brandt.

Nous avons également vu dans ce chapitre deux approches d’apprentissage de la segmen-tation par HMM. L’application du post-traitement et de l’algorithme de Brandt sur les deuxsegmentations produites par les deux approches de la segmentation par HMM, nous a amenéà évaluer 6 segmentations.

L’algorithme de Brandt donne des TSC inférieurs à ceux de la segmentation par HMM.Effectuer une segmentation en utilisant seulement l’algorithme de Brandt n’est donc pasrecommandé. Par contre, le post-traitement par modèle de frontière améliore les TSC de la

Section 3.7 :Synthèse 67

segmentation par HMM à condition de bien choisir la taille ducorpus d’apprentissage. Cetalgorithme peut donc être utilisé seul pour obtenir une segmentation de meilleure qualité quela segmentation par HMM.

Dans le chapitre suivant, nous allons proposer une approchede segmentation consistantà fusionner ces trois méthodes et donc de tirer parti des performances de chacune des mé-thodes.

CHAPITRE

4 Une approche par fusionpour la segmentationautomatique de la parole

4.1 Motivations et objectif

Dans ce chapitre nous allons proposer une approche de segmentation automatique plusprécise que la segmentation par HMM.

Notons en premier lieu qu’il existe différentes façons pouraméliorer la segmentation parHMM.

La première approche consiste à appliquer unpré-traitement à la segmentation parHMM. Dans cette approche, on peut trouver des méthodes consistant à fournir des infor-mations en entrée de l’alignement forcé. Par exemple, on peut ajouter dans le vecteur acous-tique des informations pertinentes provenant d’autres analyses de signal de parole ou desinformations visuelles comme le mouvement des lèvres. On peut également contraindre ledécodage pour qu’il favorise un chemin parmi d’autres lors de l’alignement forcé avec l’al-gorithme de Viterbi [14, 15, 16]. Favoriser un chemin est faisable en augmentant par exempleles probabilités de transition pour certains instants.

La deuxième approche est d’appliquer unpost-traitement à la segmentation par HMM.Cette approche consiste à affiner les marques produites par la segmentation par HMM. Lepost-traitement par modèle de frontière et la version contrainte linguistiquement de l’algo-rithme de Brandt, définis dans le chapitre 3, sont deux méthodes basées sur cette approche.On peut également adjoindre à la segmentation par HMM, des méthodes de segmentationqui détectent certaines classes acoustico-phonétiques etdonc qui sont capables de trouverdes marques de segmentation propres à ces classes. Certaines de ces méthodes ont été pré-sentées dans la section 2.2.1 comme l’AMREC ou celles qui sont capables de détecter lesinstants de transition parole/silence, voisé/non voisé, fricatif/non fricatif.

La troisième approche est lafusion de la segmentation par HMM avec d’autres segmenta-tions produites par plusieurs algorithmes de segmentationautomatique utilisant la même sé-quence phonétique et c’est l’approche que nous avons choisie d’adopter. Le principe de cetteapproche est de produire une nouvelle estimation de la marque entre deux phones connais-sant les estimations de cette marque produites par plusieurs algorithmes de segmentation.Le principe est assez simple. Il existe beaucoup d’algorithmes de segmentation (nous en

70 CHAPITRE 4 :UNE APPROCHE POUR LA SEGMENTATION AUTOMATIQUE

avons vu plusieurs dans le chapitre précédent, mais cette étude n’était pas exhaustive). Or,suivant le type de phonèmes traités, certains algorithmes donnent de meilleurs résultats qued’autres. Le principe ici, est d’utiliser les meilleurs algorithmes pour chacune des classes dephonèmes. Pour que cette approche fonctionne bien, il faut choisir des algorithmes complé-mentaires dans le sens où ces algorithmes de segmentation détectent des classes de transitiondifférentes. Cette approche est une solution à la fois simple et générique, car elle peut êtreutilisée avec de nombreux types d’algorithmes différents.De plus, une amélioration du TSCest quasi-sûre car l’idée de base derrière cette approche est de tirer profit des performancesrelatives de chacune des méthodes retenues pour la fusion, et ce en fonction des frontièresconsidérées.

Ce chapitre détaille donc cette approche générique de fusion d’algorithmes de segmen-tation consistant à associer plusieurs éléments flexibles.Une méthode de fusion est doncdéfinie par les différents choix pris pour ces éléments. Nousavons appliqué certaines de cesméthodes sur les segmentations générées par les algorithmes étudiés dans le chapitre pré-cédent (segmentation par HMM, post-traitement par modèle de frontière et algorithme deBrandt).

4.2 Définition de la fusion

Dans la suite de ce document, nous utiliserons les mots “fusion” ou “combinaison” pourindiquer l’utilisation de plusieurs informations permettant d’en produire une nouvelle, ces in-formations pouvant provenir d’une seule ou de plusieurs sources. À partir de cette définition,nous pouvons mettre en évidence trois contextes de fusion différentes. On peut fusionner soitplusieurs informations de natures différentes fournies par une seule source, soit plusieurs in-formations de même nature délivrées par plusieurs sources,soit plusieurs informations denatures différentes produites par plusieurs sources.

Dans tous les cas, il est utile d’avoir un score quantifiant laconfiance que l’on possèdeen chaque information. Ce score est donné par un superviseurqui joue le rôle d’expert. Onattend de ce dernier que les scores qu’il produit soient fiables.

Généralement, on trouve deux types de scores. Le superviseur peut donner un score bi-naire (0 ou 1) pour l’information fournie par une source : 0 sion rejette l’information pro-duite par cette source, 1 si on l’accepte ; La fusion qui utilise ce type de scores binaires estappeléfusion dure[86, 124]. L’autre cas est celui où le superviseur donne un score qui peutprendre toute une gamme de valeurs discrètes ou continues : normalement, une valeur fortedu score signifiant une plus grande confiance dans l’information fournie par la source. Lafusion qui utilise ces scores est qualifiée defusion douce[86, 124]. La fusion douce est ca-pablea priori d’offrir de meilleurs résultats que la fusion dure. Cela peut s’expliquer par lefait qu’un nombre décimal contient plus d’information qu’un 0 ou 1.

Les deux types de fusion que nous venons de décrire peuvent servir soit à prendre unedécision, soit à faire une estimation.

Dans un contexte de décision, on combine les scores produitspar le ou les superviseursafin de prendre une décision quant au rejet ou l’acceptation d’une information donnée. Cetteapproche est la plus courante et est utilisée par exemple pour l’authentification de l’identité

Section 4.3 :Fusion dans le domaine de la parole 71

d’un individu [124] ou l’identification automatique des langues [62, 63]. Quand on utilisedes scores binaires, les méthodes de combinaison de ces scores se font généralement grâceaux opérateurs logiques ET et OU. Quand on choisit des scoresdécimaux, les méthodespeuvent aller de simples fonctions linéaires [63] à des méthodes de décision qui utilisent descritères statistiques [63] ou encore la technique de la logique floue, la théorie de Dempster-Shafer [62] ou des méthodes de classification comme les réseaux de neurones [64] et lesméthodes à noyaux de type Support Vector Machines (SVM) [86].

Dans un contexte d’estimation, il s’agit de combiner les informations fournies par lesdifférentes sources avec une fonction donnée pour en produire une information de mêmenature. Les scores servent alors à privilégier certaines informations par rapport à d’autres.Dans ce chapitre, on se place dans ce cas-là. En effet, notre problème se résume à trouverune estimation de la marque entre deux phones connaissantK estimations de cette marquefournies parK algorithmes et une grandeur quantifiant la confiance que l’ona dans chaquealgorithme à détecter une transition donnée.

4.3 Quelques éléments bibliographiques concernant la fu-sion dans le domaine du traitement de la parole

La fusion est largement utilisée dans le domaine de l’image [51] et elle est égalementappliquée à la parole mais de manière plus limitée.

Dans [63], les auteurs ont testé différentes approches de fusion pour l’identification auto-matique des langues dans des extraits d’enregistrement audio. Les méthodes de fusion ont étéégalement employées, par exemple, pour créer des systèmes hybrides combinant les réseauxde neurones et les modèles de Markov cachés [97]. Dans ces cas, la combinaison intervientdans la fusion des paramètres provenant des deux techniques.

Pour l’application de la reconnaissance vocale, les auteurs de [16] utilisent une fusionau niveau du décodage acoustique par HMM. Le but de cette combinaison est de diminuerles insertions et les omissions en sortie du décodage en mettant des contraintes temporellesdans le choix des chemins dans l’algorithme de Viterbi. Ces contraintes sont déduites avecd’autres méthodes de segmentation.

Des travaux ont été menés sur l’application de la fusion en segmentation de la parole.Dans [166], les auteurs proposent un nouvel algorithme de segmentation parole/non parolebasé sur la combinaison des coefficients en sortie des filtresMel sur plusieurs trames. Cettecombinaison est suivie d’une prise de décision avec un seuil. Les auteurs comparent aussicette méthode au vote majoritaire et à la combinaison linéaire impliquant plusieurs segmen-tations parole/non parole. Les résultats montrent que les trois méthodes sont équivalentes.Une autre application décrite dans [125] est la classification de parole/non parole et de mu-sique/non musique réalisée par la fusion de plusieurs paramètres.


4.4 Une approche générique pour la segmentation automa-tique

Pour la segmentation automatique de la parole de grands corpus, nous proposons iciune approche générique [78, 79] dont le principe est de combiner différentes segmentationsproduites par différents algorithmes sur un même signal de parole. Il s’agit donc de fusionnerplusieurs informations de même nature fournies par plusieurs sources.

L’idée principale derrière cette combinaison est de prendre en compte le comportementde chaque algorithme par rapport à la transition considérée. Il s’agit de favoriser certainesmarques de segmentation par rapport à d’autres pour chaque type de transition.

Plus précisément, soits une transition dont les contextes phonétiques gauche et droitsont respectivementcg et cd. Le principe de la fusion que nous proposons est de four-nir une nouvelle estimationt(s) de l’instant de la transitions en utilisant lesK instantst1(s), t2(s), . . . , tK(s) produits par lesK algorithmes de segmentation. Évidemment, l’objectifest de produire un instantt(s) plus proche de la marque manuelle que chacun des instantstk(s),k = 1, . . . ,K. La solution que nous proposons est basée sur une combinaison linéairedes marques de segmentation sélectionnées. L’estimationt(s) est donc un barycentre de laforme :

t(s) = ∑k∈A

βk(cg,cd)tk(s), (4.1)

oùA est l’ensemble des algorithmes utilisés etβk(cg,cd) des coefficients satisfaisant la rela-tion

∑k∈A

βk(cg,cd) = 1.

Notons que l’estimation donnée par l’équation (4.1) correspond au cas où les algorithmesne commettent pas d’erreur de segmentation systématique pour un même type de transition.Si, par contre, lekième algorithme génère une erreur systématique connue, il suffitalors deremplacer dans l’équation (4.1)tk(s) partk(s)−mk oùmk est la valeur de cette erreur.

La figure 4.1 présente les différentes étapes que nous proposons pour calculer l’estima-tion t(s).

On commence par associer à chaque algorithme un score globalgrâce à un corpus d’ap-prentissage. Ces scores, notésγk(cg,cd),k = 1, . . . ,K, indiquent la qualité de l’algorithmepour détecter une transition entrecg et cd. Par exemple, plus la valeur du scoreγk(cg,cd) estélevée, plus précise est la détection de l’instant de transition entre les classescg et cd par lekième algorithme.

Cette phase de détermination des scores est faite une fois pour toute. Nous disposonsdonc d’une base de scores pour chaque algorithme et chaque couple de classes rencontrédans le corpus d’apprentissage.

Ensuite, nous affectons un poids relatif à chacun des algorithmes. Ces poids sont fournisen sortie d’une phase appeléesupervision des scores. Cette phase permet donc de conver-tir la séquence de scores absolusγk(cg,cd),k = 1, . . . ,K, en une séquence de poids relatifsω1(cg,cd), ω2(cg,cd), . . . ,ωK(cg,cd). Contrairement aux scoresγ1(cg,cd), . . . ,γK(cg,cd),ces poids indiquent la qualité d’un algorithme par rapport aux autres pour une transition

Section 4.4 :Une approche générique pour la segmentation automatique 73

algorithme 1 t1(s)

algorithme 2 t2(s)

.

.

.algorithmeK tK(s)

Transition (s)

(cg,cd)

Normalisation

β1(cg,cd)β2(cg,cd) βK(cg,cd). . .

δ1

δ2

δK

Sélectiondes marques

Critère

Supervision des scores

ω1(cg,cd)ω2(cg,cd) ωK(cg,cd). . .

Calcul des scores

γ1(cg,cd) γ2(cg,cd) γK(cg,cd). . .

Corpus d’apprentissage

t(s)

Figure 4.1 — Schéma général pour le calcul det(s) avec la fusion linéaire de plusieursmarques de segmentation :δk est égal à 1 si lakièmeparticipe à l’estimation det(s) et 0 sinon.

donnée en cours d’examen. En effet, cette phase joue le rôle d’un superviseur qui a une vued’ensemble sur les performances des algorithmes et qui décide d’en favoriser un par rapportà d’autres.

Notons que l’affectation des poids peut ne pas tenir compte des scores. En particulier,quand aucun représentant des transitions entre les classescg et cd n’existe dans le corpusd’apprentissage, nous ne disposons pas de score pour le couple de classes. On fixe alorsωk(cg,cd) à 1 pour toutk. Nous décidons, dans ce cas là, de ne privilégier aucun algorithmepar rapport aux autres.

Après cette phase de supervision, nous poursuivons par une phase de sélection desmarques. Cette phase consiste à déterminer pour chaque cas de transition traité les algo-


rithmes qui vont servir à estimer la marque de cette transition. Pour comprendre l’utilitéde cette phase, voici un petit exemple. Soient 6 algorithmesdifférents qui produisent 6 es-timations d’une transition entre deux phones donnés. Supposons que 5 de ces algorithmesdétectent l’instant de transition dans un même intervalle,et qu’un 6ième donne une estima-tion très éloignée des 5 autres. Il est très probable que l’estimation du 6ième algorithme soiterronée. Dans ce cas, une simple moyenne de ces 6 estimationsmontre que l’estimation fi-nale va être sûrement moins précise que celle donnée par les 5bons algorithmes. Il est doncplus intéressant dans ce genre de cas de ne pas prendre en compte la 6ième estimation. Pourcette raison, la phase de sélection des marques calcule un coefficientδk ∈ {0,1} pour chaqueinstant de transitiontk(s). Autrement dit,tk(s) ne participe pas à l’estimation de l’instant detransition quandδk = 0 et participe à cette estimation quandδk = 1. Dans l’équation (4.1),l’ensembleA est donc égal à{k|δk = 1}.

Finalement, une dernière étape de normalisation avant l’estimation est ajoutée afin degarantir que les sommes des poids vaut bien 1. Les coefficients finaux valent donc :

βk(cg,cd) =δk×ωk(cg,cd)

K

∑j=1

δk×ω j(cg,cd)

où k∈ {1, . . . ,K}.

Sur la base de ce qui a été dit ci-dessus à propos de l’approchede fusion, nous pouvons voirfacilement qu’une grande partie du travail consiste à déterminer les types de scores à utiliser,les critères pour sélectionner les marques et les fonctionsde la supervision permettant deconvertir les scores en poids.

Nous avons ici choisi d’utiliser le TSC à 20 ms comme score. Celui-ci a la particularitéd’être une mesure fiable de la capacité d’un algorithme donnéà détecter une transition don-née. De plus, nous sommes intéressés par la précision de la segmentation à 20 ms. Ce scorepermettra donc de donner une meilleure estimation de l’instant de transition et d’améliorerle TSC à 20 ms de la segmentation résultant de cette approche de fusion.

Pour la sélection des marques, nous proposons d’utiliser lecas simple où toutes lesmarques sont prises en compte pour estimer l’instant de transition et le cas où certainesmarques peuvent être éliminées si elles sont trop en désaccord avec les autres marques.

Enfin, nous proposons pour la supervision l’utilisation et la comparaison de trois typesde supervision : la supervision uniforme, la supervision dure et la supervision douce.

Dans la suite de cette section, nous allons décrire différents types de sélection (desmarques) et de supervision (des scores).

4.4.1 Sélection des marques

Comme cela a été dit précédemment, sélectionner les marquesconsiste à choisir pourchaque transition les marques des algorithmes qui vont estimer l’instant de cette transition.Il s’agit donc d’opérer la fonction suivante :

f : RK →{0,1}K

(t1, . . . , tK) 7−→ (δ1, . . . ,δK)


Il y a donc deux possibilités : choisir toutes les marques ou alors choisir une partie de cesmarques. Nous appelons respectivement ces possibilités les sélections totale et partielle.

4.4.1.1 Sélection totale

La sélection des marques est dite totale quand aucun critèren’est utilisé pour sélection-ner les marques qui vont être fusionnées. La fusion est donc opérée sur toutes les marquest1(s), t2(s), . . . , tK(s) et on a doncδk = 1 pour toutk = 1,2, . . . ,K. L’ensembleA des marquessélectionnées est égal à{1, . . . ,K}.

4.4.1.2 Sélection partielle

Pour effectuer la sélection partielle, il est nécessaire d’utiliser un critère donné. Le critèreque nous développons ici est un critère de distance. Celui-ci consiste à chercher les paquetsde marques localisées dans une même zone. Après avoir identifié et séparé les marques ensous-ensembles suivant ce critère, l’étape suivante serait de choisir une ou plusieurs sous-ensembles parmi celles construites afin de ne prendre en compte dans la fusion que cesmarques. La sélection de ces sous-ensembles se fait par un critère également. Par exemple,nous pouvons choisir les sous-ensembles contenant le plus de marques. Dans ce cas, lesvaleurs deδ pour les marques de ces sous-ensembles vaudront 1 et les autres valeurs vaudront0.

La détermination des sous-ensembles de marques localiséesdans une même zone estun problème de partitionnement d’un ensemble. Dans le cas général et en dimension N, ceproblème est complexe car il nécessite généralement l’utilisation de méthodes comme lesk plus proches voisins1 [141] et ses variantes Category-based Search [75] et Cluster-basedSearch [137] ou de méthodes plus sophistiquées comme les algorithmes génétiques2 qui sontaptes à résoudre ce genre de problèmes.

En revanche, quandK = 3 et lorsqu’on manipule des nombres à une seule dimensioncomme c’est le cas dans nos expérimentations, la localisation des sous-ensembles de marquesavec un critère de distance devient relativement facile. Eneffet, on commence par calculerles distancesdi j entre les marques de segmentationti(s) et t j(s) obtenues respectivementpar lesièmeet j ième algorithmes, où(i, j) ∈ {1,2,3}2 et i 6= j ; A est l’ensemble des indicesdes marques qui minimisent la distance. Avec cette définition,A peut contenir soit deux soittrois indices. Dans le cas où une marque est plus éloignée desdeux autres marques, alorsA contient l’indice de ces deux autres marques. Quand au moinsdeux distances sont égalesalorsA = {1,2,3}. Dans la suite, cette sélection sera appeléesélection partielle par critèrede distance.

1Cette méthode connue en anglais sous le nom dek-Nearest Neighbours(k-NN) s’opère sur un ensembled’exemples et cherche à trouver les k plus proches voisins autour d’une donnée.

2De façon très intuitive, les algorithmes génétiques sont des algorithmes inspirés des mécanismes de lasélection naturelle et de la génétique permettant de trouver rapidement une solution à un problème. À chaquegénération, on ne retient que les individus les mieux adaptés à un environnement donné. Au bout d’un cer-tain nombre de générations, les individus restants sont particulièrement adaptés à l’environnement donné. Onobtient donc des solutions très proches de la solution idéale du problème.


4.4.2 Supervision des scores

Dans toute la suite du chapitre, nous allons simplifier les notations des scores et des poidsen omettant la notation(cg,cd). Cependant, il faudra garder à l’esprit que les scores et lespoids dépendent toujours de la classe de la transitions.

Avec cette simplification, on peut voir la supervision, dansnotre approche de fusion,comme une fonction permettant d’affecter des poidsω1, . . . ,ωk aux scoresγ1, . . . ,γk. D’unemanière plus générale, nous pouvons considérer que le calcul des poids est obtenu par unefonctionmultivariéetelle que :

f : RK → R

K

f (γ1,γ2, . . . ,γK) = (ω1,ω2, . . . ,ωK)

La fonction f sera appelée dans la suite, unefonction de pondération. Comme les poidset les scores, cette fonction peut dépendre de la transition. Dans ce travail de thèse, nouschoisissons des fonctions qui ne dépendent pas du type de la transition.

Dans certains cas particuliers, le poidsωk peut être affecté àγk indépendamment desautres valeurs de scores. La fonctionf sera alorsunivariée:

f : R → R

f (γk) = ωk

où k∈ {1, . . . ,K}

Notons que la supervision doit s’adapter au score choisi. Pour que l’algorithme soit considérécomme bon si le score est élevé, il est nécessaire que la fonction de pondération soit crois-sante. Si on est dans le cas où, plus la valeur du scoreγk est élevée, moins lekièmealgorithmeest précis, alors la fonction de pondération doit être donc décroissante.

4.4.2.1 Supervision uniforme

Celle-ci est la plus simple des supervisions que l’on peut suggérer. La fonction de pon-dération est univariée : on af (γk) = 1, pour n’importe quel type de score, n’importe quelalgorithme et n’importe quel type de transition. En d’autres termes, le superviseur ne favo-rise aucun algorithme. L’estimation de l’instant de transition s après la fusion est alors égaleà la moyenne des marques de segmentation sélectionnées :

t(s) =1K ∑

k∈A

tk(s). (4.2)

4.4.2.2 Supervision dure

L’appellationdure utilisée pour cette supervision est justifiée par le fait queles poidsattribués par le superviseur sont des valeurs binaires. Soit γmax la valeur maximale des scoresγk où k = 1,2, . . . ,K. Les éléments de l’ensembleIs = {k|γk = γmax} sont les algorithmes


les plus appropriés à détecter la transitions. Dans ce cas, la fonction de pondérationf estmultivariée et elle est définie par l’équation suivante :

f (γ1, . . . ,γK) = (χIs(1), . . . ,χIs(K))

où

χIs(k) =

{1 si k∈ Is0 sinon

,

pourk = 1, . . . ,K.

À la sortie du schéma de notre approche de segmentation automatique, l’estimationt(s)se traduit par l’équation :

t(s) =1

Card(Is∩A) ∑k∈Is∩A

tk(s). (4.3)

4.4.2.3 Supervision douce

Comme pour la supervision dure, l’appellationdouceindique que le superviseur attribueaux différents algorithmes des poids qui peuvent prendre tout une gamme de valeurs.

Dans nos expérimentations, nous avons utilisé deux fonctions de pondération à valeursdansR. Ces fonctions sont croissantes car le score que nous avons considéré est le TSC à20 ms. Ainsi, comme on l’a dit précédemment, plus le score estélevé, plus le poids seraimportant. Les fonctions considérées pour ce score sont lessuivantes :

gθ(γ1, . . . ,γK) = ((γ1

γmax)θ, . . . ,(

γK

γmax)θ),

et

h(γk) =1

1− γk, k = 1, . . . ,K

oùγmax a été défini dans la section précédente,h est une fonction de pondération univariée,gθest une fonction de pondération multivariée etθ est un paramètre à choisir. Plusθ est grand,plus la fonction est concave et donc plus elle est discriminante en ce sens qu’elle augmentele contraste entre les algorithmes. En d’autres termes, unefonction de pondération est dis-criminante lorsque pour deux scores proches, elle fournit en sortie deux poids sensiblementdifférents.

La fonctiongθ est une normalisation par rapport à la fonctionfθ(γk) = γθk, k= 1, . . . ,K.

En effet, avecgθ on attribue des poids égaux à 1 aux algorithmes maximisant lescore. Ona préféré testergθ au lieu defθ car celle-ci a des propriétés plus stables quandθ tend vers∞. Par contre, avec la fonctionfθ, tous les scores tendent vers 0 quandθ tend vers∞. Lafonctionh est tout simplement l’inverse du taux d’erreur puisque 1−x est le taux d’erreur à20 ms six est le TSC à 20 ms. Comme le TSC, l’inverse du taux d’erreur caractérise bien laprécision des marques et donc peut être choisi pour calculerles scores.

Pour illustrer ce qui précède, considérons le casθ = 1. Nous pouvons faire dans ce casles remarques suivantes :


– Le superviseur attribue directement la valeur du score normalisé avec la première fonc-tion ; il considère ainsi que le TSC à 20 ms est une mesure de confiance assez fiable.

– La fonctionh augmente le contraste entre les algorithmes en comparaisonavec la fonc-tion g1. En effet, si on considère par exemple deux algorithmes avecdes TSC à 20 mségaux respectivement à 0.8 et 0.9 pour une classe de transition donnée, les inversesdes taux d’erreur seront égaux à 0.05 et 0.1. Le poids attribué au second algorithmesera donc deux fois plus important que celui affecté au premier algorithme quand lafonction de supervision utilisé esth. Si on avait utiliség1 sur cet exemple, les poidsauraient été équivalents.

4.5 Expérimentation et résultats

Dans toute la suite de ce chapitre, nous appelons méthode de fusion, une combinaisonlinéaire associée à un type de score, un type de sélection et une fonction de supervision.

L’évaluation a été réalisée en deux étapes. Dans la première, nous cherchons à identifierla meilleure méthode de fusion parmi celles que l’ont peut dériver de l’approche généraledécrite dans la section précédente. Cette évaluation objective est réalisée en comparant lesTSC des différentes segmentations issues des différentes méthodes de fusion. Les résultatssont donnés dans la section 4.5.1. Dans la deuxième étape, nous effectuons une évaluationobjective et subjective afin de comparer les qualités de la parole synthétique obtenues enutilisant la meilleure méthode de fusion identifiée dans la section 4.5.1, la référence manuelleet l’approche standard par HMM.

4.5.1 Évaluation objective de la fusion par calcul des TSC

Dans cette section, nous présentons les TSC des segmentations produites par les diffé-rentes méthodes de fusion obtenues en choisissant le TSC à 20ms comme score, deux typesde sélection et trois types de supervision. Les deux types desélection sont la sélection to-tale et la sélection partielle par critère de distance. Les trois types de supervision sont lasupervision uniforme, la supervision dure et la supervision douce avec les deux fonctions depondérationgθ eth.

Toutes ces méthodes de fusion sont appliquées sur les trois segmentationsHMMSeg2, AffinSeg2 et BrandtSeg2 (cf. tableau 1) étudiées dans le chapitreprécédent. La raison pour laquelle nous nous contentons d’appliquer la fu-sion sur le triplet (HMMSeg2,AffinSeg2,BrandtSeg2) et non pas sur le triplet(HMMSeg1,AffinSeg1,BrandtSeg1) est le fait queHMMSeg2est beaucoup plus précisque HMMSeg1grâce à l’utilisation d’un corpus d’apprentissage segmenté manuellement.En pratique, ce corpus pourra être celui utilisé par la fusion (voir le tableau 4.3).

Le calcul des scores (TSC) pour chaque type de transition et pour les trois segmenta-tions HMMSeg2, AffinSeg2et BrandtSeg2est fait sur un corpus d’apprentissage de tailleTailleComb. Trois valeurs deTailleCombsont utilisées : 100, 300 et 700. Les phrases ducorpus d’apprentissage sont choisies aléatoirement et sont différentes de celles utilisées pourl’apprentissage nécessaire pour déterminerHMMSeg2et AffinSeg2.

Section 4.5 :Expérimentation et résultats 79

Tableau 4.1 —TSC à 20 ms pour le corpus français des segmentations issus dela fusionavec les deux types de sélection des marques, la supervisionuniforme, la supervision dure et

la supervision douce avec les fonctions de pondérationg1 et h.

TailleComb TailleAlgo Sélection totale Sélection par critère de distanceuniforme dure douce uniforme dure douce

g1 h g1 h100 93.67% 93.04% 94.20% 94.13% 93.13% 93.02% 93.16% 93.08%

100 300 94.38% 93.81% 94.82% 94.75% 94.06% 93.99% 94.07% 94.02%700 94.58% 94.14% 94.97% 94.84% 94.32% 94.28% 94.33% 94.29%100 93.68% 92.89% 94.23% 94.34% 94.14% 93.02% 93.15% 93.16%

300 300 94.39% 93.77% 94.88% 94.98% 94.07% 94.01% 94.10% 94.14%700 94.58% 94.18% 95.07% 95.17% 94.32% 94.28% 94.35% 94.36%100 93.66% 93.10% 94.22% 94.45% 93.12% 93.01% 93.14% 93.18%

700 300 94.40% 93.88% 94.91% 95.10% 94.07% 94.00% 94.09% 94.15%700 94.58% 94.32% 95.08% 95.22% 94.33% 94.28% 94.34% 94.40%

Tableau 4.2 —TSC à 20 ms pour le corpus anglais des segmentations issus de la fusion avecles deux types de sélection des marques, la supervision uniforme, la supervision dure et la

supervision douce avec les fonctions de pondérationg1 eth.

TailleComb TailleAlgo Sélection totale Sélection par critère de distanceuniforme dure douce uniforme dure douce

g1 h g1 h100 93.68% 93.02% 93.96% 93.98% 93.26% 93.21% 93.29% 93.15%

100 300 94.36% 93.74% 94.69% 94.64% 94.11% 94.10% 94.13% 94.03%700 94.58% 94.10% 94.91% 94.97% 94.41% 94.41% 94.42% 94.36%100 93.66% 93.08% 93.98% 94.17% 93.24% 93.18% 93.27% 93.24%

300 300 94.37% 93.80% 94.70% 94.89% 94.12% 94.11% 94.13% 94.13%700 94.58% 94.25% 94.92% 95.14% 94.40% 94.40% 94.42% 94.43%100 93.66% 93.21% 93.97% 94.25% 93.25% 93.19% 93.27% 93.33%

700 300 94.37% 93.97% 94.69% 94.98% 94.11% 94.11% 94.14% 94.17%700 94.60% 94.23% 94.93% 95.23% 94.41% 94.41% 94.43% 94.46%

Les méthodes de fusion sont ensuite évaluées en calculant les taux de segmentation cor-recte sur les corpus de parole privés des phrases utilisées pendant les différentes phasesd’apprentissage.

Comme dans le chapitre précédent, les résultats présentés ici sont obtenus en utilisant uneprocédure de tests croisés. Pour toutes les méthodes de fusion, on considère 12 classes detransitions de la langue française et 11 classes de la langueanglaise. Le tableau D.1 page 158et le tableau D.2 page 159 présentent ces classes et les phones appartenant à chacune desclasses.

Puisque les méthodes de fusion que l’on veut comparer sont nombreuses, les résultats ontété séparés en plusieurs tableaux.

Les tableaux 4.1 et 4.2 présentent les résultats de la fusionutilisant la sélection totale,la sélection partielle par critère de distance et les supervisions uniforme, dure et douce. Ces


deux tableaux servent surtout à comparer la sélection partielle par critère de distance à lasélection totale. Les résultats montrent que la fusion avecsélection totale des marques per-met d’obtenir une segmentation plus précise que celle produite en utilisant la fusion avecsélection partielle par critère de distance. Cela est justifié par le faible nombre d’algorithmesutilisés. On peut penser qu’en utilisant un plus grand nombre d’algorithmes, la sélectionpartielle par critère de distance serait plus précise.

Dans la suite, nous ne présenterons donc que les résultats dela fusion avec sélectiontotale.

Les courbes 4.2 et 4.3 donnent les TSC des méthodes de fusion utilisant une supervisiondouce avec la fonctiongθ pour plusieurs valeurs deθ et pour plusieurs valeurs du couple(TailleComb,TailleAlgo). On rappelle queTailleCombest la taille du corpus d’apprentis-sage utilisé pour calculer les scores de chaque algorithme pour chaque type de transition.

Ces courbes permettent de voir qu’il existe une valeur deθ optimale qui permet de maxi-miser les TSC à 20 ms. Quelque que soit le corpus ou la fonction, on remarque queθ = 6 esttoujours la meilleure valeur. Des valeurs deθ supérieures à 6 ne font que dégrader les résul-tats. On peut également vérifier sur ces courbes qu’avec la fonctiongθ, les TSC convergentvers ceux obtenus avec la supervision dure quandθ tend vers∞. Ceci est prévisible, puisqueles algorithmes qui maximisent le score ont des poids égaux à1 et les autres des poids infé-rieurs à 1. La convergence deθ vers∞ va faire tendre les poids inférieurs à 1 vers 0 tout engardant les meilleurs algorithmes avec des poids égaux à 1. De plus, quandθ = 0, on retrouveexactement les résultats de la supervision uniforme. Deux remarques sont communes auxtableaux 4.1 et 4.2 et aux courbes 4.2 et 4.3 :

– Pour chaque paire(TailleComb,TailleAlgo), les méthodes de fusion produisent unesegmentation plus précise queHMMSeg2, AffinSeg2et BrandtSeg2. On peut donc enconclure que notre méthode de fusion atteint l’objectif quel’on s’était fixé. Nousavons donc fourni une méthode générique permettant d’obtenir un ensemble d’algo-rithmes de segmentation de meilleure qualité que ceux existants actuellement. Parexemple, dans le tableau 4.1, la méthode de fusion avec sélection totale utilisantune supervision douce avech produit une segmentation de TSC égal à 94.98% pour(TailleComb,TailleAlgo) = (300,300) et le corpus français. En comparant ce TSC àceux du tableau 3.5 pour le même corpus et pourTailleAlgo= 300, on peut observerune réduction du taux d’erreur de 25.50% par rapport àAffinSeg2.

– La fusion avec la supervision douce se révèle être globalement la plus performantequelle que soit la fonction de pondération.

Jusqu’à maintenant, on a utilisé, par souci de rigueur, un corpus d’apprentissage pourle calcul des scores de la fusion différent de celui utilisé pour l’apprentissage des modèlespour la segmentation par HMM et le post-traitement par modèle de frontière. En pratique,il serait très intéressant d’utiliser le même corpus d’apprentissage. Pour cette raison, nousprésentons dans le tableau 4.3, les TSC pour les segmentations produites par la fusion uti-lisant les supervisions uniforme, dure et douce utilisant un corpus unique pour toutes lesphrases d’apprentissage. Puisque nous avons vu que les meilleurs TSC de la segmentationissue de la fusion utilisantgθ sont obtenus avecθ = 6, la fusion avec supervision douce nesera présentée que pour les fonctionsg6 et h.

Nous présentons également dans ce même tableau les TSC obtenus par 4 tailles du corpusd’apprentissage : 100, 300, 700 et sur tout le corpus. L’utilisation de tout le corpus pour le


0 50 100 150 200 250 300 350 400 450 50092.5

93

93.5

94

94.5

95

95.5

96

96.5

97

TS

C (

%)

θ

Tout le corpus(700,700)(300,700)(100,700)(700,300)(300,300)(100,300)(700,100)(300,100)(100,100)

Figure 4.2 —TSC à 20 ms pour le corpus français des segmentations issues de l’utilisation dela supervision douce avec plusieurs valeurs deθ degθ. Les courbes correspondent à plusieursvaleurs des couples(TailleComb,TailleAlgo). La courbe correspondant à l’utilisation de tout

le corpus est la limite de performances de cette méthode de fusion.

calcul des scores et pour l’apprentissage des modèles correspond à la performance limite quel’on peut obtenir avec ces méthodes de fusion.

Tableau 4.3 —TSC des segmentations obtenues avec la fusion quand un même corpus d’ap-prentissage est utilisée pour le calcul des scores et pour l’apprentissage des modèles de la

segmentation par HMM et du post-traitement par modèle de frontière.

uniforme dure douceg6 h

100corpusFR 93.68% 92.50% 94.14% 93.77%corpusEN 93.67% 92.35% 94.13% 93.77%



Tout le corpuscorpusFR 94.86% 95.11% 95.78% 95.75%corpusEN 94.85% 94.70% 95.58% 95.77%


0 50 100 150 200 250 300 350 400 450 50093

93.5

94

94.5

95

95.5

96

TS

C (

%)

θ

Tout le corpus(700,700)(300,700)(100,700)(700,300)(300,300)(100,300)(700,100)(300,100)(100,100)

Figure 4.3 —TSC à 20 ms pour le corpus anglais des segmentations issues del’utilisation dela supervision douce avec plusieurs valeurs deθ degθ. Les courbes correspondent à plusieursvaleurs des couples(TailleComb,TailleAlgo). La courbe correspondant à l’utilisation de tout

le corpus est la limite de performances de cette méthode de fusion.

Plusieurs remarques sur ce tableau peuvent être faites. D’abord, on constate que l’uti-lisation du même corpus d’apprentissage donne des résultats similaires que ceux obtenuslorsqu’on utilise des corpus différents. Pour se convaincre de cela, il suffit de comparer les ré-sultats correspondant à une même taille du corpus d’apprentissage dans les tableaux 4.1, 4.2et 4.3. Cependant, une légère dégradation est observée (en anglais notamment) lorsqu’on uti-lise le même corpus d’apprentissage. Cette dégradation estexplicable car les segmentationsdu corpus d’apprentissage produites par HMM et par post-traitement par modèle de frontièreapprochent la segmentation manuelle. Par conséquent, les scores calculés sur ce corpus nesont pas très réalistes (mauvaise estimation) car les TSC des classes de transition sont tropbons.

Une autre remarque est que la fusion par supervision douce produit une segmentationplus précise que la fusion par supervision uniforme. Cela justifie l’intérêt de l’utilisationd’une base de données pour le calcul des scores. Par exemple,pour une taille de corpus d’ap-prentissage de 700 phrases on obtient avec la supervision uniforme respectivement des TSCégaux à 94.39% et 94.36% pour les corpus français et anglais alors qu’avec la supervisiondouce et la fonction de pondérationh, on obtient respectivement 95.26% et 95.17% pourles corpuscorpusFRetcorpusEN. Les nombres d’erreurs pour les corpus français et anglais


sont ainsi respectivement réduits de 15.5% et 14.3% avec la supervision douce. Ce gain estintéressant d’autant plus que l’utilisation du corpus d’apprentissage pour la fusion n’ajouteaucune contrainte sur le temps d’exécution et que le corpus d’apprentissage utilisé pour lasegmentation par HMM et le post-traitement par modèle de frontière est disponible.

La comparaison des deux dernières lignes du tableau 4.3 sur les performances limitesdes méthodes de fusion avec les tableaux 4.1, 4.2 et les courbes 4.2 et 4.3, montrent qu’avecl’utilisation d’une valeurTailleAlgo≥ 300, les TSC atteints par les méthodes de fusionsont assez proches de leur limite de performance. Par exemple, les valeurs maximales duTSC à 20 ms atteintes par la fusion avec supervision douce utilisant comme fonction depondérationhsont respectivement 95.72% et 95.53% pour les corpuscorpusFRetcorpusEN.Pour(TailleComb,TailleAlgo) = (700,700), les TSC de cette fusion sont respectivement95.22% et 95.23% pourcorpusFRet corpusEN. On rappelle que la limite des performancesest obtenue quand on utilise tout le corpus de parole comme corpus d’apprentissage à la foispour la création des HMM, la construction des modèles de frontières et le calcul des scorespour la méthode de segmentation par fusion.

Dans cette section nous nous sommes intéressés à la valeur duTSC à 20 ms. Nous avonsainsi comparé toutes les méthodes de fusion pour cette tolérance. On peut déduire des ta-bleaux présentés précédemment que les fusions utilisant lasupervision douce et les fonctionsg6 ethsont équivalentes et donnent les meilleurs résultats. Dansla suite, nous travaillons avecla fonctionh et nous appelons cette méthode de fusion :fusion optimale avec supervisiondouce.

Il est intéressant de voir maintenant si cette méthode de fusion est capable de corriger leserreurs grossières générées par la segmentation par HMM. Une erreur grossière est une erreurde segmentation supérieure à 50 ms. Le tableau 4.4 présente donc les TSC pour différentesvaleurs de la tolérance de la segmentation issue de lafusion optimale avec supervision douceet de la segmentation standard par HMM (HMMSeg1). Pour la fusion, on a choisi un mêmecorpus d’apprentissage de taille 300 pour le calcul des scores et pour l’apprentissage desmodèles nécessaires pour déterminerHMMSeg2etAffinSeg2. Un corpus de même taille seraaussi utilisé dans les tests subjectifs. On a choisi cette taille car c’est un bon compromisentre effort manuel et gain en précision. En effet, la segmentation manuelle de 300 phrasesnécessite 3 jours de travail pour une personne ou 1 jour pour 3personnes (en moyenne 80phrases sont segmentées par jour), ce qui est très raisonnable en comparaison aux semainesde travail nécessaires pour segmenter tout le corpus. De plus avec ces 300 phrases, on arriveà corriger 60% des erreurs supérieures à 20 ms générées par lasegmentation par HMM pourles deux corpus anglais et français.

Sur le tableau 4.4, on observe que le nombre d’erreurs grossières (erreur supérieure à50 ms) générées par la segmentation standard par HMM est quasiment divisé par 5 grâceà la fusion optimale avec supervision douce. Cette méthode permet d’une part d’augmentersignificativement la précision générale de la segmentation, mais aussi de réduire énormémentle nombre d’erreurs grossières. Or, cette réduction a un impact très important sur la qualitéde la parole synthétique générée.

Avant de passer à l’évaluation de la qualité de la parole synthétique, nous tenons à pré-ciser que jusqu’à maintenant, tous les types des marques de segmentation ont été pris encompte pour calculer tous les TSC de ce chapitre et du chapitre précédent. Néanmoins, nous


pensons que dans l’avenir il serait plus judicieux de compter tous les types de marques hor-mis celles entre un silence (ou une pause) et une plosive non-voisée. En effet, la détermi-nation automatique de ce type de marques n’a pratiquement pas de sens puisque la plosivesourde intègre une partie du silence. Cela explique le fait que le nombre d’erreurs entre lessilences (respectivement pauses) et les plosives sourdes restent grand (voir par exemple lestableaux C.1, C.2 et C.3). Sachant que le nombre de transitions de ce type est assez élevédans nos bases, les TSC seront obligatoirement améliorés (de l’ordre de 0.3% à 20 ms).

Tableau 4.4 —TSC pour différentes tolérances deHMMSeg1et de la segmentation issue dela fusion optimale avec supervision douce quand le même corpus d’apprentissage de taille

300 est utilisé pourHMMSeg2, AffinSeg2et le calcul des scores.

10 ms 20 ms 50 ms 80 msFusion corpusFR 79.90% 94.92% 99.47% 99.90%

optimale corpusEN 81.71% 94.77% 99.43% 99.87%

HMMSeg1corpusFR 67.12% 88.53% 97.21% 98.92%corpusEN 66.16% 87.77% 97.44% 99.43%

4.5.2 Évaluation de la qualité de la parole synthétique

4.5.2.1 Méthodologie

Pour terminer la validation de notre approche de fusion, il est nécessaire de regarderl’impact que l’amélioration du taux de segmentation correcte peut avoir sur la qualité de laparole synthétique. Le test conseillé pour faire cela est letest subjectif car il est basé sur lejugement de plusieurs personnes permettant ainsi de donnerune information fiable quant àla satisfaction des utilisateurs.

Des tests subjectifs ont été présentés dans la section 1.3.6.1. Ces tests visent à évaluersoit le naturel, soit l’intelligibilité, soit l’expressivité ou encore la qualité de la parole.

Dans notre cas, la qualité est l’élément à privilégier. Ainsi, nous utiliserons le test sub-jectif MOS. Dans ce test, les auditeurs écoutent avec un casque des phrases et sont priés deles noter sur une échelle de 1 à 5 où chaque chiffre correspondà un niveau de qualité suivantle tableau 4.5.

Tableau 4.5 —Niveaux de la qualité de la parole avec le test MOS.

Score Catégorie5 Très bien4 Bien3 Acceptable2 Mauvais1 Très mauvais

Avant la mise en place de ce test, deux questions se posaient :Quelles phrases doit-onfaire écouter aux auditeurs ?etComment les sélectionner ?


Pour répondre à la première question, nous avons choisi de donner aux auditeurs un cor-pus de phrases contenant des signaux de parole synthétisés avec trois différents dictionnairesd’unités de parole. Ceux-ci sont construits respectivement à partir de la segmentation phoné-tique par la méthode de fusion optimale avec supervision douce, à partir de la segmentationpar HMM (notre référence) et à partir de la segmentation manuelle.

On rappelle que pour obtenir la segmentation par diphones, on suppose que le diphonecommence au milieu d’un phonème et finit au milieu du phonème suivant. Ceci est une hypo-thèse généralement admise [39, 114, 155] sauf pour les plosives où on recherche de la plosionprincipalement et donc la marque de diphone est placée avantle relâchement de l’explosion.Cette manipulation pour les plosives peut être faite automatiquement ou manuellement. Dansnotre cas, elle est intégrée dans le système de synthèse vocale.

Le corpus que l’on a fait écouter à l’auditeur contient donc des phrases synthétisées avecces 3 dictionnaires. Ces phrases sont présentées dans un ordre aléatoire à des auditeurs naïfs.De plus, nous avons utilisé une phase d’apprentissage pour permettre aux sujets d’appréhen-der les différentes qualités des phrases et donc d’éviter dechanger leur façon de noter encours de test. En effet, un sujet naïf, c’est-à-dire qui n’a jamais effectué ce test et qui n’aaucune connaissancea priori de la qualité de la parole synthétique, peut commencer à noterlarge et se rendre compte, au cours du test, qu’il existe des phrases de meilleure qualité, cequi l’oblige alors à noter plus sévèrement.

Les phrases à évaluer ont été sélectionnées automatiquement à partir de livres du domainepublic. Notre approche de sélection cherche parmi les phrases synthétisées, avec le diction-naire construit à partir de la segmentation par HMM de 2000 textes, celles qui contiennentle plus d’erreurs de segmentation sur les diphones. Plus précisément, après la synthèse, nouscomptons les erreurs supérieures à 20 ms entre les marques dediphones issues de la seg-mentation par HMM et les marques manuelles correspondantes. Dans cette sélection, nousne prenons en compte que les marques qui correspondent à des concaténations. Autrementdit, on exclut les marques correspondant à des diphones contigus dans le corpus de parole.On n’utilise également que les diphones qui ne comportent pas de pauses ou de silences. Eneffet, étant donné que la segmentation HMM est particulièrement erratique sur les frontièresprécédant un silence ou une pause (cf. tableau C.1), la priseen compte de tous les diphonespeut engendrer une sélection de phrases qui contiennent beaucoup d’erreurs au niveaux dessilences. Évidemment, cela ne peut que biaiser les résultats car l’auditeur va juger en prio-rité les problèmes dans les silences qui vont couvrir les autres défauts de la synthèse. Deplus, il est important de choisir un corpus qui couvre au mieux les différents problèmes de lasynthèse utilisant la segmentation par HMM afin de juger l’apport en terme de qualité de lasegmentation après fusion.

Cette phase de sélection nous permet de choisir une liste de textes parmi les 2000 dispo-nibles. La synthèse de ce corpus avec le dictionnaire utilisant la segmentation par HMM étantdisponible, cet ensemble de textes est ensuite synthétisé avec les deux autres dictionnaires :le dictionnaire utilisant la fusion optimale avec supervision douce et l’autre employant lasegmentation manuelle. Ici, nous avons sélectionné les 20 phrases dont la synthèse aprèssegmentation par HMM contient le plus d’erreurs.


4.5.2.2 Résultats

Dans cette partie, nous allons présenter les résultats du test MOS (Mean Opinion Score)sur une voix anglaise et une voix française. Pour chaque test, plus d’une dizaine de personnes(16 pour le français et 11 pour l’anglais) ont jugé 3 ensembles de 20 phrases synthétisées parles trois dictionnaires décrits ci-dessus. Les sujets subissant les tests sont des auditeurs natifset naïfs. Nous rappelons que le test est précédé d’une phase d’apprentissage où le sujet écoute6 phrases pour situer la qualité de la parole synthétique. Les phrases en anglais et en françaissont extraites de livres du projet “Gutenberg”3.

Les résultats des tests MOS sont consignés dans le tableau 4.6. Dans ce tableau, nousprésentons les moyennes des notes données par les sujets pour chacun des dictionnaires.

Tableau 4.6 —Résultats des tests MOS pour les voix française et anglaise et pour les troissegmentations (HMMSeg1, segmentation issue de lafusion optimale par supervision douce,

segmentation manuelle) utilisées pour créer le dictionnaire de diphones.

Nombre Score Écartd’auditeurs type

Segmentation par HMM 2.86 0.41Français Fusion optimale 16 3.15 0.37

Segmentation manuelle 3.35 0.4Segmentation par HMM 3.04 0.37

Anglais Fusion optimale 11 3.13 0.41Segmentation manuelle 3.06 0.44

Par rapport à la parole générée avec la segmentation par HMM,on constate une améliora-tion de la qualité de la parole synthétique pour les deux voix, lorsqu’on utilise un dictionnaireobtenu après segmentation par fusion optimale. Par exemple, l’utilisation de la fusion opti-male avec supervision douce pour le français a permis de réduire l’écart entre la qualité dela parole synthétique et celle produite avec la segmentation manuelle (on passe de 2.86 avecla segmentation par HMM à 3.15 avec la segmentation par fusion) Les tests montrent éga-lement que la parole produite par l’utilisation de la fusionoptimale avec supervision douceest proche de la qualité de la parole obtenue avec la segmentation manuelle pour le corpusfrançais et la dépasse pour le corpus anglais.

Il existe plusieurs raisons possibles permettant d’expliquer cette particularité pour l’an-glais. Premièrement, les segmentations manuelles des corpus anglais et français ont été obte-nues par une correction manuelle des erreurs grossières de la segmentation automatique parHMM. Par conséquent, vu que la segmentation n’a pas été totalement réalisée manuellement,il est possible qu’elle contienne encore des erreurs et des imprécisions.

Ces explications, en plus du fait que l’on a choisi les phrases contenant le plus de pro-blèmes avec la segmentation par HMM, peuvent justifier la note faible aux alentours de 3 dela parole obtenue avec le dictionnaire segmenté manuellement.

Pour compléter cette analyse subjective, nous avons validéces résultats grâce à un critèreobjectif considéré comme corrélé à la perception humaine. Dans [49], l’auteur présente une

3Le projet Gutenberg, lancé en 1971, est une bibliothèque virtuelle de 17000 livres électroniques libres dedroit. Les textes fournis sont essentiellement tirés du domaine public (http ://www.gutenberg.org).


mesure permettant d’évaluer le niveau de discontinuités aux points de concaténations desdiphones. Dans ce même article, l’auteur compare cette mesure à plusieurs autres mesuresexistantes [90, 146, 164] et montre qu’elle est raisonablement corrélée à la perception hu-maine. Autrement dit, les résultats de cette mesure devraient être proches des résultats destests subjectifs.

L’implémentation de cette mesure se fait en deux phases. Tout d’abord, on calcule lechangement spectral pour chaque couple de diphones présentdans la base à partir du corpusde parole segmenté par HMM. Ce changement spectral est la différence entre les vecteursacoustiques de la trame de fin du premier diphone et la trame dedébut du deuxième diphone.Dans l’article [49], un arbre de décision (CART) est créé pour les différents types de frontièreentre les diphones. Le principe d’un tel arbre a été déjà décrit dans 3.4.1.2 et permet dans cecas précis de classer les différents changements spectraux. Ensuite, on estime pour chaquenoeud final de l’arbre, un vecteur moyenne et une matrice de covariance à partir des donnéesclassées de chaque noeud.

Une fois l’arbre de décision construit, on peut appliquer, sur chaque concaténation dediphones(diph1,diph2) d’un corpus de textes synthétisés, la mesure de distanceD proposéedans [49] de la forme :

D2 =Nc

∑i=1

(fi −di −µℓ

i

σℓi

)2 (4.4)

Dans cette formule,Nc est la dimension des données (la taille du vecteur acoustique). Lesièmeséléments des vecteurs acoustiquesfi et di sont calculés respectivement sur les tramesde fin du diphonediph1 et de début du diphonediph2 (voir figure 4.4). Ainsi, les vecteursacoustiques sont calculés à partir des trames de ces signauxde parole utilisés pour chaquediphone ;µℓ

i est leièmeélément du vecteur moyenne pour le noeud finalℓ correspondant autype de la frontière entrediph1 et diph2 et (σℓ

i )2 est leième élément de la diagonale de la

matrice de covariance associée au noeud finalℓ.

Pour nos tests, nous avons utilisé cette mesure mais sans construction de l’arbre de déci-sion. Autrement dit, les moyennes et les matrices de covariance (diagonales) sont estiméespour chaque phonème en considérant l’ensemble des représentants (i.e. des phones) du pho-nème considéré. L’équation (4.4) devient donc :

D2 =Nc

∑i=1

(fi −di −µi

σi)2 (4.5)

Dans notre cas, la taille de vecteur acoustiqueNc est égale à 12, comme proposé dans [49],et on applique la méthode précédemment décrite d’une manière générale avec les trois typesde segmentations (segmentation par HMM, segmentation manuelle et segmentation obtenueavec la fusion optimale utilisant la supervision douce).

Les résultats de cette mesure sur les trois types de segmentation sont donnés dans letableau 4.7. Les valeurs correspondent aux moyennes des distances calculées au niveau detous les diphones concaténés. Par exemple, pour la segmentation par HMM, on calcule lamoyenne des valeurs de la mesure de distance sur les 20 phrases sélectionnées et synthétiséesavec le dictionnaire obtenu grâce à cette segmentation.

On peut observer sur le tableau 4.7 que les résultats sont semblables à ceux des testssubjectifs présentés dans le tableau 4.6. La valeur de la mesure de distance des diphones


Diphones concaténésaprès la synthèse

Signaux de parole(Origine des diphones

Calcul desvecteurs acoustiques

Concaténation

diph1 diph2

f1. . .fi. . .fNc

d1

. . .di

. . .dNc

{ {Vecteur acoustique

sur la dernière tramede ce segment

Vecteur acoustiquesur la première trame

de ce segment

Figure 4.4 —Fonctionnement du calcul des vecteurs acoustiques nécessaire pour évaluer lesdiscontinuités à la frontière d’un couple de diphones.

Tableau 4.7 —Résultats du critère objectif appliqué aux corpus anglais et français et auxtrois segmentations (HMMSeg1, segmentation issue de lafusion optimale par supervision

douce, segmentation manuelle).

DistanceSegmentation par HMM 3.93

Français Fusion optimale 3.81Segmentation manuelle 3.75Segmentation par HMM 3.95

Anglais Fusion optimale 3.80Segmentation manuelle 3.93

sélectionnés dans un corpus segmenté avec fusion optimale est significativement plus faibleque celle calculée en utilisant un dictionnaire segmenté par HMM. En effet, pour le français,on obtient une valeur de la mesure de distance égale à 3.81 quand la fusion optimale avecsupervision douce est employée alors que cette valeur est de3.93 quand la segmentation parHMM est utilisée. En comparant ces valeurs à celles obtenuesavec la segmentation manuelle(3.75), on s’aperçoit que l’utilisation de la fusion optimale avec supervision douce permetde réduire la valeur de la mesure obtenue avec la segmentation par HMM (de 3.93 à 3.81).

Le tableau montre également que la valeur moyenne de cette mesure de distance obtenue


avec la segmentation par fusion est proche de celle utilisant la segmentation manuelle pourla voix française et elle est plus faible dans le cas de la voixanglaise. À partir de l’étudede [49] et des résultats trouvés avec cette mesure, on peut donc en déduire que cette mesurepermet de comparer efficacement la qualité de la parole synthétique de certaines méthodes.

Cette remarque nous permet de compléter notre étude de la qualité de la parole sur lestrois dictionnaires décrits précédemment. En effet, la mise en oeuvre des tests subjectifsest très lourde. Aussi, nous avons décidé de terminer l’évaluation de la qualité de la parolesynthétique en utilisant le critère objectif en supposant que ce critère reste corrélé au testsubjectif MOS.

Jusqu’à maintenant, nous avons montré que notre méthode générique permet de corri-ger certains problèmes audibles générés par l’utilisationde la segmentation par HMM. Ilest maintenant intéressant de voir si cette méthode ne crée pas d’erreurs quand il n’y a pasd’erreur de segmentation sur les diphones. Pour évaluer cela, nous allons sélectionner uncorpus de textes de 20 phrases de la même manière que dans le test précédent. Cependant,ce corpus va être sélectionné de telle façon que les phrases synthétisées de ce corpus avec ledictionnaire qui utilise la segmentation par HMM ne contiennent pas d’erreur de segmenta-tion de plus de 20 ms sur les diphones. Les résultats du critère objectif décrit dans [49] sontprésentés dans le tableau 4.8.

Tableau 4.8 —Résultats du critère objectif appliqué aux corpus anglais et français et aux troissegmentations (HMMSeg1, segmentation issue de lafusion optimale par supervision douce,segmentation manuelle). Le test est effectué sur le corpus de textes choisi de telle sorte qu’il

n’y a pas d’erreur de la segmentation par HMM.

DistanceSegmentation par HMM 3.13

Français Fusion optimale 3.06Segmentation manuelle 3.01Segmentation par HMM 3.16

Anglais Fusion optimale 3.07Segmentation manuelle 3.14

Nous remarquons dans ce tableau que la synthèse avec le dictionnaire utilisant une seg-mentation par fusion optimale ne dégrade pas la qualité de laparole générée avec le diction-naire qui emploie la segmentation par HMM.

En résumé, les résultats de cette section peuvent être vus comme une vérification desrésultats obtenus dans la section précédente : notre méthode générique permet de corrigercertains problèmes audibles dans la parole générée par l’utilisation de la segmentation parHMM sans dégrader la qualité de cette parole quand la segmentation par HMM est correcte.Par conséquent, cette approche de fusion permet d’améliorer la qualité de la parole synthé-tique sans pour autant nécessiter un travail de segmentation manuel fastidieux.


4.6 Conclusion

Nous avons proposé une approche générique pour la segmentation automatique de grandscorpus quand la phonétisation est supposée connue et correcte. Cette approche a été testée surtrois algorithmes étudiés dans le chapitre précédent mais elle peut être appliquée à d’autresalgorithmes. Cependant, afin de tirer le meilleur profit de cette approche, il est conseilléd’utiliser des algorithmes complémentaires, dans le sens où ils sont adaptés à détecter desclasses de transition différentes.

Les résultats objectifs de certaines méthodes de fusion basées sur notre approche géné-rique ont montré que la fusion avec supervision douce et sélection totale est la méthode quidonne globalement les meilleurs résultats. Elle permet de réduire de 60% des erreurs de lasegmentation standard par HMM et 25.5% des erreurs de la segmentationAffinSeg2, ce quidonne le meilleur TSC parmi les segmentations fusionnées.

Cette méthode de fusion avec supervision douce et sélectiontotale a été ensuite évaluéesubjectivement et objectivement à travers la qualité de la parole synthétique. Par rapport àla synthèse utilisant la segmentation par HMM, cette méthode s’avère plus efficace puisquela qualité de la synthèse vocale en français a été nettement améliorée approchant ainsi lasynthèse basée sur la segmentation manuelle.

Ce chapitre répond donc à l’objectif essentiel de cette thèse, proposer une méthode desegmentation automatique meilleure que la segmentation par HMM, mais ouvre égalementde nouveaux axes de recherches. En effet, actuellement on relève le défi d’utiliser des corpusde parole qui ne sont pas spécialement dédiés à la synthèse vocale. L’étiquetage de ces cor-pus ne permet pas d’avoir des précisions phonétiques très élevées comme on peut l’obteniravec des corpus enregistrés d’une manière contrainte. L’enregistrement contraint consiste àdemander au locuteur de prononcer de façon à approcher la séquence phonétique automa-tique. Pour ces raisons, on peut se poser les questions suivantes : Faut-il s’investir dansles mesures de confiance capables de détecter les erreurs quisubsistent après la segmen-tation issue de notre approche générique ? Comment peut-on appliquer cette approche desegmentation quand la phonétisation contient des erreurs ?

Les deux questions seront traitées respectivement aux chapitres 5 et 6.

CHAPITRE

5 Détection des erreurs desegmentation

5.1 Introduction

Notre objectif dans ce chapitre est de mettre en oeuvre une mesure de confiance fiablecapable de qualifier avec précision chaque marque de segmentation. Elle permettra donc decorrigera posteriorices erreurs automatiquement ou de faciliter la vérificationmanuelle. Cechapitre est donc une suite logique du chapitre 4.

Pour cette raison, nous allons commencer par expliquer la notion demesure de confiancerelative à la détection des erreurs de segmentation et présenter brièvement quelques unes deces mesures. Ensuite, nous allons proposer deux mesures de confiance et les utiliser sur lasegmentation issue de lafusion optimale par supervision douceafin de comparer les résultats.Nous nous placerons dans le cas où la phonétisation est supposée correcte. Ces deux mesuressont déduites des deux algorithmes étudiés dans le chapitre3 : l’algorithme de Brandt et lepost-traitement par modèle de frontière.

Nous poursuivons ce chapitre en proposant et évaluant plusieurs combinaisons de cesdeux mesures grâce aux opérateurs OU et ET afin de produire unedécision plus fiable quantà la précision de la marque de segmentation.

Finalement, nous fusionnerons dans la section 5.7 les décisions associées aux deux me-sures précédentes avec celle prise par une nouvelle mesure qualifiant la durée de chaquesegment. Ceci nous permet d’avoir un nouveau test de décision plus efficace pour trouver lesmarques de segmentation qui sont à plus de 50 ms des marques manuelles.

5.2 Utilisation des mesures de confiance pour détecter leserreurs de segmentation

Nous avons proposé dans le chapitre précédent une méthode permettant de produire unesegmentation précise. Cependant, il serait intéressant d’avoir une information supplémen-taire sur la pertinence de chaque marque de segmentation sans connaîtrea priori la seg-mentation manuelle. Grâce à cette information, nous pourrons par exemple, réduire le temps

92 CHAPITRE 5 : DÉTECTION DES ERREURS DE SEGMENTATION

nécessaire aux phonéticiens pour corriger manuellement lasegmentation ou mettre en œuvreune méthode de correction automatique des marques de segmentation jugées erronées.

Ce type d’information est appelé mesure de confiance. Dans notre cas, une mesure deconfiance est une quantité qui quantifie la confiance que l’on adans une marque de segmen-tation. Plus la marque obtenue automatiquement est proche de la marque manuelle, plus ona confiance dans cette marque et donc, plus la mesure de confiance sera grande.

Afin de décider laquelle des deux hypothèses suivantes “la marque de segmentation est àmoins deε ms de la marque manuelle ” et “la marque de segmentation est à plus deε ms dela marque manuelle” est la plus probable, on seuille les valeurs obtenues avec cette mesurede confiance .

Comme notre objectif est de détecter les erreurs de segmentation, on se ramène dansce cas à un test statistique d’hypothèse binaire où l’hypothèse nulleH0 est “la marque desegmentation est à moins deε ms de la maque manuelle” et l’hypothèse alternativeH1 est“la marque de segmentation est à plus deε ms de la marque manuelle”.

Appelons cette mesure de confianceC et soittm une marque d’une segmentation donnée,le test statistique qui permet de choisir entreH0 et H1 est le suivant :

{accepter H0 si C(tm) > ηaccepter H1 si C(tm) ≤ η

(5.1)

Comme n’importe quel test d’hypothèse, le test statistiquesur la mesure de confiancepeut commettre deux types d’erreur :

– Erreur de type I ou fausse alarme : le test rejette l’hypothèse nulle alors qu’elle estvraie.

– Erreur de type II ou non détection : le test rejette l’hypothèse alternative alors qu’elleest vraie.

Le tableau 5.1 résume les 4 possibilités de décision du test d’hypothèse.

Tableau 5.1 —les 4 cas possibles de décision d’un test d’hypothèse.

H0 est accepté H1 est acceptéH0 est vraie aucune erreur erreur de type IH1 est vraie erreur de type II aucune erreur

Nous allons décrire plus loin comment le seuilη de l’équation (5.1) est choisi. Ce seuil estfixé grâce aux courbes ROC (Receiver Operating Characteristic) ou aux courbes DET (De-tection Error Tradeoff) décrites dans les sections suivantes. Ces courbes permettent d’évaluerles performances d’un test statistique d’hypothèse et doncd’évaluer la fiabilité d’une mesurede confiance et sa capacité à prendre une décision entre les deux hypothèsesH0 et H1. Ce-pendant, ces courbes nécessitent la connaissance des probabilités de fausse alarme, de nondétection et de détection.

La probabilité de fausse alarmePFA est la probabilité des erreurs de type I. La probabilitéde non détectionPND est la probabilité des erreurs de type II. Enfin, la probabilité de détectionPD est la probabilité d’acceptation correcte deH1.

Section 5.2 :Utilisation des mesures de confiance pour détecter les erreurs 93

Dans notre cas, ces probabilités sont calculables car nous faisons l’hypothèse que noussommes dans un modèle probabiliste où la mesure de confianceC est une variable aléatoireparce que nous considérons que l’observation, c’est-à-dire la marque de segmentationtm, estelle-même une variable aléatoire.

Pour calculer ces probabilités, nous avons besoin d’un corpus dont nous connaissons lasegmentation manuelle. À partir de ce corpus nous pouvons facilement déterminer le nombretotal Nt de marques présentes dans le corpus, le nombre de marques de segmentationNv quisont à plus deε ms des marques manuelles, le nombre de frontièresNFA qui sont à moinsdeε ms des marques manuelles et dont la valeur de la mesure de confiance est inférieure àun seuil donnéη et le nombre de marques de segmentationNND qui sont à plus deε ms desmarques manuelles et dont la valeur de la mesure de confiance est supérieure au seuilη.

Avec ces informations, les probabilitésPFA, PND et PD sont estimées comme suit :

PFA =NFA

Nt(5.2)

PND =NND

Nv(5.3)

PD = 1−PND (5.4)

Dans les deux sections suivantes, nous allons présenter lesdeux techniques (courbes ROCet DET) communément utilisées pour évaluer un test statistique d’hypothèse.

5.2.1 Courbes ROC

Les courbes ROC [55, 162], développées en 1950, permettent d’évaluer un test d’hypo-thèse et également de comparer plusieurs tests en présentant la probabilité de fausse alarmesur l’axe des abcisses et la probabilité de détection sur l’axe des ordonnées.

La courbe ROC se construit de façon empirique en faisant varier le seuilη dans l’équa-tion (5.1), puis en calculant pour chaque valeur de seuil lesprobabilités de fausse alarme etde détection correspondant à ce seuil définies par les équations (5.2), (5.3) et (5.4).

Sur la figure 5.1, nous présentons des exemples de courbes ROC: une courbe typiqued’un test d’hypothèse, une courbe idéale d’un test d’hypothèse représentée en pointillée etune courbe d’un test d’hypothèse non-informatif représentée sur la diagonale.

Un test sur une mesure de confiance est dit non-informatif lorsque la probabilitéde détection est égale à la probabilité de fausse alarme. En effet, dans ce cas, on aP(H1soit vraie|déciderH1) = P(H0soit vraie|déciderH1) et donc on ne peut pas choisir ef-ficacement entreH1 et H0. La courbe ROC correspondante est représentée par la diagonale.

Une courbe ROC est dite idéale quand le test d’hypothèse permet de détecter totalementet correctement les marques de segmentation pour lesquelles H0 et H1 sont vraies. Ce testpermet donc d’obtenirPD = 1 pour toutes les valeurs dePFA.

Un test sur une mesure de confiance sera donc d’autant meilleur que sa courbe ROC sesituera proche de la courbe idéale et s’éloignera de la diagonale.


Toutes les courbes commencent par le point correspondant àPFA = 0 et PD = 0 etconvergent vers le point associé àPFA = 1 et PD = 1. En effet, supposons le cas d’un testsur une mesure de confiance qualifiant une marque de segmentation et supposons aussi quela mesure de confiance prenne des valeurs entre 0 et 1. Soient,comme précédemment,H0

l’hypothèse “la marque de segmentation est à moins deε ms de la maque manuelle etH1

l’hypothèse “la marque de segmentation est à plus deε ms de la marque manuelle”. Si onconsidère un seuilη égal à 0, alors la valeur de la mesure sera toujours supérieure àη pour lesmarques pour lesquelles l’hypothèseH0 est vraie et les marques pour lesquelles l’hypothèseH1 est vraie. Cela se traduit parPD = 0 etPFA = 0. Nous n’avons alors aucune fausse alarmemais aucune détection correcte non plus. Si maintenant, le seuil η est égal à 1, alors la valeurde la mesure de confiance est toujours inférieure àη et doncPD = 1 etPFA = 1. Dans ce cas,nous détectons toutes les erreurs mais commettons des fausses alarmes systématiques.

0

1

10 PFA

PD

courbe idéalecourbe typiquecourbe non-informative

Figure 5.1 — Exemples de courbes ROC : courbe idéale, courbe typique et courbe non-informative.

La courbe ROC nous permet de fixer le seuilη nécessaire pour prendre la décision. Àpartir de la courbe ROC d’un test d’hypothèse donné (cf. courbe typique de la figure 5.1), onpeut déterminer un point de fonctionnement(PFA,PD) correspondant à un seuil dit optimalη. Ce point de fonctionnement dépend de l’application et du résultat attendu. Si on doitprivilégier la probabilité de fausse alarme, alors le pointde fonctionnement doit impliquerune probabilité de fausse alarme faible avec une probabilité de détection raisonnable. Si nousdécidons de ne pas privilégier la probabilité de fausse alarme, alors on a intérêt à prendre uneprobabilité de détection forte même si cela augmente la probabilité de fausse alarme.

5.2.2 Courbes DET

Les courbes DET [109, 162] sont une autre façon de représenter les résultats qui peutparaître parfois plus facile à lire. Sur ces courbes, on représente les deux types d’erreursd’un test d’hypothèse : la probabilité de non détectionPND en fonction de la probabilitéde fausse alarmePFA. Les axes des abscisses et des ordonnées sont transformés enéchellelogarithmique. Par conséquent, si les distributions des observations des deux hypothèsesH0

Section 5.3 :Exemples de mesures de confiance 95

et H1 sont des gaussiennes, la courbe est alors linéaire. un pointde fonctionnement de cettecourbe connu sous le nom de EER (Equal Error Rate) correspondàPND = PFA.

5.3 Exemples de mesures de confiance pour l’évaluation dela segmentation automatique

Dans le domaine de la parole, les mesures de confiance sont très utilisées en reconnais-sance vocale [13, 24, 68, 161]. Ces mesures permettent d’évaluer la fiabilité de la réponseproduite par les systèmes de reconnaissance vocale et peuvent également fournir une évalua-tion des performances de la segmentation et de la phonétisation produites par la reconnais-sance. Néanmoins, il existe peu de mesures de confiance directement dédiées à l’évaluationdes marques d’une segmentation donnée.

D’une manière générale, deux remarques peuvent être faites: ces mesures sont la plupartdu temps basées sur l’alignement par HMM et les mesures sont souvent homogènes à desrapports de vraisemblance.

De plus, ces mesures peuvent être regroupées en deux classes: celles qui s’intéressent àla détection des erreurs sur la durée d’un phone ou celles quisont capables d’évaluer s’il y aune erreur sur une marque de la segmentation.

Par exemple, dans [122], Pellom et al. présentent une mesurede confiance surla duréedes phones. Cette mesure de confiance est basée sur le fait que la durée observéedobs duphone est égale à la durée réelle de ce phoned plus une erreur sur la marque de débuted dece phone et une erreur sur sa marque de finef . Autrement dit, la durée observée d’un phonepeut être modélisée par l’équationdobs= d+ed +ed.

Les auteurs font ensuite deux hypothèses raisonnables pouren déduire la mesure deconfiance sur la durée. Les deux hypothèses sont :

– la durée réelled du phone d’étiquetteϕ suit une loi gamma de deux paramètresα etβ [99] :

p(d|ϕ,α,β) =β−αdα−1

γ(α)exp(−

dβ) (5.5)

– les erreurs sur les marques à gaucheed et à droiteef suivent des lois gaussiennes demême variance et de moyenne nulle et sont considérées indépendantes. La distributionde chaque erreur étant la loi gaussienneN(0,σe

2) de moyenne nulle, l’erreur totale surla duréee= ed + ef suit donc également une loi gaussienne de moyenne nulle et devariance 2σe

2.

p(e) =1√

4πσe2

exp(e2

4σe2) (5.6)

La valeur de la mesure de confiance sur la durée, notéeCD pour un segment donné estensuite calculée sous forme d’un rapport de vraisemblance.Le calcul de ce rapport est faitavec les deux hypothèsesH1 et H0 signifiant respectivement la présence d’une erreur inac-ceptable (e≥ ε ms) et l’absence d’une erreur inacceptable. La mesureCD pour un segmentde duréedobs associé à un phonèmeϕ suit donc l’équation :

CD(dobs) =p(dobs|ϕ,α,β, |e| ≤ ε)p(dobs|ϕ,α,β, |e|> ε)

(5.7)


Avec les deux densités de probabilité données par les équations 5.5 et 5.6, la valeur de lamesureCD du segment de duréedobs devient :

CD(dobs) =

Z

|e|≤ε(dobs−e)(α−1) exp(

−(dobs−e)β

−e2

4σe2)de

Z

|e|>ε(dobs−e)(α−1) exp(

−(dobs−e)β

−e2

4σe2)de

(5.8)

Il convient de noter que dans l’article [122], les auteurs ont préféré utiliser l’inverse de lamesure donnée dans l’équation (5.8) afin d’avoir une mesure donnant une valeur importantequand une erreur grossière sur la durée se produit et une valeur faible quand la durée observéeest proche de la durée réelle. Les auteurs ont utilisé cette mesure pour détecter les phrasesbruitées nécessitant une intervention manuelle.

Pour la détection des erreurssur les marques de segmentation, les auteurs de [47, 96]proposent une mesure de confiance basée sur l’alignement parHMM. Pour ce faire, troisquantités sont calculées autour d’une frontièretm donnée : la valeur de densité de probabilitéfg des observations deNg trames à gauche de cette frontière sachant la séquence optimale desétats qui a produit ces observations ; la valeur de la même densité de probabilitéfd appliquéeàNd trames à droite detm ; et enfin la valeur de cette même densité de probabilitéft calculéesur l’ensemble desNd trames à droite et desNg trames à gauche detm. La valeur de la mesure

de confiance finale pour la frontièretm n’est autre quefg fdft

.

Les deux algorithmes étudiés dans le chapitre 3 (Algorithmede Brandt et post-traitementpar modèle de frontière) sont basés sur des grandeurs statistiques que l’on peut considérercomme des mesures de confiance. Il semble alors naturel d’exploiter ces grandeurs pourdétecter les erreurs de segmentation. Cela sera l’objet de la section suivante. Les mesuresque nous avons citées dans cette section peuvent être utilisées en les fusionnant avec lesmesures qu’on propose comme on le décrit dans la suite de ce chapitre (cf. section 5.7).

5.4 Proposition de deux mesures de confiance pour quali-fier une frontière

Dans ce document, nous proposons deux mesures de confiance permettant de juger de laqualité d’une marque de segmentation donnée. Une provient du post-traitement par modèlede frontière et l’autre est déduite de l’algorithme de Brandt.

Soit tm une marque de segmentation, considérons un segment[td, t f ] autour de cettemarque susceptible de contenir la marque manuelle. En pratique, on choisiratd l’instantdu milieu du segment à gauche detm et t f l’instant du milieu du segment à droite detm. Danscette section, nous commençons par définir la quantitéV(tm) associée à une marquetm quiest une vraisemblance pour le post-traitement par modèle defrontière et un rapport de vrai-semblances pour l’algorithme de Brandt. Nous définissons ensuite la mesure de confiancenotéeC.

Pour le post-traitement par modèle de frontière, V(tm) est la valeur de la densité deprobabilité que la marquetm soit la marque réelle. Son calcul commence par la construction

Section 5.4 :Proposition de deux mesures de confiance pour qualifier une frontière 97

du super-vecteurVect(tm) centré autour detm surN trames de part et d’autre de cette fron-tière. Ensuite, à l’aide de l’arbre CART déjà construit lorsde l’étape d’apprentissage sur unpetit corpus segmenté manuellement, on peut trouver le GMM (λm) associé à cette frontière.Rappelons que les constructions des super-vecteurs et du CART ont été introduites dans lasection 3.4. La vraisemblanceV(tm) est définie alors par l’équation suivante :

V(tm) = f (Vect(tm)|λm), (5.9)

où f est la densité de probabilité du modèle de frontière considéré (ici gaussien, voir cha-pitre 3).

Dans l’algorithme de Brandt, le rapport de vraisemblanceV(tm) est donné directementpar l’équation (3.4) page 59 quandr = tm− td et n = t f − td et se traduit par l’équationsuivante, en gardant les mêmes définitions et notations que la section 3.5 :

V(tm) = (t f − td) logσ0− (tm− td) logσ1− (t f − tm) logσ2, (5.10)

où σ0, σ1, σ2 sont respectivement les variances des bruits blancs gaussiens générés par lamodélisation AR sur les segments[td, t f ], [td, tm], [tm, t f ].

SoitVmax la valeur maximale deV(ti) calculées pour les instantsti ∈ [td, t f ] différents detm. Précisons, queti se trouve à un multiple d’un pas à choisir (ici égal à 5 ms) par rapport àtm. Nous avons donc :

Vmax = maxti∈[td,t f ]−{tm}

V(ti)

On définit la valeur de la mesure de confianceC pour la marquetm entre 0 et 1. Unevaleur proche de 1 correspond à une marque qui a de fortes chances d’être bien placée et unevaleur proche de 0 signifiera que la marque est loin de la marque manuelle.

La mesure de confianceC est définie par la fonction donnée par l’équation :

C(tm) =

{1− Vmax

2V(tm)si V(tm) ≥Vmax

V(tm)2Vmax

sinon(5.11)

Nous avons utilisé cette fonction car elle est simple à calculer et vérifie les contraintes quenous venons de présenter. Cette fonction et sa dérivée sont continues et permettent d’évaluerla marque en fonction de son environnement immédiat. Cette mesure permet de comparerV(tm) par rapport aux autres valeurs de vraisemblances ou de rapports de vraisemblancescalculés sur le segment[td, t f ]. Si l’instant qui donneVmax a la même valeur que celle detm, nous avons décidé de donner la valeur 1/2 à C(tm). La figure 5.2 est un exemple dereprésentation graphique de cette mesure de confiance en fonction deV(tm) à une valeurVmax fixée à 1 .

Pour différencier les mesures qui proviennent du post-traitement par modèle de frontièreet l’algorithme de Brandt, nous appellerons dans toute la suiteCAffin etCBrandtrespective-ment leurs mesures associées.


0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0 0.5 1 1.5 2 2.5 3 3.5 4

vale

urs

de m

esur

e de

con

fianc

e C

(tm

)

Rapport de vraisemblance V(tm)

Vmax

Figure 5.2 —Représentation graphique de la mesure de confiance en fonction du rapport devraisemblanceV(tm).

5.5 Résultats

Dans cette section, nous allons comparer les performances des mesures de confianceCBrandtetCAffin sur la détection des erreurs de segmentation supérieures à 50 ms et la dé-tection des erreurs de segmentation supérieures à 20 ms. Dans chaque cas, nous utiliserons lasegmentation issue de la méthode defusion optimale par supervision douce(cf. chapitre 4).Pour comparer ces mesures de confiance, nous allons utiliserles courbes ROC (voir sec-tion 5.2.1). Ces courbes sont construites sur la base d’un corpus d’apprentissage segmentémanuellement.

Dans toute la suite du chapitre, nous allons travailler par classe, c’est-à-dire que nousconsidérons que le seuilη utilisé dans l’équation (5.1) ne sera pas le même pour touteslesmarques mais dépendra du couple de classes des phones se trouvant à droite et à gauche dela marque traitée. Nous avons choisi de travailler par classe car l’algorithme de Brandt et lepost-traitement par modèle de frontière sont des méthodes qui se comportent différemmenten fonction du type de la transition. Par conséquent, un testd’hypothèse est associé à chaquetype de marque de segmentation.

SoientC une mesure de confiance (par exempleCAffin ou CBrandt), tm une marquedonnée de la segmentation étudiée (segmentation produite par la méthode de fusion optimalepar supervision douce). On connaît le couple(cg,cd) de classes des phones gauche et droitde la marquetm.

Le test d’hypothèse sur la mesureC pour la marquetm est donné par l’équation (5.1) àsavoir : {

accepter H0 si C(tm) > ηaccepter H1 si C(tm) ≤ η

(5.12)

où, maintenant, le seuilη dépend de(cg,cd) et H0 est toujours l’hypothèse “la marque de

Section 5.5 :Résultats 99

segmentation est à moins deε ms de la marque manuelle” etH1 l’hypothèse “la marque desegmentation est à plus deε ms de la marque manuelle” sous-entendu, pour la classe(cg,cd)considérée.

Si on considère que le corpus de parole que nous traitons contient T classes de phonesalors T2 tests d’hypothèse seront utilisés. On pourra donc construire T2 courbes ROC,chaque courbe étant associée à un type de transition. Nous avons T = 12 pour le corpusfrançais etT = 11 pour le corpus anglais (voir le tableau D.1 page 158 et le tableau D.2page 159), ce qui signifie queT2 vaut 144 pour le français et 121 pour l’anglais. Notonsque ces valeurs prennent en compte des classes de transitionimpossibles comme la classe si-lence/silence. Il est donc difficile de visualiser autant decourbes. Pour cette raison, nous pro-posons de tracer une courbe ROC qui montre la capacité générale de la mesure de confianceC à détecter les erreurs de segmentation quelle qu’elles soient.

Les probabilités de fausse alarme et de détection qui permettent de tracer cette courbeglobale suivent les équations (5.2) et (5.4) :NFA est dans ce cas le nombre de marques quisont à moins deε ms des marques manuelles et dont la valeur de la mesure est inférieure auseuil associé au type de marques traitées ; de la même façon,NND est le nombre de marquesqui sont à plus deε ms des marques manuelles et dont la valeur de la mesure est supérieureau seuil associé au type de marques traitées ; enfin,Nv est le nombre de marques à plus deεms des marques manuelles etNt est le nombre total de marques.

Soient maintenant l’ensemble de seuils(ηi j )1≤i, j≤T de taille T2 et (cli j )1≤i, j≤T l’en-semble des classes de transition. Le seuilηi j est celui qui correspond à la classe de transitioncli j . Soient égalementNFA(cli j ) le nombre de marques de classecli j qui sont à moins deεms des marques manuelles et dont la valeur de la mesureC est inférieure àηi j , NND(cli j ) lenombre de marques de classecli j qui sont à plus deε ms des marques manuelles et dont lavaleur de la mesure est supérieure àηi j etNv(cli j ) le nombre de marques de classecli j à plusdeε ms des marques manuelles.

Avec ces notations, il est facile de déduire que :

Nv =T

∑i=1

T

∑j=1

Nv(cli j )

NFA =T

∑i=1

T

∑j=1

NFA(cli j )

NND =T

∑i=1

T

∑j=1

NND(cli j )

En remplaçant dans les équations (5.2) et (5.4),Nv, NFA et NND par leurs expressions,nous obtenons les équations suivantes :

PFA =1Nt

T

∑i=1

T

∑j=1

NFA(cli j ) (5.13)

PD =∑T

i=1∑Tj=1NND(cli j )

∑Ti=1 ∑T

j=1Nv(cli j )(5.14)


Il convient de préciser que bien que la taille du corpus d’apprentissage soit raisonnable,il est possible d’être en présence de deux cas difficiles à gérer :

– Il n’y a pas de représentants d’un type de transition dans lecorpus d’apprentissage ;– Il n’y a pas d’erreurs pour un type de transition. Si cette transition est de classecli j

alors on aNv(cli j ) = 0.Pour ces deux cas, nous ne pouvons pas déterminer le seuil correspondant. Nous fixons

alors le seuil des types de transition appartenant à l’un desdeux cas précédents à un seuiluniversel. Ce seuil universel est celui que l’on trouve lorsque nous appliquons un seul testd’hypothèse sur la mesure de confianceC (C = CAffin ou C = CBrandt), sans prendre encompte la classe de la frontière, ce test étant celui de l’équation (5.1). Avec la valeur de laprobabilité de fausse alarme fixée àQ, nous pouvons donc calculer le seuilη permettantde choisir entre les deux hypothèses “la marque de segmentation est à moins deε ms de lamaque manuelle ” et “la marque de segmentation est à plus deε ms de la marque manuelle”.Ce seuilη est appelé seuil universel.

Ces probabilités de fausse alarme et de détection seront utilisées pour construire la courbeROC permettant d’évaluer les performances globales d’une mesure de confianceC.

Habituellement pour obtenir cette courbe ROC, nous devrions faire varier lesT2 seuils del’ensemble(ηi j )1≤i, j≤T et calculerPFA etPD avec les équations (5.13) et (5.14) pour chaqueensemble testé. Il est possible que plusieurs ensembles différents de seuils donnent la mêmevaleur dePFA et des valeurs différentes dePD. Dans ce cas, nous utiliserons la moyenne detoutes les valeurs dePD donnant la même valeur de probabilité de fausse alarmePFA.

Le test de toutes les valeurs possibles des seuils de l’ensemble (ηi j )1≤i, j≤T étant trèscoûteux en mémoire et en temps, nous avons donc décidé de fixerune probabilité de faussealarme pour tous les types de transition : nous fixons une probabilité de fausse alarmeQidentique pour toutes les classes de transition et, pour chaque classecli j , nous cherchonsle seuil qui permet d’obtenir cette probabilité ; une fois l’ensemble(ηi j )1≤i, j≤T fixé, nouspouvons évaluer les probabilitésPFA etPD globales données par les équations (5.13) et (5.14)en calculant les valeursNFA(cli j ), NND(cli j ) et NND(cli j ) pour 1≤ i, j ≤ T. On construit lacourbe ROC en faisant varier la probabilitéQ. D’après la définition duPFA, il est évident quesi toutes les probabilités de fausse alarme pour chaque classe sont égales alorsPFA = Q.

Notons que cette courbe ROC va nous permettre de choisir un point de fonctionnement,c’est-à-dire une probabilité de fausse alarmePFA associée à une probabilité de détectionPD.Ce point de fonctionnement optimal correspond, avec cette méthodologie de construction dela courbe ROC, à un seul ensemble de seuils optimaux.

La figure 5.3 présente les performances deCBrandtetCAffin , sur trois corpus d’appren-tissage disjoints de 300 phrases choisis danscorpusFR, pour la détection des erreurs supé-rieures à 50 ms et à 20 ms des marques de la segmentation issuesde la méthode de fusionoptimale avec supervision douce. La figure 5.4 présente les mêmes types de résultats maissur trois corpus d’apprentissage 300 phrases extraites aléatoirement ducorpusEN. Chaquecourbe ROC des figures 5.3 et 5.4 est la moyenne des trois courbes ROC calculées sur lestrois corpus d’apprentissage.

On remarque sur les figures 5.3 et 5.4 que l’on s’éloigne de la courbe non informativedécrite dans la figure 5.1, ce qui est rassurant. De plus, on peut observer que pour les corpusfrançais et anglais, la mesureCAffin est plus fiable que la mesureCBrandt. En effet, à une

Section 5.5 :Résultats 101

0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1

CAffin (50 ms)CBrandt (50 ms)


Pro

babi

lité

dedé

tect

ion

Probabilité de fausse alarme

Figure 5.3 —Courbes ROC des mesuresCBrandtetCAffin pour les erreurs supérieures à 50ms et à 20 ms pour le corpus français.

0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1



Pro

babi

lité

dedé

tect

ion


Figure 5.4 —Courbes ROC des mesuresCBrandtetCAffin pour les erreurs supérieures à 50ms et à 20 ms pour le corpus anglais.

probabilité de fausse alarme fixe, la probabilité de détection obtenue avec l’utilisation de lamesureCAffin est plus grande que celle obtenue avec la mesureCBrandt. On remarque éga-lement que ces deux mesures sont mieux adaptées à la détection des erreurs de segmentationgrossières de plus de 50 ms. Par exemple, pour le corpus français, on peut détecter respec-tivement 39% et 28.4% des marques erronées à plus de 50 ms avecCBrandt et CAffin àune probabilité de fausse alarme égale à 8%. A contrario, on ne peut détecter respectivement


que 28.5% et 20.2% des marques à plus de 20 ms des marques manuelles avecCAffin etCBrandt.

Comme nous l’avons déjà mentionné, le point de fonctionnement à fixer dépend principa-lement de l’application. Ici, nous voulons détecter les erreurs de segmentation afin qu’ellessoient corrigées manuellement. On peut donc se permettre deprivilégier la probabilité dedétection tout en gardant une probabilité de fausse alarme raisonnable.

À partir des courbes 5.3 et 5.4, nous choisissons les points de fonctionnement de lamesureCBrandt pour le corpus français et pour le corpus anglais égaux respectivement à(10%,31%) et (10%,30.5%), tandis que les points de fonctionnement de la mesureCAffinpour les corpus français et anglais ont été fixés à(8%,39%) et (8%,38.6%). Chaque pointde fonctionnement représente le couple(PFA,PD).

Nous remarquons à partir des courbes présentées dans cette section et également despoints de fonctionnement choisis que les probabilités de détection restent faibles par rapportaux probabilités de fausse alarme. Donc, il est nécessaire d’améliorer ces mesures afin d’ob-tenir des probabilités de détection plus élevées pour les mêmes probabilités de fausse alarmeou plus faibles. La suite de ce chapitre va essayer de répondre à ce besoin d’amélioration.

5.6 Combinaison des deux mesures

Les résultats présentés précédemment montrent la fiabilitédes deux mesures de confianceCAffin etCBrandtà détecter les erreurs de segmentation quand elles sont utilisées individuel-lement. À 10% de probabilité de fausse alarme, presque 31% des erreurs supérieures à 50ms contenues dans les corpus français et anglais peuvent être détectées avec la mesure issuede l’algorithme de Brandt et 42% de ces erreurs peuvent être localisées avec la mesure deconfiance extraite du post-traitement par modèle de frontière.

Cependant, il serait intéressant d’améliorer ces probabilités de détection tout en gardantou diminuant la probabilité de fausse alarme. Pour cette raison, nous suggérons de combinerces deux mesures de confiance avec deux méthodes classiques :l’opérateur OU et l’opérateurET.

Dans la suite de cette section, nous allons décrire ces deux opérateurs et leurs perfor-mances.

5.6.1 Opérateurs ET et OU

SoientC1 etC2 deux mesures de confiance et soittm une marque de segmentation donnée.Les tests d’hypothèse surC1 etC2 qui permettent de choisir entre deux hypothèsesH0 et H1

sont :

{accepter H0 si C1(tm) > η1

accepter H1 si C1(tm) ≤ η1(5.15)

Section 5.6 :Combinaison des deux mesures 103

{accepter H0 si C2(tm) > η2

accepter H1 si C2(tm) ≤ η2(5.16)

η1 et η2 sont les seuils choisis respectivement pour les mesuresC1 et C2. La combinaisondes deux mesures de confianceC1 et C2 avec l’opérateur ET ou l’opérateur OU donne unenouvelle décision. Cette décision est plus sévère avec l’opérateur ET car on accepte l’hypo-thèseH1 si seulement si les tests sur les deux mesuresC1 etC2 acceptent cette hypothèse. Letest de décision avec l’opérateur ET devient donc :

{accepter H0 si C1(tm) > η1 ou C2(tm) > η2

accepter H1 si C1(tm) ≤ η1 et C2(tm) ≤ η2(5.17)

Avec l’opérateur OU, la décision entre les hypothèsesH0 et H1 est moins sévère dans lesens où l’acceptation de l’hypothèseH1 se fait quand le test surC1 ou surC2 accepteH1. Letest de décision avec l’opérateur OU est alors :

{accepter H0 si C1(tm) > η1 et C2(tm) > η2

accepter H1 si C1(tm) ≤ η1 ou C2(tm) ≤ η2(5.18)

5.6.2 Propriétés des opérateurs ET et OU

Dans ce paragraphe, nous allons comparer ces deux opérateurs tout en mettant en évi-dence les plages de probabilité de fausse alarme pour lesquelles un opérateur est préférable.

SoientP1 = (PFA1,Pd1) et P2 = (PFA2,Pd2) les deux points de fonctionnement fixés pourprendre une décision avec les deux mesuresC1 et C2. Les deux points de fonctionnementP1 et P2 correspondent respectivement aux seuilsη1 et η2. Les probabilités de non détectionsont égales àPND1 = 1−Pd1 et PND2 = 1−Pd2.

Supposons que les décisions sur les deux mesures de confianceC1 et C2 soient indé-pendantes. SoientPFA[ET] et PFA[OU] les probabilités de fausse alarme etPND[ET], PND[OU]

les probabilités de non détection des tests d’hypothèse correspondant respectivement à lacombinaison avec l’opérateur ET et l’opérateur OU.

Ces probabilités sont définies comme suit :

PFA[ET] = P(C1 ≤ η1 etC2 ≤ η2|H0)

= P(C1 ≤ η1|H0)P(C2 ≤ η2|H0)

PFA[OU] = P(C1 ≤ η1 ouC2 ≤ η2|H0)

= P(C1 ≤ η1|H0)+P(C2 ≤ η2|H0)−P(C1 ≤ η1|H0)P(C2 ≤ η2|H0)

PND[ET] = P(C1 > η1 ouC2 > η2|H1)

= P(C1 > η1|H1)+P(C2 > η2|H1)−P(C1 > η1|H1)P(C2 > η2|H1)


PND[OU] = P(C1 > η1 etC2 > η2|H1)

= P(C1 > η1|H1)P(C2 > η2|H1)

En tenant compte des points de fonctionnementP1 et P2, les équations précédentes de-viennent :

PFA[ET] = PFA1PFA2 (5.19)

PFA[OU] = PFA1 +PFA2 −PFA1PFA2 (5.20)

PND[ET] = PND1 +PND2 −PND1PND2 (5.21)

PND[OU] = PND1PND2 (5.22)

À partir des équations (5.19), (5.20), (5.21) et (5.22), on peut voir que le test de décisionobtenu avec l’opérateur OU minimise la probabilité de non détection et donc maximise laprobabilité de détection, tandis que le test de décision déduit de l’opérateur ET minimise laprobabilité de fausse alarme. Cette remarque est assez fondamentale. En effet, avec l’opéra-teur OU, on accepte l’hypothèseH1 même si un des tests statistiques sur les mesuresC1 etC2 accepteH0 et donc on augmente le nombre de détection des erreurs de segmentation. Cequi implique une probabilité de détection plus élevée. Avecl’opérateurET, la décision estplus sévère et donc elle commet moins de fausses alarmes. Pour pouvoir compléter l’analysedes performances de ces deux opérateurs, il nous est nécessaire de voir leur comportementdans les cas extrêmes.

Considérons le cas oùPFA[OU] = 0, alors d’après l’équation (5.20),PFA1 et PFA2 sontobligatoirement nulles et

PND[OU] = PND1PND2

etPND[ET] = PND1 +PND2 −PND1PND2.

PuisquePND[OU] est plus petite quePND[ET], la probabilité de détection avec l’opérateur OUquandPFA[OU] = 0 est plus élevée par rapport à celle obtenue avec l’opérateur ET.

De la même façon, quandPND[ET] = 1 alors obligatoirementPND1 et PND2 sont nullesd’après l’équation (5.21), on a

PFA[ET] = PFA1PFA2

etPFA[OU] = PFA1 +PFA2 −PFA1PFA2.

Donc, la probabilité de fausse alarme du test de décision de l’opérateur ET sera plus faibleque celle obtenue avec le test de décision de l’opérateur OU.


De ces deux exemples, on peut conclure que l’opérateur OU estplus performant à faiblesvaleurs de probabilité de fausse alarme et que l’opérateur ET est plus performant à fortesvaleurs de probabilité de détection et donc à fortes valeursde probabilité de fausse alarme. Lelecteur pourra trouver d’autres détails sur les performances de ces deux opérateurs dans [124,156].

5.6.3 Résultats de la combinaison

Nous avons donné une évaluation théorique des performancesdes opérateurs ET et OUdans la section précédente. Maintenant, nous allons testerleurs performances sur les deuxmesuresCAffin etCBrandten traçant leurs courbes ROC, puis nous allons déduire un pointde fonctionnement pour le meilleur test de décision, c’est-à-dire, la meilleure combinaison.

Nous construisons les courbes ROC qui donnent les performances globales des tests sta-tistiques appliqués sur les mesuresCAffin et CBrandtet des tests de décision obtenus avecles opérateurs ET et OU de ces deux mesures. La construction de ce type de courbe ROCqui prend en compte un seuil par type de marque de segmentation a été détaillée dans lasection 5.5 et restera valable pour les tests de décision construits avec les opérateurs ET etOU.

En résumé, les étapes pour construire les courbes ROC nommées CAffin OUCBrandtet CAffin ETCBrandt correspondant respectivement à la combinaison avec les deux typesd’opérateurs ET et OU sont les suivantes. On fixe une probabilité de fausse alarme et ondétermine les seuils permettant de donner cette probabilité pour chaque type de transitionavec les tests d’hypothèse associés aux mesuresCBrandtet CAffin . Ensuite, nous utilisonsces seuils pour prendre une décision avec les opérateurs ET et OU et calculer enfin le nombrede fausses alarmes et de non détection et le nombre de véritables erreurs de segmentation surtout le corpus d’apprentissage. Nous pouvons ainsi déduireune probabilité de fausse alarmeet de non détection. Afin de faciliter la construction de la courbe ROC, une même proba-bilité de fausse alarme est fixée pour calculer les seuils pour tous les types de transition etégalement pour les tests sur les deux mesuresCAffin etCBrandt.

Dans les figures 5.5 et 5.7, nous rapportons les performancesdes 4 tests de décisionconstruits avecCAffin , CBrandt et les opérateurs ET et OU pour détecter des erreurs desegmentation de plus de 50 ms respectivement pour les corpusfrançais et anglais. Les fi-gures 5.6 et 5.8 présentent les performances des mêmes quatre tests de décision quand onveut détecter les erreurs de segmentation de plus de 20 ms respectivement pour les corpusfrançais et anglais. Comme dans la section 5.5, nous utilisons trois corpus d’apprentissageet nous calculons la courbe ROC correspondant à chaque corpus. Chaque courbe présen-tée sur les quatres figures 5.5, 5.6, 5.7 et 5.8 est donc la moyenne de trois courbes ROC.Comme on pouvait s’y attendre, les courbes ROC illustrant les performances des tests surles mesuresCBrandt, CAffin sont exactement les mêmes que celles représentées dans lesfigures 5.3 et 5.4. Nous remarquons sur ces figures que les performances des deux types decombinaison suivent les résultats théoriques décrits dansla section précédente. En effet, pourdes faibles valeurs des probabilités de fausse alarme, la décision issue de l’opérateurOU estplus fiable que celle issue de l’opérateurET. Cependant, cette combinaison n’améliore passignificativement les performances dans la détection des erreurs supérieures à 20 ms et le


0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1

CAffinCBrandt

CAffin OU CBrandtCAffin ET CBrandt

Pro

babi

lité

dedé

tect

ion


Figure 5.5 —Évaluation de la capacité des mesuresCBrandtetCAffin et de leurs combinai-sons avec les opérateurs ET et OU à détecter les erreurs supérieures à 50 ms pour le corpus

français.

0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1

CAffinCBrandt


Pro

babi

lité

dedé

tect

ion



français.

gain en fiabilité en ce qui concerne la détection des erreurs de plus de 50 ms n’est pas nonplus très significatif. Nous allons donc, dans notre application, utiliser ces tests de décisionpour détecter des erreurs grossières. Notons que dans la littérature, nous n’avons pas trouvéde mesure de confiance capable de localiser efficacement les erreurs entre 20 et 50 ms. Une


0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1

CAffinCBrandt


Pro

babi

lité

dedé

tect

ion



anglais.

0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1

CAffinCBrandt


Pro

babi

lité

dedé

tect

ion



anglais.

autre remarque est que le test de décision qui nous paraît le plus performant est celui obtenuavec l’opérateur OU car la plage des probabilités de fausse alarme raisonnables voire faiblesest celle qui nous intéresse le plus.

Finalement, avec les points de fonctionnement choisis dansla section 5.5 pour les tests


sur les mesuresCAffin etCBrandt, on obtient avec l’opérateur OU les couples de probabilitésde fausse alarme et de détection suivants(7.3%,40.8%) et (17.2%,53.3%) respectivementpour les corpus français et anglais. Nous remarquons que l’opérateur OU change les probabi-lités de fausse alarme et produit des probabilités de détection plus élevées que celles obtenuesavec les tests utilisant les deux mesuresCAffin et CBrandtpour ces nouvelles probabilitésde fausse alarme. Néanmoins, il serait toujours intéressant d’améliorer la probabilité de dé-tection par rapport à celle obtenue avec l’opérateur OU à unemême probabilité de faussealarme.

5.7 Nouveau test de décision pour la détection des erreurssur les marques de segmentation

5.7.1 Définition du nouveau test

Dans cette section, nous affinons la décision de l’opérateurOU appliqué aux deux me-suresCAffin etCBrandtavec la décision de la mesure de confianceCD, décrite dans la sec-tion 5.3, évaluant la durée d’un segment donné.

La nouvelle décision considère qu’il y a une erreur sur une marque de plus deε ms quandune erreur de plus deχ ms sur les durées des segments à gauche et à droite de cette marqueest détectée ou quand la décision prise avec la mesureCAffin ou celle prise avecCBrandtaffirme qu’il y a une erreur de plus deε ms sur cette marque.

En gardant les notations de la section 5.5, le nouveau test dedécision pour une marquetm de classecli j est le suivant :

accepter H1 si (CD(tm− td) ≤ ηDi et CD(t f − tm) ≤ ηD j )

ou CAffin ≤ ηAffin (i, j) ou CBrandt≤ ηBrandt(i, j)

accepter H0 sinon,

(5.23)

où H0 est l’hypothèse “la marque de segmentation est à moins deε ms de la marquemanuelle et la classe de la marque estcli j ”, H1 est l’hypothèse “la marque de segmentationest à plus deε ms de la marque manuelle et la classe de la marque estcli j ”, td est l’instant dedébut du segment à gauche detm et t f l’instant de fin du segment à droite detm. Les seuilsηAffin (i, j) etηBrandt(i, j) sont calculés pour la classe de transitioncli j respectivement pourles tests sur les mesuresCAffin etCBrandt; ηDi est le seuil du test statistique sur la mesureCD associé à la classe du phone correspondant au segment[td, tm] etηD j est le seuil associé àla mesureCD pour la classe du phone à droite detm correspondant au segment[tm, t f ].

5.7.2 Résultats

Avant de présenter les performances de ce nouveau test de décision, nous allons présenterles résultats des performances du test d’hypothèse appliqué à la mesureCD pour détecter leserreurs sur la durée des segments.

Section 5.7 :Nouveau test de décision pour la détection des erreurs 109

Pour calculer les valeurs de la mesureCD, il faut d’abord calculer les paramètres de laloi gamma et de la loi normale à l’aide d’un apprentissage surun petit corpus segmentémanuellement. En effet, l’équation (5.8) a besoin de la connaissance des paramètresα, β etσe

2.

Nous avons choisi ici, de chercher les paramètresα, β et σe2 pour chaque classe de

phonèmes. On prend toujours 12 classes pour le français et 11pour l’anglais.

De plus, nous effectuons cet apprentissage sur les trois corpus d’apprentissage déjà uti-lisés dans ce chapitre. Le seuilε utilisé dans l’équation (5.8) pour distinguer les erreursinacceptables des erreurs acceptables est égal à 50 ms. On prendra la même valeur (χ = 50ms) quand on va étudier les performances du nouveau test de décision proposé dans cettesection.

Les courbes ROC représentées sur les figures 5.9 et 5.10 présentent les performancesglobales du test d’hypothèse appliqué à la mesureCD pour localiser les erreurs sur les du-rées des segments qui sont supérieures à 50 ms et supérieuresà 20 ms respectivement pourles corpus français et anglais. Les deux courbes ROC de chaque figure sont construites enmoyennant les courbes ROC calculées sur les trois corpus d’apprentissage. Pour chaque cor-pus d’apprentissage, la courbe ROC est calculée d’une manière analogue à celle décrite dansla section 5.5. Les seules différences sont que les erreurs sont calculées sur les durées dessegments et non plus sur les marques et que le seuil de la décision dépend de la classe duphonème de chaque segment et non plus des classes de la transition.

0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1

CD : 50 msCD : 20 ms

Pro

babi

lité

dedé

tect

ion


Figure 5.9 —Évaluation de la capacité de la mesureCD à détecter les erreurs sur les duréesde segments supérieures à 20 et 50 ms pour le corpus français.

À partir des figures 5.9 et 5.10, nous pouvons déduire que la mesure de confianceCD

est assez fiable pour détecter les erreurs grossières. Elle permet, à 10% de probabilité defausse alarme, de détecter respectivement pour les corpus français et anglais 45% et 36% dessegments dont la durée dépasse de plus de 50 ms sa durée réelle.


0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1

CD : 50 msCD : 20 ms

Pro

babi

lité

dedé

tect

ion


Figure 5.10 —Évaluation de la capacité de la mesureCD à détecter les erreurs sur les duréesde segments supérieures à 20 et 50 ms pour le corpus anglais.

Notons qu’une erreur détectée sur la durée d’un segment avecle test de décision de lamesureCD signifie qu’il y a une erreur sur l’une ou sur les deux marques de ce segment.Cependant, quand le test ne détecte rien, on ne peut pas prétendre qu’il n’y a pas d’erreurde segmentation sur les deux marques. Il suffit de considérerle cas où les deux marquessont mal positionnées et les deux erreurs sur les deux marques sont du même ordre et dumême signe. On peut conclure que cette mesure seule n’est pasadaptée à la localisation desmarques erronées. Pour cette raison, nous avons décidé de l’utiliser conjointement avec lesmesuresCAffin et CBrandtafin d’améliorer les performances du test de décision de l’opé-rateur OU présenté dans la section précédente. Le nouveau test de décision est décrit parl’équation (5.23).

La courbe ROC qui illustre les performances de ce nouveau test est construite commedans la section 5.6. Là encore, nous fixons la même probabilité de fausse alarme pour calculerles seuils de décision à appliquer sur trois mesuresCAffin ,CBrandtetCD, pour chaque classede transition. Nous allons comparer cette courbe à celle du test de décision obtenu par lacombinaison avec l’opérateur OU des deux mesuresCAffin etCBrandt. Cette comparaisonpermettra de savoir si l’intégration de la mesure sur la duréeCD améliore les performancesde la détection des marques de segmentation erronés ou si la contribution deCD est inutile.

Les figures 5.11, 5.12, 5.13 et 5.14 présentent chacune deux courbes ROC. La pre-mière, nomméeCAffin OUCBrandt, est la courbe issue du test de décision de la com-binaison avec l’opérateur OU des mesuresCAffin et CBrandt. La deuxième courbeCDOU(CAffin OUCBrandt) est calculée avec le test de décision donné par l’équation (5.23).Les figures 5.11 et 5.13 présentent les performances de ces deux tests de décision pour dé-tecter les erreurs sur les marques de segmentation de plus de50 ms respectivement pour lescorpus français et anglais, tandis que les figures 5.12 et 5.14 présentent les performances deces mêmes tests de décision pour détecter les erreurs sur lesmarques de segmentation de


plus de 20 ms respectivement pour les corpus français et anglais. Chaque courbe présentéesur ces figures est construite en moyennant trois courbes ROC. Ces courbes sont calculéessur les mêmes trois corpus d’apprentissage utilisés précédemment de la langue traitée.

À partir de ces courbes, nous concluons que la décision sur lamesure de la durée apporteun gain significatif dans la détection des marques erronées pour le corpus français et moinssignificatif pour le corpus anglais. Par exemple, à 10% de probabilité de fausse alarme, 51%des marques erronées à plus de 50 ms des marques manuelles du corpus français sont détec-tées avec le nouveau test de décision tandis que 45% de ces marques sont localisées avec letest déduit de l’application de l’opérateur OU sur les deux mesuresCAffin etCBrandt.

De plus, nous pouvons voir que le test de décision proposé dans cette section est moinsperformant pour détecter les erreurs de plus de 20 ms. Nous pensons donc qu’il est plusraisonnable de traiter les erreurs de marques de segmentation supérieures à 50 ms.

Puisque le test de décision donné par l’équation (5.23) est le meilleur test pour détecterles erreurs de segmentation de plus de 50 ms en comparaison avec les autres tests de décisionproposés dans ce chapitre, il sera dorénavant appelétest de décision optimal.

0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1

CAffin OU CBrandtCD OU (CAffin OU CBrandt)

Pro

babi

lité

dedé

tect

ion


Figure 5.11 —Évaluation de la capacité à détecter les segments erronés deplus de 50 msdu test de décision combinant les mesuresCD, CAffin et CBrandt et le test de décision de

l’opérateur OU pour le corpus français.

Pour conclure cette évaluation, nous appliquons letest de décision optimalsur tout lecorpus privé du corpus d’apprentissage afin de détecter les erreurs supérieures à 50 ms de lasegmentation issue dela fusion optimale par supervision doucedécrite dans le chapitre 4.

Pour appliquer cette phase de test, il est nécessaire de choisir trois points de fonctionne-ment : un pour le test sur la mesureCAffin , un autre pour le test sur la mesureCBrandtetun dernier pour le test sur la mesureCD. Les deux premiers peuvent être déterminés à partirdes courbes 5.4 et 5.3. Le dernier est fixé à partir des courbes5.9 et 5.10. Ces trois pointsde fonctionnement sont choisis de manière raisonnable maisne correspondent pas à desPFA


0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1


Pro

babi

lité

dedé

tect

ion



l’opérateur OU pour le corpus français.

0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1


Pro

babi

lité

dedé

tect

ion



l’opérateur OU pour le corpus anglais.

identiques. À partir de ces trois points de fonctionnement,on va calculer la probabilité defausse alarme globale et la probabilité de détection globale.

Comme précédemment, nous utilisons trois corpus d’apprentissage. Sur chaque corpus,nous fixons les trois points de fonctionnement des tests de décision appliqués surCAffin ,


0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1


Pro

babi

lité

dedé

tect

ion



l’opérateur OU pour le corpus anglais.

CBrandtetCD puis nous calculons les probabilités de détection et de fausse alarme sur toutle corpus privé de ce corpus d’apprentissage.

La moyenne des trois points de fonctionnement fixés avec les trois corpus français d’ap-prentissage et associés àCAffin , CBrandtetCD sont respectivement(8%,39%), (10%,31%)et (8%,44.2%). La moyenne des probabilités de fausse alarme et des probabilités de dé-tection dutest de décision optimalsur les trois corpus de test sont 10% et 51.2%. Cecicorrespond, avec 10% de probabilité de fausse alarme, à un gain en détection des erreurs desegmentation supérieures à 50 ms de l’ordre de 9% par rapportau test d’hypothèse associéà la mesureCAffin et de 5% par rapport à la combinaison avec l’opérateur OU deCAffin etCBrandt.

Pour le corpus anglais, la moyenne des points de fonctionnement associés àCAffin ,CBrandt et CD sont respectivement(8%,38.6%), (10%,30.5%) et (8%,32.7%). Les pro-babilités de fausse alarme et de détection résultant de la moyenne des trois tests croisés sontrespectivement 17.8% et 58.2%. Avec cette probabilité de fausse alarme, la valeur 58.2%pour la probabilité de détection représente un gain de 8% parrapport à celle obtenue avec letest associé àCAffin et 5% par rapport à la probabilité de détection fournie avec l’opérateurOU deCAffin etCBrandt.

Le test de décision optimalpermet de réduire le temps de la correction manuelle. Pourcalculer une estimation du temps réduit, nous suivons ce raisonnement pour le corpus fran-çais. Sachant que le corpus contient 7000 phrases avec 35 marques par phrase en moyenneet qu’un correcteur est capable de corriger 80 phrases par jour en moyenne, alors la duréenécessaire pour vérifier tout le corpus de test est 87 jours. Le test de décision optimalpermetde détecter 51.2% des marques erronées en commettant 10% de fausse alarmes.Connaissantle TSC à 50 ms de la segmentation qui est égal à 99.47%, le nombre de fausses alarmes du


test de décision optimalà vérifier est de 24370 et le nombre de vraies erreurs détectées est665. Cela signifie que 25035 des marques devront être vérifiées et corrigées manuellement.Donc 9 jours sont maintenant nécessaires pour vérifier le corpus de test et corriger 51.2%des erreurs grossières. Cela implique une réduction de presque 90% du temps de vérificationmanuelle si on accepte une qualité moindre de la parole.

Le choix des points de fonctionnement est un problème délicat et dépend de l’applicationet du résultat que l’on veut obtenir. Pour cette raison, nouspensons qu’il est plus judicieuxde fixer un paramètre qu’on peut gérer facilement et de déduire ensuite le point de fonction-nement correspondant. Cela sera l’objet du paragraphe suivant.

5.7.3 Détermination des points de fonctionnement

Quand la détection des erreurs est suivie de la vérification manuelle, le paramètre, qu’onpeut fixer, peut être la quantité de réduction du temps de cette vérification. Soitα cettequantité etτ le TSC à 50 ms de la segmentation traitée. Supposons également que le corpusde test contienneN phrases avecNs marques en moyenne par phrase. Supposons enfin quele correcteur corrige toujours 80 phrases par jour. Le choixd’un point de fonctionnement(PFA,PD) d’un test de décision donné doit obéir à l’équation suivante:

(1−α)N80

=τ×PFA×N×Ns+(1− τ)×PD×N×Ns

80∗Ns.

Cette équation devient après simplification :

1−α = τPFA+(1− τ)PD. (5.24)

Si on considère une segmentation assez précise, c’est-à-dire siτ est proche de 1 et donc(1− τ) est proche de 0, on aPFA ≃ 1−α. Donc, il faut prendre un point de fonctionnementdu test de décision optimalavec une probabilité de fausse alarme du même ordre que(1−α). L’exemple du paragraphe précédent permet d’illustrer l’équation (5.24) car on avait uneréduction de 90% avec une probabilité de fausse alarme de 10%. Après la détermination dela probabilité de fausse alarme dutest de décision optimal, on peut déterminer les points defonctionnement possibles des tests associés àCAffin , CBrandt et CD permettant d’obtenircette probabilité de fausse alarme.

Dans la suite de cette section, nous n’allons nous intéresser qu’à la correction manuelledes erreurs détectées avec letest de décision optimalet nous allons donc fixer le paramètreαafin de déterminer les points de fonctionnement des tests associés àCAffin , CBrandtetCD.

Les questions qui se posent maintenant sont :Quel est l’impact sur la qualité de la pa-role de la correction manuelle des erreurs localisées avec le test de décision optimal de lasegmentation par fusion optimale ?

Pour une même précision donnée de la segmentation, que vaut-il mieux faire pour réduirele temps de travail : segmenter par HMM puis corriger manuellement les erreurs détectéesavec le test de décision optimal ou segmenter d’abord par fusion optimale avant de corrigermanuellement les erreurs détectées avec le même test ?

Les réponses à ces questions permettront en plus de comprendre mieux la stratégie àsuivre pour améliorer la segmentation et la qualité de la parole.


Pour répondre à la première question, nous avons choisi d’utiliser le critère objectif décritdans la section 4.5.2 afin d’évaluer les discontinuités spectrales aux points de concaténationdes diphones dans la parole quand elle est synthétisée avec le dictionnaire appelédictFUS-CORR. Ce dictionnaire est généré avec la segmentation déduite dela méthode de fusionoptimale avec supervision douce dans laquelle on a remplacéles marques jugées erronéesavec letest de décision optimalpar leurs marques manuelles. Les valeurs des distances de cecritère objectif calculées en utilisantdictFUSCORRsont comparées à celles trouvées avec undictionnaire produit avec la segmentation manuelle (dictMAN), un dictionnaire dérivé de lasegmentation par HMM standard (dictHMM) et un dictionnaire résultant de la segmentationen sortie de la fusion optimale avec supervision douce (dictFUS).

Pour créerdictFUSCORR, nous avons choisi des points de fonctionnement associés auxmesuresCBrandt, CAffin etCD permettant d’avoir une réduction du temps de la vérificationmanuelle de 70%. De cette façon, on détecte la majorité des erreurs tout en diminuant consi-dérablement le temps de la correction manuelle. Cette réduction de 70% correspond pourle corpus français à une probabilité de détection égale à 75.3% et une probabilité de faussealarme égale à 30% comme prévue par l’équation (5.24). Pour le corpus anglais, 30% desfausses alarmes sont également commises et 69.5% des erreurs sont détectées.

Une fois les erreurs détectées, la correction manuelle peutdonc être réalisée. En l’oc-currence, nous utilisons ici un remplacement automatique des marques erronées avec leursmarques correspondantes manuelles afin de construire le dictionnairedictFUSCORR. Onconstruit ensuite les autres dictionnairesdictMAN, dictFUSet dictHMM, puis on synthétiseles corpus de textes grâce à ceux-ci. Les résultats du critère objectif sont présentés dans letableau 5.2. Ces résultats sont donnés pour les voix française et anglaise et sont calculés surles corpus entiers de textes générés automatiquement lors des tests subjectifs décrits dansla section 4.5.2. Pour chaque langue, le corpus contient 2000 textes. Rappelons que les va-leurs correspondent aux moyennes des distances calculées au niveau de tous les diphonesconcaténés.

Tableau 5.2 —Résultats du critère objectif appliqués aux corpus anglaiset français et auxdictionnairesdictHMM,dictFUS, dictFUSCORRet dictMAN.

DistancedictHMM 3.87dictFUS 3.81

dictFUSCORR 3.79Français dictMAN 3.75

dictHMM 3.14dictFUS 3.06

dictFUSCORR 3.05Anglais dictMAN 3.12

En exploitant la forte corrélation de ce critère objectif avec les tests subjectifs, on peutdéduire du tableau 5.2 que la qualité de la parole pour le français obtenue avec le dictionnairedictFUSCORRest meilleure que celles obtenues avec les dictionnairesdictHMM etdictFUSet elle s’approche de la qualité de la parole construite avecdictMAN. Cette constatationest normale puisque la segmentation qui génèredictFUSCORRest plus précise que celle


obtenue avec la fusion optimale et donc encore plus proche dela segmentation manuelle. Lesrésultats pour la voix anglaise renforcent la remarque faite dans le section 4.5.2 concernantl’imprécision de la segmentation manuelle du corpus anglais puisque la distance trouvéeavecdictMANn’est pas la plus faible.

Notons que l’observation d’une différence de qualité de parole entre l’utilisation dedict-FUSCORRet dedictFUSdépend essentiellement du point de fonctionnement choisi pourle test de décision optimal. Plus la probabilité de détection est élevée, plus la différencesera grande. Bien sûr, cela se fait au détriment de la réduction du temps de la vérificationmanuelle.

Pour répondre à la deuxième question concernant l’application de la correction manuelledirectement sur la segmentation par HMM, nous utilisons l’équation (5.24). En effet, avec unsimple raisonnement, on peut se convaincre qu’il est préférable de partir de la segmentationla plus précise possible puis de corriger manuellement une partie des erreurs restantes.

Évaluons le temps nécessaire pour garantir un même TSC à 50 msen partant respecti-vement d’une segmentation par HMM et d’une segmentation issue de laméthode de fusionoptimale par supervision doucesur lesquelles on effectue une correction manuelle aprèsdétection des erreurs de segmentation avec letest de décision optimal.

Nous avons fixé, dans le premier cas, un taux de réduction du temps de vérification ma-nuelle à 70%. Notons que le temps nécessaire pour créer la segmentation par HMM (moinsd’une heure), la segmentation avec l’algorithme de Brandt (une dizaine d’heures), la seg-mentation avec l’affinement par modèle de frontière (une dizaine d’heures) et la méthodede segmentation par fusion (quelques minutes) est négligeable devant le temps pris par lacorrection manuelle de la segmentation et qu’il ne sera doncpas pris en compte par la suite.Nous avons donc une réduction par rapport à une segmentationentièrement manuelle del’ordre de 70%. Le TSC à 50 ms de cette segmentation finale est 99.87%. Ce dernier estsimplement calculé par le fait que 75.2% des erreurs de plus de 50 ms sont détectées et quele TSC de la segmentation après fusion optimale est 99.47%.

Pour atteindre un TSC identique de 99.87% dans le deuxième cas et sachant que le TSCde la segmentation par HMM est 97.21%, il faut détecter avec notre mesure de confiance95.3% des erreurs. Cela signifie une probabilité de fausse alarme plus élevée (de l’ordre de50%). En remplaçant dans l’équation (5.24),a par 0.97,PFA par 0.5 etPD par 0.95, on trouveα = 0.48. De la même façon que précédemment, nous considérons que le temps nécessairepour créer la segmentation standard par HMM est négligeable(quelques heures) devant letemps de la correction manuelle. Nous avons donc une réduction de 48% du temps de lacorrection manuelle.

En comparant les deux cas, il est clair qu’il est plus intéressant en terme de temps de tra-vail pour une performance identique d’appliquer l’approche générique de fusion de plusieurssegmentations afin d’améliorer la segmentation par HMM puisde détecter automatiquementune partie des erreurs de segmentation et enfin de les corriger manuellement.

Section 5.8 :Conclusion 117

5.8 Conclusion

Dans ce chapitre, nous avons proposé deux mesures de confianceCAffin etCBrandtadap-tées à la détection des erreurs de segmentation sur les marques. Ces mesures sont déduitesde l’algorithme de Brandt et du post-traitement par modèle de frontière. Les tests évaluant lacapacité de ces mesures à détecter les erreurs de plus de 20 mset de plus de 50 ms montrentla nécessité d’améliorer leurs performances.

Les améliorations mises en avant dans ce chapitre sont basées sur les opérateurs simplesET et OU. Les résultats sur les corpus français et anglais ontmontré que l’opérateur OUest le plus performant pour une plage de probabilités de fausse alarme faibles. Néanmoins,les performances de l’opérateur OU ne suffisent pas à produire une décision fiable pourdétecter les erreurs supérieures à 20 ms. Le test avec l’opérateur OU est pourtant efficacepour détecter des erreurs grossières.

Nous avons également proposé un nouveau test de décision plus efficace pour évaluerla précision d’une marque de segmentation. Ce test prend en compte les mesuresCAffin ,CBrandt et la mesureCD dédiée à la détection des erreurs sur la durée des segments. Lesrésultats sous forme de courbes ROC montrent que ce test est le plus performant en compa-raison avec les autres tests étudiés dans ce chapitre. Des tests objectifs évaluant la qualité dela parole ont montré que la détection des erreurs de segmentation suivie d’une correction ma-nuelle approche sensiblement la qualité produite avec la segmentation manuelle. De plus, ona prouvé par un simple raisonnement qu’il est plus intéressant d’améliorer la segmentationpar HMM avant d’appliquer la détection automatique des erreurs afin de minimiser l’efforthumain.

CHAPITRE

6 Détection et correction deserreurs de la phonétisation

6.1 Description du problème

Dans les chapitres précédents, nous avons traité le problème de la segmentation auto-matique quand on suppose que la séquence phonétique nécessaire pour l’alignement forcéest correcte. En effet, cette hypothèse était raisonnable car on disposait de la phonétisationmanuelle. En pratique, il serait très intéressant d’utiliser une phonétisation automatique. Mal-heureusement, cette séquence phonétique automatique n’est pas parfaite et par conséquentelle causera des erreurs lors de la phase de segmentation automatique. Par exemple, si uneerreur d’omission ou d’insertion est présente dans la phonétisation automatique, elle va serépercuter sur le nombre de marques de la segmentation associée à cette phonétisation.

Ces erreurs sont des erreurs de substitution, d’omission etd’insertion. Une erreur de sub-stitution est le fait que le phonétiseur automatique produit une étiquette erronée par rapportà l’étiquette réelle. Souvent, ces erreurs sont entre des classes de phonèmes acoustiquementtrès proches, par exemple EI/AI, AU/O,. . .(voir le tableau D.1 pour la nomenclature). Ceserreurs sont donc difficiles à corriger. Une erreur d’insertion (par exemple les pauses) estle fait d’insérer une étiquette qui n’est pas présente dans la séquence phonétique enregis-trée produite par le locuteur, tandis qu’une erreur d’omission (ou d’élision) traduit un oublidu phonétiseur de mentionner une étiquette donnée comme c’est souvent le cas avec le “e”muet. Notons que parmi ces trois types d’erreurs, les erreurs de substitution sont les plusfréquentes et donc doivent être corrigées en priorité.

La correction des erreurs de phonétisation permettra donc de lancer la segmentation surla séquence phonétique corrigée et, par conséquent, de retrouver ou d’approcher la précisionde la segmentation obtenue avec une séquence phonétique manuelle.

Ce chapitre sera organisé comme suit.

Nous allons commencer dans la section 6.2 par décrire brièvement les étapes nécessairespour obtenir les phonétisations manuelle et automatique. Nous décrivons ensuite, dans lasection 6.3, une technique pour localiser les insertions, les omissions et les substitutionslorsqu’une phonétisation manuelle ou référence est disponible. Cette technique nous serviraà évaluer les différentes phonétisations évoquées dans ce chapitre. Ceci est toujours possiblecar nous disposons d’une référence.

Dans la section suivante, nous allons présenter la mesure deconfiance donnant les

120 CHAPITRE 6 :CORRECTION DE LA PHONÉTISATION

meilleurs résultats pour détecter les erreurs de phonétisation parmi celles proposéesdans [114].

Dans la section 6.5, nous montrons comment on peut corriger les erreurs d’une phonéti-sation quelconque. Rappelons que le but final de ce chapitre est de corriger une phonétisationcontenant des erreurs afin de pouvoir l’utiliser dans notre approche de segmentation par fu-sion. Nous commençons par décrire le système de correction basé sur le décodage acoustico-phonétique utilisé dans [114]. Ensuite, nous proposons de nombreuses améliorations de cesystème afin d’obtenir de meilleurs résultats dans notre casprécis.

Enfin, nous présentons les résultats de la détection et de la correction des erreurs dephonétisation sur nos corpus français et anglais. L’évaluation s’est faite en utilisant des pho-nétisations erronées créées en perturbant les phonétisations manuelles.

6.2 Étiquetage manuel et automatique

6.2.1 Étiquetage manuel

Dans la section 2.4.1, nous avons présenté les moyens possibles de construction de lasegmentation manuelle. Ces mêmes solutions sont aussi utilisées pour l’étiquetage manuel.En effet, cette tâche peut être réalisée par un ou plusieurs experts phonéticiens. Dans le cas deplusieurs phonéticiens, ils peuvent soit travailler tous sur le même corpus puis on fusionne lesdifférents étiquetages réalisés ou soit chacun étiquette une partie du corpus. Afin de réduirele temps pris par cette tâche, celle-ci peut être également faite automatiquement avant queles experts ne se chargent de la vérifier manuellement.

Dans tous les cas, il faut une bonne connaissance de la langue. De plus, la segmentationet l’étiquetage manuels sont souvent faits simultanément car ces deux tâches sont indisso-ciables.

Comme pour la segmentation manuelle, deux étiquetages obtenus avec deux phonéticienspeuvent être différents. Cependant, à la différence des segmentations manuelles qui diffèrentà l’échelle de lams, les étiquetages phonétiques produits par deux phonéticiens différeront àl’échelle du phonème, et seront donc plus cohérents. Par exemple, dans [102] les auteurs ontrapporté un taux de cohérence de 93% entre deux transcriptions phonétiques manuelles d’unensemble d’énoncés de parole lue. Un autre exemple, présenté [88], rapporte des taux de co-hérence de 93.1% et de 94.4% entre trois transcriptions manuelles d’un ensemble d’énoncésde parole lue d’un corpus de la même languePhondat II.

6.2.2 Étiquetage automatique

L’étiquetage en sortie d’un phonétiseur automatique se fait en plusieurs étapes déjà dé-crites dans la section 1.3.3 consacrée à la description du fonctionnement d’un système desynthèse vocale par concaténation. En effet, les étapes employées pour convertir un texte àsynthétiser en une séquence phonétique sont exactement celles permettant la transcriptionphonétique d’un corpus de textes. Ces étapes sont le pré-traitement, l’analyse morpholo-gique, l’analyse syntaxique et la conversion graphème-phonème.

Section 6.3 :Localisation des erreurs de phonétisation sachant une référence 121

Rappelons que l’étape de pré-traitement consiste à éliminer les anomalies comme lesabréviations du texte. Appliquée à la sortie du pré-traitement, l’analyse morphologique s’ap-puie sur des règles ou une liste afin de définir les mots inconnus. L’analyse syntaxique identi-fie ensuite la structure grammaticale de chaque mot. Enfin, laconversion graphème-phonèmeprend la sortie de l’analyse morphologique et de l’analyse grammaticale pour déterminer laséquence de phonèmes du texte d’entrée.

6.3 Localisation des erreurs de phonétisation sachant uneréférence

La programmation dynamique est une méthode classique permettant de localiser tous lestypes d’erreurs de phonétisation (omission, insertion et substitution) en comparant la phoné-tisation automatique et la phonétisation référence. Dans ce chapitre, c’est cette méthode quenous allons utiliser.

La version de la programmation dynamique [70] appliquée à lareconnaissance vocaleet la segmentation, dénommée DTW, a été déjà décrite dans la section 2.2. Ici, la program-mation dynamique est appliquée à l’alignement de deux séquences phonétiques [21]. Elleconsiste à rechercher, parmi tous les alignements possibles entre les deux séquences phoné-tiques, celui qui minimise une fonction de coût.

Soient (ϕ1,ϕ2, . . . ,ϕN) la séquence phonétique trouvée automatiquement et(ϕre f

1 ,ϕre f2 , . . . ,ϕre f

Nre f) la séquence phonétique de référence d’une longueurNre f non

nécessairement égale àN. Cette méthode consiste à effectuer l’alignement sur la matriceD de taille N×Nre f . Le chemin ou l’alignement optimal construit récursivement et per-mettant de faire correspondre un indice de la phonétisationautomatiquei à un indice de laphonétisation référencej est celui qui minimise la distance accumulée suivante.

D(i, j) = min

D(i −1, j)+ ins(i, j)

D(i, j −1)+oms(i, j)

D(i −1, j −1)+okSub(i, j)

, (6.1)

Dans cette équation,ins(i, j), oms(i, j) et okSub(i, j) sont les pénalités appliquées auxtrois transitions possibles. La pénalitéins(i, j) est associée à la transition provoquant uneinsertion de l’étiquetteϕi dans la séquence phonétique automatique. La pénalitéoms(i, j) estassociée à la transition causant l’omission de l’étiquetteϕre f

j etokSub(i, j) correspond à une

détection correcte quandϕre fj et ϕi sont les mêmes et à la substitution de l’étiquetteϕre f

j parl’étiquetteϕi dans le cas contraire. Ces pénalités attribuées aux types detransition sont desvaleurs entre 0 et 1. Une valeur de 0 signifie que la transitionest facile (très probable) tandisqu’une valeur de 1 signifie que cette transition est difficile(peu probable) et donc rarementconsidérée. Dans notre cas, on ne privilégie aucune erreur.On va donc choisir les mêmesvaleurs de pénalité pourokSub(i, j), ins(i, j) et oms(i, j). Notons que les pénalités à chaqueétape de la méthode sont toutes identiques, c’est-à-direoms(i, j), ins(i, j) et okSub(i, j) sontdes constantes pour touti et j.


D’après l’équation (6.1), si le chemin amenant au couple(i, j) a pour coûtD(i, j) =D(i−1, j −1)+ ins(i, j) alors l’étiquette d’indicei est considérée comme une insertion et onmarque le segment d’indicei comme étant une insertion. Si maintenant le chemin empruntéest de distanceD(i, j−1)+oms(i, j), alors l’étiquette manuelle d’indicej est omise entre lesétiquettes trouvées aux indicesi−1 eti. Dans ce cas, on choisit de taguer le segment d’indicei comme étant une omission. Si enfinD(i, j) = D(i −1, j −1)+okSub(i, j), alors l’étiquetted’indice i est correcte si elle est identique à l’étiquette manuelle d’indice j, sinon c’est unesubstitution et dans ce cas on tague le segment d’indicei comme étant une substitution.Notons qu’une étiquette de la phonétisation automatique peut être associée à plusieurs tags.

Dans la figure 6.1, nous représentons un exemple d’alignement entre deux séquencesphonétiques(ϕ1,ϕ2,ϕ3,ϕ4,ϕ5,ϕ6) et (ϕre f

1 ,ϕre f2 ,ϕre f

3 ,ϕre f4 ,ϕre f

5 ,ϕre f6 ,ϕre f

7 ) et aussi les troischemins possibles avec cette méthode.

bb

bb

bb bb

bb

bb bb bb

bb bb

bb

D(5,3)+oms(5,4)

D(4

,4)+

ins(

5,4)

D(4,3)+

okSub(

5,4)

ϕre f1 ϕre f

2 ϕre f3 ϕre f

4 ϕre f5 ϕre f

6 ϕre f7

ϕ1

ϕ2

ϕ3

ϕ4

ϕ5

ϕ6

Figure 6.1 — Exemple d’alignement entre deux séquences phonétiques

(ϕ1,ϕ2,ϕ3,ϕ4,ϕ5,ϕ6) et (ϕre f1 ,ϕre f

2 ,ϕre f3 ,ϕre f

4 ,ϕre f5 ,ϕre f

6 ,ϕre f7 ) et visualisation des trois

chemins possibles arrivant au noeud(ϕ5,ϕre f4 ). D’après le chemin emprunté, on peut déduire

qu’il y a 3 insertions et 4 omissions.

Notons enfin que la détermination des types d’erreurs et des segments où se sont pro-duites les erreurs se fait après la construction du chemin d’alignement optimal. Autrementdit, comme avec l’algorithme de Viterbi, on construit le chemin récursivement en employantl’équation (6.1) et à chaque passage, les indices retenus des deux phonétisations sont mémo-risés. Ce chemin commence obligatoirement par le point(1,1) et fini par le point(N,Nre f).Une fois le chemin déterminé, on remonte cet alignement afin de localiser les types d’erreursde phonétisation en fonction des types de transition considérés.

Quand toutes les erreurs sont localisées et les types de ces erreurs déterminés, un nombred’insertionsNins, un nombre de substitutionsNsub et un nombre d’omissionsNoms peuventêtre facilement déduits. Un critère d’évaluation de la phonétisation peut être ensuite calculé.Il s’agit du taux de phonétisation correcte qui est le rapport

Nre f−Nsub−Nins−NomsNre f

.

Section 6.4 :Détection des erreurs de phonétisation 123

6.4 Détection des erreurs de phonétisation

La détection des erreurs de phonétisation se fait en calculant une mesure de confiance.

Une telle mesure de confiance est analogue à celle introduiteà la section 5.2 pour détecterles erreurs de segmentation.

La mesure de confiance est donc une grandeur permettant de choisir entre deux hypo-thèsesH0 et H1. L’hypothèse nulleH0 est “il n’y a pas d’erreur de phonétisation” et l’hypo-thèse alternativeH1 est ”il y a une erreur de phonétisation”. Pour prendre une décision entreH0 et H1 avec la mesure de confianceC, on applique sur le segment d’étiquetteϕ, délimitépar les instantstd ett f , le même type de test d’hypothèse que celui décrit par l’équation (5.1),à savoir : {

accepter H0 si C(td, t f ,ϕ) > ηaccepter H1 si C(td, t f ,ϕ) ≤ η

(6.2)

oùη est un seuil de décision.

Soit O la séquence d’observations correspondant au segment étiquetéϕ. Dans le cas desHMM, les hypothèsesH0 et H1 peuvent être exprimées comme suit :H0 est l’hypothèse “Oest régie par le modèle de l’unité phonétiqueϕ” et H1 est l’hypothèse “O n’est pas régie parle modèle de l’unité d’étiquetteϕ”.

Dans [114], l’auteur propose une mesure appeléenFLPP(normalized Frame-based LogPosterior Probability). La formulation de cette mesure a été initialement proposée dans [163].Cette formulation fait intervenir des calculs de probabilitésa posteriorid’un état. La diffé-rence entre les formulations données dans [163] et [114] estque dans la première, l’estima-tion des probabilitésa posterioriest faite par réseau de neurones, alors que dans la deuxième,cette estimation est reformulée dans un cadre probabiliste, c’est-à-dire utilisant la modélisa-tion acoustique par des modèles de Markov cachés. Cette mesure est la meilleure parmi cellesétudiées et évaluées par S. Nefti pour détecter tous les types d’erreurs (substitution, insertionet omission).

Soit un segment étiquetéϕℓ et délimité par ladième et la f ième trames, cette mesure estdonnée par l’équation suivante :

nFLPP(ϕℓ;Oϕℓ) =

1f −d+1

f

∑t=d

logP(qϕℓt |ot), (6.3)

où Oϕℓ = (od, . . . ,of ) est la séquence des observations entre ladième et la f ième trames,P(qϕℓ

t |ot) est la probabilitéa posterioride l’état optimal ˜qϕℓt à l’instantt obtenu par aligne-

ment forcé avec l’algorithme de Viterbi.

Après l’application de la règle de Bayes et le remplacement de la probabilité d’observa-tion P(ot) par la formule approchée égale à la somme des vraisemblancesdes états de tousles HMM pondérées par les probabilitésa priori de ces états, l’équation (6.3) devient donc :

nFLPP(ϕ;Oϕℓ) =1

f −d+1

f

∑t=d

logp(ot |q

ϕℓt )P(qϕℓ

t )

∑NPH

i=1 ∑Sϕij=1 p(ot |q

ϕij )P(qϕi

j ), (6.4)

où Sϕi est le nombre d’états du modèle du phonèmeϕi , qϕij est le j ième état du modèle du

phonèmeϕi , NPH est le nombre de modèles,p(ot |qϕij ) et p(ot |q

ϕℓt ) sont les vraisemblances


des états estimées en utilisant les distributions des probabilités d’observation (mélange degaussiennes) etP(qϕi

j ) et P(qϕℓt ) sont les probabilitésa priori des états respectives. Ces pro-

babilitésa priori des états ˜qϕℓt et qϕi

j sont estimées à partir des probabilités de transition des

modèlesλϕℓ et λϕi auxquels appartiennent ces états. En effet,P(qϕij ) et P(qϕℓ

t ) peuvent être

exprimées respectivement parP(qϕij |λ

ϕi)P(λϕi) et P(qϕℓt |λϕℓ)P(λϕℓ) ; P(λϕℓ) et P(λϕi) sont

respectivement les rapports des nombres d’occurrences desphonèmesϕℓ etϕi sur le nombretotal des phonèmes du corpus ;P(qϕℓ

t |λϕℓ) et P(qϕij |λ

ϕi) sont les probabilités respectives que

les états ˜qϕℓt et qϕi

j soient occupés sachant que les modèlesλϕℓ et λϕi sont activés.

La probabilité conditionnelleP(qϕij |λ

ϕi) est estimée par le rapport entre la durée moyenne

d(qϕij ) de séjour dans l’étatqϕi

j et la durée moyenned(λϕi) de séjour dans le modèleλϕi .Ces durées peuvent être exprimées en fonction des probabilités de transition comme suit :d(qϕℓ

t ) = 11−aλϕℓ

j j

et d(λϕi) = ∑Sϕij=1

11−aλϕi

j j

où aλϕ j

j j est la probabilité de transition de l’étatqϕij

vers lui-même. On estimeP(qϕℓt |λϕℓ) d’une façon analogue àP(qϕi

j |λϕi).

En substituant dans l’equation (6.4) chaque terme par son expression, la mesurenFLPPappliquée au segment d’étiquetteϕℓ qui s’étend de ladième à la f ième trames est calculée parla formule suivante :

nFLPP(ϕℓ;Oϕℓ) =

1f −d+1

f

∑t=d

logp(ot |q

ϕℓt )d(q

ϕℓt )

d(λϕℓ)P(ϕℓ)

∑NPH

i=1 ∑Sϕij=1 p(ot |q

ϕij )

d(qϕij )

d(λϕi )P(ϕi)

. (6.5)

Cette formule est donnée dans [115, 163] et représente la cohérence entre le segment d’éti-quetteϕℓ et le modèle qui a servi à créer ce segment.

6.5 Correction des erreurs de phonétisation

Dans cette section, nous commençons par décrire le système de correction des erreursde phonétisation, proposé dans [114], alliant la mesurenFLPP et le décodage acoustico-phonétique. Nous proposerons ensuite deux améliorations possibles dans la phase de déco-dage acoustico-phonétique.

6.5.1 Description du système de correction de la phonétisation

C’est un système itératif et chaque itération se compose de plusieurs étapes illustréessur la figure 6.2. Tout d’abord, on commence par appliquer la mesure de confiance, ici lamesurenFLPP, sur les phonèmes de l’étiquetage à corriger et délimités par une segmentationdonnée.

Ensuite, on applique le seuil optimal aux valeurs de la mesure afin de détecter les erreursde phonétisation. Ce seuil est fixé grâce à une phase d’apprentissage comme on le décriradans la section 6.6. Après cette étape, on étiquette les segments du corpus par “rejeté” et“accepté”. Les segments étiquetés “rejetés” sont ceux qui correspondent à une valeur de

Section 6.5 :Correction des erreurs de phonétisation 125

mesure inférieure au seuil optimal, tandis que les segmentsacceptés sont ceux dont la valeurde la mesure dépasse le seuil optimal.

Une autre phase sera de fusionner les segments voisins qui ont été rejetés. On obtient alorsde nouveaux segments rejetés qui correspondent maintenantà un ou plusieurs phonèmes etchacun de ces nouveaux segments rejetés est entouré de deux segments acceptés.

Segmentation et phonétisation initiales

Application de lamesurenFLPP

Acceptation du phonème

Mesure≥ seuil

Rejet du phonème

Mesure< seuilFusion des segmentsdes phonèmes rejetés

Décodageacoustico-phonétique

Nouvelle phonétisation et sa segmentationFigure 6.2 —Étapes du système de correction de la phonétisation.

Enfin, la dernière étape consiste à effectuer un décodage acoustico-phonétique sur chaquesegment rejeté et les deux segments acceptés qui l’entourent. Nous prenons en compte lesdeux segments acceptés afin de forcer le décodeur à trouver une séquence entre les labels(ϕ1 et ϕ2) des phonèmes de ces deux segments. Cette contrainte est traduite grâce à unegrammaire particulière.

La figure 6.3 est la représentation graphique de cette grammaire pour un segment rejetéentouré par deux phonèmes acceptés notésϕ1 et ϕ2. Comme illustré par la figure 6.3, laséquence phonétique en sortie du décodage acoustico-phonétique utilisant cette grammairesera le phonèmeϕ1 suivi par zéro, un ou plusieurs phonèmes (représenté par uneboucle surla figure) et enfin suivi du phonème accepté à droiteϕ2.

Après le décodage, une nouvelle phonétisation du corpus estconstruite. Cette nouvellephonétisation est sensée être meilleure que celle originellement proposée en entrée du sys-tème de correction. À la sortie de cette itération, une nouvelle segmentation cohérente avecla nouvelle phonétisation est également créée. Avec les nouvelles segmentation et phonéti-sation, une deuxième itération peut être effectuée.

Afin de raffiner successivement la qualité de la segmentationet de la phonétisation,un processus itératif est donc établi jusqu’à la vérification d’un critère d’arrêt. Ce dernierconsiste à vérifier si les séquences phonétiques obtenues avec deux itérations successivessont les mêmes. Si c’est le cas, alors la phase de correction des erreurs de phonétisation estachevée.


Phonème acceptéϕ1

Phonème acceptéϕ2

A

Z

.

.

.

Figure 6.3 — Grammaire utilisée dans [114] pour le décodage acoustico-phonétique dessegments rejetés.

6.5.2 Améliorations proposées

Les améliorations que nous proposons se situent essentiellement au niveau de la phasede décodage acoustico-phonétique et concernent plus précisément la grammaire. En effet, lagrammaire proposée dans [114] ne contient aucune contrainte sur le décodeur. Or, il peut êtreutile de contraindre le décodeur afin de lui indiquer les types d’erreurs les plus probables.Pour avoir les meilleurs résultats, il est donc nécessaire de disposer d’une grammaire adaptéeaux objectifs attendus et à l’application.

Dans cette section, nous proposons une grammaire appropriée au cas où la phonétisationest produite par un phonétiseur automatique : nous pouvons alors utiliser des connaissancesa priori sur les performances du phonétiseur. Nous proposons aussi 4autres grammaires per-mettant de traiter une phonétisation erronée quelconque. Ces grammaires n’utilisent aucuneconnaissancea priori mais restent plus contraignantes que celle employée par S. Nefti.

La grammaire utilisant des connaissancesa priori est la plus contraignante parmi cellesproposées dans cette section. En effet, en plus de donner lesétiquettes des phonèmes acceptésà gauche et à droite du groupe des segments rejetés, on propose au décodeur une liste de pho-nèmes pour chaque segment rejeté. Cette liste va correspondre aux phonèmes susceptiblesd’être omis avant l’étiquette du segment rejeté et aux phonèmes acoustiquement proches del’étiquette du segment rejeté qui sont susceptibles d’êtreà sa place. La grammaire dépendrade la constitution de cette liste de phonèmes et donc de l’étiquette du segment rejeté.

Supposons que l’on soit en présence deN segments rejetés voisins, d’étiquettese1,e2, . . . ,eN entourés de deux phonèmes acceptés étiquetésϕ1 et ϕ2.

Deux listes de phonèmes sont associées à chaque étiquetteei . La listesub(ei) contientles phonèmes les plus probables d’être substitués à la placedeei et oms(ei) est la liste desphonèmes pouvant être omis avantei . Il n’est pas nécessaire que ces listes soient très précises.Il est également admis que ces listes non exhaustives sont connues car elles correspondentaux erreurs usuelles rencontrées avec la reconnaissance vocale largement étudiée dans lalittérature pour plusieurs langues.

La grammaire associée à cesN segments rejetés est représentée graphiquement sur lafigure 6.4 et sera nommée dans toute la suiteGram0.

Cette grammaire commence par reconnaître le phonèmeϕ1 supposé correct, puis recon-

Section 6.5 :Correction des erreurs de phonétisation 127

ϕ1 oms(e1) sub(e1)

e1

. . . oms(eN) sub(eN)

eN

oms(ϕ2) ϕ2

Figure 6.4 —Grammaire proposée pour le décodage acoustico-phonétiquedesN segmentsrejetés voisins lorsque la phonétisation est produite par un phonétiseur automatique.

naît zéro, un ou plusieurs phonèmes appartenant àoms(e1) (ces phonèmes correspondent auxomissions possibles avante1). Cette séquence est suivie par le phonèmee1 ou tout phonèmepouvant être substitué à la place dee1 (appartenant donc àsub(e1)) ou aucun élément (dansle cas d’une insertion). Ces deux dernières étapes seront répétées poure2, e3 jusqu’àeN.Finalement nous reconnaîtrons un ou plusieurs phonèmes susceptibles d’être omis avantϕ2

(appartenant àoms(ϕ2)) puisϕ2.

Notons qu’il est très peu probable d’avoir plusieurs omissions d’affilé. Donc, on peutaméliorer le système en ne considérant qu’il ne peut y avoir au plus qu’un élément deoms(ei)avantei .

Lorsqu’on se place dans le cas général où la phonétisation n’est pas forcément issue d’unphonétiseur automatique, voici les 4 grammaires que nous proposons.

La première contraint le décodeur à trouver entre 0 et N phonèmes pour N segments re-jetés fusionnés. Cette grammaire, représentée sur la figure6.5, reconnaît en plus des deuxphonèmes acceptésϕ1 etϕ2, un ou zéro phonème parmi tous les phonèmes de la langue trai-tée pour chaque segment rejeté. Cette grammaire ne traite pas les erreurs d’omission maistraite le cas de plusieurs insertions et de substitutions. Il est donc normal que le taux d’omis-sion augmente au fur à mesure des itérations. Nous appellerons cette grammaireGram1.

ϕ1 ϕ2

A

Z

.

.

.

A

Z

.

.

. . . .

A

Z{N blocs

.

.

.

Figure 6.5 —Première grammaire (Gram1) dans le cas général pour le décodage acoustico-phonétique des N segments rejetés.

La deuxième grammaire que nous proposons d’utiliser dans lecas général permet audécodeur de chercher simplement, en plus deϕ1 et ϕ2, un phonème par segment rejeté (cf.figure 6.6). Donc pour N segments rejetés, on a N phonèmes à la sortie du décodeur. Cettegrammaire ne s’intéresse donc qu’au problème de substitution et sera appeléeGram2.

Étant donné que la grammaireGram1paraît trop libre etGram2trop stricte, nous avons


ϕ1 ϕ2

A

Z

.

.

.

A

Z

.

.

. . . .

A

Z

.

.

.{N blocs

Figure 6.6 —Deuxième grammaire (Gram2) pour le décodage acoustico-phonétique des Nsegments rejetés.

pensé à tester deux autres grammaires.

Une contraint le décodeur à trouver N-1 ou N phonèmes pour N segments rejetés afinqu’il corrige une insertion intervenant sur l’un des N phonèmes. Cette grammaire est nom-méeGram3et elle est représentée sur la figure 6.7.

ϕ1 ϕ2

A

Z

.

.

.

A

Z

.

.

. . . .

A

Z

.

.

.{N blocs

Figure 6.7 —Troisième grammaire (Gram3) pour le décodage acoustico-phonétique des Nsegments rejetés.

L’autre grammaire illustrée sur la figure 6.8, permet un décodage acoustico-phonétiquequi conduit à l’obtention d’une chaîne phonétique de longueur N-1, N ou N+1 pour une sé-quence originale de N phonèmes. Cette grammaire permet doncde corriger une insertion ouune omission pouvant se situer à n’importe quel endroit de cette séquence. Cette grammaireest nommée dans toute la suiteGram4.

Section 6.6 :Évaluation de la détection et de la correction des erreurs 129

ϕ1 ϕ2

A

Z

.

.

. . . .

A

Z

.

.

.

A

Z

.

.

.

A

Z

.

.

.{N+1 blocs

Figure 6.8 —Quatrième grammaire (Gram4) pour le décodage acoustico-phonétique des Nsegments rejetés.

6.6 Évaluation de la détection et de la correction des er-reurs

Dans cette section, nous allons évaluer les performances dela mesurenFLPP pour ladétection des erreurs de phonétisation. Ensuite, nous allons voir l’efficacité de la méthode decorrection de ces erreurs. Pour cette raison, contrairement au choix d’une unique grammairefait dans [114], nous allons comparer les résultats trouvésavec les grammaires proposéesdans la section précédente afin de choisir la meilleure.

Tous les résultats de cette section ont été calculés sur le corpus français et certains serontdonnés pour le corpus anglais. Cependant, les tests ne seront pas faits sur les phonétisa-tions automatiques de ces corpus. Une raison à cela est que laphonétisation produite par lephonétiseur de France Télécom est très proche de la phonétisation manuelle. En effet, si oncalcule par programmation dynamique (voir la section 6.3) le nombre d’erreurs de chaquetype sur les phonétisations automatiques des corpus français et anglais, on trouve pour lecorpus français contenant 259911 segments de référence, 1398 substitutions, 236 insertionset 99 omissions. Pour le corpus anglais contenant 387029 segments de référence, on a 1915substitutions, 1 insertions et 2 omissions. Cela implique un taux de phonétisation correcteégal à 99.33% pour le corpus français et égal à 99.50% pour le corpus anglais.

Ces résultats ont évidemment une explication. En effet, lors de l’enregistrement de cescorpus, le locuteur est contraint de prononcer une phrase defaçon à approcher le plus possiblela phonétisation automatique. Donc, quand le locuteur ne respecte pas cette condition, unsuperviseur lui fait répéter la phrase. Le superviseur a également le rôle de corriger quelqueserreurs jugées graves de la phonétisation automatique. La phonétisation automatique devientdonc une phonétisation manuelle à quelques erreurs près.

Cette manipulation est peut être une solution pour éviter lavérification manuelle de laphonétisationa posteriorilors de l’enregistrement d’un corpus mais cela ne sera pas toujourspossible. Par exemple, avec un corpus de parole spontanée, cette manipulation n’est plusvalable et donc, le taux de phonétisation correcte sera fortement diminué. Par exemple letaux de phonétisation correcte du phonétiseur de France Télécom est de l’ordre de 93%


quand on traite de la parole clairement prononcée par un locuteur et contrainte du point devue de spontanéité. Évidemment, avec de la parole spontanée, ce taux serait bien plus faible.Pouvoir corriger les erreurs dues à l’étiquetage automatique reste donc indispensable.

Puisque les taux de phonétisation correcte pour les corpus français et anglais sont trèsélevés, nos tests emploieront des phonétisations obtenuesen perturbant la phonétisation ma-nuelle. Nous voulons dire par perturbation, l’ajout automatique d’erreurs d’insertion, d’omis-sion et de substitution.

De plus, à cause de la méthode d’étiquetage des corpus de parole utilisée par France Té-lécom, on ne sait pas générer une phonétisation réaliste en créant des erreurs là où le phonéti-seur automatique serait susceptible d’en commettre. Par contre, on peut essayer de respecterla répartition des erreurs en fixant un taux de substitution supérieur aux taux d’omission etd’insertion puisque les erreurs de substitution sont les erreurs les plus courantes produitespar un phonétiseur automatique. Pour nos tests, on choisit un taux de substitution presquedix fois supérieur aux taux d’omission et d’insertion. Cette répartition est semblable à celleengendrée par un phonétiseur automatique [114]. Le nombre d’erreurs de chaque type généréet le taux de phonétisation correcte pour les étiquetages des corpus français et anglais sontdonnés dans le tableau 6.1.

Tableau 6.1 —Taux de phonétisation correcte et nombres des erreurs de substitutions, d’in-sertions et d’omissions générées par la perturbation de la phonétisation manuelle et pour les

deux corpus.

Nombre Nombre Nombre Taux dede substitutions d’insertions d’omissions phonétisation correcte

corpusFR 56453 5916 5607 73.85corpusEN 86427 8334 7965 73.46

Pour appliquer la mesure de confiance aux phonétisations erronées, il faut les segmen-tations associées à ces phonétisations. Avant de faire les tests sur la segmentation produitepar l’approche de fusion décrite dans le chapitre 4, nous pensons qu’il est indispensable decommencer par une première étude comparative des différentes grammaires sur la segmen-tation HMMSeg1afin d’effectuer des résultats trouvés dans [114] et dans ce chapitre. Cechapitre ne présentera que les résultats sur la segmentation HMMSeg1.

6.6.1 Évaluation de la mesurenFLPP

La technique utilisée pour évaluer la mesure de confiancenFLPP est la courbe ROCdécrite dans la section 5.2.1. La courbe ROC est construite en utilisant un corpus d’appren-tissage dont on connaît la phonétisation manuelle. Sur ce corpus, on calcule les taux dedétection et de fausse alarme avec les équations (5.2) et (5.4) oùNf a est le nombre de pho-nèmes pour lesquels l’hypothèseH0 est vraie et la valeur de la mesurenFLLPne dépasse pasle seuilη, Nnd le nombre de phonèmes pour lesquels l’hypothèseH1 est vraie et la valeur dela mesure dépasse le seuilη, Nt le nombre total de phonèmes etNv le nombre de phonèmespour lesquels l’hypothèseH1 est vraie.

Rappelons que le seuilη est celui du test de l’équation (6.2) et que pour créer la courbeROC, on fait varier le seuilη afin de calculer en fonction du seuil les probabilités de détection


et de fausse alarme. Les hypothèsesH0 et H1 dépendent de ce que l’on veut évaluer. Dansla suite de cette section, nous allons évaluer l’efficacité de la mesure de confiance. On com-mence par mesurer cette efficacité sur chaque type d’erreur.Ensuite, on étudie l’efficacité decette mesure pour détecter l’ensemble des erreurs possibles.

Quand on veut évaluer la fiabilité de la mesurenFLPPà détecter les erreurs d’omission,l’hypothèseH0 reste “il n’y a pas d’erreur de phonétisation” etH1 devient “Il y a une erreurd’omission”. On détecte une erreur d’omission quand la valeur de la mesure ne dépasse pasle seuilη et que le segment courant est tagué comme une omission ou que le segment duphonème qui suit est marqué comme une omission. Cette formulation vient du fait que sil’omission est commise entre deux phonèmesϕ1 et ϕ2, on a choisi de taguerϕ2 commeomission et nonϕ1. On dit qu’il n’y a pas d’erreur de phonétisation lorsque le segmentcourant n’est ni tagué insertion, ni tagué substitution, nitagué omission et que le segmentqui suit n’est pas tagué omission.

Si on veut évaluer la capacité de la mesurenFLPPà détecter une insertion alorsH0 cor-respond à toujours à l’hypothèse “il n’y a pas d’erreur de phonétisation” etH1 est l’hypothèse“il y a une erreur d’insertion”. Une erreur d’insertion est donc détectée quand la valeur de lamesurenFLPPd’un segment tagué comme insertion, ne dépasse pas le seuilη.

Si on souhaite évaluer les performances du test d’hypothèsepour détecter les substitu-tions,H0 et H1 deviennent respectivement “il n’y a pas d’erreur de phonétisation” et “il y aune erreur de substitution”. De la même façon, une erreur de substitution est détectée quandla valeur de la mesurenFLPP d’un segment tagué comme substitution, ne dépasse pas leseuilη.

Pour le cas où on veut évaluer la capacité de la mesure de confiance à détecter tous lestypes d’erreurs,H0 et H1 deviennent respectivement “il n’y a pas d’erreur de phonétisation”et “il y a une erreur de phonétisation”. On accepte doncH1 quand la valeur de la mesurenFLPPsur le segment courant ne dépasse pas le seuilη et que ce même segment est taguéinsertion, omission ou substitution ou que le segment suivant est tagué omission.

Nous pouvons remarquer que pour les quatre tests d’hypothèse définis précédemment,les hypothèsesH0 sont identiques et donc d’après la définition de la fausse alarme (la valeurde la mesure ne dépasse pas le seuil alors queH0 est vraie), nous pouvons en déduire que lesprobabilités de fausse alarme pour un même seuilη sont égales.

Les segments marqués comme insertions, omissions et substitutions sont trouvés avecla méthode détaillée dans la section 6.3. Les courbes ROC représentées sur les figures 6.9et 6.10 montrent l’efficacité de la mesurenFLPPpour détecter chaque type d’erreur et l’en-semble des erreurs pour les corpus français et anglais. Chaque courbe est obtenue en moyen-nant les résultats trouvés sur les mêmes trois corpus d’apprentissage de 300 phrases utilisésdans le chapitre précédent. Les figures 6.9 et 6.10 montrent clairement de très bonnes per-formances en faveur de la mesurenFLPP. Par conséquent, on peut déduire qu’elle est unemesure fiable.

À partir des mêmes figures, on peut constater également que lamesurenFLPPdétectemieux les insertions que les substitutions et les substitutions que les omissions. Par exemplepour le corpus français, à 10% de taux de fausse alarme, la mesure est capable de détec-ter 90% des erreurs de phonétisation (91.5% des erreurs de substitution, 91.7% des erreursd’insertion et 72% des erreurs d’omission).


0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1

Tous les types d’erreursOmissionsInsertions

Substitutions

Figure 6.9 — Évaluation de la capacité de la mesurenFLPP à détecter tous les types deserreurs de phonétisation et chaque type d’erreur individuellement pour le corpus français.

0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1

Tous les types d’erreursOmissionsInsertions

Substitutions

Figure 6.10 —Évaluation de la capacité de la mesurenFLPPà détecter tous les types deserreurs de phonétisation et chaque type d’erreur individuellement pour le corpus anglais.

Les courbes ROC des figures 6.9 et 6.10, dédiées à l’évaluation globale de la mesurenFLPP pour détecter tous les types d’erreurs, nous permettent de déterminer un point defonctionnement et donc un seuil optimal global. Ce point de fonctionnement exprime uncompromis entre la détection des trois types d’erreurs et sera utilisé pour la méthode decorrection des erreurs de phonétisation. Les points de fonctionnement(Pf a,Pd) que nousavons choisis sont respectivement(10%,90%) et (10%,85%) pour les corpus français etanglais.


6.6.2 Évaluation de la méthode de correction

Dans cette section, on évalue le système de correction décrit dans la section 6.5.1 en uti-lisant et comparant les grammaires (Gram1, Gram2, Gram3et Gram4) de la section 6.5.2ainsi que la grammaire employée dans [114] (voir la figure 6.3). Le choix de ces grammairesest dû au fait que l’on utilise des phonétisations erronées qui ne proviennent pas du phonéti-seur automatique. Ceci explique pourquoi on n’utilise pasGram0. Rappelons queGram0estune grammaire dédiée à une phonétisation provenant d’un phonétiseur automatique parcequ’elle utilise des connaissancesa priori sur ce phonétiseur et que les autres sont senséespouvoir traiter une phonétisation quelconque (sans connaissancea priori).

Les étapes d’implémentation de laième itération de cette méthode de correction sur uncorpus de test sont les suivantes :

– Apprentissage des modèles de phonèmes utilisés à l’itération i−1 avec la segmentationcorrespondant à la phonétisation trouvée en sortie de l’itération i −1.

– Application de la mesurenFLPPsur le corpus de test en utilisant la segmentation et laphonétisation produites à l’itérationi −1.

– Comparaison des valeurs de la mesure avec le seuil correspondant au point de fonc-tionnement fixé dans la section précédente.

– Étiquetage des segments du corpus avec “rejeté” et “accepté”.– Fusion des segments rejetés.– Décodage acoustico-phonétique sur tous les segments rejetés et les deux segments

acceptés qui entourent ces segments rejetés. Ce décodage utilise une grammaire parmicelles testées ici.

En sortie de cette itération, on obtient une nouvelle phonétisation et une nouvelle seg-mentation. Le système est initialisé pour les deux corpus avec les phonétisations dont lesperformances sont présentées dans le tableau 6.1. Les modèles de départ ont été appris surtout le corpus sachant seulement sa phonétisation initiale. Enfin, la segmentation initiale estla segmentation par HMM (HMMSeg1) opérée avec les modèles de départ.

Plusieurs itérations de ces étapes sont testées jusqu’à ce qu’il n’y ait plus de changemententre les phonétisations produites par deux itérations successives. Nous disons dans ce casque le système de correction a convergé.

Dans le tableau 6.2, nous présentons les résultats de la phonétisation en sortie de la der-nière itération après convergence du système. Nous indiquons donc les nombres de substitu-tions, d’insertions et d’omissions, le taux de phonétisation correcte et le nombre d’itérationsqui ont été nécessaires à la convergence du système de correction. Ces résultats sont obtenusavec le corpus français complet et avec les grammairesGram1, Gram2, Gram3, Gram4et lagrammaire de la figure 6.3 qu’on nommeraGram. Ce tableau permet donc de comparer lesperformances de ces grammaires. Rappelons que le calcul de la mesurenFLPPse fait avec lemême seuil à chaque itération, ce seuil étant associé au point de fonctionnement(10%,90%).

Le tableau 6.2 fait apparaître plusieurs enseignements. Tout d’abord, nous remarquonsque toutes les grammaires améliorent la précision phonétique du décodeur (de 73.85% onarrive à 81.73%). La grammaire qui donne le meilleur taux estGram1qui contraint le dé-codeur à trouver entre 0 etN phonèmes pourN segments rejetés. Le comportement sur lesnombres d’insertions, d’omissions et de substitutions de certaines grammaires était prévi-sible. En effet,Gram1et Gram3ne gèrent pas l’existence des omissions et ne s’intéressent


Tableau 6.2 —Les nombres de substitutions, d’insertions et d’omissions, le taux de phonéti-sation correcte et le nombre d’itérations qui ont été nécessaires à la convergence du système

de correction pour le corpus français.

Nombre Nombre Nombre Taux de nombrede substitutions d’insertions d’omissions phonétisation correcte d’itérations

Gram 29712 15486 9784 78.84% 6Gram1 28842 2752 15894 81.73% 5Gram2 34055 9438 9131 79.75% 4Gram3 29284 3370 15209 81.58% 5Gram4 29804 12253 10734 79.69% 5

qu’aux insertions et substitutions. Par conséquent, les nombres d’insertions et de substitu-tions diminuent au détriment d’une augmentation significative des erreurs d’omission. Lesnombres d’insertions et d’omissions avecGram2augmentent car cette grammaire ne gèreque les substitutions.Gram4prend en compte le cas de l’existence d’une seule omissionet donc le nombre d’omissions avec cette grammaire a été réduit par rapport à celui trouvéavecGram3. Par contre, contrairement à ce que l’on aurait attendu, le nombre d’insertionsavecGram4n’est pas réduit. On peut expliquer ceci par la présence de plusieurs insertionset omissions dans la séquence de segments rejetés. AvecGramproposée dans [114], le dé-codeur n’a pas beaucoup de contraintes et donc les nombres d’insertions et d’omissions aug-mentent énormément. Ce qui explique que l’on obtient la moins bonne précision phonétiqueavec cette grammaire.

Une autre remarque générale pour toutes les grammaires est que le nombre de substitu-tions diminue.

Enfin, nous constatons à partir du tableau 6.2 que 4 à 6 itérations sont suffisantes pourque le système de correction converge.

Les résultats de ce tableau et donc le choix de la meilleure grammaire dépendent énormé-ment de la phonétisation en entrée du système de correction.En effet, avec la phonétisationperturbée aléatoirement, plusieurs omissions ou insertions consécutives sont possibles. Dansce cas, les grammaires fonctionneront moins bien sur des omissions et des insertions. Avecune phonétisation en sortie du phonétiseur automatique, deux erreurs d’insertions ou d’omis-sions successives sont rares. Nous pensons donc queGram1, Gram3et Gram4auront demeilleures performances avec cette phonétisation au niveau des insertions et des omissions.Le problème sera plutôt dans les substitutions où la diminution des erreurs ne sera pas signi-ficative car les substitutions causées par un phonétiseur automatique (par exemple entre “AI”et “EI”) sont difficiles à corriger avec un décodeur acoustico-phonétique. Par conséquent,le gain obtenu avec ces grammaires sera sûrement plus faibleen utilisant un étiquetage duphonétiseur automatique. Ceci vient du fait que les substitutions représentent la majorité deserreurs et que le gain (réduction de l’ordre de 30% des erreurs de phonétisation) que nousavons obtenu est dû en grande partie à la réduction significative des substitutions. En effet,le nombre de substitutions a été significativement réduit avec toutes les grammaires, parceque la correction des cas de substitution entre deux phonèmes acoustiquement différents estfacile avec un décodeur.

Nous avons également testé l’utilisation des modèles de langage en conjonction avec la


meilleure grammaire. Cette approche déjà proposée dans [114], s’est avérée plus efficace auniveau du décodage acoustico-phonétique et donne donc de meilleurs résultats.

Les modèles de langage [81] sont très utilisés dans plusieurs applications, particulière-ment en reconnaissance vocale. Ces modèles permettent de contraindre syntaxiquement ledécodage en éliminant toutes les séquences de mots jugées improbables afin de réduire l’es-pace de recherche de la meilleure séquence. Ils permettent donc de réduire les erreurs dudécodage et d’accélérer le processus de recherche de la meilleure séquence.

Les modèles de langage représentent les probabilitésa priori des séquences de phonèmeset décrivent donc les fréquences d’occurrence des séquences de phonèmes. Ces modèles sontdonc construits avec un corpus d’apprentissage étiqueté manuellement.

SoitPH = (ϕ1,ϕ2, . . . ,ϕM) une séquence de phonèmes. La probabilitéa priori P(PH) decette séquence se traduit par le produit des probabilités conditionnelles de chaque phonèmesachant le début de la suite des phonèmes :

P(PH) =M

∏i=1

P(ϕi |ϕ1, . . . ,ϕi−1)

= P(ϕ1)P(ϕ2|ϕ1) . . .P(ϕM|ϕ1, . . . ,ϕM−1)

Pour estimer chaque probabilité conditionnelle, une approximation basée sur le modèleN-gramme est souvent employée :

P(PH) =M

∏i=1

P(ϕi |ϕi−(N−1), . . . ,ϕi−1)

Ce modèle de langage N-gramme est une chaîne de Markov d’ordre N−1. QuandN = 2,ce modèle de langage est appelé bigramme et quandN = 3, il est appelé trigramme. Cesdeux cas sont ceux que l’on rencontre le plus dans la littérature. Pour nos tests, nous nouscontentons de tester les modèles de langage bigramme.

Dans le tableau 6.3, nous présentons les résultats obtenus avec la meilleure grammaire(Gram1) du point de vue du taux de phonétisation correcte, et ceux obtenus en combinantcette grammaire et les modèles de langage (bigram). Les modèles de langage sont construitsavec un corpus de 300 phrases étiquetées manuellement. Ce corpus d’apprentissage est l’undes trois corpus utilisés dans les chapitres 3, 4 et 5. Nous utilisons le logiciel HTK [165],déjà employé préalablement, afin de créer ces modèles. Nous indiquons dans ce tableau,comme dans le tableau 6.2, les nombres de substitutions, d’insertions et d’omissions, le tauxde phonétisation correcte et le nombre d’itérations qui ontété nécessaires à la convergence dusystème de correction. Les résultats sont ceux de la phonétisation obtenue lors de la dernièreitération. Nous exposons, ici, les résultats pour les corpus français et anglais.

Ce tableau montre que l’utilisation des modèles de langage améliore le taux de phoné-tisation correcte pour les corpus français et anglais. Cette amélioration correspond à uneréduction des erreurs de phonétisation de l’ordre de 2.03% pour le corpus français et de1.23% pour le corpus anglais et est surtout due à la réduction des erreurs d’insertions et desubstitutions.

Nous remarquons aussi que le taux de phonétisation correctetrouvé avecGram1pourle corpus anglais est meilleur que celui de la phonétisationen entrée du système (73.46%).


Tableau 6.3 —Les nombres de substitutions, d’insertions et d’omissions, le taux de phonéti-sation correcte et le nombre d’itérations qui ont été nécessaires à la convergence du systèmede correction pour les corpus français et anglais. Ces résultats sont donnés pour le cas oùon utilise la grammaireGram1 toute seule et le cas où on l’utilise conjointement avec des

modèles de langage.

Nombre Nombre Nombre Taux de Nombrede substitutions d’insertions d’omissions phonétisation correcte d’itérations

Gram1 corpusFR 28842 2752 15894 81.73% 5corpusEN 48916 6076 31172 77.74% 4

Gram1 corpusFR 28055 2730 15291 82.27% 5+ bigram corpusEN 48713 5961 29562 78.23% 4

Le comportement de cette grammaire reste le même que celui constaté pour le corpus fran-çais, c’est-à-dire, que les nombres d’insertions et de substitutions diminuent et le nombred’omissions augmente.

Il est également intéressant de voir que d’une part, le nombre d’itérations nécessairespour la convergence du système pour le corpus anglais est du même ordre que celui obtenuavec le corpus français et que d’autre part, l’utilisation des modèles de langage ne changepas ce nombre.

Finalement, afin d’analyser la nature des erreurs corrigéesavec le système de correction,nous présentons, pour le corpus français les tableaux 6.4 et6.5. Ceux-ci présentent respecti-vement les matrices de confusion de la phonétisation en entrée du système de correction, etde la phonétisation en sortie du système de correction utilisantGram1et les modèles de lan-gage. Une matrice de confusion montre la répartition des erreurs d’insertions, d’omissions etde substitutions en fonction des phonèmes présents dans le corpus : la dernière colonne in-dique la répartition des omissions ; la dernière ligne montre le nombre d’insertions de chaquephonème, et le reste du tableau affiche les différentes erreurs de substitutions. Dans ces ta-bleaux, nous avons utilisé un dégradé de couleurs afin de caractériser le nombre d’erreursde phonétisation. Il nous est donc plus facile de visualiserles types des erreurs qui ont étécorrigées avec notre système.

La comparaison de ces deux tableaux montre que le gain apporté par l’utilisation de lagrammaireGram1et les modèles de langage est dû surtout :

– à la réduction des insertions des plosives et de “CH”, “L” et“E” ;– à la réduction de presque toutes les erreurs de substitution.Cette comparaison montre également que certaines erreurs d’omission et d’insertion pou-

vant être générées par un phonétiseur automatique ont été diminuées grâce à ce système decorrection (par exemple on remarque une réduction de 68% pour l’omission des pauses, de44% pour l’insertion des pauses et de 38% pour l’insertion de“EU”).

6.7 Conclusion

Dans ce chapitre, nous avons évalué et amélioré le système decorrection des erreurs dephonétisation proposé dans [114]. Ici, nous l’avons utilisé sur des segmentations produites


par HMM et des phonétisations obtenues par l’introduction des erreurs de substitution, d’in-sertion et d’omission dans la phonétisation manuelle.

Ce système a été testé avec 4 grammaires plus contraignantesque celle utiliséedans [114]. Ensuite, nous avons utilisé les modèles de langage en conjonction avec la gram-maireGram1offrant la meilleure précision phonétique.

Les résultats exposés dans ce chapitre témoignent de la fiabilité de la mesurenFLPPetsoulignent les très bonnes performances de la correction lorsqu’on utilise les modèles bigramet la grammaireGram1. En effet, le système s’est montré efficace pour corriger presque 32%des erreurs de phonétisation du corpus français.

De plus, grâce à la comparaison des matrices de confusion avant et après amélioration,nous avons remarqué que certaines erreurs pouvant être générées par un phonétiseur auto-matique ont été corrigées comme l’insertion et l’omission des pauses et l’insertion de “EU”.Nous pouvons donc conclure, d’ores et déjà, que le système decorrection proposé dansce chapitre peut être dédié à la correction de ces trois typesd’erreurs. Dans le cas où unephonétisation automatique est disponible, un test intéressant serait d’appliquer le systèmede correction sur cette phonétisation mais il n’est pas garanti que ce système de correctionaméliore la précision phonétique globale. Donc, on peut penser à une approche qui utiliseplusieurs systèmes de correction où chaque système est dédié à la correction de certaineserreurs.

Nous avons également proposé une grammaireGram0dans le cas où l’on utilise unephonétisation obtenue par un phonétiseur automatique et donc contenant des erreurs diffici-lement détectables. Nous n’avons pas pu testé ce cas à cause de la nature des phonétisationsmanuelles dont nous disposons.


Tableau 6.4 —Matrice de confusion entre la phonétisation manuelle et la phonétisation er-ronée choisie initialement.

SS

SA

AA

AB

CD

EE

EF

GI

IJ

KL

MN

OO

OO

PR

ST

UU

UV

WY

ZO

II

PI

NU

HI

UN

EN

UI

Nm

LL

s

DF

SIL

D7

38

70

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

SIL

F0

73

87

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

SP

00

37

63

4136

4428

3337

4233

3338

3639

3938

3542

3129

4634

1938

4522

3534

3534

4526

3641

3431

141

A0

012

11

34

32

120

124

112

137

111

123

123

126

130

132

129

125

133

142

150

9113

111

213

011

012

012

099

116

117

101

132

123

130

122

129

112

114

388

AI

00

8465

75

44

8169

6963

7162

7268

6552

5963

7354

6170

5670

6774

5772

5260

7778

6876

5568

5766

218

AN

00

5651

486

02

957

5350

4054

5347

5159

5568

5456

6260

4759

4860

4260

5044

4352

6063

6158

5159

171

AU

00

1423

1722

20

88

1922

2321

2126

2520

2114

1515

1818

1417

2522

1710

1917

1012

2020

1521

1815

64

B0

021

923

2123

21

44

1921

2317

2023

2317

2026

1521

3520

1716

1721

2418

2125

1824

2227

2020

2161

CH

00

126

137

1315

10

80

612

98

57

67

1011

412

1510

109

910

1314

410

1011

97

118

25

D0

061

8278

7973

6864

79

53

8367

6870

9063

6272

7066

8067

6770

5973

8567

7864

6376

8875

7667

7625

8

E0

013

139

512

109

71

13

410

1414

105

139

1112

1011

410

911

136

711

1813

811

1113

1239

EI

00

9610

493

8287

8410

697

891

05

15

8411

696

9310

185

9683

100

112

9091

106

100

9410

410

897

9999

113

8787

8291

326

EU

00

8184

7574

7574

6762

8159

76

23

6157

7277

6658

5869

7091

7657

6975

8675

8663

6669

6973

6670

238

F0

030

2220

3722

2524

3436

2824

27

33

2618

2823

2435

3732

2920

2421

2225

2823

1422

3134

3135

2390

G0

06

77

911

109

1714

914

161

31

310

1012

168

914

912

1611

98

1013

913

812

117

834

I0

083

8283

104

7492

8477

8689

8080

949

38

376

8367

7674

7177

8282

9176

8788

8086

8310

498

8598

9229

6

IN0

016

2131

219

1325

2312

2517

2221

202

15

017

2126

1522

1921

1314

2130

2417

1127

2618

1712

2058

J0

022

1622

1614

2014

1623

1520

1728

1615

20

56

1418

1620

1925

1614

1423

1717

2121

1612

2020

2268

K0

066

6855

4771

4860

5254

6156

5652

5551

596

11

645

5764

5156

5449

5356

4760

5165

6371

4966

6021

2

L0

011

492

130

122

127

123

103

118

101

119

9111

511

889

114

8988

11

85

610

012

010

211

611

412

611

511

111

598

9999

9499

122

119

113

376

M0

051

4246

5436

3745

3644

4348

5138

3947

5147

475

09

947

3947

5360

3559

5555

3951

4142

4436

4714

8

N0

050

5651

6655

6955

4653

5753

5142

4847

4454

4746

56

07

5242

3952

3955

5647

3951

5149

4962

5518

4

O0

043

5336

4035

4235

3245

4228

3641

4333

4143

4835

434

30

535

3936

3923

3541

4936

4446

5245

3912

9

OE

00

146

1011

912

1110

912

1412

1016

178

811

99

111

27

57

1511

910

1411

1212

1510

815

36

ON

00

3536

3740

3731

3227

2732

3635

2934

3138

3242

2530

2943

37

42

3832

3730

3732

3231

3739

3827

90

OU

00

3931

4028

3537

2524

2432

2424

2919

2533

2728

4323

2136

413

16

527

1430

2527

2723

2425

3438

120

P0

036

3966

4558

6653

6060

5746

6547

6069

7067

6349

4438

5566

626

24

750

5347

5045

5759

6763

5918

6

R0

014

412

413

414

311

911

912

813

115

214

713

012

215

011

413

212

514

614

812

213

313

213

611

213

013

21

47

7013

512

014

614

310

914

411

612

714

744

4

S0

010

691

9112

511

810

080

102

9410

410

097

9988

107

9410

291

8710

298

102

106

9510

411

21

08

96

9611

610

198

111

101

8792

327

T0

010

180

9110

110

110

010

012

181

9210

084

9097

8510

392

102

9910

482

106

8210

189

9287

10

61

387

9711

192

8579

106

321

U0

030

2942

3739

4242

3328

4232

4633

4033

4836

3534

3549

3631

4441

3731

383

94

636

3436

4232

4113

0

UI

00

95

79

93

44

63

75

56

56

68

48

47

910

46

75

47

43

119

79

820

UN

00

104

73

410

810

158

811

813

108

157

811

126

1110

55

912

88

92

43

108

530

V0

032

3937

4332

3527

3244

4534

3743

2635

4135

3647

4436

4023

4229

3546

3230

3038

40

00

4327

4012

7

W0

011

614

1214

1719

912

1311

2317

1616

1221

157

1418

1611

2017

1413

1217

1315

191

63

011

2145

Y0

029

2337

4035

3841

4629

3131

4233

3835

3132

3126

3544

3833

3634

3441

2743

4522

2833

39

33

3411

2

Z0

028

2036

2433

2533

2428

3528

2930

2433

3431

3632

2127

3737

3042

3422

3028

2930

2527

253

27

095

Ins

00

162

163

159

174

191

192

166

158

161

158

146

179

164

159

182

187

165

165

153

162

159

173

166

171

186

146

176

147

161

191

185

192

165

165

187


Tableau 6.5 —Matrice de confusion entre la phonétisation manuelle et la phonétisation er-ronée en sortie du système de correction utilisant à la foisGram1et les modèles de langage.

SS

SA

AA

AB

CD

EE

EF

GI

IJ

KL

MN

OO

OO

PR

ST

UU

UV

WY

ZO

II

PI

NU

HI

UN

EN

UI

Nm

LL

s

DF

SIL

D7

38

70

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

SIL

F0

73

87

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

SP

00

50

46

00

00

02

00

10

90

00

02

00

01

01

11

00

00

40

01

00

44

A0

021

14

70

362

720

412

27

1917

114

16

931

168

62

910

416

232

17

1521

126

95

632

142

483

14

40

AI

00

124

875

74

26

10

119

11

76

111

35

6731

310

80

618

60

02

35

627

64

125

108

852

5

AN

00

21

27

35

39

30

21

30

10

354

20

09

230

023

81

20

42

01

200

901

119

4

AU

00

20

27

22

39

20

07

214

60

23

00

31

30

117

27

821

24

11

01

252

10

86

B0

02

21

1815

21

42

118

63

78

024

24

210

221

49

335

3395

51

255

02

1123

21

209

CH

00

12

20

21

13

17

00

00

60

02

543

00

10

00

10

15

04

00

01

10

24

D0

05

146

363

780

94

24

1717

190

358

227

391

821

135

2916

649

217

617

37

163

516

517

E0

02

3625

369

50

15

00

5540

90

00

301

13

11

110

110

45

20

06

05

176

30

162

EI

00

383

560

37

20

710

12

05

212

46

2015

19

326

122

710

24

25

37

462

112

318

285

458

4

EU

00

255

146

522

44

05

6726

67

76

53

28

2618

410

67

596

265

188

612

1037

25

624

321

964

5

F0

03

140

20

28

25

42

34

70

02

42

21

01

50

01

40

3027

02

044

11

586

G0

00

12

18

280

935

514

11

29

60

60

523

15

71

820

111

029

41

06

113

187

I0

09

619

210

11

23

597

83

131

02

194

222

103

353

03

37

321

1414

840

75

959

318

700

IN0

03

8411

171

00

21

30

00

12

47

11

00

42

137

30

05

11

10

105

011

81

118

J0

02

14

01

123

00

13

00

00

26

28

00

00

00

31

01

51

132

04

01

147

K0

013

19

212

829

9239

355

921

565

100

67

59

02

124

28

1617

38

1524

611

76

21

251

468

L0

023

3276

335

305

5425

281

201

2365

8018

1356

11

90

857

4732

57

2027

420

2214

230

860

4014

651

23

01

M0

02

42

65

31

17

45

21

06

03

66

32

215

25

430

203

34

33

03

013

00

176

N0

03

67

73

32

20

79

22

210

05

1419

27

00

95

54

71

11

44

11

26

40

188

O0

01

8457

3223

23

16

3155

459

21

138

52

26

54

05

627

1125

21

26

30

150

205

12

408

OE

00

116

910

20

50

01

324

115

20

131

01

51

217

27

74

01

21

01

11

32

810

124

9

ON

00

20

132

713

00

01

11

13

013

22

02

15

04

38

810

31

11

12

30

892

110

3

OU

00

21

39

434

32

216

1218

72

50

05

119

2114

580

462

95

23

10

34

31

360

12

392

P0

056

512

157

703

301

84

82

316

015

40

01

123

717

70

54

53

144

60

51

03

066

9

R0

06

5941

327

188

143

2925

6714

4211

844

33

747

115

287

4012

665

281

53

2511

193

366

5442

585

21

79

0

S0

01

43

83

114

42

106

363

64

45

03

35

213

45

11

39

51

289

52

220

611

932

8

T0

017

816

2819

1536

522

46

3926

478

1210

129

43

1919

65

3815

522

1056

11

61

714

52

54

55

840

U0

03

118

619

53

711

429

126

22

126

63

1817

227

683

215

60

114

35

64

314

128

126

564

1

UI

00

90

41

40

01

111

22

23

166

00

26

32

00

10

00

20

129

44

40

06

280

54

UN

00

345

36

00

02

00

00

00

216

01

11

010

22

15

01

20

08

67

013

100

53

V0

06

810

37

61

150

259

988

1411

315

42

014

62

612

82

99

08

46

80

710

6226

4

W0

02

00

429

15

08

04

71

10

31

310

010

018

382

81

40

00

31

90

20

010

6

Y0

02

012

541

36

100

118

61

714

03

1110

32

231

24

92

135

710

15

32

13

92

015

700

Z0

00

01

14

03

22

81

140

23

52

00

10

01

00

210

73

22

010

21

41

00

93

Ins

00

9114

212

812

112

457

4060

2415

390

8725

9610

553

3853

4050

102

6110

911

270

5677

8487

2954

4699

130

40

Conclusion générale etperspectives

Conclusion

Cette thèse se rapporte à la synthèse vocale par corpus et s’intéresse plus particulièrementà la segmentation automatique de la parole.

De plus en plus de systèmes intègrent un module de synthèse vocale (par corpus le plussouvent) et la demande en parole synthétique naturelle a fortement augmenté. Par consé-quent, obtenir une qualité de la parole synthétique naturelle est devenu un objectif capital.Or, cette qualité dépend fortement de la précision de la segmentation des grands corpus deparole utilisés pour faire fonctionner la synthèse vocale.Malheureusement, à ce jour, il estdifficile d’obtenir une segmentation automatique très précise. Des vérifications manuellescoûteuses et très longues de cette segmentation doivent être alors effectuées. Pour arriver àrépondre au besoin de parole synthétique naturelle et de création rapide de voix de synthèse,il est devenu nécessaire de chercher une méthode automatique de segmentation très précise,approchant ainsi la segmentation manuelle.

L’objectif principal de cette thèse est de combiner des mesures locales à des algorithmesplus globaux afin d’obtenir un taux de segmentation correcte(TSC) élevé à 20 ms.

Pour répondre à cet objectif, nous avons traité trois problèmes spécifiques : l’améliora-tion de la précision à 20 ms de la segmentation issue de l’approche standard par HMM, ladétection des erreurs d’une segmentation et la détection etcorrection des erreurs de phonéti-sation.

Le traitement de ces problèmes, nous a amené à acquérir des connaissances dans desdomaines très différents : synthèse vocale, segmentation automatique, méthodes de fusiondes scores, techniques de fusion des segmentations et mesures de confiance.

Pour la segmentation automatique, nous avons analysé plusieurs algorithmes, à savoir lasegmentation par HMM, l’algorithme de Brandt et le post-traitement par modèle de frontière.Cette analyse a montré que ces algorithmes détectent des types de transitions différents etnous a permis de mettre en oeuvre une solution à la fois simpleet générique.

Cette solution cherche à estimer la marque de segmentation entre deux phonèmes à partird’une combinaison linéaire des instants de cette marque fournis par plusieurs algorithmesde segmentation. Cette combinaison utilise des poids calculés avec une fonction de pondé-ration, une sélection des marques donnée et un type de score.Chaque choix de ces éléments

142 CONCLUSION GÉNÉRALE ET PERSPECTIVES

détermine ce que l’on a appelé une méthode de fusion.

Pour évaluer cette approche, nous avons appliqué plusieursméthodes de fusion aux troisalgorithmes de segmentation cités précédemment. Ces méthodes sont issues de l’utilisationdu taux de segmentation correcte (TSC) à 20 ms, de deux types de sélection (totale ou par-tielle) et de trois types de supervision (uniforme, dure et douce). La supervision douce, elle,fait intervenir trois fonctions de pondération.

Les tests appliqués sur un corpus français et un corpus anglais dédiés à la synthèse vo-cale mettent en évidence de meilleures performances pour lasélection totale et la supervisiondouce. Le TSC de la segmentation produite parla fusion optimale par supervision douce(cf.chapitre 4) utilisant un corpus d’apprentissage de taille très restreinte (300 phrases) est de94.92% pour le corpus français et de 94.77% pour le corpus anglais. Les résultats des testsévaluant la qualité de la parole synthétique avec le test subjectif MOS et avec une mesureobjective montrent que la qualité obtenue avec la segmentation issue de cette approche de fu-sion s’améliore en comparaison avec celle obtenue avec la segmentation standard par HMM.

Pour détecter les erreurs de segmentation, nous avons proposé un test de décision quipermet de détecter pratiquement 75% des marques de segmentation qui sont à plus de 50 msdes marques manuelles tout en réduisant le temps de correction manuelle de 70%. Ce test estbasé sur trois mesures de confiance. Deux de ces mesures sont déduites de l’algorithme deBrandt et du post-traitement par modèle de frontière. La troisième est une mesure proposéepar [122] qui permet de détecter les erreurs grossières sur les durées des phones. Les testssu la qualité de la parole synthétique, ont permis de voir qu’après correction manuelle deserreurs de segmentation détectées (c’est-à-dire 75% du nombre total d’erreurs), nous amé-liorons la qualité de la parole et approchons celle obtenue avec la segmentation manuelle.En particulier, pour le corpus français, une correction manuelle des erreurs restantes s’avèreinutile. Dans cette même partie, quand on veut corriger manuellement les erreurs résiduellesaprès la détection automatique des erreurs de segmentationavec le test de décision que nousavons proposé dans le chapitre 3, nous avons montré qu’il reste préférable de partir de lasegmentation par fusion que de la segmentation par HMM.

En ce qui concerne le problème de la phonétisation automatique, nous avons présenté unsystème de correction des erreurs de substitution, d’omission et d’insertion de cette phoné-tisation. Un tel système est basé sur l’emploi d’une mesure de confiance pour détecter leserreurs de phonétisation et sur un décodage acoustico-phonétique. Ce système initialementprésenté dans [114], a été amélioré en proposant plusieurs grammaires : 4 dédiées à unephonétisation erronée quelconque et une dernière adaptée àl’emploi d’une phonétisation ob-tenue avec un phonétiseur automatique. Nous avons validé cesystème sur la segmentationstandard par HMM : nous avons utilisé une phonétisation produite par la perturbation de laphonétisation que nous supposons correcte ; nous avons utilisé les 4 grammaires dédiées àune phonétisation erronée quelconque. Au regard des meilleurs résultats de taux de phoné-tisation correcte, il apparaît que le système de correctionconverge après quelques itérationsen corrigeant environ 32% des erreurs de phonétisation.

À l’issue de ce document, nous décrivons des axes de recherche possibles en prolonge-ment de ce travail.

CONCLUSION GÉNÉRALE ET PERSPECTIVES 143

Perspectives

Une approche par fusion pour la segmentation automatique dela parole

Les résultats de l’approche par fusion de segmentations produites par différents algo-rithmes sont très encourageants en termes du taux de segmentation correcte à 20 ms et de laqualité de la parole produite avec le système de synthèse vocale.

Pour obtenir ces résultats, il a fallu choisir les algorithmes à fusionner, choisir des scoresparticuliers, trouver une méthode de sélection des marqueset considérer une supervisionparticulière associée à une fonction de pondération donnée. Ces choix ne sont ni définitifsni optimaux : on peut penser qu’il est possible d’obtenir de meilleurs résultats avec d’autresfonctions de pondération, d’autres scores, d’autres méthodes de sélection des marques oud’autres algorithmes à fusionner.

Dans cette thèse, nous avons utilisé des modèles dédiés à la détection des frontières(comme ceux utilisés dans le post-traitement par modèle de frontière), ces modèles étant plusprécis que les HMM. On peut songer à étendre la démarche aux modèles récents tels que lesDBN [48, 113] (Dynamic Bayesian Network) et les STM [60, 121](Statistical TrajectoryModel). Les réseaux bayésiens sont des modèles généralisant les HMM qui sont capables demodéliser plus fidèlement la parole et les modèles stochastiques de trajectoires modélisentla trajectoire du signal dans l’espace fréquentiel ou cepstral. Sachant que nous n’avons pasde contraintes de temps d’exécution de la segmentation, le recours à ce genre de modèlessemble être raisonnable.

De plus, on peut compléter l’étude de la fusion des trois algorithmes étudiés dans lechapitre 3 comme suit. On peut choisir d’autres scores commele taux d’erreur à 20 ms etd’autres fonctions de pondération. Il est également important de mener des tests subjectifsplus complets afin de comparer la qualité issue de la meilleure méthode de fusion avec lesqualités obtenues avec chacun des algorithmes et de l’étudier sur d’autres corpus français etanglais et sur des corpus d’autres langues.

Pour pouvoir évaluer le caractère générique de la solution du chapitre 4 dédiée à la fusionde segmentations, il conviendrait de l’appliquer à d’autres algorithmes de segmentation queceux étudiés dans ce travail. Cependant, cette approche estd’autant plus efficace que lesalgorithmes sont complémentaires (dans le sens où ils détectent des classes de transitiondifférentes). Cependant, même si le nombre d’algorithmes n’est pas problématique car ontravaille en temps différé, le temps d’exécution doit rester inférieur à celui nécessaire pourla segmentation manuelle. Certains algorithmes de segmentation pouvant être choisis sontprésentés au chapitre 2. Notons que même les algorithmes de segmentation qui produisentdes insertions et des omissions peuvent être utilisés en lesadaptant, comme nous l’avonsfait pour l’algorithme de Brandt. Il serait également intéressant de tester l’efficacité de lasélection partielle par critère de distance quand le nombrede segmentations fusionnées estsupérieur à 3.

Lors du calcul des TSC et des notes moyennes de la qualité de laparole synthétique, unprocédé plus rigoureux peut être établi. Il s’agit d’utiliser des intervalles de confiance. Unintervalle de confiance nous permettra de voir si nos résultats de l’approche de fusion sontstables et de comparer plus finement deux algorithmes de segmentation. Dans le cadre de ce


travail, nous n’avons pas pu effectuer cette étape car le nombre d’expériences faites durantcette thèse est déjà conséquent avec seulement 3 tests pour chaque validation croisée. Or,pour pouvoir calculer des intervalles de confiance de tailleraisonnable, il faut au moins 20tests pour chaque validation. Notons que le calcul de l’intervalle de confiance peut se faire,comme de manière usuelle, en utilisant un t-test.

Dans tout ce travail de recherche, nous nous sommes intéressés à des corpus non bruitésenregistrés dans des conditions parfaites, mono-locuteurs et dédiés à la synthèse vocale. Unedes perspectives importantes de ce travail est d’étudier sicette approche pourrait être utiliséepour segmenter des corpus bruités et des corpus multi-locuteurs. Cela permettrait d’étendreles domaines d’application de cette approche à par exemple la reconnaissance vocale. Eneffet, pour effectuer la reconnaissance vocale par HMM, nous avons besoin de corpus seg-mentés préalablement afin d’effectuer l’apprentissage desmodèles. Généralement, ces cor-pus sont de taille importante, multi-locuteurs et bruités.La taille de ces corpus est grande carpour permettre un bon apprentissage des modèles, ces corpusdoivent contenir des phrasesprononcées par plusieurs locuteurs, chaque ensemble de phrases d’un locuteur doit contenirà son tour plusieurs réalisations des unités de la parole (phonèmes par exemple) de la languetraitée. Ces corpus d’apprentissage sont souvent bruités car les conditions d’enregistrementde ces corpus doivent ressembler aux conditions de l’environnement dans lequel le systèmede reconnaissance vocale opère. Pour effectuer la segmentation de ce type de corpus aveccette approche, nous pensons que l’étude doit se focaliser particulièrement sur le choix desalgorithmes de segmentation à fusionner. En particulier, il serait judicieux de choisir desalgorithmes robustes au bruit. Dans cette étude, il faut s’intéresser également à la taille ducorpus d’apprentissage segmenté manuellement utilisé pour effectuer les segmentations àfusionner ou pour calculer les scores. Dans l’application aux corpus dédiés à la synthèse vo-cale, ce corpus d’apprentissage devrait contenir au moins 300 phrases. Cependant, avec lescorpus multi-locuteurs, cette taille pourrait être insuffisante car le corpus devra contenir desphrases prononcées par plusieurs locuteurs.

Détection des erreurs de segmentation

Le test de décision proposé pour détecter les erreurs de segmentation correcte a été éva-lué sur les deux corpus, l’un français et l’autre anglais, etpour la détection des erreurs deplus de 20 et 50 ms. Une étude de ce test peut être menée sur d’autres corpus dédiés à lasynthèse vocale. De plus, des tests subjectifs pour évaluerla qualité de la parole utilisant lasegmentation automatique suivie de la correction manuelledes erreurs détectées par ce testpeuvent être également réalisés. Ces tests subjectifs doivent comparer cette qualité à celletrouvée avec les méthodes de segmentation étudiées dans ce travail.

Un des travaux complémentaires pouvant être également accompli est d’évaluer ce testde décision sur des corpus enregistrés dans un milieu bruité. Cela permettra de savoir si cetteméthode est robuste au bruit. Une des trois mesures sur lesquelles est basé ce test a déjà ététestée sur des corpus bruités [122].


Correction des erreurs de phonétisation

En ce qui concerne la correction des erreurs de phonétisation, nous avons proposé plu-sieurs grammaires pour améliorer le décodage acoustico-phonétique employé dans le sys-tème de correction de la phonétisation proposé dans [114]. Certaines de ces grammaires ontété testées sur une phonétisation qui n’est pas produite parun phonétiseur automatique. Laraison en est la suivante. La phonétisation manuelle et la phonétisation automatique sont trèsproches. En effet, lors de l’enregistrement du corpus, le locuteur avait pour consigne de res-pecter au mieux la phonétisation automatique. Donc, la phonétisation automatique devient àquelques erreurs près une phonétisation manuelle. Pour cette raison, il peut être intéressant detester les grammaires, déjà étudiées, sur des corpus dont nous possédons une véritable pho-nétisation automatique (produite par un phonétiseur) et une réelle phonétisation manuelle.Sur ces corpus, nous pouvons tester également la grammaire appeléeGram0qui utilise desconnaissancesa priori sur le phonétiseur automatique.

Il peut également être intéressant d’appliquer ce système de correction sur la segmen-tation résultant de notre approche de fusion lorsque la phonétisation d’origine est erronée.Dans ce cas, les modèles HMM requis par la mesurenFLPP seront appris sur un corpusd’apprentissage segmenté manuellement, ce qui n’est pas lecas avec la segmentation stan-dard par HMM. Lors des itérations du système de correction, nous pensons que ces modèlesne doivent pas être réappris sur la nouvelle segmentation obtenue avec le décodeur acoustico-phonétique puisque cette segmentation contient des erreurs dues aux erreurs de phonétisationet, dans tous les cas, elle est moins précise que la segmentation manuelle.

La nature des erreurs engendrées par le décodage acoustico-phonétique et le fait quecertaines erreurs de phonétisation issues d’un phonétiseur automatique sont des cas difficilespour le décodeur, nous laissent penser qu’une méthode de correction évitant tout décodageou minimisant son rôle pourrait être une piste intéressante. L’idée que nous proposons etqui n’a pas pu être testée lors de cette thèse est d’analyser s’il est possible de caractériserles types d’erreurs en fonction des valeurs de la mesurenFLPPdu segment concerné et dessegments voisins. Ensuite, une correction basée sur cette caractérisation, utilisant ou non ledécodage, peut être entreprise. Par exemple, supposons quel’étude de la caractérisation deserreurs aboutisse aux conclusions suivantes. Lorsqu’il y aune substitution, une seule valeurde la mesure (celle du segment où se trouve l’erreur) est inférieure à un seuil ; une insertion setraduit par des valeurs de mesures associées au segment inséré et aux deux voisins inférieuresà un seuil ; enfin les omissions sont caractérisées par des valeurs de la mesure inférieures àun seuil pour les segments entre lesquels l’omission est commise. Une stratégie de correctionserait alors la suivante. Soit un signal de parole, on calcule dans un premier temps les valeursde la mesurenFLPPpour chaque segment. Ensuite, on peut déterminer pour chaque erreurlocalisée avec la mesure de confiance, sa nature suivant les règles et les seuils déterminésdurant l’étude de la caractérisation des erreurs. Après cette phase de détermination des typesd’erreurs, nous pouvons corriger en utilisant par exemple un décodage très localisé avec unegrammaire dédiée au type de l’erreur déterminé.


Système complet pour la phonétisation et la segmentation degrands cor-pus

Nous avons proposé, dans ce travail, une solution à chacun des trois problèmes suivants :l’amélioration de la segmentation par HMM, la détection deserreurs de segmentation et lacorrection des erreurs de phonétisation.

Une perspective serait d’associer ces trois solutions dansun système capable de produire,pour de grands corpus, une segmentation et une phonétisation fiables. L’objectif est de ré-duire, voire d’éliminer les corrections manuelles de la segmentation et de la phonétisationcar celles-ci sont coûteuses et lourdes. Un système qui nousparaît remplir cet objectif estcelui de la figure 6.11.

Phonétisation automatique initiale

Segmentationautomatique

Correction automatique

de la phonétisation

Segmentation automatique finale

Phonétisation automatique finaleFacultatif

Détection des erreursde segmentation

Vérification manuelle

Segmentation finale

Figure 6.11 —Système pour la segmentation et la phonétisation de grands corpus

Ce système est composé de trois modules de traitement. Le premier s’occupe de la seg-mentation automatique. Le deuxième détecte et corrige les erreurs de phonétisation. Enfin,le troisième a pour but de détecter les erreurs de la segmentation pour corrigera posteriorices erreurs, manuellement ou automatiquement. Ce troisième module est facultatif car il dé-pend du besoin de l’application en précision de la segmentation. Si l’application est sensiblequant à la précision de la segmentation alors il est préférable d’employer cet élément. À partquelques étapes d’apprentissage nécessitant la segmentation manuelle d’un petit corpus, lestrois éléments sont exécutés automatiquement.

Le fonctionnement de ce système est le suivant. Partant d’une phonétisation erronée don-née (typiquement la phonétisation générée par un phonétiseur automatique), nous cherchonsà trouver la segmentation associée à cette phonétisation. Pour cela, nous appliquons notreapproche de fusion. Cette approche consiste, dans un premier temps, à construire les troissegmentations, cohérentes avec la phonétisation d’entrée, issues de l’approche par HMM, du


post-traitement par modèle de frontière et de l’algorithmede Brandt et ensuite à fusionnerces trois segmentations avec la supervision douce.

La segmentation résultante de la fusion et la phonétisationinitiale sont transmises aumodule decorrection de la phonétisationafin de produire une phonétisation plus exacte.Les étapes précédentes forment une passe du traitement itératif englobant les fonctionnalitéssuivantes : la segmentation par fusion et la correction de laphonétisation.

Pendant la deuxième itération, la phonétisation corrigée est utilisée pour améliorer la seg-mentation. Cette nouvelle phonétisation permet de créer trois nouvelles segmentations avecl’approche par HMM, le post-traitement par modèle de frontière et l’algorithme de Brandt.On fusionne ensuite les trois nouvelles segmentations en suivant la même méthode que celleutilisée lors de l’itération précédente. Comme pour la première itération, la correction de laphonétisation est effectuée sur la nouvelle segmentation obtenue par fusion et sur la nouvellephonétisation.

Le traitement itératif est répété jusqu’à ce qu’un critère d’arrêt soit satisfait. Par exemple,le traitement pourrait s’arrêter quand la séquence phonétique du corpus est la même que celleobtenue à l’itération précédente.

Quand ce traitement se termine, la segmentation automatique finale peut être obtenueen sortie du module dédié à la segmentation. La phonétisation automatique finale, elle, estrécupérée en sortie du module de correction de la phonétisation.

Nous complétons le système par une dernière partie automatique mais qui peut réduireénormément les efforts humains lors de la tâche de correction manuelle. En effet, ce compo-sant prend en entrée la segmentation automatique finale et détecte les erreurs de segmentationqui sont supérieures àε ms grâce au test de décision proposé au chapitre 5. Enfin, notonsqu’on pourrait envisager en aval une correction automatique des erreurs de segmentationpour remplacer la correction manuelle.

Vers une segmentation par diphones

Dans ce travail de recherche, nous nous sommes intéressés à la segmentation phonétiquemême si l’application finale est la synthèse vocale par concaténation de diphones. En effet,dans le cadre de cette application, la segmentation qui nousintéresse est la segmentationpar diphones et non pas par phonème. Dans notre cas, nous déduisons la segmentation pardiphones en faisant l’hypothèse que la moitié de la partie stable correspond à la moitié duphonème sauf pour certaines classes comme les plosives. Cette hypothèse, même si elle n’estpas correcte pour tous les sons, est raisonable dans le contexte étudié durant cette thèse,dans le sens où la déduction de la segmentation par diphones de la segmentation phonétiquemanuelle permet de garantir une bonne qualité de la parole synthétique. Une autre raisonrendant cette hypothèse acceptable dans le contexte considéré dans ce travail est que nousavons utilisé des corpus enregistrés sous contraintes. Or,avec le défi actuel d’utiliser descorpus spontanés et riches en expressivité, cette hypothèse risque de devenir fausse pourla plupart des sons. Nous préconisons dans ces conditions des’orienter vers des méthodesde segmentation consistant à chercher directement les marques de diphones sans passer parles marques de phonèmes. Ces méthodes seront basées sur la détection des parties stables.À notre connaissance, l’utilisation de ce type de méthodes pour la synthèse vocale est un


axe de recherche encore peu exploité mais mérite à notre sensune plus grande attention.En effet, la mise en œuvre de méthodes efficaces de segmentation par diphones ne pourraitqu’élargir le champ d’applications de la synthèse vocale etaméliorer la qualité de la paroleainsi produite.

ANNEXE

A AMREC

A.1 Description

L’analyse multi-résolution de l’enveloppe complexe d’un signal, que nous proposons, estune généralisation de l’AMR usuelle. L’AMR usuelle et la décomposition de Mallat n’ana-lysent que les basses fréquences du signal. D’autre part, les décompositions en paquets d’on-delettes et en ondelettes de Malvar ne sont pas adaptées à uneanalyse locale autour d’unefréquence arbitrairement choisie par l’utilisateur. Il est pourtant simple d’étendre l’AMR demanière à analyser un signal et de mettre en évidence la présence ou non d’énergie autourd’une fréquenceν0 arbitraire. Il suffit en effet d’appliquer une AMR sur l’enveloppe com-plexe du signal associée àν0. Par construction, les coefficients en sortie de cette AMR sontdes valeurs complexes. Soith0 le filtre passe-bas associé à la fonction d’échelle de l’AMR.Un premier filtrage de l’enveloppe complexe parh0 récupère la tendance globale du signal.Après sous-échantillonnage par 2, un deuxième filtrage parh0 est effectué sur cette tendanceet ainsi de suite jusqu’à ce que la résolution choisie soit atteinte. Les paramètres de cette mé-thode sont donc la fréquenceν0, la résolution (ou niveau de décomposition)p, et la régularitér du filtre passe-bas. Le fonctionnement de l’AMREC est résumésur le schéma A.1.

Déphaseur 90

s(n)

isH(n)

+

e−i2πν0t

sa(n) se(n)h0 ↓ 2 h0 ↓ 2 . . .

sH(n) : nèmeéchantillon de la transformée de Hilbert des(t)sa(n) : nèmeéchantillon du signal analytique des(t)se(n) : nèmeéchantillon de l’enveloppe complexe des(t)

Figure A.1 — Fonctionnement de l’AMREC.

La régularité ne doit être ni trop faible, ni trop forte. En effet, si r est faible, le filtreh0

sera peu sélectif en fréquence ; sir est grand, le filtrage risque d’amalgamer des phénomènesphysiques qu’on souhaiterait justement séparer. Par exemple, pour les filtres de Daubechies,la longueurL de la réponse impulsionnelle est égale à 2r +1.

150 ANNEXE A : AMREC

Plus la résolution est élevée, meilleure est la localisation fréquentielle. Bien évidemment,une bonne localisation fréquentielle entraîne une mauvaise localisation temporelle selon leprincipe classique d’Heisenberg. Le choix deν0, p, et r résulte donc d’un compromis lié àl’application.

L’AMREC [76] est aussi une extension de l’algorithme “Mallat-Modulation” décritdans [98]. En effet, Mallat-Modulation analyse seulement la partie réelle de l’enveloppecomplexe et ne prend pas en compte la partie imaginaire. Pourconserver toute l’informationsur le signal, nous préférons travailler sur l’enveloppe complexe. Cependant, comme pour“Mallat-Modulation”, cette analyse est de complexité linéaire et facile à mettre en oeuvre. Deplus, les propriétés de l’analyse “Mallat-Modulation” pour une large classe de bruits corrélés(voir [120]) restent aussi vraies pour l’AMREC. Autrement dit, les coefficients à la sortie del’AMREC d’un bruit coloré tendent à être décorrélés lorsquela résolution augmente.

A.2 Application à la segmentation de la parole

Comme nous l’avons mentionné dans la section précédente, l’AMREC est une analyselocale de la présence d’énergie du signal autour d’une fréquence choisie par l’utilisateur.Comme dans [98], l’AMREC peut être utilisée pour analyser lesignal de parole dans troiscanaux : un canal de basses fréquences, un autre pour les fréquences intermédiaires et undernier pour les hautes fréquences. À partir des coefficients en sortie de l’AMREC dans cestrois canaux, on peut identifier certains traits acoustiques, segmenter le signal de parole, oucombiner identification et segmentation de manière à reconnaître certains phonèmes.

Pour l’identification des traits acoustiques, la répartition énergétique d’une trame donnéedans ces trois canaux permet de déterminer la classe acoustico-phonétique à laquelle cettetrame appartient parmi celles du tableau A.1. Dans ce tableau, chaque classe est caractériséepar deux indices forts et un indice faible. Seuls les indicesforts permettent de prendre unedécision quant au phénomène analysé. Les deux indices fortssont l’indice de préférence etl’indice d’exclusion. Par exemple, pour décider que la trame appartient à la classe{S,CH},il faut détecter de l’énergie enHF (indice de préférence) et ne pas détecter d’énergie enBF(indice d’exclusion).

Pour effectuer la segmentation de la parole, les modules descoefficients de l’AMRECsont seuillés dans chacun des canaux. Grâce à ce seuillage, on réalise des segmentationstemporellesHF, BF et MF. Ces segmentations sont ensuite fusionnées afin d’obtenir la seg-mentation acoustico-phonétique du signal de parole.

Par exemple, la figure A.2 représente les modules des coefficients à la sortie de l’AMRECd’une phrase de parole échantillonnée à 16 kHz et analysée autour des trois fréquences :150,4000 et 7000 Hz. Ce choix résulte de l’analyse de quelques spectrogrammes de signauxde parole issus de la base de données que nous traitons. Il n’est pas strict et c’est l’ordre degrandeur de chacune de ces fréquences qui importe : les fréquences de l’ordre de 150 Hzsont dédiées à la détection des phénomènes voisés ; la présence d’énergie autour de 7000 Hzrévèle les phénomènes fricatifs non voisés ; le canal dont lafréquence centrale est 4000 Hzpermet de compléter la segmentation acoustico-phonétiquecomme nous allons le voir danscet exemple.

Section A.2 :Application à la segmentation de la parole 151

Tableau A.1 —Indices forts et indices faibles caractérisant les classesacoustico-phonétiques.

groupe indice de préférence indice d’exclusion indice faibleVoyelles Détection BF ou MF Détection HF[S] [CH] Détection HF Détection BF Détection MF

Plosives non voisées Détection HF, BF ou MF[F] Détection HF Détection BF ou MF ou HF

Fricatives voisées Détection BF Détection HF ou MFPlosives voisées Détection BF Détection HF Détection MF

Consonnes sonnantes Détection HF Détection BF ou MF

La résolution et la régularité du filtre sont fixées à 6 (choix classiques dans la parole). Onannule les coefficients dont le module est inférieur à un seuil de manière à mettre en évidenceles phénomènes significativement énergétiques.

À ce stade là, la difficulté est le choix des seuils. Si le corpus a été enregistré dans desconditions optimales, on peut se permettre de choisir les seuils de manière empirique surla base de quelques phrases ; on peut aussi envisager un apprentissage sur une petite partiedu corpus segmenté manuellement en classes acoustico-phonétiques présentées dans le ta-bleau A.1. Si le corpus est bruité, on peut utiliser les méthodes dédiées proposées dans [98].

En présence de bruit, les seuils peuvent être choisis comme proposé dans [98] mais,en absence de bruit, la méthode décrite dans [98] n’est plus applicable. Pour contourner ladifficulté, il est conseillé de procéder par apprentissage afin de calculer les seuils associésaux canauxBF, MF et HF.

Pour l’heure, contentons-nous d’un exemple afin d’illustrer comment procéder pour fu-sionner les segmentations obtenues dans les trois canaux fréquentiels proposés. La figure A.2représente les modules des coefficients à la sortie de l’AMREC d’une phrase de parole échan-tillonnée à 16 kHz. Pour chaque canal, on annule les coefficients dont le module est inférieurà un seuil de manière à mettre en évidence les phénomènes significativement énergétiques.Après seuillage, les segmentations sont celles de la figure A.3. Elles représentent simulta-nément la segmentation en phénomènesBF, MF, et HF. Pour fusionner ces segmentations,on propose de procéder comme suit. On superpose les marques des trois segmentations. En-suite, tant que l’on a des segments de moins de 10 ms dont les frontières sont issues desegmentations dans des bandes de fréquences différentes, on applique ces trois règles :

– si l’une des frontières estHF et l’autre estBF, on ne conserve que la marque obtenuepar la segmentationBF ;

– si l’une des frontières estHF et l’autre estMF, on conserve seulement la marqueHF ;– si l’une des frontières estBF et l’autre estMF, c’est la marqueBF qui l’emporte ;– si les deux frontières sont issues de la même segmentation,on ne fait rien.

En d’autres termes, on considère que les marquesBF sont plus précises que les marquesHF et que les marquesHF sont aussi plus précises que les marquesMF. Notre démarche sejustifie par le fait que les phénomènesBF sont plus énergétiques que les phénomènesHFqui, eux-mêmes, sont plus énergétiques que les phénomènesMF. Le résultat de la fusion estreprésenté sur la figure A.4.

152 ANNEXE A : AMREC

Figure A.2 — Modules des coefficients de l’AMREC enBF, HF, etMF.

Figure A.3 — SegmentationsBF, HF et MF d’une phrase avec l’AMREC.

Figure A.4 — Segmentation en classes acoustico-phonétiques.

ANNEXE

B Taux de SegmentationCorrecte (TSC)

SoientU = {U1,U2, . . . ,Un} les instants des marques produites par un algorithme desegmentation automatique, etV = {V1,V2, . . . ,Vp} les instants des marques d’une référencedont on dispose.

Nous construisons la listeVU = (Vk1, . . . ,Vkn) tels quek j est l’indice dans 1, . . . , p etVk j

la marque la plus proche deU j . Donc chaque élément deU est relié à un élément deV.

À partir deVU nous pouvons localiser les insertions et les omissions. En effet, on définitles omissions comme les instantsVℓ qui n’appartiennent pas à la listeVU , oùℓ ∈ {1, . . . , p}.

Pour les insertions, on regarde les éléments répétés dansVU . Si VU contientm fois lamême marqueVℓ par exemple, le nombre d’insertions autour deVℓ estm−1.

Supposons que lesm marques deU correspondant auxm marques Vℓ sont(U j , . . . ,U j+m−1), la marque la plus proche de ce vecteur àVℓ est considérée comme lamarque non insérée. Les autresm−1 marques représentent les insertions autour deVℓ.

On applique cette technique pour toutℓ tel queVℓ est répété dansVU afin de localisertoutes les insertions.

Ainsi, avec ce principe, une segmentation dont le nombre de segments est le même quepour la référence, peut avoir des omissions et des insertions. La figure B.1 montre le fonc-tionnement de cette méthode sur un exemple.

Après la localisation des erreurs de segmentation, on peut définir les critères suivantspour évaluer un algorithme de segmentation : le taux d’insertion, le taux d’omission et letaux de segmentation correcte.

Les taux d’insertion et d’omission sont respectivement définis par

Ti = 100ni

p+niet To = 100

no

n+no,

où ni est le nombre total d’insertions etno est le nombre total d’omissions. Le taux de seg-mentation correcte (TSC) qui est utilisé dans ce document est celui classiquement défini dansle cas oùp = n par 100

p ∑pj=1 I[0,ε](|Vj −U j |), où I[0,ε](x) est l’indicatrice de l’intervalle[0,ε].

IA(x) = 1 quandx appartient à l’intervalle A etIA(x) = 0 sinon.

154 ANNEXE B : TAUX DE SEGMENTATION CORRECTE(TSC)

Figure B.1 — Localisation des omissions et des insertions sur un exemple.

ANNEXE

C Efficacité des algorithmesde segmentation sur lecorpus français

Tableau C.1 —Pour chaque couple de classes phonétiques du français, on présente le nombredes erreurs de segmentation dépassant 20 ms et le taux d’erreur à 20 ms pour la segmentationpar HMM. Les zones rouges représentent les couples de classes phonétiques pour lesquellesl’approche par HMM est l’algorithme de segmentation le plusadapté parmi les trois étudiésdans le chapitre 3. Ces zones sont également représentées dans le tableau 3.6 (voir ce tableau

pour la nomenclature).


Vv 1016/34.9 180/22.3 19/48.7 136/1.71 866/4.82 162/1.76 67/0.59 98/1.05 2277/10.4 241/26.40 656/42.5 942/39.5

Vn 143/20.9 106/56.3 9/32.14 264/8.54 393/7.84 20/1.92 16/0.55 87/6.93 51/5.56 8/42.1 133/16.2 301/25.9

Diph 12/21.0 3/15.0 1/100.00 2/2.86 73/27.1 4/3.74 1/0.75 1/2.13 30/30.3 19/46.3 48/81.3 34/43.5

Cpv 179/1.72 38/3.13 11/7.19 42/35.59 48/44.4 15/7.39 27/22.8 10/8.33 176/8.48 57/11.1 90/93.7 169/97.7

Cps 33/0.19 8/0.27 4/1.97 83/21.1 93/9.72 12/10.5 73/7.04 29/8.26 251/4.2 9/1.45 162/30.2 232/34.9

Cfv 188/2.40 25/1.40 5/8.62 6/2.58 58/35.80 4/6.67 23/22.1 1/0.37 29/6.9 80/8.37 151/56.5 214/63.1

Cfs 2/0.02 0/0.00 1/0.61 17/5.26 264/12.05 7/11.6 63/20.6 24/11.88 92/12.80 18/0.81 77/20.2 148/30.5

Cn 397/4.49 135/6.76 14/32.5 50/10.9 132/32.6 13/10.2 20/6.43 43/21.2 29/14.4 204/18.4 164/55.2 213/63.7

Cl 967/4.75 83/3.44 81/28.8 56/3.32 165/7.76 37/4.70 68/3.9 121/7.60 128/12.23 124/12.7 361/34.2 636/38.7

Csv 1173/24.7 334/15.3 2/100.0 9/11.4 12/23.1 4/30.77 3/7.32 5/11.90 11/27.5 3/75.0 49/77.7 93/71.54

Pau 9/0.62 3/0.81 0/0.0 31/6.55 489/61.6 29/9.45 24/3.38 4/0.91 43/7.73 1/16.67 0/100.0 0/100.0

Sil 16/0.82 3/0.56 0/0.00 22/5.26 411/58.4 30/6.51 41/3.86 4/0.88 29/1.61 2/22.2 0/100.0 0/100.0

156 Efficacité des algorithmes de segmentation

Tableau C.2 —Pour chaque couple de classes phonétiques du français, on présente le nombredes erreurs de segmentation dépassant 20 ms et le taux d’erreur à 20 ms pour le post-traitement par modèle de frontière. Les zones rouges représentent les couples de classesphonétiques pour lesquelles le post-traitement par modèlede frontière est l’algorithme desegmentation le plus adapté parmi les trois étudiés dans le chapitre 3. Ces zones sont égale-

ment représentées dans le tableau 3.6 (voir ce tableau pour la nomenclature).


Vv 834/28.6 168/20.8 20/51.2 175/2.20 802/4.47 182/1.98 114/1.01 101/1.08 2087/9.52 217/23.7 536/34.7 829/34.8

Vn 133/19.5 82/43.6 21/75.0 280/9.06 334/6.66 23/2.20 13/0.45 79/6.29 82/8.94 7/36.8 137/16.7 371/31.9

Diph 20/35.1 3/15.0 1/100.0 4/5.71 76/28.2 10/9.35 3/2.24 1/2.13 28/28.3 15/36.6 41/69.5 39/50.0

Cpv 206/1.98 27/2.23 14/9.15 68/57.6 60/55.5 33/16.2 17/14.4 11/9.17 170/8.19 66/12.8 68/70.8 145/83.8

Cps 79/0.47 21/0.70 6/2.96 80/20.3 86/8.99 31/27.2 73/7.04 28/7.98 186/3.17 13/2.10 153/28.5 221/33.3

Cfv 172/2.20 12/0.67 17/29.31 24/10.30 49/30.25 28/46.6 39/37.5 4/1.48 24/5.78 87/9.10 75/28.1 109/32.1

Cfs 18/0.18 4/0.15 0/0.00 37/11.4 84/3.84 23/38.33 63/20.66 24/11.8 66/9.18 23/1.03 75/19.74 111/22.9

Cn 327/3.70 65/3.25 16/37.2 72/15.8 60/14.85 13/10.24 3/0.96 75/36.95 37/18.4 187/16.89 74/24.92 124/37.13

Cl 808/3.97 111/4.60 98/34.88 103/6.11 95/4.47 23/2.92 50/2.94 83/5.21 172/16.43 124/12.74 275/26.1 476/28.97

Csv 1073/22.6 325/14.9 2/100.0 19/24.05 14/26.9 4/30.7 6/14.6 6/14.3 16/40.0 2/50.0 20/31.7 44/33.8

Pau 9/0.62 2/0.54 0/0.00 29/6.13 378/47.6 5/1.63 28/3.94 0/0.00 4/0.72 1/16.6 −−−− −−−−

Sil 8/0.41 3/0.56 0/0.00 18/4.31 275/39.1 12/2.60 32/3.02 2/0.44 11/0.61 1/11.1 −−−− −−−−

Tableau C.3 —Pour chaque couple de classes phonétiques du français, on présente le nombredes erreurs de segmentation dépassant 20 ms et le taux d’erreur à 20 ms pour l’algorithmede Brandt. Les zones rouges représentent les couples de classes phonétiques pour lesquellesl’algorithme de Brandt est l’algorithme de segmentation leplus adapté parmi les trois étudiésdans le chapitre 3. Ces zones sont également représentées dans le tableau 3.6 (voir ce tableau

pour la nomenclature).


Vv 794/27.3 230/28.5 16/41.03 98/1.23 941/5.24 197/2.14 105/0.93 77/0.82 2134/9.74 210/23.0 472/30.6 741/31.1

Vn 167/24.5 83/44.1 5/17.8 729/23.6 1118/22.3 19/1.82 4/0.14 53/4.22 77/8.40 3/15.8 174/21.2 463/39.8

Diph 23/40.3 4/20.0 0/0.00 1/1.43 45/16.7 7/6.54 3/2.24 0/0.00 30/30.3 19/46.3 25/42.3 39/50.00

Cpv 4564/43.9 467/38.5 84/54.9 27/22.8 29/26.8 89/43.8 45/38.1 44/36.6 779/37.5 346/67.3 39/40.6 74/42.7

Cps 9019/53.1 1496/49.7 84/41.3 57/14.5 138/14.4 39/34.2 445/42.9 101/28.7 3762/64.1 214/34.5 150/27.9 257/38.7

Cfv 263/3.36 19/1.07 6/10.3 4/1.72 15/9.26 9/15.00 10/9.62 9/3.32 15/3.61 107/11.2 52/19.4 69/20.3

Cfs 49/0.48 0/0.00 35/21.2 17/5.26 95/4.34 9/15.00 46/15.1 28/13.8 46/6.40 183/8.21 78/20.5 88/18.1

Cn 1418/16.04 199/9.96 23/53.5 75/16.4 89/22.03 13/10.2 3/0.96 42/20.7 38/18.9 268/24.21 79/26.6 100/29.9

Cl 1301/6.39 255/10.5 100/35.6 49/2.9 70/3.29 23/2.92 39/2.29 93/5.84 125/11.9 147/15.1 442/41.94 648/39.44

Csv 1328/28.0 625/28.6 1/50.0 3/3.80 5/9.62 2/15.3 0/0.00 3/7.14 7/17.5 2/50.0 28/44.4 38/29.2

Pau 4/0.28 2/0.54 0/0.00 41/8.67 617/77.7 6/1.95 65/9.14 14/3.18 9/1.62 0/0.00 0/100.0 0/100.0

Sil 4/0.21 2/0.37 0/0.00 27/6.46 538/76.5 9/1.95 119/11.2 2/0.44 56/3.11 1/11.1 0/100.0 0/100.0

ANNEXE

D Classes phonétiques descorpus français et anglais

Les tableaux D.1 et D.2 donnent les classes phonétiques connues, les étiquettes de cesphones dans nos bases de données, leur correspondance dans l’Alphabet Phonétique Inter-national (API), un mot de la langue contenant ce phone, sa nature voisée ou non voisée et lenombre d’occurrences existantes dans nos corpus de parole.

Tableau D.1: Classes courantes, étiquetage du corpus fran-çais, phonèmes API correspondant, contexte dans un motfrançais, voisement (1 : voisé et 0 : non voisé) et nombred’occurrence dans le corpus français.

Classes Étiquettes API Exemple VoisementNombre d’occurrence

dans le corpus

Plosives

P p porte 0 8324T t teinte 0 14154K k clé 0 8256B b bébé 1 2913D d dé 1 10658G g garage 1 1711

Fricatives

F f fenêtre 0 3730S s soeur 0 14620

Consonnes CH S chat 0 1428V v voisin 1 5362Z z zone 1 4372J Z garage 1 2743

Consonnes M m malade 1 6799nasales N n nez 1 7519

LiquidesL l lait 1 15947R ö rat 1 19706

Semi Y j tien 1 5220-Voyelles W w moi 1 2171

Voyelles Voyelles orales

A a,A pas 1 17967O O porte 1 2778

Suite page suivante

158 ANNEXE D : CLASSES PHONÉTIQUES DES CORPUS FRANÇAIS ET ANGLAIS


dans le corpusAU o gros 1 5787AI E paix 1 10016

Voyelles

Voyelles orales

EI e clé 1 10272EU ø deux 1 14093OE ÷ leur 1 1689I i li t 1 12543U y lu 1 5340

OU p cou 1 4267E � tante 1 1527

AN �A grand 1 8031Voyelles ON �O long 1 4980nasales IN �E lain 1 2875

UN �÷ brun 1 1244Diphtongue UI 4i lui 1 982

Silences de début# 0 14774Silences et de fin

Pauses ∧ 0 5113

Tableau D.2: Classes courantes, étiquetage du corpus an-glais, phonèmes API correspondant, contexte dans un motanglais, voisement et nombre d’occurrence dans le corpusanglais.


dans le corpus

Plosives

p p peace 0 7284t t tea 0 24941k k key 0 11500b b bee 1 6880d d day 1 15541g g gang 1 4000

Affriquéesch c& child 0 2174jh j& joke 1 2117dh D the 1 10974

Consonnes f f face 0 7128h h head 0 7195s s sun 0 17930

Fricatives sh s& she 0 3348th Q thing 0 1990v v vacation 1 7282z z zone 1 11453zh z& azure 1 273m m mother 1 10799

Suite page suivante

159


dans le corpusNasales m9 m ¡ bottom 1 190

n n near 1 22567

Nasalesn9 n ¡ column 1 2370ng N thing 1 4070l l luck 1 13548

Consonnes Liquides l9 l ¡ bottle 1 1834r r race 1 13264

Semi- w w what 1 8084Voyelles y y yellow 1 3642

@ ’ about 1 27865@@ ÿ butter 1 6401

a æ bat 1 7186aa A bott 1 3505e ‰ bird 1 9191

e@ E bet 1 1520Voyelles i I debit 1 24612orales i@ î bit 1 1723

ii i y feet 1 12697Voyelles oo u boot 1 4582

ou O bought 1 5443u U but 1 1924

u@ ü toot 1 526uh Ü book 1 5979uu ’∞ suspect 1 5121ei e y bait 1 6134ai A y bite 1 7385

Diphtongues oi ow boat 1 589au A w bout 1 2512o Oy boy 1 7653

Silences de début# 0 17964Silences et de fin

Pauses ∧ 0 8982

ANNEXE

E Liste des publications

1. S. Jarifi, D. Pastor, et O. Rosec.Improved automatic speech segmentation of large cor-pora with application to speech synthesis. Article de revue soumis à Speech Communi-cation, novembre, 2006.

2. S. Jarifi, D. Pastor, et O. Rosec.Cooperation between global and local methods for au-tomatic segmentation of speech synthesis corpora. International Conference on Spokenlanguage Processing (ICSLP), Pittsburgh PA, USA, 2006.

3. S. Jarifi, O. Rosec et D. Pastor.Coopération entre méthodes locales et globales pour lasegmentation automatique de corpus dédiés à la synthèse vocale. Journées d’études surla parole (JEP), Juin, Dinard, France, 2006

4. S. Jarifi, D. Pastor, et O. Rosec.Application de l’analyse multi-résolution à la segmenta-tion de corpus de parole dédiés à la synthèse vocale. TAIMA’05, octobre, Hammamet,Tunisie, 2005.

5. S. Jarifi, D. Pastor, et O. Rosec.Brandt’s GLR method & Refined HMM segmentationfor TTS synthesis application. EUSIPCO’05, septembre, Antalya, Turquie, 2005.

6. S. Jarifi, D. Pastor, et O. Rosec.Modèle GMM et algorithme de Brandt pour la correc-tion de la segmentation de la parole par HMM. GRETSI’05, septembre, Louvain-La-Neuve, Belgique, 2005.

7. S. Jarifi, D. Pastor, et O. Rosec.Segmentation automatique de la parole naturelle spon-tanée. Contrat France télécomNO 3ZFCIF402. Rapport d’avancement, version 1, 2005,59 p.

8. S. Jarifi, D. Pastor, et O. Rosec.Jump & silence/speech detection for automatic conti-nous speech segmentation. ISIVC’04, juillet, Brest, France, 2004.

Bibliographie

[1] http://lecerveau.mcgill.ca/flash/capsules/outil_bleu21.html.

[2] http://www.speech.kth.se/wavesurfer.

[3] Snorri version 1.1 : A speech research tool.http://www.loria.fr/~laprie.

[4] E. Abadjieva, I. Murray, et J.Arnott. Applying analysisof human emotion speech toenhance synthetic speech.Eurospeech, volume 2, pages 909–912, 1993.

[5] J. Adell, A. Bonafonte, J. Ander Gómez, et M. Josè Castro.Comparative study ofautomatic phone segmentation methods for tts.ICASSP, volume 1, pages 309–312,2005.

[6] J. Allen, S. Hunnicut, et D.H. Klatt.From Text to Speech : The MITalk System. Cam-bridge Studies in Speech Science and Communication. Cambridge University Press,Cambridge, UK, 1987.

[7] R. André-Obrecht.Segmentation automatique du signal de parole. Thèse de doctorat,Université Rennes I, 1985.

[8] R. André-Obrecht. A new statistical approach for the automatic segmentation of conti-nous speech signals.IEEE Transactions on Acoustics, Speech and Signal Processing,volume 36, pages 29–40, 1988.

[9] R. André-Obrecht, G. Pérennou, et N. Vigouroux. Deux approches de l’étiquetage enévénements phonétiques.Actes des 19èmes JEP, pages 279–284, 1992.

[10] G. Aversano et A. Esposito. Improved performances and automatic parameter esti-mation for a context-indepndant speech segmentation algorithm. The Internationalconference on Text, Speech and Dialog, pages 293–300, 2002.

[11] IUT-T Recommendation G.729 (Annex B). A silence compression scheme for g.729,optimized for terminals conforming to recommendation.ITU, volume 70, 1996.

[12] R. Bakis. Continuous speech recognition via centisecond acoustic states.91st Meetingof the Acoustical Society of America, volume 59, 1976.

[13] J. Barker, G. Williams, et S. Renals. Acoustic confidence measures for segmentingbroadcast news.ICSLP, pages 2719–2722, 1998.

[14] C. Barras.Reconnaissance de la parole continue : adaptation au locuteur et contrôletemporel dans les modèles de Markov cachés. Thèse de doctorat, Université Paris 6,1996.

164 BIBLIOGRAPHIE

[15] C. Barras, M.-J. Caraty, et C. Montacié. Contrôle temporel et sélection de l’appren-tissage appliqués aux modèles de Markov cachés.Actes du 9ème Congrès RFIA (Re-connaissance des Formes et Intelligence Artificielle), pages 391–396, 1994.

[16] C. Barras, M.-J. Caraty, C. Montacié, P. Deleglise, R. André-Obrecht, et X. Ro-det. Décomposition temporelle et ruptures de modèles pour le décodage acoustico-phonétique.Actes des 19èmes JEP (Journées d’Études sur la Parole), pages 335–340,1992.

[17] M. Basseville et A. Benveniste. Sequential detection of abrupt changes in spectral cha-racteristics of digital signals.IEEE Transactions on Information Theory, volume 29,pages 709–724, 1983.

[18] M. Baudry. Étude du signal vocal dans sa représentation amplitude-temps. Algo-rithmes de segmentation et de reconnaissance de la parole. Thèse de doctorat, Uni-versité PARIS VI, 1978.

[19] L. E. Baum, T. Peterie, G. Souled, et N. Weiss. A maximization technique occurringin the statistical analysis of probabilistic functions of Markov chains. Ann. Math.Statist., volume 41, pages 164–171, 1970.

[20] B. M. Bell et D. B. Percival. A two step Burg algorithm.IEEE Transactions on SignalProcessing, volume 39, 1991.

[21] R. E. Bellman et S. E. Dreyfus.La programmation dynamique et ses applications.Dunod, Paris, France, 1962.

[22] O. Boeffard, B. Cherbonnel, F. Emerard, et S. White. Automatic segmentation andquality evaluation of speech unit inventories for concatenation-based multilingualPSOLA text-to-speech systems.Eurospeech, pages 1449–1452, 1993.

[23] H. Bourlard et C. J. Wellekens. Links between Markov models and multilayer percep-trons. IEEE Transactions on Pattern Analysis and Machine Intelligence, volume 12,pages 1167–1178, 1990.

[24] G. Bouwman, L. Boves, et J. Koolwaaij. Weighting phone confidence measures forautomatic speech recognition.COST249 Workshop on Voice Operated Telecom Ser-vices, pages 59–62, 2000.

[25] G. E. P. Box et G. M. Jenkins.Time Series Analysis, Forecasting and Control. Holden-Day, San Francisco, 1970.

[26] D. Braga, L. Coelho, A. Moura, et D. Freitas. Intelligibility tests for synthetic speechsubjective evaluation : The semantically unpredictable sentences approach for euro-pean portuguese.The Journal of the Acoustical Society of America, volume 112, page2322, 2002.

[27] A. V. Brandt. Detecting and estimating parameters jumps using ladder algorithms andlikelihood ratio test.ICASSP, pages 1017–1020, 1983.

[28] A. V. Brandt. Modellierung von Signalen mit Sprunghaft Veränderlichem Leistungss-pektrum durch Adaptive Segmentierung. Thèse de doctorat, Doctor-Engineer Disser-tation,München, RFA, 1984.

[29] L. Breiman, J. Friedman, R. Olshen, et C. Stone.Classification and Regression Trees.Wadsworth and Brooks, Monterey, CA, 1984.

BIBLIOGRAPHIE 165

[30] F. Brugnara, D. Falavigna, et M. Omologo. Automatic segmentation and labeling ofspeech based on hidden Markov models.Speech Communication, volume 12, pages370–375, 1993.

[31] Calliope.La parole et son traitement automatique. Masson, 1989.

[32] D. T. Chappell et J. H. L. Hansen. A comparison of spectral smoothing methods forsegment concatenation based speech synthesis.Speech Communication, volume 36,pages 343–373, 2002.

[33] F. Charpentier et E. Moulines. Text-to-speech algorithms based on fft synthesis.ICASSP, 1988.

[34] F. Charpentier et E. Moulines. Pitch-synchronous waveform processing techniques fortext-to-speech synthesis using diphones.Eurospeech, volume 2, pages 13–19, 1989.

[35] J.-D. Chen et N. Campbell. Objective distance measuresfor assessing concatenativespeech synthesis.Eurospeech, volume 2, pages 611–614, 1999.

[36] A. De Cheveigne et H. Kawahara. YIN, a fundamental frequency estimator for speechand music.J. Acoust. Soc. Am, volume 111, pages 1917–1930, 2002.

[37] D. G. Childers, D. P. Skinner, et R. C. Kemerait. The cepstrum : a guide to processing.Proceedings of IEEE, volume 65, pages 1428–1443, 1977.

[38] V. Colotte et R. Beaufort. Synthèse vocale par séléction linguistiquement orientéed’unités non-uniformes : LiONS.Journées d’Etudes de la Parole (JEP), 2004.

[39] A. Conkie. Robust unit selection system for speech synthesis.The Joint Meeting ofASA, EAA, and DAGA (AED), pages 52–55, 1999.

[40] W. E. Cooper et J. M. Sorensen.Fundamental Frequency in Sentence Production.Springer, New York, 1981.

[41] P. Cosi, D. Falavigna, et M. Omologo. A premilinary statistical evaluation of manualand automatic segmentation discrepancies.Eurospeech, pages 693–696, 1991.

[42] S. Cox, R. Brady, et P. Jackson. Techniques for accurateautomatic annotation ofspeech waveforms.ICSLP, pages 1947–1950, Sydney, Australia, 1998.

[43] G. Cybenko. The numerical stability of the Levinson-Durbin algorithm for Toeplitzsystems of equations.SIAM Journal on Scientific Computing, volume 1, pages 303–319, 1980.

[44] G. Cybenko et C. Van Loan. Computing the minimum eigenvalue of a symmetricpositive definite Toeplitz matrix.SIAM Journal on Scientific Computing, volume 7,pages 123–131, 1986.

[45] C. d’Alessandro, P. Boula De Mareuil, et R. Prudon. Synthèse par sélection : prosodie,dialogue et qualité vocale.Cahiers de l’institut de Linguistique de Louvain, CILL,volume 30, pages 153–180, 2004.

[46] A. P. Dempster, N. M. Laird, et D. B. Rubin. Maximum likelihood from incompletedata via the EM algorithm (with discussion).Journal of the Royal Statistical Society,volume B 39, pages 1–38, 1977.

[47] K. Demuynck et T. Laureys. A comparison of different approaches to automaticspeech segmentation.The 5th International Conference on Text, Speech and Dia-logue, pages 277–284, 2002.

166 BIBLIOGRAPHIE

[48] A. Dielmann et S. Renals. Multistream dynamic bayesiannetwork for meeting seg-mentation. S. Bengio et H. Bourlard, editors,Proceedings of Multimodal Interactionand Related Machine Learning Algorithms Workshop, pages 76–86. Springer, 2005.

[49] R. E. Donovan. A new distance measure for costing spectral discontinuities in conca-tenative speech synthesisers.The 4th ESCA Tutorial and Research Workshop onSpeech Synthesis (SSW), 2001.

[50] R. E. Donovan, A. Ittycheriah, M. Franz, et al. Current Status of the IBM TrainableSpeech Synthesis System.The 4th ESCA Tutorial and Research Workshop on SpeechSynthesis, 2001.

[51] A. Dromigny-Badin. Fusion d’images par la théorie de l’évidence en vue d’appli-cations médicales et industrielles. Thèse de doctorat, Institut National des SciencesAppliquées de Lyon, 1998.

[52] T. Dutoit. An Introduction to Text-to-Speech Synthesis. Kluwer Academic Publishers(Dordrecht), 1997.

[53] T. Dutoit, L. ouvreur, F. Malfrère, V. Pagel, et C. Ris. Synthèse vocale et reconnaisancede la parole : droites gauches et mondes parallèles.Actes du 6è Congrès Françaisd’Acoustique, pages 8–11, 2002.

[54] T. J. Edwards. Multiple features analysis of intervocalic English plosives.Journal ofAcoustical Society of America, volume 69, pages 535–547, 1981.

[55] J. P. Egan.Signal Detection Theory and ROC Analysis. Academic Press, 1975.

[56] A. Esposito et G. Aversano. Text independent speech segmentation methods.Lecturenotes in computer science, 2004.

[57] C. d’Alessandro V. Aubergé M. Bagein G. Bailly F. BéchetS. Foukia J.-P. Goldman E.Keller V. Pagel F. Sannier J. Véronis D. O’Shaughnessy F. Yvon, P. Boula de Mareüilet B. Zellner. Objective evaluation of grapheme to phoneme conversion for text-to-speech synthesis in french.Computer Speech and Language, volume 12, pages 393–410, 1998.

[58] G. Fant.Acoustic Theory of Speech Production. The Hague, 1960.

[59] G. D. Forney. The Viterbi algorithm.IEEE, volume 1, pages 268–278, 1973.

[60] Y. Gong. Stochastic trajectory modeling and sentence searching for continuous speechrecognition. IEEE Transactions on Speech and Audio Processing, volume 5, pages33–44, 1997.

[61] S. Greenberg. Strategies for automatic multi-tier annotation of spoken language cor-pora.Eurospeech, pages 45–48, 2003.

[62] J. Gutiérrez, J.-L. Rouas, et R. André-Obrecht. Fusinglanguage identification systemsusing performance confidence indexes.ICASSP, volume 1, pages 385–388, 2004.

[63] J. Gutiérrez, J.-L. Rouas, J. Farinas, et R. André-Obrecht. Stratégies de fusion dedécisions multiexeprt en identification automatique des langues.MIDL, 2004.

[64] J. Gutiérrez, J.-L. Rouas, et Régine R. André-Obrecht.Application of uncertainty-based methods to fuse language identification expert decisions. Information Proces-sing and Management of Uncertainly in Knowledge-Based Systems (IPMU2004). Edi-trice Università La Sapienza, 2004.

BIBLIOGRAPHIE 167

[65] C. Hamon, E. Moulines, et F. Charpentier. A diphones synthesis system based on timedomain modification of speech.ICASSP, 1989.

[66] J.-P. Haton, C. Cerisara, D. Fohr, Y. laprie, et K. Smaïli. Reconnaissance automatiquede la parole : Du signal à son interprétation. Dunod Paris, 2006.

[67] J.-P. Haton, J.-M. Pierrel, G. Perennou, J. Caelen, et J.-L. Gauvain.Reconnaissanceautomatique de la parole. Dunod Informatique,Paris, 1991.

[68] T. J. Hazen, T. Burianek, J. Polifroni, et S. Seneff. Recognition confidence scoring foruse in speech understanding systems.Computer Speech and Language, volume 16,pages 49–67, 2002.

[69] P. Howard-Jones.SOAP- a speech output assessment package for controlled multi-lingual evaluation of synthetic speech.Eurospeech, volume 1, pages 281–283, 1991.

[70] C. Huang. Automatic closed caption alignment based on speech recognition trans-cripts. Rapport technique, Columbia University, 2003.

[71] L. X. Hung. Extraction des traits non-linguistiques pour l’indexation des documentsaudio-visuels. Rapport technique, Groupe MRIM - CLIPS-IMAG, 2003.

[72] A. Hunt et A. W. Black. Unit selection in a concatenativespeech synthesis systemusing a large speech database.ICASSP, pages 373–376, 1996.

[73] International Phonetic Association.Handbook of the International Phonetic Asso-ciation : A Guide to the Use of the International Phonetic Alphabet. CambridgeUniversity Press, 1999.

[74] M. Ito et R. Donaldson. Zero-crossing measurements foranalysis and recognition ofspeech sounds.IEEE Transactions on Audio and Electroacoustics, volume 19, pages235–242, 1971.

[75] M. Iwayama et T. Tokunaga. Cluster-based text categorization : a comparison ofcategory search strategies.18th ACM International Conference on Research and De-velopment in Information Retrieval, pages 273–281, 1995.

[76] S. Jarifi, D. Pastor, et O. Rosec. Application de l’analyse multi-résolution à la seg-mentation de corpus de parole dédiés à la synthèse vocale.TAIMA, 2005.

[77] S. Jarifi, D. Pastor, et O. Rosec. Brandt’s GLR method & refined HMM segmenta-tion for tts synthesis application.13th European Signal Processing Conference (EU-SIPCO), 2005.

[78] S. Jarifi, D. Pastor, et O. Rosec. Cooperation between global and local methods forautomatic segmentation of speech synthesis corpora.ICSLP, 2006.

[79] S. Jarifi, O. Rosec, et D. Pastor. Coopération entre méthodes locales et globales pourla segmentation automatique de corpus dédiés à la synthèse vocale.Journées d’étudessur la parole (JEP), 2006.

[80] A. El Jaroudi et J. M. Makhoul. Discrete all-pole modelling. IEEE Transactions onSignal Processing, volume 39, pages 411–423, 1991.

[81] F. Jelinek.Statistical Methods for Speech Recognition. MIT Press, Cambridge, MA,1997.

[82] C.-G. Jeong et H. Jeong. Automatic phone segmentation and labeling of continousspeech.Speech Communication, volume 20, pages 291–311, 1996.

168 BIBLIOGRAPHIE

[83] B. H. Juang et L. R. Rabiner. The segmental K-Means algorithm for estimating pa-rameters of Hidden Markov Models.IEEE Trans. on Acoustics, Speech, and SignalProcessing, volume 38, pages 1639–41, 1990.

[84] B. H. Juang et L. R. Rabiner. Hidden markov models for speech recognition.Techno-metrics, volume 33, pages 251–272, 1991.

[85] T. Kanungo, D. M. Mount, N. S. Netanyahu, C. D. Piatko, R.Silverman, et A. Y. Wu.An efficient k-means clustering algorithm : Analysis and implementation. TPAMI,volume 24, pages 881–892, 2002.

[86] J. Kharroubi. Étude de techniques de classement “Machines à Vecteurs Supports”pour la vérification automatique du locuteur. Thèse de doctorat, École NationaleSupérieure des Télécommunications, 2002.

[87] Y. J. Kim et A. Conkie. Automatic segmentation combining an HMM-based approachand spectral boundary correction.ICSLP, pages 145–148, 2002.

[88] A. Kipp, M.-B. Wesenick, et F. Schiel. Automatic detection and segmentation ofpronunciation variants in german speech corpora.ICSLP, pages 106–109, 1996.

[89] A. Kipp, M.-B. Wesenick, et F. Schiel. Pronunciation modeling applied to automaticsegmentation of spontaneous speech.Eurospeech, pages 1023–1026, 1997.

[90] E. Klabbers et R. Veldhuis. On the reduction of concatenation artefacts in diphonesynthesis.ICSLP, 1998.

[91] D. H. Klatt. Software for a cascade/parallel synthesizer. Journal of the AcousticalSociety of America (JASA), volume 67, pages 971–995, 1980.

[92] D. H. Klatt. Review of text-to-speech conversion for english.Journal of the AcousticalSociety of America (JASA), volume 82, pages 737–793, 1987.

[93] P. Langley et S. Sage. Oblivious decision trees and abstract cases.Workshop oncase-based reasoning (AAAI), pages 113–117, 1994.

[94] J. Laroche. Traitement des signaux audio-fréquences.Rapport technique, Départe-ment Signal, Groupe acoustique, Télécom Paris, 1995.

[95] J. Laroche, Y. Stylianou, et E. Moulines. HNM : A simple,efficient harmonic plusnoise model for speech.IEEE ASSP Workshop on Applications of signal processingto audio and acoustics, pages 169–172, 1993.

[96] T. Laureys, K. Demuynck, J. Duchateau, et P. Wambacq. Assessing segmentations :Two methods for confidence scoring automatic HMM-based wordsegmentations.The6th International Conference on Engineering of Modern Electric systems, pages 116–121, 2001.

[97] L. Lazli et M. T. Laskri. Nouvelle méthode de fusion de données pour l’apprentissagedes systèmes hybrides mmc/rna.ARIMA, CARI’04, pages 125–170, 2005.

[98] C. Lemoine. Recherche de traits acoustiques de la parole bruité par analyse multi-résolution. Thèse de doctorat, Université de Bordeaux I, 1998.

[99] S. E. Levinson. Continuously variable duration hiddenMarkov models for automaticspeech recognition.Comp. Speech and Lang.,, volume 1, pages 29–45, 1986.

[100] C. Lévy, G. Linarès, P. Nocera, et J. F. Bonastre. Reconnaisance de chiffres isolésembarquée dans un téléphone portable.Journées d’Etudes de la Parole (JEP), 2004.

BIBLIOGRAPHIE 169

[101] J.-S. Lienard.Les processus de la communication parlée. Masson, Paris, 1977.

[102] A. Ljolje et M.D. Riley. Automatic segmentation of speech for TTS. Eurospeech,pages 1445–1448, 1993.

[103] S. Maeda. Improved articulatory model.Journal of the Acoustical Society of America,volume 84,Sup 1,S146, 1988.

[104] S. Maeda. Compensatory articulation during speech : evidence from the analysis andsynthesis of vocal-tract shapes using an articulatory model. Speech Production andSpeech Modelling, Kluwer Academic, pages 131–149, 1990.

[105] M. J. Makashay, C. W. Wightman, A. K. Syrdal, et A. Conkie. Perceptual evluation ofautomatic segmentation in text-to-speech synthesis.ICSLP, volume 2, pages 431–434,2000.

[106] J. M. Makhoul. Linear prediction : a tutorial review.Proceedings of IEEE, volume 63,pages 561–579, 1975.

[107] F. Malfrère, O. Deroo, T. Dutoit, et C. Ris. Phonetic alignment : speech synthesis-based vs. viterbi-based.Speech Communication, volume 40, pages 503–515, 2003.

[108] A. Martin. Méthodes robustes de détection de parole pour la reconnaissance vocaleen environnement bruité. Thèse de doctorat, Université de Rennes I, 2001.

[109] A. Martin, G. Doddington, T. Kamm, M. Ordowski, et M. Przybocki. The DET curvein assessment of detection task performance.Eurospeech, volume 4, pages 1895–1898, 1997.

[110] J. Matousek, D. Tihelka, et J. Psutka. Automatic segmentation for czech concate-native speech synthesis using statistical approach with boundary-specific correction.Eurospeech, pages 301–304, 2003.

[111] B. Moore. Academic Press, 1997.

[112] E. Moulines et F. Charpentier. Pitch synchronous waveform processing techniquesfor test-to-speech synthesis using diphones.Speech Communication, volume 9, pages5–6, 1990.

[113] K. Murphy. Dynamic Bayesian Networks : Representation, Inference andLearning.Thèse de doctorat, University of Berkeley, 2002.

[114] S. Nefti. Segmentation automatique de la parole en phones. Correction d’étiquetagepar l’introduction de mesures de confiance. Thèse de doctorat, Université de RennesI, 2004.

[115] S. Nefti, O. Boeffard, et T. Moudenc. Confidence measures for phonetic segmentationof continuous speech.Eurospeech, pages 897–900, 2003.

[116] A. M. Noll. Cepstrum pitch determination.Journal of Acoustical Society of America,volume 41, pages 293–309, 1967.

[117] J. P. Olive et M. Y. Liberman. Text to speech – an overview. Journal of the AcousticSociety of America, Supplement 1 :78, S6, 1985.

[118] Recommandation UIT-T P.800. Méthodes d’évaluation subjective de la qualité detransmission.ITU, 1996.

[119] M. Pagano. An Algorithm for Fitting Autoregressive Schemes. Journal of RoyalStatistical Society, volume 21, pages 274–281, 1972.

170 BIBLIOGRAPHIE

[120] D. Pastor et R. Gay. Décomposition d’un processus stationnaire du second ordre. pro-priétés statistiques d’ordre 2 des coefficients d’ondelettes de localisation fréquentielledes paquets d’ondelettes.Traitement du Signal, volume 12, pages 393–420, 1995.

[121] B. L. Pellom et H. L. Hansen. Trainable speech synthesis based on trajectory modelingof line spectrum pair frequencies.IEEE Nordic Signal Processing Symposium, pages125–128, 1998.

[122] B. L. Pellom et J. H. L. Hansen. A duration-based confidence measure for automaticsegmentation of noise corrupted speech.ICSLP, volume 6, pages 2723–2726, 1998.

[123] B. Petek, O. Andersen, et P. Dalsgaard. On the robust automatic segmentation ofspontaneous speech.ICSLP, volume 2, pages 913–916, 1996.

[124] S. Pigeon.Authentification multimodale d’identité. Thèse de doctorat, l’UniversitéCatholique de Louvain, 1999.

[125] J. Pinquier, J. L. Rouas, et R. André-Obrecht. Fusion de paramètres pour une classifi-cation automatique parole/musique robuste.RSTI-TSI, pages 831–852, 2003.

[126] A. B. Poritz. Hidden markov models : A guided tour.IEEE International Conferenceon Acoustics, Speech and Signal Processing, pages 7–12, 1988.

[127] R. Prudon et C. d’Alessandro. A selection/concatenation tts synthesis system : Data-bases developement, system design, comparative evaluation. 4 ISCA Speech SynthesisWorkshop, pages 137–142, 2001.

[128] J. R. Quinlan. The effect of noise on concept learning.R. S. Michalski, J. G. Car-bonell, et T. M. Mitchell, editors,Machine Learning : An Artificial Intelligence Ap-proach : Volume II, pages 149–166. Kaufmann, Los Altos, CA, 1986.

[129] J. R. Quinlan et R. M. Cameron-Jones. FOIL : A Midterm Report. P. B. Brazdil, editor,Proceedings of the European Conference on Machine Learning(ECML), pages 3–20.Springer, Berlin, Heidelberg, 1993.

[130] L. Rabiner et B. H. Juang.Fundamentals of Speech Recognition. Prentice Hall,Englewood Cliffs, New Jersey, 1993.

[131] L. R. Rabiner. A tutorial on hidden Markov models and selected applications in speechrecognition.IEEE, volume 77, pages 257–286, 1989.

[132] J. Ramírez, J. C. Segura, et C. Benítez. A new adaptative long-term spectral estimationvoice activity detector.Eurospeech, pages 3041–3044, 2003.

[133] J. Ramírez, J. C. Segura, C. Benítez, A. Toree, et A. Rubio. Efficient voice activitydetection algorithms using long-term speech information.Speech Communication,volume 42, pages 271–287, 2004.

[134] P. Ravier.Détection de transitoires par ondelettes adaptées - Critères d’adaptationfondés sur les statistiques d’ordre supérieur. Thèse de doctorat, Institut NationalPolytechnique de Grenoble, 1998.

[135] P. Ravier et P. O. Amblard. A transient detector based on malvar wavelets.Oceans’96,pages 914–918, 1996.

[136] Y. Sagiska. Speech synthesis from text.IEEE Communications Magazine, volume 28,pages 35–41, 1990.

BIBLIOGRAPHIE 171

[137] G. Salton et M.J. McGill.Introduction to Modern Information Retrieval. McGraw-Hill, New York, 1983.

[138] J. PH. V. Santen, R.W. Sproat, J.P. Olive, et J. Hirschberg.Progress in Speech Synthe-sis. Springer Verlag, 1996.

[139] R. Scarr. Zero crossings as a means of obtaining spectral information in speech ana-lysis. Audio and Electroacoustics, IEEE Transactions on, volume 16, pages 247–255,1968.

[140] A. Sethy et S. Narayanan. Refined speech segmentation for concatenative speechsynthesis.ICSLP, pages 149–152, 2002.

[141] C. Stanfill et D. Waltz. Toward memory-based reasoning. Communications of theACM, volume 29, pages 1213–1228, 1986.

[142] K. N. Stevens. Airflow and turbulence noise for fricative and stop consonants.Journalof Acoustical Society of America, volume 50, pages 1180–1192, 1971.

[143] P. Stoica, R. L. Moses, T. Söderström, et J. Li. OptimalHigh-Order Yule-WalkerEstimation of Sinusoidal Frequencies.IEEE Transactions on Signal Processing, vo-lume 39, pages 1360–1368, 1991.

[144] T. Styger, B. Gabioud, et E. Keller. Méthodes informatiques pour l’analyse de para-mètres primaires en parole pathologique.C.A.L.A.P., volume 12, 1993.

[145] Y. Stylianou. Concatenative speech synthesis using aharmonic plus noise model.The3rd ESCA/COCOSDA Workshop on Speech Synthesis, 1998.

[146] Y. Stylianou et A. Syrdal. Perceptual and objective detection of discontinuities inconcatenative speech synthesis.ICASSP, volume 2, pages 153–156, 2001.

[147] A. Syrdal, A. Conkie, et Y. Stylianou. Exploration of acoustic correlates in speakerselection for concatenative synthesis.The 6th International Conference on SpokenLanguage Processing, page 882, 1998.

[148] A. Syrdal, A. Conkie, Y. Stylianou, J. Schroeter, L. F.Garrison, et D. Dutton. Voiceselection fo speech synthesis.Journal of the Acoustical Society of America, volume102, pages 31–91, 1997.

[149] A. Syrdal, Y. Stylianou, L. Garrison, A. Conkie, et J. Schroeter. TD-PSOLA versusharmonic plus noise model in diphone based speech synthesis. The International Conf.on Acoustics, Speech, and Signal Processing, volume 1, pages 273–276, 1998.

[150] D. Talkin. A robust algorithm for pitch tracking (RAPT). Speech coding and synthesis,pages 495–518. Elsevier, 1995.

[151] D. Tihelka. Symbolic prosody driven unit selection for highly natural syntheticspeech.Proceedings of Interspeech, pages 2525–2528, 2005.

[152] D. T. Toledano, L. A. Hernàndez Gòmez, et L. VillarubiaGrande. Automatic phoneticsegmentation.IEEE Transactions on Speech and Audio processing, volume 11, pages617–625, 2003.

[153] International Telecommunication Union. Methods forthe subjective assessment ofsmall impairments in audio systems including multichannelsound systems.ITU-R,1997.

172 BIBLIOGRAPHIE

[154] P. E. Utgoff. Incremental induction of decision trees. Machine Learning, volume 4,pages 161–186, 1989.

[155] G. Vannier. Étude des contributions des structures textuelles et syntaxiques pour laprosodie : application à un système de synthèse vocale à partir du texte. Thèse dedoctorat, Université de Caen Basse-Normandie, 1999.

[156] P. K. Varshney.Distributed Detection and Data Fusion. Springer-Verlag, 1997.

[157] L. Wang, Y. Zhao, M. Chu, J. Zhou, et Z. Cao. Refining segmental boundaries forTTS database using fine contextual-dependent boundary models. ICASSP, volume I,pages 641–644, 2004.

[158] C. Wendt et A. P. Petropulu. Pich determination and speech segmentation using thediscrete wavelet transform.IEEE International Symposium on Circuits and Systems,volume 2, pages 45–48, 1996.

[159] M-B. Wesenick et A. Kipp. Estimating the quality of phonetic transcriptions andsegmentation of speech signals.ICSLP, pages 129–132, 1996.

[160] E. Wesfreid et M. V. Wickerhauser. Adapted local trigonometric transform and speechprocessing.IEEE Transactions on Signal Processing, volume 41, pages 3596–3600,1993.

[161] F. Wessel, K. Macherey, et R. Schliter. Using word probabilities as confidence mea-sure.ICASSP, volume I, pages 225–228, 1998.

[162] D. A. G. Williams. Knowing what you don’t know : roles for confidence measures inacoustic speech recognition. Thèse de doctorat, The university of Sheffield, 1999.

[163] G. Williams et S. Renals. Confidence measures from local posterior probability esti-mates.Computer Speech and Language, volume 13, pages 395–411, 1999.

[164] J. Wouters et M. W. Macon. A perceptual evaluation of distance measures for conca-tenative speech synthesis.ICSLP, 1998.

[165] S. Young, G. Evermann, T. Hain, D. Kershaw, G. Moore, etJ. Odell. The HTK Bookfor HTK V 3.2.1. Cambridge University Press, Cambridge, UK, 2002.

[166] C. Zheng et Y. Yan. Fusion based speech segmentation inDARPA SPIN2 Task.ICASSP, volume 1, pages 885–888, 2004.

[167] E. Zwicher et R. Feldtkeller.Psychoacoustique. Traduit par l’Allemand C. Sorin,Masson Éditions, Collection CNET-ENST, 1981.

Résumé

La segmentation de grands corpus est une tâche indispensable dans la réalisation de nombreux sys-tèmes de communication Homme-Machine comme les systèmes desynthèse de la parole et de recon-naissance vocale. Cette segmentation se doit d’être la plusprécise et la plus proche de la segmentationmanuelle. Certaines techniques automatiques permettent d’acquérir une précision acceptable danscertaines applications. Parmi ces techniques, il existe une approche standard basée sur les modèlesde Markov cachés (HMM). Cette approche est notre référence.Néanmoins, dans des applicationscomme la synthèse vocale, cette technique automatique reste insuffisante et ne garantit pas une trèsbonne qualité de la parole synthétique. Pour cette raison, des vérifications manuelles faites par desexperts humains sont appliquées à la segmentation de la parole. Ces vérifications sont fastidieuses ettrès coûteuses. Ce travail de thèse propose des solutions pour réduire, voire éliminer ces vérificationset par conséquent faciliter la création de voix de synthèse.Dans un premier temps, nous proposonsune solution générique et efficace pour la segmentation de grands corpus. Cette approche est baséesur la fusion de plusieurs segmentations et permet de réduire de presque 60% le nombre d’erreurs parrapport à la segmentation standard par HMM lorsqu’on utilise une phonétisation correcte du corpusde parole. Ensuite, nous étudions la détection des erreurs de segmentation dans le but d’alléger latâche de vérification manuelle. Cette détection des erreursde segmentation est réalisée avec des me-sures de confiance déduites de certains algorithmes utilisés pour fusionner les segmentations. Enfin,nous traitons le problème de la correction des erreurs de phonétisation. Cette étude est une premièreétape pour traiter le cas où notre système de segmentation basé sur la fusion utilise une phonétisationerronée.Mots Clés : Segmentation automatique, synthèse vocale, HMM, algorithme de Brandt, modèles defrontière, fusion, détection des erreurs, mesure de confiance, phonétisation. . .

Abstract

The segmentation of large corpora is an essential task in several Human-Machine Interfaces in com-munication systems such as voice synthesis and voice recognition. This segmentation must be veryaccurate and close to the manual segmentation. Some automatic techniques are able to achieve anacceptable accuracy in some applications. Among these techniques, the standard approach based onHidden Markov Models (HMM) performs reasonably well. Nevertheless, for TTS synthesis systems,these automatic techniques remain insufficient and do not guarantee an acceptable synthetic voicequality. For this reason, a manual checking made by human experts is generally applied to the segmen-tation. This checking is lengthy and very expensive. This research is a contribution to TTS synthesisthat aims at improving the automatic segmentation of speechsignals in order to ease the creation ofsynthetic voices. In this document, we first propose a generic and efficient approach for the segmen-tation of large corpora. This approach is based on the fusionof several segmentations and makes itpossible to reduce by around 60% the number of errors produced by the standard HMM segmentationwhen a correct phonetic transcription of the speech corpus is used. Then, we study the detection ofsegmentation errors in order to reduce the human effort needed by a manual checking. The detectionof segmentation errors is achieved by using confidence measures derived from some of the algorithmsemployed before combination. Finally, within this framework, we address the correction of the pho-netic transcription. This study can be regarded as a first step applicable to the case where the phonetictranscription at the input of our generic system of segmentation is not correct.Keywords : Automatic speech segmentation, speech synthesis, HMM, Brandt’s GLR algorithm,boundary models, fusion, error detection, confidence measure, phonetic transcription. . .

Documents

Traitement du Signal et Télécommunicationsperso.telecom-bretagne.eu/pastor/data/Theses/Memoire_These_Jarifi.pdf · VOT Voice Onset Time ... 4.2 TSC à 20 ms pour le corpus français