21
16/11/2000 Projet RNRT SYMPATEX 1 SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin

16/11/2000Projet RNRT SYMPATEX1 SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin

Embed Size (px)

Citation preview

Page 1: 16/11/2000Projet RNRT SYMPATEX1 SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin

16/11/2000 Projet RNRT SYMPATEX 1

SP1 : Transfert de technologie

Transfert des logiciels de la thèse de J. Cernocky

G. Baudoin

Page 2: 16/11/2000Projet RNRT SYMPATEX1 SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin

16/11/2000 Projet RNRT SYMPATEX 2

Plan de la présentation

Fournitures prévues et planning Travail réalisé Contenu du CD-ROM Description des différentes étapes de

traitement

Page 3: 16/11/2000Projet RNRT SYMPATEX1 SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin

16/11/2000 Projet RNRT SYMPATEX 3

Fournitures prévues et planning

T0+6 mois Rapport technique Démonstration du système de codage

de base Monolocuteur, synthèse LPC simple par

concaténation, hors temps réel. Système existant

Programmes en C sous LINUX ou UNIX. Fichiers de commande shell et quelques uns

en PERL.

Page 4: 16/11/2000Projet RNRT SYMPATEX1 SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin

16/11/2000 Projet RNRT SYMPATEX 4

Travail réalisé Système transféré pour faciliter le

portage sous Windows Visual C Programmes en C ANSI sous LINUX Red-hat

6.1. Fichiers de commandes tous en PERL. Document de description et documentation

des logiciels et scripts perl. CD ROM avec logiciels, scripts,

documentation, exemples. Terminé fin février 2000,

Réalisé en partie à Brno en collaboration avec Jan Cernocky, Petr Motlicek et Y.-P. Nakache.

Page 5: 16/11/2000Projet RNRT SYMPATEX1 SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin

16/11/2000 Projet RNRT SYMPATEX 5

Contenu du CD-ROM Contenu du CD-ROM

Logiciels (PROGS) et scripts perl (SCRIPTS) nécessaires pour réaliser les expériences de codage à très bas débit.

Extrait de la base de données BU radio corpus (DATA). Résultats des expériences sur cet extrait (WORK). Logiciels utilitaires : perl et emacs (WIN_SOFT). Documentation sur les logiciels C et les scripts (DOC).

Publication générale G. Baudoin, J. Cernocky, P. Gournay, G. Chollet. Codage

de la parole à bas et très bas débit. Annales des télécommunications, n°55, à paraître en 2000.

Page 6: 16/11/2000Projet RNRT SYMPATEX1 SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin

16/11/2000 Projet RNRT SYMPATEX 6

Codage à très bas débit par indexation d’unités de taille variable

Approche segmentale nécessaire. Pour des débits inférieurs à 500 bps, Il faut prendre

en compte les dépendances inter-trames. EX : LPC10 : 500bps spectre, 2000bps excitation.

Ensemble d’unités acoustiques obtenues automatiquement

Représentant de manière précise et concise les sons d’une langue.

Sans recourir à une base de donnée étiquetée phonétiquement.

Unités ALISP Automatic Language Independant Speech Processing.

Page 7: 16/11/2000Projet RNRT SYMPATEX1 SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin

16/11/2000 Projet RNRT SYMPATEX 7

Vocodeurs à très bas débits, phonétiques ou pseudo-phonétique

Codeur à reconnaissance-synthèse: Effectue, dans la phase d’analyse, une

reconnaissance d’unités acoustiques de codage Linguistiques (phonèmes, transitions entre phonèmes,…)

Nécessite une base de données étiquetées Unités acoustiques obtenues automatiquement par des

techniques statistiques : codeur pseudo-phonétiques. base de données non étiquetées.

Effectue au décodage la synthèse du signal de parole par concaténation d’unités de synthèse.

Page 8: 16/11/2000Projet RNRT SYMPATEX1 SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin

16/11/2000 Projet RNRT SYMPATEX 8

Codeur à très bas débit

Dictionnaire d’unités

de synthèse

Dictionnaire d’unités de codage

Analyse spectrale

Analyse prosodique

Reconnaissance unité

acoustique

Indice unité

acoustique

Paramètres de

prosodie

Parole originale

Synthèse par

concaténation HNM, PSOLA

parole synthétique

CODEUR DECODEUR

Page 9: 16/11/2000Projet RNRT SYMPATEX1 SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin

16/11/2000 Projet RNRT SYMPATEX 9

Description des différentes étapes de traitement

Préparation des données Suppression des en-tête, retournement octets,

découpage en fichiers courts, création de listes. Apprentissage des unités de codage et de

synthèse Utilisation du vocodeur : Codage-décodage

ou analyse-synthèse d’une phrase Reconnaissance des unités de codage . Synthèse par concaténation des unités de

synthèse.

Page 10: 16/11/2000Projet RNRT SYMPATEX1 SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin

16/11/2000 Projet RNRT SYMPATEX 10

Apprentissage non supervisé des unités de codage

Analyse et Segmentation initiale du corpus d’apprentissage par décomposition temporelle.

Cibles spectrales et fonction d’interpolation (Atal, Bimbot) Classification des segments par quantification

vectorielle sur les cibles spectrales. 1ère transcription.

Modélisation des classes par HMM Itération segmentation, apprentissage des HMM.

Raffinement des classes et modèles Itération de la procédure segmentation-transcription par

les HMM, ré-estimation des HMM.

Page 11: 16/11/2000Projet RNRT SYMPATEX1 SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin

16/11/2000 Projet RNRT SYMPATEX 11

Détermination des unités de codage, analyse, décomposition temporelle

Analyse spectrale LPCC, trames 20 ms, déplacement 10 ms. Soustraction du vecteur cepstral moyen pour

minimiser l’influence des variations de conditions d’enregistrement.

Décomposition temporelle Segmentation prenant en compte la co-articulation Modélise une suite de vecteurs spectraux comme

une suite de cibles spectrales reliées par des fonctions d’interpolation se recouvrant partiellement.

Page 12: 16/11/2000Projet RNRT SYMPATEX1 SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin

16/11/2000 Projet RNRT SYMPATEX 12

Décomposition temporelle

17 événements/s en moyenne

Page 13: 16/11/2000Projet RNRT SYMPATEX1 SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin

16/11/2000 Projet RNRT SYMPATEX 13

Classification des cibles de la décomposition temporelle

Après DT, base de données segmentée en événements de la DT (1 cible, 1 FI).

On regroupe les segments en 64 classes par Quantification vectorielle ->transcription Le dictionnaire est appris sur les vecteurs

spectraux au centre de gravité des FI. La classification est faite en comparant les

distances d’un segment aux différentes classes. 1ère Transcription

f2b.sym, f2b.plim, f2b.seg,*.phn (3 colonnes).

Page 14: 16/11/2000Projet RNRT SYMPATEX1 SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin

16/11/2000 Projet RNRT SYMPATEX 14

Modélisation stochastique HMM des classes obtenues après DT et QV

Modélisation facilite reconnaissance, Permet d’affiner le jeu d’unités de codage. Quelques itérations (typiquement 5):

Apprentissage des modèles HMM, à partir d’une segmentation et d’une transcription du corpus.

Re-segmentation et transcription avec ces modèles.

Au fur à mesure, la vraisemblance des modèles et la cohérence acoustique des classes augmentent.

Logiciel HTK

Page 15: 16/11/2000Projet RNRT SYMPATEX1 SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin

16/11/2000 Projet RNRT SYMPATEX 15

Topologie des modèles HMM

1 2 3 4 5

a22 a33 a44

a12 a23 a34 a25

3 états émetteurs

Modèle de langage : unigrammes, facteur de langage .

Observation T trames : 3 flux de paramètres indépendants et de mêmes poids : LPCC; LPCC;

log(E).

Pour chaque flux une loi gaussienne simple.

Page 16: 16/11/2000Projet RNRT SYMPATEX1 SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin

16/11/2000 Projet RNRT SYMPATEX 17

Allongement des unités de codage

Technique de Multigramme appliquée sur : les séquences de symboles de la QV

Pour une unité de i symboles, 1 HMM à 2i+1 états Beaucoup de HMM à entraîner.

Les séquences de symboles HMM. Utilisation

Diminution du débit Unités de synthèse.

Allongement du retard

Page 17: 16/11/2000Projet RNRT SYMPATEX1 SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin

16/11/2000 Projet RNRT SYMPATEX 18

Expériences et résultats

Essais sur le corpus Boston university Radio Corpus (anglais), Martin Ruzek (radio tchèque), CD audio en français.

Fe=16 000 Hz ou 11 025 Hz. monolocuteur, 1 h de parole par

locuteur.

Page 18: 16/11/2000Projet RNRT SYMPATEX1 SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin

16/11/2000 Projet RNRT SYMPATEX 19

Résultats codage de l’enveloppe spectrale et des unités de synthèse

LocuteurDébit binaire en bps, unités de codage et de synthèse

Locuteur

féminin

Locuteur

masculin

HMMHMM + MG (n=6)

190,2145

195,5156

Page 19: 16/11/2000Projet RNRT SYMPATEX1 SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin

16/11/2000 Projet RNRT SYMPATEX 20

Détermination des unités de synthèse

Dans chaque classe d’unité acoustique de codage, on choisit 8 représentants pour la synthèse. Les 8 plus longs segments.

Pour coder un segment s attribué à une classe Ci, on compare par DTW le segment s aux 8 représentants de la classe.

Page 20: 16/11/2000Projet RNRT SYMPATEX1 SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin

16/11/2000 Projet RNRT SYMPATEX 21

Codeur

parole Analyse spectral

e

Analyse prosodiqu

e

Reconnaissance HMM

Dictionnaire des modèles

HMM des unités ALISP

Représentant A1

Représentant A8

HMM A

Détermination des unités de

synthèse

Choix unité de synthèse par

DTW

Codage prosodie

Indice unité ALISP

Indice unité de

synthèsePitch,

énergie, temps

Page 21: 16/11/2000Projet RNRT SYMPATEX1 SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin

16/11/2000 Projet RNRT SYMPATEX 22

Décodeur

Parole synthétique

Représentant A1

…Représentant A8

Indice ALISP

N° représentant de synthèse

Paramètres de prosodie

Choix unité de synthèse

Synthèse par

concaténation