View
59
Download
1
Category
Preview:
DESCRIPTION
Codage de la parole à très bas débit avec des unités ALISP. avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales. Plan. 1 Introduction codage 2 Codage à très bas débit 3 Codeur segmental ALISP 4 Méthodes de synthèse - PowerPoint PPT Presentation
Citation preview
Codage de la parole à très bas débit avec des unités ALISP
avec les partenaires du projet SYMPATEX :
ENSTELAN InformatiqueThomson => Thales
Plan
1 Introduction codage 2 Codage à très bas débit 3 Codeur segmental ALISP 4 Méthodes de synthèse 5 Résultats cas mono-locuteur 6 Résultats cas indépendant du locuteur 7 Conclusions et perspectives
1. Codage de la parole
Codage =transmission d’un message vocal, en diminuant le débit et en conservant un maximum d’information
Types de codeurs : A forme d’onde Hybrides Paramétriques Segmentaux
1.1 Quels codeurs pour quels débits
Bit rate (bits/s)1k 2k 4k 8k 16k 32k 64k
IndicativeQuality(MOS )
Paramétriques Hybrides A forme d’onde
1
2
3
4
5 G711 72
G721 84
ST4209 83
G 728 92
FS 1016 90
G 729 96
ST 4479 93ST 4198 87
LPC 10 83
GSM 871200 HSX 97
G 723-196
VLBR
C
0,5k
Très bas débits
2400 HSX 96
1.3 Evolution des codeurs
1
2
3
4
5
1980 1990 2000
IndicativeQuality(MOS)
G.711(64 kb/s) G.721
(32 kb/s) G.729(8 kb/s)
G.728(16 kb/s)
LPC 10(2,4 kb/s)
HSX(2,4 kb/s)
Consumer quality
Minimum qual. for highcost application
Minimum qual. For lowcost application
1970 2010
ALISP(.4 kb/s)
1.3 Pourquoi développer des codeurs à très bas débit
Trouver les limites de la compression de la parole(sans sa compréhension)
Applications pratiques : Répondeurs automatiques sans bandes magnétiques Archivage et «boîtes noires » Communication sur des canaux à bas débits Codage redondant en télédiffusion
But à atteindre : Débit moyen de 100-500 bps Indépendant du locuteur, de la langue,
de l’environnement
2. Principes généraux des codeurs à très bas débit < 400 bps
Nommées aussi codeurs segmentaux ou codeurs par indexation
Nécessitent l’utilisation de : Méthodes de reconnaissance
Quelles unités de reco utiliser ? Méthodes de synthèse
Quelles unités de synthèse utiliser ? Données à transmettre :
Indices des unités de parole reconnus Informations prosodique
Utiliser des unités ALISP
2. 2 Le prix à payer
Complexité croissante Retard au décodage Mémoire plus importante Sensibilité aux erreurs de transmission Sensibilité au bruit ?
3. Motivations pour utiliser ALISP
Permet un codage à très bas débit Développement de nouveaux outils pour la
recherche en phonétique Intègre le paradigme d’analyse par la synthèse Applications en reconnaissance de la parole
indépendante de la langue Identification de la langue Amélioration de la qualité de la parole
transmise, débruitage
3.2 Cas idéal versus cas actuel
ALISP devrait permettre idéalement un codage Indépendant du locuteur Indépendant de la langue Indépendant de l’environnement
Réalité : On commence par résoudre le cas
dépendant du locuteur Premiers résultats pour le codage
indépendant du locuteur
3.3 Principes du Codage
parole Analyse spectral
e
Analyse prosodiqu
e
Reconnaissance HMM
Dictionnaire des modèles
HMM des unités ALISP
Représentant A1
…
Représentant A8
HMM A
Détermination des unités de
synthèse
Choix unité de synthèse par
DTW
Codage prosodie
Indice unité ALISP
Indice unité de
synthèsePitch, énergie, temps
décodage
Parole synthétique
Représentant A1…
Représentant A8
Indice ALISP
N° représentant de synthèse
Paramètres de prosodie
Choix unité de synthèse
Synthèse par
concaténation
4. Méthodes de synthèse
Cas monolocuteur : commencer avec la LPC => résultats mauvais Nouvelle methode de concatention de segments
dans des zones de stabilité spectrale, avec synthèse préalable avec Harmonic Noise Model (HNM)
Cas indépendant du locuteur : avec la LPC => résultats comparables au cas
mono-locuteur pas encore appliquée des méthodes de synthèse
HNM
5. Resultats monolocuteur sur « BU corpus »
codage méthode ALISP (HNM) unités de synthèse correspondantes aux modèles HMM synthèse HNM original choix des unités de synthèse à partir des transcriptions phonétiques concaténation des formes d’onde
6. Expériences indépendantes du
locuteur sur BREF
Cas indépendant du locuteur : suffisamment de données parole d’un échantillon représentatif pour les données d’ entraînement et d’un autre ensemble de locuteurs disjoints pour le test (codage)
Exemple mono-locuteur , synthèse LPC, sur Bref
Exemple indépendant du locuteur, synthèse LPC
6.1 Base de données de parole BREF
Caractéristiques principales : corpus français composé de textes lus, extraits du journal « Le
Monde » 120 locuteurs, avec en moyenne 40-70 min de
parole par loc. Séparés en 80 locuteurs pour l’entraînement, 40 de
développement et 20 de test, avec des textes différents
Enregistrement qualité studio, échantillonné à 16kHz
6.2 Résultats multilocuteur sur « BREF corpus »
Caractéristique des unités ALISP, longueur moyenne de 66 ms, débit 140 bps
Fichiers sonores synthèse LPC cas mono locuteur (synthèse LPC) cas indépendant du locuteur original
6.3 Correspondance Alisp phones, Bref
Conclusions et perspectives
améliorer l’intelligibilité et la qualité choix d’unités compatibles pour
le codage et la synthèse à partir du texte rendre le codeur indépendant du
locuteur et de la langue restituer l’identité du locuteur
Et à plus longs termes...
• utiliser la technique ALISP de codage avec
des références étiquetées phonétiquement
pour faciliter la reconnaissance automatique
de la parole
• expérimenter le codage ALISP en vérification du locuteur
Recommended