60
Traitement du signal pour la reconnaissance vocale Cours 5: Traitement du signal et reconnaissance de forme

Traitement du signal pour la reconnaissance vocale · Chaîne de Reconnaissance vocale Acquisition microphone Numérisation du signal Pré-traitement Extraction de paramètres Classification

Embed Size (px)

Citation preview

Traitement du signal pour la reconnaissance vocale

Cours 5: Traitement du signal et reconnaissance de forme

Chaîne de Reconnaissance vocale

Acquisition microphone

Numérisation du signal

Pré-traitement

Extraction de paramètres

Classification et décision

Dictionnaire

Tests et validation

Plan

Numérisation du signalFourierReconnaissance de la paroleConclusion

Plan

Numérisation du signalFourierReconnaissance de la paroleConclusion

Signal ?Définition: codage et simplification d’un message. un signal 1D est une fonction en général du temps s(t) � signaux lumineux, sonores, etc… ou spatial (2D, 3D images)A chaque instant t, on associe une valeur (amplitude).Le traitement, l’analyse, et l’interprétation des signaux sont regroupés dans la discipline appelée traitement du signal.

Différents secteurs et différentes branches

Les signaux sont présents dans différents secteurs (électronique, optique, audiovisuels, informatiques…). Quelques branches particulières qui nous intéressent .- traitement d’image (déjà vu)- traitement de la parole

Signaux

Signaux analogiques: signaux produits de manière naturelle, continus (capteurs, amplificateurs, CNA) � traitement réalisé par circuits électroniques, (ou manuellement)Signaux numériques: signaux utilisés dans le traitement informatique, discrets, facilité et rapidité de traitement. Ils sont artificiels � traitement réalisé par micro-ordinateurs, DSP (microprocesseurs spécialisés)

Problème en reconnaissance de parole

Acquisition microphone

Signal analogique

Traitement de la parole

Signal numérique

Conversion analogique –numérique (CAN)

Exemple

Signal analogique U(t) � signal continu (représentation par une courbe)Signal numérique Ut �valeurs non continues (représentation par un histogramme)

Conversion analogique-numérique (1)

La conversion analogique- numérique se décompose en général en deux actions:- l’échantillonnage (on prélève la valeur du signal à une fréquence définie) - la quantification (on affecte une valeur numérique à chaque échantillon prélevé)

Qualité de la CAN

La qualité du signal numérique dépend donc: - Taux d’échantillonnage (ou fréquence d’échantillonnage) plus la fréquence est grande, plus la qualité du signal numérique est bonne.- le nombre de bits sur lequel on code les valeurs (phase de quantification)

EchantillonnageQui dit échantillonnage dit perte d’information.Si fréquence très faible � espace très grand entre deux données � grosse perte d’informationsSi fréquence trop grande � information stockée inutile � gaspillage de l’espace de stockageFréquence d‘échantillonnage: fréquence à laquelle les données sont enregistrées ou capturées (Hz �nombre de valeurs par seconde).

Théorème de Shannon –fréquence de Nyquist

Pour pouvoir échantillonner un signal, il faut fixer une fréquence d’échantillonnage au moins égal au double de la fréquence du signal � fréquence limite = fréquence de Nyquist (théorème de Shannon)Signal sinusoïdal � fréquence du signal: pas de problème

Exemple: signal sinusoïdal

Signal analogique (f = 10 Hz)

échantillonnage à 20Hz (=2f) �cas parfait si on part du maximum

Sous échantillonnage à 10Hz

T

Signal périodique non sinusoïdal

On applique le théorème de shannonmais quelle fréquence choisir ?Signal peut être décomposé en signaux sinusoïdaux dont la fréquence est le multiple d’une fréquence fondamentale (largeur de bande)Fréquence de Nyquist = 2*plus haute fréquence

Phénomène d’aliasing

Sous-échantillonnage (restitution d’un faux signal)� phénomène d’Aliasing(ou de repliement)

Quantification (1)

Chaque valeur est quantifiée sur un certain nombre de bits par rapport à la valeur réelle du signal analogique.Nombre de bits disponibles est important pour quantifier la valeur du signal à un temps t. Plus le nombre est élevé, plus la quantification est de qualité

Quantification (2)

Quantification- sur 1 bit (2 valeurs)- sur 8 bits = 1 octet (256 valeurs)- sur 16 bits = 216 valeurs les quantifications se font en général sur 16 bits

Plan

Numérisation du signal

FourierReconnaissance de la paroleConclusion

Fourier ?

Joseph Fourier (mathématicien du XIXème sicèle)Séries de Fourier (par extension, transformée de Fourier et transformée de Fourier discrète) base de toute la théorie de traitement du signal

De façon mathématique

�∞

=

+=0

]2

sin2

cos[)(n

nn Tnt

bTnt

atfππ

Signal périodique (période T) = somme pondérée de signaux sinusoïdaux

1/T : fréquence fondamentale (on utilise souvent �=2�/T)n/T: harmoniquean et bn coefficients pondérateurs de Fourier

Exemples (1)

Somme pondérée de deux signaux de fréquence f et 3f (H3) � signal résultant (b): addition point par point des deux courbes de (a).

Exemples (2)

Meilleure approximation d’un Signal carré f(t): décomposition de la façons suivante

)23sin(231

...)5sin(51

)4cos(0)3sin(31

)2cos(0)sin()( tttttttf ϖϖϖϖϖϖ ++++++=

Analyse spectrale (1)

Représentation des amplitudes des différentes harmoniques (n=1,3,5,7…23) d’un signal � analyse spectrale.

Analyse spectrale (2)

Note de musique: harmoniques différentes pour le son du diapason (La pur) , son d’une guitare, son de cymbale.

Remarque (1)Etant donné que les séries de Fourier sont une décomposition en cosinus et sinus, on utilise souvent la notation complexe:

Avec Fn=(an+ibn)/2 et F-n=(an-ibn)/2

�∞

−∞=

=n

n TFtf )

int2exp()(

π

Remarque (2)A partir de l’équation précédente, les coefficients de Fourier se calculent de la façon suivante:

dtT

tfT

FT

Tn )

int2exp()(

1 2/

2/

π−= �−

Le nombre de descripteurs de Fourier calculés ainsi est en théorie infini

Interprétation

Plus n est grand, plus les fonctions sinusoïdales varient rapidement.� une fonction lisse (c.a.d qui ne varient pas beaucoup) aura des coefficients an et bn qui prendront rapidement (hautes fréquences) des valeurs faibles� une fonction très perturbée et très changeante (ou bruitée) auront des composantes importantes dans les hautes fréquences.

Transformée de Fourier (1)Souvent fonctions non périodiques et non bornées , la transformée de Fourier permet de généraliser le concept de séries de Fourier à ce type de fonction:

dttitfF �∞

∞−−= )2exp()()( υπυ

On peut noter le changement de variable � = n/T, ce qui explique la disparition du facteur 1/T avant la somme.

InterprétationDe façon peu rigoureuse, on pourrait considérer un signal analogique non périodique comme un signal dont la période tendrait vers l’infini, la fréquence tendrait alors vers 0 (dν)

et on obtient un spectre de Fourier continu appelé spectre de bande (et non un spectre de raies):

Exemple de spectre de bande

En pratique, signal non borné: très rare !on définit une fenêtre d’application [-T/2,T/2]Échantillonnage à une fréquence f telle que T=K/f

Vers la transformée de Fourier discrète

�−

−=

−=1)2/(

2/

)2

exp(1 K

KkKn K

inkf

KF

π

Remarque

Le signal numérique est décomposé en K segments. Le nombre total de coefficients de Fourier sera K.En traitement de signal, on utilise la FFT (Fast Fourier Transform) qui, sous certaines conditions, permet d’accélérer le calcul

Pour en revenir àl’échantillonnage

On fait un échantillonnage à très haute fréquence feToutes les fréquences supérieures à fe/2 sont éliminées: filtre anti-aliasingExemple: Pour un CD (fréquence 44,1 kHz), il ne faut pas de sons supérieurs à22 kHz (L’oreille humaine capte au maximum à 20 kHz) .

Exemple de FFT et théorème de Shannon

Spectre de bande, coupure à fe/2

Plan

Numérisation du signalFourier

Reconnaissance de la paroleConclusion

La reconnaissance vocaleApplications de la reconnaissance vocale:- commande vocale: mots isolés, petit vocabulaire.- compréhension: signification d’un petit message en parole continue- dictée: retranscription du texte sans compréhension

- Identification ou vérification du locuteur

Comment ça marche?

Même méthodologie que reconnaissance de forme:- Pré-traitement- Segmentation- Extraction de caractéristiques- Classification- Décision

Mais….Continuité: difficulté de séparer les mots ou les phonèmes dans un signal (les silences ne remplacent pas les blancs)Variabilité (effets plus importants que sur document visuel):- plusieurs locuteurs (timbre de voix, âge)- pour un même locuteur (émotions, voix enrouée, chants..)- rythme de la dictée (temps plus ou moins long pour dire la même chose)- bruit extérieur

Deux approches

Approche globale: reconnaissance de mots. Plus facile mais limité par le vocabulaire, la taille mémoire et le temps de calcul.Approche analytique: reconnaissance de phonèmes, de sons, plus difficile àmettre en place mais plus puissant

Pré-traitement du signal

Signal parlé: onde non stationnaire (pas les mêmes caractéristiques statistiques au cours du temps.On découpe le signal en fenêtre temporelle (quelques ms)On analyse chaque fenêtre temporelle

Exemple

Segmentation (en mots ou phonèmes)

Les mots sont marqués par des silences plus ou moins longsReconnaissance de mots isolés: facileReconnaissance de mots dans une parole continue: bien articuler et distinguer les motsReconnaissance de phonèmes: très difficile (changement de rythmes, rupture en fréquence…)

Extraction de l’empreinte du signal

Identifier une empreinte caractéristique du son émis- analyse spectrale- analyse par prédiction linéaire- analyse par coefficients cepstraux

Analyse spectrale

Au cours du temps (par fenêtre temporelle), on fait une FFTOn peut tracer un graphique temps/fréquence/ amplitude � Sonagramme. L’amplitude est donnée par les niveaux de gris Les coefficients de Fourier par fenêtre temporelle sont des caractéristiques du signal

Analyse par prédiction linéaire

Approximation du signal par un modèle suivant les échantillons précédentsLe signal est alors modélisé par une combinaison linéaire pondérée des échantillons précédents.

Les différents coefficients servent de caractéristiques

pnpnnn sasasas −−− +++= ...2211

Analyse par cepstresCepstre: passage du domaine temporel àun autre domaine temporelPour un signal x(t), on obtient les coefficients cepstraux exprimés en quéfrences par:

)))((((log)( 101 txFFTc −=

Les coefficients cepstraux sont des caractéristiques du signal.

Mesure de ressemblance

Calculer la ressemblance entre un mot (ou un phonème) et les mots ou les phonèmes d’un dictionnaireCritères statistiques (ou euclidiens) déjàvus en reconnaissance de forme

Mais…

Si un locuteur prononce deux fois le même mot. Il y aura des différences de rythme (temps).Comparaison dynamique (DTW: dynamic Time Warping)

La DTW

Création d’une fonction qui met en correspondance les évolutions temporelles.Problème, le réajustement est souvent long.La DTW est très utilisée pour la reconnaissance de mots isolés

Modèles statistiques

Type Bayes: Probabilité d’appartenance à un classe.� Très bien pour les mots isolés ou les

phrases très simples

Problème: le modèle statistique bayésien n’est pas assez puissant.

Exemple

Reconnaissance de phonèmes:

PhonèmeExtraction de caractéristiques

Identification du phonème (problème de coarticulation)

Identification du phonème àl’intérieur d’un mot: comparaison avec d’autres mots

HMM et Réseaux de neurones

Chaines de Markov Cachées (HMM): méthode statistique très élaborée �très utilisées car permet de mettre en correspondance le phonème identifié et le langage proprement dit.Méthodes neuronales: moins utilisées en reconnaissance de forme mais petit à petit on y vient.

Système mono et multi-locuteurs

Caractéristiques du signal très liées au locuteur.- Développement de systèmes monolocuteur, une personne fait un apprentissage et fournit ainsi son empreinte vocale � fort taux de reconnaissance, limité à une personne- Développement de systèmes multi-locuteurs, on moyenne l’empreinte vocale de tout le monde � taux de reconnaissance plus faible

Différences globales/analytiques

++-dictée

-+++Mots isolés

++/-Mutlilocuteur

-++cout

++ (qq mots)/ - (grand mot)

Apprentissage

+-Taille du vocabulaire (>1000)

analytiqueGlobale

Conclusion traitement du signal

Traitement numérique du signal: Analyse de Fourier et notions de filtrage sont les bases.Murat Kunt « Techniques Modernes de Traitement numérique des Signaux », Presse Polytechniques et Universitaires Romandes, Lausanne, 1991.

Conclusion et Avenir de la reconnaissance de parole

Principe similaire à la reconnaissance de formeLes méthodes de reconnaissance de parole sont encore loin d‘être optimales malgré l’apport des HMMProblèmes de segmentation, de reconnaissance de phonème, de bruit, d’usage multi locuteurs

bibliographieTraitement de la parole:

http://r.battault.free.fr/probatoire/probatoire.htmlhttp://www.vieartificielle.com/index.php?action=article&id=191Mariani J. (: Reconnaissance de la parole : Traitement

automatique du langage parlé, LavoisierBoîte R., Bourlard H., Dutoit H., Hancq J., Leich H.; Traitement de

la parole, Presse Polytechnique Universitaires Romandes, 1999.

Chaines de Markovhttp://r.battault.free.fr/probatoire/probatoire.htmlFrederick Jelinek Statistical Methods for Speech Recognition MIT Press,

1998.

Bibliographie (2)Réseaux de neuronesJodouin J.F (1994) les réseaux de neurones: principe et définition. Hermès, Paris, FranceRenders J.M. (1995) Algorithmes génétiques et réseaux de neurones. Hermès, Paris, Francehttp://www.umoncton.ca/sciences/informatique/maia/in4413/projets/landry/historique.html

StatistiquesDodge Y. (1993) Statistique. Dictionnaire encyclopédique. Dunod, Paris, FranceSaporta G. (1990) Probabilités, analyse des données et statistique. EditioSCHERRER B. (1984) - Biostatistique - Gaëtan Morin (ed.), C.P. 965, Chicoutimi, Québec, Canada.