Décodage des informations. Trois approches pour le décodage des informations Approche analytique Approche globale Approche statistique Approche connexionniste

Décodage des informations

Trois approches pour le décodage des informations

• Approche analytique

• Approche globale

• Approche statistique

• Approche connexionniste (réseau de neurones)

Approche analytique• le signal obtenu après l'analyse acoustique est segmenté à partir de

différents critères (énergie, stabilité spectrale,...) en unités de taille phonétique comme les phonèmes, ou les syllabes.

• une identification phonétique des segments est réalisée en comparant les mesures acoustiques à des formes de références, on obtient donc un treillis phonétique.

• ce décodage obtenu est exploité par un analyseur lexical, qui utilise des connaissances lexicales, émet des hypothèses de mots, suivi d'un analyseur syntaxique qui en utilisant les connaissances syntaxiques détermine la phrase prononcée en cherchant parmi toutes les phrases syntaxiquement correctes, construites à partir des mots détectés, celle qui est la plus vraisemblable.

• ces systèmes dits à base de connaissances ou d'IA(Intelligence artificielle) tentent de reproduire le raisonnement d'un expert phonéticien.

• ces systèmes sont restés au stade expérimental et ne sont plus d'actualité.

La comparaison dynamique

• Lorsqu’un locuteur, même entraîné, répète plusieurs fois une phrase ou un mot, il ne peut éviter les variations du rythme de prononciation ou de la vitesse d’élocution. Ces variations entraînent des transformations non linéaires dans le temps du signal acoustique. La non-linéarité vient du fait que les transformations affectent plus les parties stables du signal que les phases de transitions.

• Une méthode pour s’affranchir de ces transformations est de réaliser une normalisation temporelle en même temps que la comparaison des deux mots. On peut utiliser pour cela une technique de comparaison dynamique, ou alignement temporel dynamique (DTW: Dynamic Time Warping) introduit en reconnaissance de la parole par Vintsujk

http://philduweb.free.fr/contributions/parole/signal.htm#D%C3%A9butDocument

La comparaison dynamique

Soit les formes A et B, deux images acoustiques (des spectrogrammes dans le cas de la figure suivante, de longueur I et J, à comparer.

L’alignement dynamique entre ces deux formes est représenté par le chemin

{C(k)=(n(k), m(k)); k=1 à K}, avec C(1)=(1, 1) et C(K)=(I, J).

Alignement temporel dynamique

• Mot test

• Mot ref

• Pour respecter la réalité, il est appliqué des contraintes suivante sur les fonctions n(k) et m(k) afin qu’elles soient croissantes et respectent des conditions de continuité (exprimées par les contraintes).

Exemples de contraintes locales.

(i-1,j-1)

1

12

(i,j)(i-1,j)

(i,j-1)

a)

1

1

1

12

(i-1,j-2)

(i-1,j-1)(i-2,j-1)

b) (i,j)(i-1,j)

(i-1,j-2)

(i-1,j-1)

(i,j) c)

si on retient les contraintes (a) (c'est à dire on peut joindre le point (i, j) soit 1. à partir du point (i-1, j) 2. à partir de (i-1, j-1) 3. à partir de (i, j-1) ) indiquées précédente nous obtenons la formule récursive suivante :

d(i,j) représente la distance entre le spectre de la référence et le spectre du test aux instants i et j

D(i,j) représente la distance cumulée et est calculée en respectant les propriétés de monotonie et d'évolution lente du signal étudié.

D(i-1, j) + d(i,j) D(i-1, j-1) + 2 d(i,j) D(i, j-1) + d(i,j) {D(i,j) = min

Le coût du chemin optimal est JI

JID

,

• La méthode de la comparaison dynamique consiste à choisir, parmi tous les chemins physiquement possibles, la référence pour laquelle la distance totale D(I,J)/(I+J) est la plus faible et qui représente le chemin le plus court. L'étiquette du mot reconnu peut alors être fournie comme un résultat.

• Si la distance est trop élevée, en fonction d'un seuil pré-défini, la décision de non reconnaissance du mot est alors prise ; cela permet de rejeter les mots qui n'appartiennent pas au dictionnaire de référence.

• La ressemblance idéale se traduit donc par une diagonale comme dans la figure de l’alignement temporel.

Approche statistique

• L'approche statistique propose une modélisation plus générale et permet la reconnaissance de plus grands vocabulaires en parole continue de manière efficace en intégrant les niveaux acoustiques et linguistiques dans un seul processus de décision,

• Ces niveaux sont représentés par des modèles probabilistes à savoir les Modèles de Markov Cachés,

• Les unités acoustiques modélisées peuvent être des mots, des unités courtes telles que la syllabe, le phonème, le pseudo-diphone


Étant données une suite d'observations Y et une suite de mots prononcés M, l'approche statistique consiste à chercher parmi toutes les suites possibles , la suite la plus probable connaissant la suite d'observations Y, soit :

M̂EM

YMMMEM

/Prmaxargˆ


D'après la formule de Bayes on a :

• P(Y/M) représente la probabilité d'observer la suite Y étant donnée la suite M de mots prononcés, elle est estimée par une modélisation acoustique.

• P(M) représente la probabilité a priori, liée au langage de l'application, que la suite de mots M soit prononcée.

• On peut estimer la probabilité de la séquence M, si on a un modèle de langage

• On peut supposer aussi que les mots ont la même probabilité d'être prononcés.

P M / Y P Y / M P M 1

P Y

Puisque P(Y) ne dépend pas de M, l'équation précédente devient :

Au cours des dernières années, les plus grands systèmes de RAP ont été conçus avec une approche statistique markovienne.

M^

arg maxP Y / M MEM

P M

Modèles de Markov Cachés (MMC)ou (HMM en anglais)

Modèles de Markov Cachés

Depuis l'introduction en traitement automatique de la parole des Modèles de Markov cachés (Hidden Markov Models ou HMM en anglais), la majorité des systèmes de reconnaissance utilisent ces outils comme base de leurs modélisations.

Définition des MMCs

• Un modèle de Markov caché est un double processus où

• est une chaîne de Markov d'ordre 1 à valeurs dans un ensemble d'états Q fini de cardinal N,

• Elle vérifie pour tout instant t>1 et pour toute suite d'états

•

1, ttt YX 1ttX

NqqqQ ,.......,, 21

tiii qqq ,.......,,21

1

11

1111

Pr

,........,Pr

titi

tittit

itittit

a

qXqX

qXqXqX

Définition des MMCs

• pour t=1, on a :

• pour i =1, ..., N. iiqX 1Pr

Distribution initiale

Définition des MMCs• L'état du processus n'est pas directement observable

- on dit qu'il est "caché" -, mais lors du passage par une observation est émise, une réalisation du processus

• est un processus observable à valeurs dans un ensemble mesurable Y.

• Le processus vérifie :•

. est la probabilité d'émission de l'observation par

l'état .

iqiq

1ttY 1ttY

1ttY

tiittt

ttittt

ybqXyY

yYyYqXqXyY

Pr

,...,,.,..........,Pr 111111

Nit ,....,1,1

ti yb tyiq

Les observations sont supposées indépendantes les unes des autres conditionnellement à la suite d'états et chaque observation ne dépend que de l'état courant. Ces observations peuvent être :

- discrètes, dans ce cas est une distribution de probabilité discrète définie un ensemble appelé "dictionnaire",

- continues, dans ce cas sera une fonction de densité de probabilité continue de

.ib

.ib.1, dRd

Il s'en suit qu'un modèle de Markov caché est caractérisé par : - l'ensemble fini des états - la matrice des probabilités de transitions de la chaîne

-la distribution de probabilité initiale de

-la distribution de probabilité associée à chaque état , pour i = 1,......, N.

Par convention un MMC sera noté .

NqqqQ ,.......,, 21

1ttX NjNiijaA

11

tX

Nii 1

iq.ib

BA,,

Remarques

• Les probabilités d'émissions sont parfois notées dans le cas où l'on associe les lois d'observations aux transitions plutôt qu'aux états.

• Dans ce cas on a : .• Les deux approches sont équivalentes, et

le choix est guidé par des critères de simplicité de l'écriture des algorithmes.

tij yb

itjttttij qXqXyYyb 1,Pr

1 2 3 4 5b b b

b b b b b

bbb

11

13

b12

22

23

24

33 44 55

34

35

45

Modèle de Markov à 5 états

Vraisemblance d'une suite d'observations

• Soient une suite d'observations émises par le modèle précédemment défini et une suite d'états de longueur T définissant un chemin,

• la vraisemblance de ces observations est calculée comme suit :

Tyyy ,,........., 21

TiiT qq ,....,1

),.......,Pr 11 TT yYyY ),.......,Pr 11 TT yYyY

TiTi qXqX ,...,Pr11

Vraisemblance d'une suite d'observations

• est l'ensemble de tous les chemins de longueur T.

• En utilisant la règle de Bayes et les équations définies précédemment on obtient après réarrangement :

T

11111 ,....,Pr ybyYyY iiTTT

][ 2 1 Tn

n nnininiyba

Mise en oeuvre des MMCs

L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes :

1. définition de la topologie de la chaîne de Markov, ce qui équivaut à construire un graphe dépendant de l'application visée (vocabulaire, syntaxe pour la RAP),

2. apprentissage du modèle : un des grands avantages de l'approche markovienne réside dans l'utilisation d'un apprentissage automatique des paramètres d'un modèle donné - quelle que soit la nature des observations (continues ou discrètes) -, ses paramètres sont optimisés de manière à maximiser la probabilité d'émission des observations données, une fois définie la topologie du modèle,

BA,,

3. reconnaissance : il s'agit, pour une suite Y= d'observations et un modèle

donné de définir :

– soit la vraisemblance d'une suite d'observations par rapport à un modèle ,

– soit de retrouver le chemin optimal , au sens probabiliste, c'est à dire la suite d'états cachés qui a vraisemblablement généré ces observations, parmi toutes les séquences s d'états possibles, soit :

Tyyy ,,........., 21

Tyy ,.......,Pr 1*s

YsYss

PrmaxargPr *

Mise en oeuvre des MMCs

D'après la formule de Bayes on a :

Remarquons que Pr(Y) ne dépend pas de la suite d'états s ; par conséquent la séquence qui donne la meilleure probabilité est celle qui maximise la probabilité conjointe Pr(Y,s) :

Pour résoudre les problèmes posés dans ces deux dernières étapes, deux algorithmes ont été développés,

- l'algorithme de Baum-Welch pour calculer la vraisemblance d'une suite d'observations,

- l'algorithme de Viterbi pour le calcul du chemin optimal.

YsY

YsPr

,PrPr

sYYss

,PrmaxargPr

Algorithme de Baum-Welch "avant-arrière"

• Soient une suite d'observations et soit un modèle donné, on définit deux variables et

- La variable avant (forward en anglais)

représente la probabilité d'observer les t premières observations et d'aboutir dans l'état au temps t.

- La variable arrière (backward en anglais)

représente la probabilité d'observer les t+1 dernières observations

sachant que l'on part de l'état au temps t

Tyyy ,,........., 21

iq itti qXyyqt ,,.......,Pr, 1

,,.....,,Pr, 21 jtTttj qXyyyqt

jq

• Les variables forward et backward sont initialisées, pour

tous les états par :

La règle de Bayes permet un calcul récursif de ces deux variables :

pour t=2,...,T et

pour t=T-1,T-2,..,1et

,iq Ni1

1,1 ybq iii

1, iqT

tiji

Nj

jji ybaqtqt

1,1,

11

,1,

tjij

Nj

jji ybaqtqt

Ni1

Ni1

la vraisemblance de la suite d'observations par rapport au

modèle

Ni

iiT qTyy

11 ,,........,Pr

ii

Ni

iiT qybyy ,1,.....,Pr 1

11

Algorithme de Viterbi

• l'algorithme de Viterbi est utilisé pour la recherche du meilleur chemin, dans un graphe, ayant généré une suite d'observations selon un modèle

Il permet une réduction importante des calculs

Le chemin optimal recherché est défini par :

Tyyy ,,........., 21

,,.....,Prmaxmin

,,.....,Pr 11 TT yyche

yy

Détermination du chemin optimal

Soit la variable

le maximum, sur tous les chemins partiels possibles de

longueur t et aboutissant à l'état des probabilités

d'émission des t premières observations la probabilité d'émission le long du chemin optimal

recherché

La règle de Bayes nous donne la formule récurrente

suivante

pour t =1,...,T et pour j=1,...,N .

itiittiii

i qqqyyqt ,,...,,,...,Prmax,111

1,...,2,1

,iq

tyy ,...,1

ii

T qTyy ,max,,...,Pr 1

tjijii

j ybaqtqt },1max,

Détermination du chemin optimal

Pour déterminer le chemin optimal, on utilise une variable supplémentaire pour mémoriser, à chaque itération l'état correspondant au maximum :

l'état final du chemin optimal

la variable permet de retrouver les états précédents par une récurrence arrière :

…..

…

ijii

j aqtArgqt ,1max,

iiq

T qTq ,maxarg

.,.

TT qTq ,1

., 1 tt qtq

12 , TT qTq

., 10 qtq

Sélection d'un chemin dans le treillis entre les instants t - 1 et t

t-1 t

Procédure d'apprentissage

Documents

Décodage des informations. Trois approches pour le décodage des informations Approche analytique Approche globale Approche statistique Approche connexionniste