68
ENST, D´ ept. TSI / LTCI (CNRS URA 820) Reconnaissance de la parole Techniques et applications Olivier Capp ´ e ENST epartement Signal - Images / LTCI (CNRS URA 820) 46 Rue Barrault 75634 Paris Cedex 13 cappe@@tsi.enst.fr Reconnaissance de la parole — 1

Reconnaissance de la parole Techniques et applications

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

ENST, Dept. TSI / LTCI (CNRS URA 820)

Reconnaissance de la parole

Techniques et applications

Olivier Cappe

ENST

Departement Signal - Images / LTCI (CNRS URA 820)

46 Rue Barrault

75634 Paris Cedex 13

cappe@@tsi.enst.fr

Reconnaissance de la parole — 1

ENST, Dept. TSI / LTCI (CNRS URA 820)

Programme

1. Complexite de la tache de reconnaissance

2. Calcul des parametres acoustiques

3. Programmation dynamique

4. Modeles de Markov caches

5. Reconnaissance de mots isoles

6. Grands vocabulaires et parole continue

7. Applications

Reconnaissance de la parole — 2

1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)

Objectifs

Reconnaissance de la parole

Niveau acoustique Signal�(Niveau phonetique) Suite de phonemes / syllabes / ������Niveau lexical Mot, suite de mots,

hypotheses de mots

Compr ehension de la parole (dialogue)�Niveau semantique Concepts (Intentions)

Reconnaissance de la parole — 3

1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)

Obstac les

� Pas d’acces a la semantique (connaissances syntaxiques tout au plus)� Variabilite

– interlocuteur

– intralocuteur�particulierement sensible au niveau temporel� Coarticulation (y compris aux frontieres de mots)� Influence des conditions d’enregistrement (telephone)

Reconnaissance de la parole — 4

1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)

Variabilit e interlocuteur

In Advances in speech signal processing, S. Furui & M. Sondhi editors, c�

Marcel Dekker, 1991

Figure 1: La phrase “ We were away a year ago ” prononcee par trois locuteurs

Reconnaissance de la parole — 5

1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)

Variabilit e intralocuteur

In Advances in speech signal processing, S. Furui & M. Sondhi editors, c�

Marcel Dekker, 1991

Figure 2: La phrase “ We were away a year ago ” prononcee trois fois par le meme locuteur

Reconnaissance de la parole — 6

1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)

Coar ticulation

In Fundamentals of speech recognition, L. Rabiner & B-H. Juang, c�

Prentice Hall, 1993

Figure 3: Spectrogrammes des sequences /a-v-a/ et /a-z-a/

Reconnaissance de la parole — 7

1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)

Influence de l’envir onnement

Hz

s

enregistrement téléphonique

0 0.1 0.2 0.3 0.4 0.5 0.60

1000

2000

3000

4000

Hz

enregistrement direct

0 0.1 0.2 0.3 0.4 0.5 0.60

1000

2000

3000

4000

Figure 4: Spectrogrammes du mot “ safari ” enregistre en direct et par telephone

Reconnaissance de la parole — 8

1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)

Historique des techniques

Depuis le debut Methodes basees sur les

des annees 70 connaissances

(knowledge-based,

decodage acoustico-phonetique)

A partir du milieu Reconnaissance de mots

des annees 70 isoles, utilisation de la

programmation dynamique

Debut des Modeles de Markov Caches (HMM)

annees 80

Depuis dix ans Parole continue, grands vocabulaires,

techniques d’adaptation

Reconnaissance de la parole — 9

1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)

Appr oches basees sur les connaissances

Objectif

Signal de parole�

Suite de phonemes

Int erets� Vocabulaire illimite� Approche generique (multilingue)� Acquisition de connaissances (lien avec production / perception)

Principe

1. Segmenter le signal en phonemes

2. Reconnaıtre chaque phoneme

Outil de base : Etudes phenomenologiques

Reconnaissance de la parole — 10

1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)

Caract eristiques des phon emes

L’exemple des voyelles

In Fundamentals of speech recognition, L. Rabiner & B-H. Juang, c�

Prentice Hall, 1993

Figure 5: Spectrogrammes des sons vocaliques de l’anglais

Reconnaissance de la parole — 11

1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)

Sons vois es - Formants

PARTIE VOISEE PARTIE NON-VOISEE

1

0 1000 2000 300060

80

100

120

dB

Hz0 1000 2000 3000

40

60

80

100

dBHz

2.a 2.bFORMANTS

Figure 6: Spectres typiques de parties voisee et non-voisee

Reconnaissance de la parole — 12

1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)

Triangle vocalique

In Fundamentals of speech recognition, L. Rabiner & B-H. Juang, c�

Prentice Hall, 1993

Figure 7: Representation des sons vocaliques de l’anglais en fonctions des deux premieres frequences

formantiques

Reconnaissance de la parole — 13

1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)

Appr oches basees sur les connaissances

In Fundamentals of speech recognition, L. Rabiner & B-H. Juang, c�

Prentice Hall, 1993

Figure 8: Schema de principe des methodes basees sur les connaissances

Reconnaissance de la parole — 14

1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)

Appr oches basees sur les connaissances

Bilan� Recherche : approche pratiquement abandonnee pour la reconnaissance� Aucune application effective� Meilleures performances de decodage phonetique (signal haute qualite) � 80 % (technique hybride

reseaux de neurones - HMM)

Reconnaissance de la parole — 15

2. Calcul des parametres acoustiques ENST, Dept. TSI / LTCI (CNRS URA 820)

Reconnaissance de mots isol es

Idees nouvelles� Mots isoles (vocabulaire restreint)� Approche de type reconnaissance de formes (apprentissage)

Caract erisation des mots

Mot � trajectoire de parametres (mesures a intervalles reguliers) caracterisee de maniere statistique

Reconnaissance de la parole — 16

2. Calcul des parametres acoustiques ENST, Dept. TSI / LTCI (CNRS URA 820)

Appr oche statistique

In Fundamentals of speech recognition, L. Rabiner & B-H. Juang, c�

Prentice Hall, 1993

Figure 9: Schema de principe de la reconnaissance de mots isoles

Reconnaissance de la parole — 17

2. Calcul des parametres acoustiques ENST, Dept. TSI / LTCI (CNRS URA 820)

Calcul des param etres acoustiques

h(n) h(n) h(n)

FFT FFT FFT

h(n)

FFT

Temps

Frequence

Figure 10: Analyse d’un signal de parole par transformee de Fourier a court-terme

Reconnaissance de la parole — 18

2. Calcul des parametres acoustiques ENST, Dept. TSI / LTCI (CNRS URA 820)

Cepstre (cepstrum)

Cepstre (reel)

Transformee de Fourier inverse de � ������������������������������ ���! "#%$'& ( � #�) +*,�.-/���

Distance cepstrale 0 distor sion spectrale en echelle compress ee

�1���32 4���5�768 ( "#+$'& 9 � # 2 4� #;: 6 � <(>= ?@ ? A � �������������52 � ��� 4���������CB 6ED �(Parseval)

Reconnaissance de la parole — 19

2. Calcul des parametres acoustiques ENST, Dept. TSI / LTCI (CNRS URA 820)

Propri etes du cepstre - Suite

Compensation des effets convolutifs

F�G3H �.-I� TF2KJ �������7L �M�!� log N TFI2OJ ���QPR�E ST�QPR��biais (additif) sur les coefficients cepstraux

Decorr elation

U 5VW�X� &�Y ����� Y � " � Z []\_^>�`� <5a;< Y <5a ( Y ����� Y <badc �Reconnaissance de la parole — 20

2. Calcul des parametres acoustiques ENST, Dept. TSI / LTCI (CNRS URA 820)

Lissa ge cepstral

Decomposition de e��f����������� sur une famille orthogonale de fonctions

0 500 1000 1500 2000 2500 3000 3500 400050

55

60

65

70

75

80

85

90

95

100

Hz

dB

40

20

10

Figure 11: Effet de lissage cepstral

Reconnaissance de la parole — 21

2. Calcul des parametres acoustiques ENST, Dept. TSI / LTCI (CNRS URA 820)

Lissa ge “ en echelle mel ” (MFCCs)

In Fundamentals of speech recognition, L. Rabiner & B-H. Juang, c�

Prentice Hall, 1993

Figure 12: Reponse frequentielle du banc de filtres equivalent des parametres MFCC

Reconnaissance de la parole — 22

2. Calcul des parametres acoustiques ENST, Dept. TSI / LTCI (CNRS URA 820)

Adjonction des “ deriv ees ” temporelles ( g )

In Fundamentals of speech recognition, L. Rabiner & B-H. Juang, c�

Prentice Hall, 1993

Figure 13: Mode de calcul des parametres h et hWhReconnaissance de la parole — 23

2. Calcul des parametres acoustiques ENST, Dept. TSI / LTCI (CNRS URA 820)

Parametres acoustiques

From Large vocabulary continuous speech recognition: a review, S. Young, c�

IEEE SP Magazine, 1996

Figure 14: Schema d’obtention des parametres acoustiques (de type MFCC)

Reconnaissance de la parole — 24

2. Calcul des parametres acoustiques ENST, Dept. TSI / LTCI (CNRS URA 820)

Dimension des param etres acoustiques

� Calcul des parametres toutes les 10 a 15 ms (fenetre de 30 a 40 ms)� 10-14 coefficients cepstraux en echelle mel (MFCC)� Adjonction de l’energie du signal fenetre (en log)� Adjonction des parametres h et hWh (calcul sur 5 a 9 trames)

�100 vecteurs de dimension 35 par seconde

Reconnaissance de la parole — 25

3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)

Rappel sur la densit e gaussienne multiv ari ee

Densit e gaussienne (ou normale)

i �kjl�m� <n (b=po qsrut v 2 <( w jx2 yo z 6�{Densit e gaussienne multiv ari ee

i �}|'�m� <� (>= � "�~ 6 ������� @ &�~ 6 qsrut � 2 <( �.| 2 �3����� @ & �.| 2 �3�Q�c: dimension des vecteurs

Reconnaissance de la parole — 26

3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)

Densit e normale en dimension 2

Ellipses d’ equidensit e

In Pattern classification and scene analysis, R. O. Duda & P. E. Hart, c�

Wiley, 1973

Reconnaissance de la parole — 27

3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)

Surface de decision en dimension 2

Hypothese : Classes gaussiennes de meme matrice de covariance �

In Pattern classification and scene analysis, R. O. Duda & P. E. Hart, c�

Wiley, 1973�Classification selon la “ distance de Mahalanobis ”D � � �� $'& �.| � 2 � � ����� @ & �.| � 2 � � �

Reconnaissance de la parole — 28

3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)

Reconnaissance par DTW

Principe

Chaque mot est represente par une prononciation de reference (template)

Obstac le

Decalages temporels entre les differentes prononciations d’un meme mot

Solution

Mise en correspondance des sequences de parametres par distorsion temporelle (time warping)�Obtention du “ meilleur ” alignement par programmation dynamique (DTW)

Reconnaissance de la parole — 29

3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)

Mise en concor dance par alignement temporel

From Applications of voice processing to telecommunications, L. Rabiner, c�

Proceedings of the IEEE, 1994

Reconnaissance de la parole — 30

3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)

Mise en concor dance par alignement temporel

From Applications of voice processing to telecommunications, L. Rabiner, c�

Proceedings of the IEEE, 1994

Reconnaissance de la parole — 31

3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)

Alignement temporel

In Fundamentals of speech recognition, L. Rabiner & B-H. Juang, c�

Prentice Hall, 1993

Chemin d’alignement : -T��� �/�R�}-I� � � �O���.-I�m� -��Reconnaissance de la parole — 32

3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)

Contraintes temporelles locales

Document CNET, 1994

Figure 15: Exemple d’alignement temporel, a droite les contraintes imposees au chemin d’alignement

Reconnaissance de la parole — 33

3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)

Comparaison des diff erents chemins

Crit ere d’optimalit e d’un chemin

� �1�/� Y �O� ��� �#+$�&�� � |'�b�b� #+� Y7� �>�,� #+�X� � @ &#+$'&R  9 � � �.-¡ < �'2 � � �.-I� Y � � �.-¡ < �I2 � � �.-I� : (1)

Second terme : cout associe a la transition �Q�/�R�.-'� Y �O�u�}-I�¢� J �1�/�R�.-¡ < � Y �O�;�}-£ < �¤�Calcul recur sif

� # N & �1�/� Y �O���m� � # �1�/� Y �O���p � � |I�>�b� # N &�� Y¥� �>��� # N &��¦�   9 � � �.-¡ < �'2 � � �.-I� Y � � �.-¡ < �I2 � � �.-I� : (2)

Reconnaissance de la parole — 34

3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)

Algorithme de programmation dynamique

Passe avant

a) Calcul recursif du cout associe au meilleur chemin§¢¨©bªO«�¬}­u®+¯7­u°5±�² ³ ´�µl¶ �b· ©>ªO«1¸ ¯º¹»¶ �,· ©>ªO«1¸.¼½ ¾f¿ÁÀ! § ¨©Ã¬}­ ® ¯7­ ° ± ½ Ä�Å ­ ® ¬ÇÆ ½ È ±EÉ ­ ® ¬ÇÆ/±¢¯�­ ° ¬_Æ ½ È ±»É ­ ° ¬ÇÆ/±kÊÇË (3)

b) Memorisation du predecesseur �.Ì3Í� �.-I� Y ÌÎÍ� �.-I�¤�Point �Q� Í� �.-'� Y � Í� �}-I�¢� associe a � Í# qui minimise (3)

Passe arri ere

Obtention du chemin optimal en partant de la fin (backtracking)�}ÏE� Y Ï»��� Y �.Ì Í� �1ÐÑ� Y Ì Í� �XÐ!�¢� Y ����� Y �.Ì Í� � ( � Y Ì Í� � ( �¤� Y � < Y < �Reconnaissance de la parole — 35

3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)

Region de recherche du chemin optimal

In Fundamentals of speech recognition, L. Rabiner & B-H. Juang, c�

Prentice Hall, 1993

Figure 16: Region de recherche (contraintes temporelles permettant un taux de compression/expansion local

de 2:1)

Reconnaissance de la parole — 36

3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)

Relachement des contraintes aux extr emit es

In Fundamentals of speech recognition, L. Rabiner & B-H. Juang, c�

Prentice Hall, 1993

Figure 17: Region de recherche avec incertitude de 5 points sur le debut (9 points sur la fin) des signaux

Reconnaissance de la parole — 37

3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)

Utilisation de la DTW pour la reconnaissance

Apprentissa ge� Alignement de toutes les repetitions d’apprentissage� Construction de la prononciation de reference Ò � par moyennage

Reconnaissance� Alignements simultanes par rapport aux Ó hypotheses de mots� Ô \ÖÕ&¤× � ×»Ø � Í �Q� � Y �ÚÙ�ÛÜ� J mot reconnu

Reconnaissance de la parole — 38

3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)

DTW : autres raffinements

Variantes des contraintes locales

Reglage empirique des ponderations des transitions

Elagage du reseau de recherche (pruning)

Introduction d’heuristiques pour abandonner les chemins en cours de recherche� Í# �1�/� Y � Ù Û7�ÑÝ Ô \ÖÕÙßÞ à � Í# �1�/� Y � Ù Þ,��á âRecherche des meilleur s chemins d’alignement

N best, ã GReconnaissance de la parole — 39

4. Modeles de Markov caches ENST, Dept. TSI / LTCI (CNRS URA 820)

Modeles de Markov caches (HMM)

Modele (de repr esentation) des trajectoires de param etres

1. Chaıne de Markov sous-jacente non observable (cachee)�Segmentation probabiliste du signal en une sequence d’etats

2. Distribution statistique des vecteurs observes conditionnee a l’etat de la chaıne�Variation des caracteristiques de la trajectoire au cours du temps

äModele non-stationnaire , par tiellement obser ve

Reconnaissance de la parole — 40

4. Modeles de Markov caches ENST, Dept. TSI / LTCI (CNRS URA 820)

Exemple de mod ele de Markov cache

From Large vocabulary continuous speech recognition: a review, S. Young, c�

IEEE SP Magazine, 1996

Reconnaissance de la parole — 41

4. Modeles de Markov caches ENST, Dept. TSI / LTCI (CNRS URA 820)

Parametre du mod ele de Markov cache

Chaıne de Markov homog ene (temps discret, a valeur s discr etes)

å �Q� � � æ � ��� & � æ &,Y ����� Y � � @ & � æ � @ & �m� å �º� � � æ � ��� � @ & � æ � @ & �m�   �Çç.è;éº�ÇçMatrice de transition ê � 9   �Áë : �XÓ ì Ó �Modele d’obser vation

c �.| &¢í � ��� &¥í � � æ &¢í � �m� �� $�& c �.| � ��� � � æ � ��� �� $�& i �Çç �.| � �Parametres des Ó densites conditionnelles

i � �.|'� (cas gaussien : � � , � � )(!) Certaines r ef erences plus anciennes traitent le cas d’observations

discr etis ees (par quantification vectorielle pr ealable). Cette approche moins

performante (li ee aux contraintes d’impl ementation) est abandonn ee depuis le debut

des ann ees 90.

Reconnaissance de la parole — 42

4. Modeles de Markov caches ENST, Dept. TSI / LTCI (CNRS URA 820)

Estimation des param etres du mod ele

Application de l’algorithme EM (Expectation-Maximization)

1. Calcul de la quantite intermediaireî �Qï Y ï � #%� �m� ð A e�� c �.| &¢í � Y F &¥í �!ñ ïl�ß�ò| &¥í �Ññ ï � #+� B2. Remise a jour des parametresóTôeõ+ö�÷Üø�ù ú>û¢ü8ý£ú5þÿ ��� ó��dóTôeõ+ø��

Propri etes

1. La log-vraisemblance �� ü� � � ÷���� ñ óTôeõ+ø�� croıt

2. Les points d’accumulation possibles de la suite � ó ôeõ+ø � õ�� ÷ sont les points stables de la

log-vraisemblance � ó ��� ÿ �� ü� � � ÷���� ñ ó��mù ���Reconnaissance de la parole — 43

4. Modeles de Markov caches ENST, Dept. TSI / LTCI (CNRS URA 820)

Form ules de reestimation de l’EM

En developpant le calcul de ��� ó��dó ôeõ+ø � , on obtient (...) des formules de re-estimation explicites des

parametres du modele :

� ôeõ%ö'÷�ø�� ù ��� ÷ ! ÷ " ôeõ%ø � # �%$&���� ÷ ! ÷ ' ôeõ+ø � # � avec

()+* ' ôeõ+ø � # �mù , �%- ù #/.10 ÷2���43 ó ôeõ%ø �" ôeõ+ø �5# �%$���ù , �6- ù # � - ö�÷ ù $ .10 ÷2���43 ó ôeõ%ø �

7 ôeõ+ö'÷�ø� ù � ! ÷ ' ôeõ%ø � # � � � 5! ÷ ' ôeõ+ø � # � 8 ôeõ+ö'÷�ø� ù � ! ÷ ' ôeõ+ø � # � �5� �9 7 ôeõ%ö'÷�ø� � � � �9 7 ôeõ+ö�÷Üø� ��:� ! ÷ ' ôeõ%ø � # �

Reconnaissance de la parole — 44

4. Modeles de Markov caches ENST, Dept. TSI / LTCI (CNRS URA 820)

Calcul des probabilit es conditionnelles

;La solution intuitive

<>=@?�A BC=ED�<FAHGC=@?�I � � ÷2��� .1J ÷2� � ÷ �EK ù # � J ö'÷����L3 ó ôeõ%ø �F, �MJ ÷2� � ÷ �EK ù # � J ö'÷����L3 ó ôeõ%ø �<N= ��� � � ÷2�O� .1J ÷2�O� 3 óTôeõ+ø��F, �PJ ÷2�O� 3 óTôeõ+øQ�

(formule de Bayes)

est impraticable (complexite en R �)

Solution: Algorithme(s) de calcul recur sif, �%- ö�÷ ù $ .�� ÷2� ö�÷ �TS �%- ö�÷ ù $U� � ÷2� ö�÷ �ù �5V ö�÷ .+- ö�÷ ù $&� W� ! ÷ �%- ö�÷ ù $U� - ù # � � ÷2� �ù �5V ö�÷ .+- ö'÷ ù $�� W� ! ÷ , �%- ö'÷ ù $ .+- ù # �X �%- ù # � � ÷�� �

Reconnaissance de la parole — 45

4. Modeles de Markov caches ENST, Dept. TSI / LTCI (CNRS URA 820)

Algorithme forwar d-backwar d

(YY) YY* Z ÷ � # � ù Z � � � ÷ �Q[ �Z ö�÷ � $&� ù Z � � � ö�÷ �]\� ! ÷ Z � # � � �^� de _ ù `a a 9 `

(forward)

(YY) YY* b � �5# � ù `b �5# � ù \� ! ÷ � �^� Z � � � ö�÷ � b ö'÷ � $�� de _ ù a 9 `

a`

(backward)

d’ou l’on tire' � # �mù Z � # � b � # �\� ! ÷ Z � $&� b � $&�" � # �%$&�mù Z � # � � �^� Z � �5� ö'÷ � b ö�÷ � $&�W� ! ÷ W� ! ÷ Z � # � � �^� Z � � � ö'÷ � b ö�÷ � $&�

Reconnaissance de la parole — 46

4. Modeles de Markov caches ENST, Dept. TSI / LTCI (CNRS URA 820)

HMM : ReconnaissancecDetermination de la sequence optimale par l’ algorithme de Viterbi (similaire au cas de la DTW)

Document CNET, 1994

Reconnaissance de la parole — 47

5. Reconnaissance de mots isoles ENST, Dept. TSI / LTCI (CNRS URA 820)

Reconnaissance de mots isol es

Document CNET, 1994

Figure 18: Modelisation “ par mots ” d’un vocabulaire comprenant les chiffres de 0 a 9

Reconnaissance de la parole — 48

5. Reconnaissance de mots isoles ENST, Dept. TSI / LTCI (CNRS URA 820)

Mots isol es : apprentissa ge

Mode ind ependant du locuteur

Plusieurs centaines de prononciations de chaque mot (locuteurs differents);Cout d’un vocabulaire specifique

Mode monolocuteur

Apprentissage integre a l’application ( d 5 repetitions de chaque mot)cPerformances comparables (adaptation en cours d’utilisation)

Reconnaissance de la parole — 49

5. Reconnaissance de mots isoles ENST, Dept. TSI / LTCI (CNRS URA 820)

Performances de reconnaissance en laboratoire

In Automatic Speech and Speaker Recognition - Advanced Topics, ce

Kluwer, 1996

Figure 19: Performances sur parole de bonne qualite (SD: speaker dependent, SI: Speaker independent)

Reconnaissance de la parole — 50

5. Reconnaissance de mots isoles ENST, Dept. TSI / LTCI (CNRS URA 820)

Performances telephoniques

Taux d’erreur

10 mots (ex. chiffres 0 a 9) f `%

100 mots (ex. nombres 00 a 99) 2.5-3 %

500 mots 5-6%

Rejet des mots hor s-vocab ulairecModeles “ poubelle ” (garbage)

Deux types d’erreurs : Rejet a tort — Acceptation a tort

Taux d’egale erreur g h %

Reconnaissance de la parole — 51

5. Reconnaissance de mots isoles ENST, Dept. TSI / LTCI (CNRS URA 820)

Performances de la reconnaissance

Degradation des perf ormances dans les applications “ reelles ”

Taux d’erreur i j 9 k par rapport aux tests de “ laboratoire ”() * Parole spontanee

Caracteristiques de l’application;Test des applications “ en grandeur reelle ” avec des donnees d’exploitation

Reconnaissance de la parole — 52

5. Reconnaissance de mots isoles ENST, Dept. TSI / LTCI (CNRS URA 820)

Problemes actuels

Robustesse

Vis a vis du bruit de fond, des variations du systeme d’enregistrement

Adaptation au locuteur

Amelioration des performances par la personnalisation (apprentissage limitee)

Gestion des mots hor s-vocabulaire

Amelioration des techniques de rejet, strategies alternatives comme le word-spotting

Reconnaissance de la parole — 53

6. Grands vocabulaires et parole continue ENST, Dept. TSI / LTCI (CNRS URA 820)

Grands vocabulaires

Grand vocabulaire g 5 000 mots

Modele par mots

Nombre d’etatsS

nombre de mots

Modele par sub-w ord units

Triphonesc d 30 000 unites

(exemple : “ oiseau ”c #_WA_Z / WA\_Z\_O / Z_O_# )

Reconnaissance de la parole — 54

6. Grands vocabulaires et parole continue ENST, Dept. TSI / LTCI (CNRS URA 820)

Exemple d’unit es conte xtuelles

Document CNET, 1996

Figure 20: Modelisation d’un vocabulaire a partir d’unites contextuelles (allophones)

Reconnaissance de la parole — 55

6. Grands vocabulaires et parole continue ENST, Dept. TSI / LTCI (CNRS URA 820)

Grands vocabulaires : Apprentissa ge

Donn ees d’apprentissa ge en quantit e insuffisantecPartage des meme parametres par plusieurs etats du modele (tying)

µ , Σ4 43 3

m ,S

m ,S m ,S1 1

m ,S4 4

m ,S

m ,S6 6

m ,S5 5

m ,S8 8

7 7

2 2

3 3

µ , Σ µ , Σ µ , Σ1 1 2 2

Reconnaissance de la parole — 56

6. Grands vocabulaires et parole continue ENST, Dept. TSI / LTCI (CNRS URA 820)

Parole contin ue

Coar ticulationc

Utilisation d’unites contextuelles inter-mots

Probleme : Multiplication du nombre d’alternatives (maximal en debut de mot) !

SolutionslPruning (abandon des chemins en cours de recherche)

lUtilisation de plusieurs passes

lOrganisation arborescente du vocabulaire (arbre des prefixes)

lUtilisation precoce du modele de langage;

Necessite d’une forte puissance de calcul

Reconnaissance de la parole — 57

6. Grands vocabulaires et parole continue ENST, Dept. TSI / LTCI (CNRS URA 820)

Modeles de langa ge

Principe

Utiliser la statistique du sequencement des mots

Pourquoi ? Modeles syntaxiques (grammaires) inutilisables

(parole spontanee m erreurs de reconnaissancec

enonces incorrect)

N-grams

Probabilites de toutes les sequences de R mots, �@n � = �po/opoq� n � r �;Complexite en s W

En general, R ù j � k m techniques d’estimation “ lissee ”

Reconnaissance de la parole — 58

6. Grands vocabulaires et parole continue ENST, Dept. TSI / LTCI (CNRS URA 820)

Perple xit e: mesure de la qualit e du mod ele de langa ge

Entr opie t ù 9vuxw �� ü� �5y �6z, t ù 9 { | } ! ÷ } �~� ü � } � pour une loi a valeurs dans � `��po/opo���� �

Perple xit e � ù �sþ�� � t �l� est maximale ( � ù �

) si } ù `����

(`�� �]� �

)l� est minimale ( � ù `

) si }E� ù `

( } ù �

pour� �ù ���

);Interpretation : Nombre de choix effectifs

Estimation empirique par methode de Monte Carlo�� ù � þ�� � �t ��ù �X� Wõ ! ÷ �Py õ �%� � ÷�� WPerple xit e empirique du mod ele de

-gram

�� ù ��� Wõ !�� �5y õ .Oy õ�� ÷ �popopo y õ�� ô � � ÷Üø �%� � ÷F�sô W � � ö'÷�ø(estimation de la perplexite conditionnelle)

Reconnaissance de la parole — 59

6. Grands vocabulaires et parole continue ENST, Dept. TSI / LTCI (CNRS URA 820)

La perple xit e depend de la tache consid eree

Domain ��Radiology 20

Emergency medecine 60

Journalism 105

General English 247CSLU OGI data

Table 1: Perplexity of trigram models for different domains

Reconnaissance de la parole — 60

6. Grands vocabulaires et parole continue ENST, Dept. TSI / LTCI (CNRS URA 820)

Grands vocabulaires - Parole contin ue

Apprentissa geTexte (modele de langage) : g 20

`����mots

Parole (unites acoustiques) : g 500 heures

Performances (parole de bonne qualit e)60 000 mots d 10% (Word Error Rate)

From Large vocabulary continuous speech recognition: a review, S. Young, ce

IEEE SP Magazine, 1996

Figure 21: HTK / ARPA CSR, nov. 1994

Reconnaissance de la parole — 61

6. Grands vocabulaires et parole continue ENST, Dept. TSI / LTCI (CNRS URA 820)

Grands vocabulaires - Parole contin ue : Problemes actuels

;Les performances sont suffisantes pour envisager des applications en mode mono-locuteur avec des

conditions d’enregistrement controlees (premier produits en parole continue disponibles depuis 1999)

Mais reste un sujet de recherche actif, notamment surl

L’efficacite des algorithmes (le cout en terme de stockage memoire et de puissance de calcul reste tres

importantc

necessite un systeme dedie)l

La robustesse (pour les applications independantes du locuteur comme la transcription de documents

sonores)

Reconnaissance de la parole — 62

7. Applications ENST, Dept. TSI / LTCI (CNRS URA 820)

Applications de la reconnaissance de parole;La pertinence de l’outil (et le niveau de qualite attendu) depend des autres modes d’interactions

disponibles :

+ + + [Aide aux handicapes]

+ + [Automobile] Telephonie, controles des accessoiresc Peu d’applications suffisamment robustes du fait du milieu

tr es defavorable (bruit, prise de son)

+ [Telephonie fixe] Services fournis par l’operateur (par exemple, annuaire) ou par des entreprises (serveur

audiotel : reservation, information)c En recul du fait de la generalisation du minitel puis

d’internet

+ [Telephonie mobile] Annuaire personnnel, numerotation automatiquec Int er et croissant li e au possibilit es offertes par les

syst emes haut-d ebits type UMTS (Wap)

+/- [Bornes interactives de services] Type reservation SNCF

+/- [Utilisations professionnelles de l’informatique] (atelier, medecine, etc.)

- [Interface ordinateur] Interface vocale utilisateur, traitement de texte

Reconnaissance de la parole — 63

7. Applications ENST, Dept. TSI / LTCI (CNRS URA 820)

Applications de la reconnaissance de parole

Deux grands types d’utilisations

Speech-to-te xt

La reconnaissance fournit la sortie ultime du systeme (dictee, interface simple comme, par ex., pour la

numerotation telephonique)

Dialogue homme-mac hine

La reconnaissance est integree dans un systeme de dialoguecla reconnaissance sert de front-end au systeme de dialoguecle resultat de la reconnaissance peut prendre d’autres formes qu’une simple transcription (hypotheses

de mots, treillis de mots, word-spotting)cpossibilites supplementaires liees a l’interaction

Reconnaissance de la parole — 64

7. Applications ENST, Dept. TSI / LTCI (CNRS URA 820)

Offres en reconnaissance de parole

Reconnaissance de mots isol es (ind ependante du locuteur)

Offre importante pour la reconnaissance de mots isoles independante du locuteur, par exemple, Datavox

(Vecsys - LIMSI), Dialogic (CNET) et Microsoft, IBM, Lernout & Hauspie, AT&T, Creative Labs...

+ Societes de services specialisees pour la creation de vocabulaires specifiques (apprentissage non

commercialise)

Parfois possibilite de fonctionnement en mode flexible : creation de modeles de mots a partir du texte

(performances plus faibles)

Reconnaissance monolocuteur

d Memes fournisseurs

Reconnaissance de la parole — 65

7. Applications ENST, Dept. TSI / LTCI (CNRS URA 820)

Offres en reconnaissance de parole grands vocabulaires et parole contin ue

En 1999-2000, un grands nombre d’acquisitions ont conduit a une concentration de l’offre :

Lernout & Hauspie http://www.lhsl.com Qui possedait deja Kurzweil rachete Dragon

Systems http://www.dragonsys.com (ainsi que les activites dans le domaine de Matra

Communications)

Micr osoft acquiert Entr opic (leader dans le domaine de la recherche developpement avec les toolkits

ESPS/Waves+ et HTK), le toolkit HTK reste un outil du domaine publique

http://htk.eng.cam.ac.uk , les autres activites d’entropics sont integrees par Miicrosoft

Research (Cambridge, UK et Redmond, USA)

Reconnaissance de la parole — 66

7. Applications ENST, Dept. TSI / LTCI (CNRS URA 820)

Syst emes personnels de dict ee : essentiellement deux offres grand pub lic

Dragon (Lernout & Hauspie) Dragon Dictate

Discrete dictation; continuous command/control; speaker-adaptive. Also provides mouse movement for hands-free operation of

Windows. Comes with a 120,000 word pronunciation dictionary; users can also add their own words or phrases. Dictate directly

into any application. Available in US and UK English, French, Italian, German, Spanish, and Swedish. Add-on vocabularies for

medicine, law, business and finance, computers and technology, journalism. Available as DragonDictate Singles Editions (10,000

words active), DragonDictate Personal Edition (10,000 words active), DragonDictate Classic Edition (30,000 words active),

DragonDictate Power Edition (60,000 words active).

Dragon NaturallySpeaking

General purpose, continuous speech dictation system. Personal Edition has a 30,000 word active vocabulary and comes with a

200,000+ word pronunciation dictionary; users can also add their own words or phrases.

IBM IBM VoiceType & ViaVoice

Supports speech input at 70-100 words a minute and can be used to control your desktop and applications. Isolated-word,

speaker-dependent system using a speech adapter card. Available for U.S. English, U.K. English, French, German, Italian,

Spanish and Arabic. Provided with a general office vocabulary and support for major OS/2 and Windows applications. Additional

specialised vocabularies are available: US: Legal, Emergency Medicine, Radiology and Journalism UK: Legal IT: Radiology

Reconnaissance de la parole — 67

7. Applications ENST, Dept. TSI / LTCI (CNRS URA 820)

References bib liographiques

Principes et th eorie (la meilleure reference !)

Fundamentals of Speech Recognition, L. Rabiner & B.-H. Juang, Prentice Hall, 1993

Plus de theorie

Statistical method for speech recognition, F. Jelinek, Bradford Book, 1998

Developpements avances

Automatic Speech and Speaker Recognition - Advanced Topics, edited by C-H. Lee, F. K. Soong & K. K.

Paliwal, Kluwer 1996

Int eret historique

Readings in Speech Recognition, edited by A. Waibel & K-F. Lee, Morgan Kaufmann, 1990

Produits, fournisseur s, etc.

WWW : http://svr-www.eng.cam.ac.uk/ comp.spee ch

(comp.speech newsgroup)

Reconnaissance de la parole — 68