Reconnaissance de la paroleSCIA 2008
Julien ASSÉMATDavid LANDAIS
Introduction◦ Rappel du projet◦ Objectifs du projet
Un point sur l’état de l’Art◦ Méthode explicite◦ Méthode implicite◦ Performances
Approche du projet◦ Techniques et méthodes retenues◦ Applications
Plan
Rappel du projet◦ Système de reconnaissance vocale◦ Parole continue◦ Vocabulaire de grande taille
Objectifs du projet◦ Capacité de reconnaissance d’un signal de parole continue◦ Applicable à tout type de messages sonores (discours, …)◦ Taux de reconnaissance correct◦ Utilisation pour une application concrète
Introduction
Deux méthodes de conception selon les techniques utilisées
◦ Méthode explicite Méthode basée sur l’utilisation de connaissances explicites
◦ Méthode implicite Méthode basée sur une approche statistique
Un point sur l’état de l’Art
Première approche en reconnaissance de la parole dès 1970
Basée sur l’utilisation de connaissances explicites◦ Comparaison à des formes de références (spectres, …)
Techniques◦ Systèmes multi-agents◦ Blackboard (Hearsay II)◦ Systèmes experts (1980)
Méthode peu performant
Méthode expliciteUN POINT SUR L’ÉTAT DE L’ART
Approche statistique◦ Niveau phonétique (modèle acoustique)◦ Niveau linguistique (modèle de langue)
Nécessite un apprentissage
Techniques◦ Hidden Markov Models (HMM)◦ Algorithme N-gram◦ Réseaux de neurones
Méthode impliciteUN POINT SUR L’ÉTAT DE L’ART
Extraction de caractéristiques d’un signal
Travail sur les phonèmes propres à la langue◦ Utilisation du vecteur de caractéristiques extrait◦ Probabilité qu’une portion du signal appartienne à chacun des
phonèmes de la langue (HMM)
Hidden Markov Models◦ Calculer la probabilité d'une séquence particulière
Modèle acoustiqueUN POINT SUR L’ÉTAT DE L’ART
Travail sur la syntaxe et la sémantique propres à la langue◦ Probabilité qu’une suite de mots existe dans la langue◦ Introduction de la notion d’approximation avec N-gram
Algorithme N-gram◦ Agrégation en séquences de 2 ou 3 mots avec une probabilité associée◦ Approximation de probabilités de séquences plus longues ◦ Calcul des probabilités sur ces séquences plutôt que sur des mots
Modèle de langueUN POINT SUR L’ÉTAT DE L’ART
Méthode implicite : résuméUN POINT SUR L’ÉTAT DE L’ART
Quelques chiffres en moyenne pour les systèmes actuels dans les mêmes conditions environnementales :◦ 0,3 % d’erreur pour l’énumération d’une suite de chiffres◦ 5 % d’erreurs pour un vocabulaire de 20 000 mots en parole continue◦ 8 % d’erreurs pour une énumération de lettres◦ 40 % d’erreurs pour une conversation téléphonique spontanée
En général, forte dépendance de certains paramètres◦ Taille du vocabulaire◦ Régionalisation (paramètre inter-locuteur)◦ Etat émotionnel (paramètre intra-locuteur)
PerformancesUN POINT SUR L’ÉTAT DE L’ART
Méthodes et techniques retenues◦ Utilisation de la méthode implicite
Meilleurs résultats Utilisation des deux modèles (phonétique et linguistique)
◦ Réseaux de neurones pour la reconnaissance des phonèmes
Applications◦ Indexation de messages sonores
Emissions radiophoniques Discours Conversation …
Approche du projet
?