Reconnaissance de la parole

Reconnaissance de la paroleSCIA 2008

Julien ASSÉMATDavid LANDAIS

Introduction◦ Rappel du projet◦ Objectifs du projet

Un point sur l’état de l’Art◦ Méthode explicite◦ Méthode implicite◦ Performances

Approche du projet◦ Techniques et méthodes retenues◦ Applications

Plan

Rappel du projet◦ Système de reconnaissance vocale◦ Parole continue◦ Vocabulaire de grande taille

Objectifs du projet◦ Capacité de reconnaissance d’un signal de parole continue◦ Applicable à tout type de messages sonores (discours, …)◦ Taux de reconnaissance correct◦ Utilisation pour une application concrète

Introduction

Deux méthodes de conception selon les techniques utilisées

◦ Méthode explicite Méthode basée sur l’utilisation de connaissances explicites

◦ Méthode implicite Méthode basée sur une approche statistique

Un point sur l’état de l’Art

Première approche en reconnaissance de la parole dès 1970

Basée sur l’utilisation de connaissances explicites◦ Comparaison à des formes de références (spectres, …)

Techniques◦ Systèmes multi-agents◦ Blackboard (Hearsay II)◦ Systèmes experts (1980)

Méthode peu performant

Méthode expliciteUN POINT SUR L’ÉTAT DE L’ART

Approche statistique◦ Niveau phonétique (modèle acoustique)◦ Niveau linguistique (modèle de langue)

Nécessite un apprentissage

Techniques◦ Hidden Markov Models (HMM)◦ Algorithme N-gram◦ Réseaux de neurones

Méthode impliciteUN POINT SUR L’ÉTAT DE L’ART

Extraction de caractéristiques d’un signal

Travail sur les phonèmes propres à la langue◦ Utilisation du vecteur de caractéristiques extrait◦ Probabilité qu’une portion du signal appartienne à chacun des

phonèmes de la langue (HMM)

Hidden Markov Models◦ Calculer la probabilité d'une séquence particulière

Modèle acoustiqueUN POINT SUR L’ÉTAT DE L’ART

Travail sur la syntaxe et la sémantique propres à la langue◦ Probabilité qu’une suite de mots existe dans la langue◦ Introduction de la notion d’approximation avec N-gram

Algorithme N-gram◦ Agrégation en séquences de 2 ou 3 mots avec une probabilité associée◦ Approximation de probabilités de séquences plus longues ◦ Calcul des probabilités sur ces séquences plutôt que sur des mots

Modèle de langueUN POINT SUR L’ÉTAT DE L’ART

Méthode implicite : résuméUN POINT SUR L’ÉTAT DE L’ART

Quelques chiffres en moyenne pour les systèmes actuels dans les mêmes conditions environnementales :◦ 0,3 % d’erreur pour l’énumération d’une suite de chiffres◦ 5 % d’erreurs pour un vocabulaire de 20 000 mots en parole continue◦ 8 % d’erreurs pour une énumération de lettres◦ 40 % d’erreurs pour une conversation téléphonique spontanée

En général, forte dépendance de certains paramètres◦ Taille du vocabulaire◦ Régionalisation (paramètre inter-locuteur)◦ Etat émotionnel (paramètre intra-locuteur)

PerformancesUN POINT SUR L’ÉTAT DE L’ART

Méthodes et techniques retenues◦ Utilisation de la méthode implicite

Meilleurs résultats Utilisation des deux modèles (phonétique et linguistique)

◦ Réseaux de neurones pour la reconnaissance des phonèmes

Applications◦ Indexation de messages sonores

Emissions radiophoniques Discours Conversation …

Approche du projet

?

Documents

Reconnaissance de la parole