Reconnaissance Vocale

Reconnaissance VocalePFE – SCIA 2008

Julien AssématDavid Landais

Présentation générale

Historique & Analyse ◦ Méthodes possibles, techniques…

Notre démarche◦ Structures HMM, algorithme N-grams…

Développement

Conclusion

Nature du projet :◦ Programme de reconnaissance vocale◦ Vocabulaire de grande taille◦Orienté retranscription de fichiers audio

Technologies et notions utilisées :◦ Langage C++◦MFCC : FFT, DCT, …◦ HMM◦ N-grams

Présentation générale (1/2)

Librairies◦ HTK : librairie de traitement du signal sonore◦ FFTW : calcul de transformée de Fourier

Applications envisagées◦ Commandes vocales◦ Retranscription de fichiers audio

Conversations Extraits radiophoniques Indexation sonore

◦ Dictée vocale

Présentation générale (2/2)

Etapes de la reconnaissance vocale◦ Pour comprendre les problématiques◦ Pour comprendre le cheminement technique

Approche IA pure Approche statistique

◦ Pour choisir les techniques utiles à notre application Taille du vocabulaire Reconnaissance en temps réel ou non

Historique (1/3)

Premiers pas de la reconnaissance vocale◦ 1950 : reconnaissance de chiffres et voyelles

Vocabulaire limité◦ 1968 : reconnaissance de mots isolés

Modèle de langage statistique◦ 1980 : N-grams

Historique (2/3)

Commandes vocales◦ 1983 : domaine militaire (France)

Reconnaissance de parole continue◦ 1996 : première machine à dictée vocale (IBM)

Historique (3/3)

Deux méthodes principalement utilisées

◦Méthode explicite Méthode basée sur l’utilisation de connaissances explicites

◦Méthode implicite Méthode basée sur une approche statistique

Analyse (1/4)

Méthode explicite◦ Première approche de la reconnaissance vocale◦ Basée sur l’utilisation de connaissances explicites :

Comparaison à des formes de référence (spectres…)◦ Utilisant des techniques d’IA pure

Systèmes multi-agents Blackboards (Hearsay II) Systèmes experts

◦Méthode peu performante à elle-seule à l’heure actuelle

Analyse (2/4)

Méthode implicite◦ Approche orientée statistique du problème à 2 niveaux

Niveau acoustique (modèle acoustique) Niveau linguistique (modèle de langue)

◦ Nécessite un apprentissage sur des corpus conséquents◦ Techniques utilisées :

Hidden Markov Models (HMM) Algorithme N-grams Réseaux de neurones

◦Méthode la plus performante à l’heure actuelle

Analyse (3/4)

Méthode implicite◦ Donne les meilleures performances (taux d’erreurs faible)◦ Reste la plus utilisée dans la reconnaissance vocale◦ Limites atteintes : gestion des accents, émotions, …

Dans le futur◦ Retour probable des techniques d’IA pure couplées avec les

méthodes statistiques

Analyse (4/4)

Pour notre projet :◦Méthode implicite est retenue

Méthode implicite comprend :◦Modèle acoustique◦Modèle linguistique

Notre démarche

Etapes :◦ Découpage du signal◦ Coefficients MFCC◦ Hidden Markov Models (HMM)

Résultat du modèle :◦ Donne la probabilité de correspondance à un phonème◦ Puis associer le phonème le plus probable à la tranche

Modèle acoustique (1/6)

Découpage du signal en tranche◦ Signal = suite d’amplitudes◦ Tranches de 10 à 20 ms

◦ Pour chaque tranche, extraction d’un vecteur caractéristique Coefficients MFCC Vecteur de 12 coefficients

Coefficients MFCC (Mel Frequency Cepstral Coefficient)◦ Transformée de Fourier sur la tranche

On obtient le spectre du signal◦ Projection du spectre sur l’échelle de Mel

Bancs de filtres triangulaires

Approximation du système auditif humain◦ Application de la DCT (Discrete Cosinus Transform)

Hidden Markov Models (DAVEUD)◦ Automates◦ Un HMM par phonème

Etats = caractéristiques du vecteur extrait◦ Un HMM par mot

Etats = phonèmes◦ Calculer la probabilité d’une séquence de phonèmes

Travail sur la syntaxe et la sémantique propre à la langue◦ Probabilité qu’une suite de mots existe dans la langue◦ Introduction de la notion d’approximation avec N-grams

Algorithme N-grams◦ Agrégation en 2 ou 3 mots avec une probabilité associée◦ Approximation de probabilités de séquences plus longues◦ Calcul des probabilités sur ces séquences plutôt que sur des mots◦ Probabilité d’obtenir un mot connaissant les mots précédents

Modèle linguistique

Méthode implicite : résumé

Implémentation du modèle acoustique◦ Analyse du signal◦ Découpage en tranches◦ Extraction des coefficients MFCC

◦Mise en pratique des HMM pour les phonèmes

Développement (1/2)

Problèmes rencontrés

◦ Corpus gratuits dédiés à l’apprentissage vocal très rares Nécessite beaucoup de travail pour les éditeurs

◦ Complexité mathématique de certaines notions Utilisation de librairies spécifiques

Développement (2/2)

Nombreuses manières de voir le problème◦ Dépend de l’application : commandes, dictée vocale

Mise en pratique de concepts◦ Traitement du signal

FFT, DCT, MFCC◦ Traitement du langage naturel

N-grams

Permet une approche concrète de ces domaines

Conclusion

Reconnaissance Vocale

Documents

La reconnaissance vocale La reconnaissance vocale Dites à votre PC ce quil doit faire par Bernard Maudhuit

AUDIOMETRIE. A: CONDITIONS DE TEST 3: Audiométrie vocale Vocale en direct Nécessite une double-cabine Permet lévaluation de la lecture labiale Vocale

Musique instrumentale et vocale - jds.fr

Traitement du signal pour la reconnaissance vocale · Chaîne de Reconnaissance vocale Acquisition microphone Numérisation du signal Pré-traitement Extraction de paramètres Classification

UNIVERSITÉ ABOU BEKR BELKAID DE TLEMCEN ...dspace.univ-tlemcen.dz/bitstream/112/14264/1/Mise-au...La reconnaissance vocale appelée biométrie vocale est en passe de révolutionner

Services à la vie étudiante - Outils technologiques et ......4. la prise de notes, la lecture, la rédaction Logiciels de reconnaissance vocale (Speech-to-text) Les logiciels de

Audiométrie vocale

RÉDACTION DE TRAVAUX...Logiciels de reconnaissance vocale (Speech-to-text) Les logiciels de reconnaissance vocale enregistrent votre voix dans un fichier et la convertissent en format

OK Google : comment j’optimise mon site web pour la ... · La recherche vocale s’appuie notamment sur les technologies de reconnaissance vocale dont les premiers travaux remontent

Application des HMMs à la reconnaissance vocale Adapté de Yannis Korilis, Christian St-Jean, Dave DeBarr, Bob Carpenter, Jennifer Chu-Carroll et plusieurs

Votre dictée en temps réel - Comdic...Olympus a travaillé en étroite collaboration avec les plus grands fabricants de logiciel de reconnaissance vocale afin d'optimiser le design

DynEd News Sp.cial Salon de l'Educationstorage.canalblog.com/48/83/351291/34477480.pdf · En 2008, DynEd a développé pour l’ensemble de sa gamme une nouvelle Reconnaissance Vocale

Couperin, François - Musique Vocale 1

Dicter. Envoyer. Terminé.€¦ · dans le cloud en toute sécurité. Choisissez si vous souhaitez envoyer vos enregistrements à votre assistant, au service de reconnaissance vocale

4_Application Des HMMs a La Reconnaissance Vocale

I) Le principe de la reconnaissance vocale

Service de soutien à l’apprentissage - Services à la …...Les logiciels de reconnaissance vocale enregistrent votre voix dans un fichier et la convertissent en format texte. Excellent

Reconnaissance d’Etats Emotionnels et Interaction …€¦ · forme Immersive de Simulation d’Entretien d’embauche en temps réel, ... synthèse vocale. L’objectif est

EFFICIENCE DE LA RECONNAISSANCE VOCALE POUR LE CHUS · Afin de revenir à des délais plus raisonnables et de réaliser de potentielles économies de coûts, il est envisagé de doter

La reconnaissance vocale dans le domaine professionnel