Upload
alvery-le-gall
View
113
Download
0
Embed Size (px)
Citation preview
Reconnaissance du locuteur
G. CHOLLET, R. BLOUET,S. RENOUARD, E. SANCHEZ-SOTO
(chollet,blouet,renouard,esanchez)@tsi.enst.fr
GET-ENST/CNRS-LTCI46 rue Barrault
75634 PARIS cedex 13http://www.tsi.enst.fr/~chollet
ENST:ENST: Ecole Nationale Supérieure des Ecole Nationale Supérieure des TélécommunicationsTélécommunicationshttp://www.enst.frhttp://www.enst.fr
CNRS:CNRS: Centre National de la Recherche ScientifiqueCentre National de la Recherche Scientifiquehttp://www.cnrs.frhttp://www.cnrs.fr
LTCI:LTCI: Laboratoire de Traitement et Communication Laboratoire de Traitement et Communication de l’Informationde l’Information
http://www.enst.fr/ura/ura.htmlhttp://www.enst.fr/ura/ura.html
Nos affiliations
Activités de l’équipe « parole »
Codage à très bas débit (400 bps), Analyse / Synthèse de la parole et visages
parlants, Détection et synthèse des émotions, Reconnaissance automatique,
Adaptation au locuteur Multilingue (français, anglais, mandarin,
arabe) Identification de la langue, du dialecte, Reconnaissance du locuteur
Quelques modalités en vérification d’identité
Bla-blaSECUREDSPACE
PIN
Plan
Quelques applications de la reconnaissance du locuteur. Avantages et inconvenients de la parole en vérification
d’identité La reconnaissance audio-visuelle (visage parlant) Le savoir faire de l’ENST en reconnaissance du
locuteur : Vérification du locuteur :
Les projets CAVE et PICASSO (dépendant du texte) Le consortium ELISA, le projet ALIZE, les évaluations
NIST (independent du texte) Le projet EUREKA !2340 MAJORDOME.
Détection de locuteurs : le projet ESTER Perspectives
Applications de la reconnaissance du locuteur
Vérification de l’identité (l’imposture délibérée est un risque)
Identification en ensemble ouvert (avons-nous dejà entendu ce locuteur ? )
Identification en ensemble fermé (qui prend la parole dans une réunion ?)
Recherche des passages où un locuteur prend la parole dans une base d’enregistrements audios
Aide à la reconnaissance de la parole
Les auditeurs ne sont pas meilleurs que des systèmes automatiques pour la plupart de ces tâches (sauf s’ils connaissent le locuteur depuis de nombreuses années)
Le signal de parole en vérification d’identité
Avantages Applications téléphoniques, Coût du capteur (microphone et CAN) faible Possibilité d’intégration à une carte à puce Fusion naturelle avec le visage (parlant)
Inconvenients Manque de discrétion Possibilité d’imitation, d’imposture Sensibilité aux bruits, aux distortions,… Variabilité temporelle
Quelques protocoles de vérification du locuteur
Typologie des approches : Dépendante du texte
Mot de passe public Mot de passe privé Mot de passe personnalisé Lecture ou répétition d’une phrase proposée par
le système (“text prompted”) Indépendante du texte
Possibilité d’adaptation au client Evaluation (imposture délibérée)
Utilisation de modèles de Markov cachés
(HMM)
Théorie de la détection
Detection Error Tradeoff (DET) Curve
CAVE – PICASSOhttp://www.picasso.ptt-telecom.nl/project/
Vérification du locuteur dépendante du texte dans le
projet PICASSO
Séquences de 16 chiffres Modèles de chiffres indépendants du locuteur Adaptation de ces modèles à la voix du client (phase
d’apprentissage) Des taux d’égale erreur inférieurs à 1% sont
possibles Mot de passe personnalisé
Permet au client de choisir son mot de passe Imposture délibérée
On suppose que l’imposteur a entendu le mot de passe et dispose d’enregistrements du client
Il peut utiliser des techniques de transformation de la voix pour tromper le système
Vérification du locuteur indépendante du texte
Le consortium ELISA, le projet Technolangue-ALIZE ENST, LIA, IRISA, DDL, Uni-Fribourg, Uni-Balamand... http://elisa.ddl.ish-lyon.cnrs.fr/ Le logiciel libre BECARS (Balamand-ENST Cedre Autom Rec of
Speakers) Les évaluations NIST en vérification du locuteur
http://www.nist.gov/speech/tests/spk/index.htm
Gaussian Mixture Model, Réseaux Bayésiens Adaptation au client, Information mutuelle des
gaussiennes Fusion avec des techniques segmentales (ALISP)
Modèle de mélange de Gaussiennes
La probabilité d’une observation x est modélisée par une somme pondérée de Gaussiennes :
8 Gaussians per mixture
National Institute of Standards & Technology (NIST)
Speaker Verification Evaluations
• Annual evaluation since 1995• Common paradigm for comparing technologies
GMM speaker modeling
Front-endGMM
MODELING
WORLDGMM
MODEL
Front-end GMM model adaptation
TARGETGMM
MODEL
Baseline GMM method
HYPOTH.TARGET
GMM MOD.
Front-end
WORLDGMM
MODEL
Test Speech
xPxPLog ]
)/()/([
LLR SCORE
)/( xP
)/( xP
=
Les résultats en 2002
Visages parlants et vérification d’identité
Le visage et la parole offrent des informations complémentaires sur l’identité de la personne.
De nombreux PC, PDA et téléphones sont et seront équipés d’une caméra et d’un microphone
Les situations d’imposture sont plus difficiles à réaliser.
Fusion Parole et Visage
(thèse de Conrad Sanderson, août 2002)
Conclusions et Perspectives
La parole permet une vérification d’identité à travers le téléphone.
Combiner les approches dépendantes et indépendantes du texte améliore la fiabilité.
Si l’on utilise le visage pour vérifier l’identité, il ne coûte pas cher d’ajouter la parole (et cela rapporte gros !).
De plus en plus de PC, PDA et téléphones sont équipés d’un microphone et d’une caméra. La reconnaissance audio-visuelle devrait se généraliser.