22
Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO ollet,blouet,renouard,esanchez )@ tsi.ens GET-ENST/CNRS-LTCI 46 rue Barrault 75634 PARIS cedex 13 http://www.tsi.enst.fr/~chollet

Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

Embed Size (px)

Citation preview

Page 1: Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

Reconnaissance du locuteur

G. CHOLLET, R. BLOUET,S. RENOUARD, E. SANCHEZ-SOTO

(chollet,blouet,renouard,esanchez)@tsi.enst.fr

GET-ENST/CNRS-LTCI46 rue Barrault

75634 PARIS cedex 13http://www.tsi.enst.fr/~chollet

Page 2: Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

ENST:ENST: Ecole Nationale Supérieure des Ecole Nationale Supérieure des TélécommunicationsTélécommunicationshttp://www.enst.frhttp://www.enst.fr

CNRS:CNRS: Centre National de la Recherche ScientifiqueCentre National de la Recherche Scientifiquehttp://www.cnrs.frhttp://www.cnrs.fr

LTCI:LTCI: Laboratoire de Traitement et Communication Laboratoire de Traitement et Communication de l’Informationde l’Information

http://www.enst.fr/ura/ura.htmlhttp://www.enst.fr/ura/ura.html

Nos affiliations

Page 3: Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

Activités de l’équipe « parole »

Codage à très bas débit (400 bps), Analyse / Synthèse de la parole et visages

parlants, Détection et synthèse des émotions, Reconnaissance automatique,

Adaptation au locuteur Multilingue (français, anglais, mandarin,

arabe) Identification de la langue, du dialecte, Reconnaissance du locuteur

Page 4: Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

Quelques modalités en vérification d’identité

Bla-blaSECUREDSPACE

PIN

Page 5: Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

Plan

Quelques applications de la reconnaissance du locuteur. Avantages et inconvenients de la parole en vérification

d’identité La reconnaissance audio-visuelle (visage parlant) Le savoir faire de l’ENST en reconnaissance du

locuteur : Vérification du locuteur :

Les projets CAVE et PICASSO (dépendant du texte) Le consortium ELISA, le projet ALIZE, les évaluations

NIST (independent du texte) Le projet EUREKA !2340 MAJORDOME.

Détection de locuteurs : le projet ESTER Perspectives

Page 6: Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

Applications de la reconnaissance du locuteur

Vérification de l’identité (l’imposture délibérée est un risque)

Identification en ensemble ouvert (avons-nous dejà entendu ce locuteur ? )

Identification en ensemble fermé (qui prend la parole dans une réunion ?)

Recherche des passages où un locuteur prend la parole dans une base d’enregistrements audios

Aide à la reconnaissance de la parole

Les auditeurs ne sont pas meilleurs que des systèmes automatiques pour la plupart de ces tâches (sauf s’ils connaissent le locuteur depuis de nombreuses années)

Page 7: Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

Le signal de parole en vérification d’identité

Avantages Applications téléphoniques, Coût du capteur (microphone et CAN) faible Possibilité d’intégration à une carte à puce Fusion naturelle avec le visage (parlant)

Inconvenients Manque de discrétion Possibilité d’imitation, d’imposture Sensibilité aux bruits, aux distortions,… Variabilité temporelle

Page 8: Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

Quelques protocoles de vérification du locuteur

Typologie des approches : Dépendante du texte

Mot de passe public Mot de passe privé Mot de passe personnalisé Lecture ou répétition d’une phrase proposée par

le système (“text prompted”) Indépendante du texte

Possibilité d’adaptation au client Evaluation (imposture délibérée)

Page 9: Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

Utilisation de modèles de Markov cachés

(HMM)

Page 10: Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

Théorie de la détection

Page 11: Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

Detection Error Tradeoff (DET) Curve

Page 12: Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

CAVE – PICASSOhttp://www.picasso.ptt-telecom.nl/project/

Page 13: Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

Vérification du locuteur dépendante du texte dans le

projet PICASSO

Séquences de 16 chiffres Modèles de chiffres indépendants du locuteur Adaptation de ces modèles à la voix du client (phase

d’apprentissage) Des taux d’égale erreur inférieurs à 1% sont

possibles Mot de passe personnalisé

Permet au client de choisir son mot de passe Imposture délibérée

On suppose que l’imposteur a entendu le mot de passe et dispose d’enregistrements du client

Il peut utiliser des techniques de transformation de la voix pour tromper le système

Page 14: Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

Vérification du locuteur indépendante du texte

Le consortium ELISA, le projet Technolangue-ALIZE ENST, LIA, IRISA, DDL, Uni-Fribourg, Uni-Balamand... http://elisa.ddl.ish-lyon.cnrs.fr/ Le logiciel libre BECARS (Balamand-ENST Cedre Autom Rec of

Speakers) Les évaluations NIST en vérification du locuteur

http://www.nist.gov/speech/tests/spk/index.htm

Gaussian Mixture Model, Réseaux Bayésiens Adaptation au client, Information mutuelle des

gaussiennes Fusion avec des techniques segmentales (ALISP)

Page 15: Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

Modèle de mélange de Gaussiennes

La probabilité d’une observation x est modélisée par une somme pondérée de Gaussiennes :

8 Gaussians per mixture

Page 16: Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

National Institute of Standards & Technology (NIST)

Speaker Verification Evaluations

• Annual evaluation since 1995• Common paradigm for comparing technologies

Page 17: Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

GMM speaker modeling

Front-endGMM

MODELING

WORLDGMM

MODEL

Front-end GMM model adaptation

TARGETGMM

MODEL

Page 18: Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

Baseline GMM method

HYPOTH.TARGET

GMM MOD.

Front-end

WORLDGMM

MODEL

Test Speech

xPxPLog ]

)/()/([

LLR SCORE

)/( xP

)/( xP

=

Page 19: Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

Les résultats en 2002

Page 20: Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

Visages parlants et vérification d’identité

Le visage et la parole offrent des informations complémentaires sur l’identité de la personne.

De nombreux PC, PDA et téléphones sont et seront équipés d’une caméra et d’un microphone

Les situations d’imposture sont plus difficiles à réaliser.

Page 21: Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

Fusion Parole et Visage

(thèse de Conrad Sanderson, août 2002)

Page 22: Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr @ GET-ENST/CNRS-LTCI 46 rue

Conclusions et Perspectives

La parole permet une vérification d’identité à travers le téléphone.

Combiner les approches dépendantes et indépendantes du texte améliore la fiabilité.

Si l’on utilise le visage pour vérifier l’identité, il ne coûte pas cher d’ajouter la parole (et cela rapporte gros !).

De plus en plus de PC, PDA et téléphones sont équipés d’un microphone et d’une caméra. La reconnaissance audio-visuelle devrait se généraliser.