Upload
houssam-rouidi
View
231
Download
0
Embed Size (px)
DESCRIPTION
Conception et réalisation d’une Plateforme de fusion biométrique en score à base des machines à vecteurs de support (SVM)
Citation preview
Ministre de l'enseignement suprieur et de la recherche scientifique
Ecole nationale suprieure dinformatique (ESI- EX INI)
En collaboration avec le
Centre de recherche des technologies avances
(CDTA)
Alger
Mmoire de fin d'tude
Pour l'obtention du diplme d'ingnieur d'tat en informatique
Option: Systmes informatiques
Thme
Conception et ralisation dune Plateforme de fusion
biomtrique en score base des machines
vecteurs de support (SVM)
Ralis par : M. ROUIDI Houssam
Promotion: 2007/2008
Remerciements Nos remerciements et nos profondes gratitudes vont nos promoteurs Messieurs HARIZI Farid et BENGHERABI Messaoud pour leur encadrement, leur suivi et leurs conseils tout au long de cette priode. Nous remercions aussi Monsieur le directeur du centre de recherche des technologies avances CDTA de nous avoir accueilli ainsi que tout le personnel quon a eu la chance de ctoyer. Nous tenons aussi remercier mesdames et messieurs les membres du jury pour leur prcieux temps accord ltude de notre mmoire. Nos remerciements et notre gratitude vont aux professeurs et enseignants de lINI ainsi que ses tudiants, en particulier ELHADDAD Mohamed, et son personnel ctoys tout au long de notre cursus universitaire. Que toute personne ayant uvr de prs ou de loin la ralisation de ce projet par une quelconque forme de contribution, trouve ici le tmoignage de notre plus profonde reconnaissance.
Abrviations DCT : Discret Cosine Transform.
EER : Equal Error Rate.
FAR : False Acceptation Rate.
FRR : False Rejection Rate.
TFR : Taux de Faux Rejet.
TFA : Taux de Fausse Acceptation.
GMM : Gaussian Mixtures Models.
ORL : Olivetti Research Laboratory.
EM : Expectation Maximization.
MFCC : Mel-Frequencies Cepstral Coefficients.
VAD : Voice Activity Detection.
VQ : Vector Quantization.
QLQ: Quadric-Line-Quadric.
LBG : Linde, Buzo et Gray
ROC: Receiver Operating Characteristic
UBM: Universal Background model
FA: Fuse Acceptation
FR : Faux rejet
FFT : Fast Fourrier Transform.
RAL : Reconnaissance du locuteur.
iDCT : inverse Discret Cosine Transform.
HMM : Hidden Markov Model.
MV : Maximum de Vraisemblance.
RNV : Les Rseaux de Neurones Virtuels.
MLP : Multi-Layer Perceptron.
TID : Taux dIdentification
SVM : Support vector machines
Liste des figures
Figure I.1 : architecture dun systme biomtrique .................................................................8
Figure I.2 : Comparaison ente techniques biomtriques ......................................................11
Figure I.3 : distribution de scores ..........................................................................................12
Figure I.4 : la courbe ROC ....................................................................................................13
Figure I.5 : niveaux de fusion dans les systmes multimodaux .............................................15
Figure II.1 : Structure gnrale dun systme VAL ................................................................23
Figure II.1 : visualisation d'un signal de parole .....................................................................26
Figure II.2 : filtre de praccentuation ....................................................................................27
Figure II.3 : comparaison entre la fentre de Hamming et Blackman ....................................30
Figure II.4 : lchelle Mel .......................................................................................................32
Figure II.5: Calcul des coefficients MFCC .............................................................................33
Figure III.1 : Processus dun systme de reconnaissance de visages .................................37
Figure III.2 : Distribution frquentielle des coefficients DCT [38] ...........................................47
Figure III.3 : Schma du parcours dune matrice en zigzag ..................................................49
Figure IV.1 : Exemple d'utilisation du mlange. ....................................................................55
Figure IV.2 : Diffrentes approches de calcul du modle UBM .............................................58
Figure V.1 : Configuration de 3 points par les droites de 2 .................................................63
Figure V.2 : Donnes linairement sparables .....................................................................65
Figure V.3 : Vecteurs de support ..........................................................................................66
Figure V.4 : Sparation par un noyau linaire .......................................................................69
Figure V.5 : Sparation par un noyau polynomial .................................................................70
Figure V.6 : sparation de donnes non linairement sparable par un noyau RBF .............71
Figure VI.1 : Architecture du systme ...................................................................................78
Figure VI.2 : Diagramme de squence en mode Apprentissage ...........................................80
Figure VI.3 : Diagramme de squence en mode vrification .................................................81
Figure VI.4: Diagramme de squence en mode identification ...............................................82
Figure VI.4 : Interaction entre les classes en mode Apprentissage .......................................85
Figure VI.5 : Interaction entre les classes en mode Test ......................................................85
Figure VI.6 : Visualisation dun signal vocal ..........................................................................92
Figure VI.6 : Acquisition dune image partir de la WebCam ...............................................92
Figure VII.6 : linarit de la sparation ............................................................................... 109
Figure VII.9 : Distribution des scores clients et imposteurs ................................................. 111
Figure B.1 : Exemple dhistogramme dune image [20] ...................................................... 127
Figure B.2 : Exemple de normalisation dhistogramme [20] ............................................... 129
Figure B.3 : Exemple dgaliseur dhistogramme ............................................................... 130
Figure B.4 : Exemple de filtre moyenne [17] ...................................................................... 131
Figure B.5 : Exemple de filtre gaussien [17] ...................................................................... 132
Figure B.6 : Exemple de filtre Mdian [20] ........................................................................ 133
Figure B.7 : Exemple du filtre de Nagao [18] ..................................................................... 133
Liste des tableaux
Tableau V.1 : comparaison entre les trois algorithmes .........................................................75
Tableau VI.1 : Implmentation du module VOICE ................................................................88
Tableau VI.2 : Implmentation du module FACE ..................................................................88
Tableau VI.3 : implmentation du module GMMModlisation ...............................................89
Tableau VI.4 : implmentation du module StatisticsTools .....................................................90
Tableau VI.5 : implmentation du module FUSION ..............................................................91
Tableau VII.1 : gnration des scores pour la base TIMIT de 40 personnes ........................97
Tableau VII.5 : Configurations du classificateur SVM ......................................................... 101
Tableau VII.6 : EER et taux didentification ......................................................................... 101
Tableau VII.7 : EER et taux didentification ......................................................................... 102
Tableau VII.8 : EER et taux didentification ......................................................................... 103
Tableau VII.12 : EER pour le classificateur SVM ................................................................ 108
Tableau VII.13 : EER et taux didentification ....................................................................... 110
Tableau VII.14 : EER et taux didentification ....................................................................... 111
Tableau VII.15 : EER aprs diffrentes fusion et normalisations ........................................ 112
Tableau VII.16 : EER pour le classificateur SVM ................................................................ 113
Sommaire
Introduction gnrale : .........................................................................................................1
Chapitre I : Gnralits sur la biomtrie et les systmes biomtriques ...........................3
I.1 Gnralits sur la biomtrie : .............................................................................................4
I.1.1 Introduction : ...............................................................................................................4
I.1.3 Domaines dapplication : .............................................................................................5
I.2 Les systmes biomtriques : .............................................................................................6
I.2.1Dfinition : ....................................................................................................................6
I.2.2 Architecture dun systme biomtrique :[3] ..................................................................7
I.2.3 Types de systmes biomtriques :[4] ..........................................................................8
I.2.3.1 Systmes comportementaux : ..............................................................................8
I.2.3.2 Les systmes morphologiques : ...........................................................................9
I.2.4 Comparaison entre les types de systmes biomtriques : .........................................10
I.2.5 Evaluation et performances des systmes biomtriques : .........................................11
I.2.5.1 Performance dun systme didentification :[4] .......................................................11
I.2.5.2 Performances dun systme de vrification : .......................................................12
I.2.6 Systmes biomtriques multimodaux : ......................................................................13
I.2.6.1 Pourquoi la multimodalit ? ................................................................................13
I.2.6.2 Niveaux de fusion : .............................................................................................14
I.2.6.3 Mthodes et techniques de fusion : ....................................................................16
I.2.6.4 Fusion base des mthodes non paramtriques :[9].........................................17
I.2.6.4.1 Fusion en dcision :.................................................................................................. 17
I.2.6.4.2 Fusion en score : ...................................................................................................... 17
I.2.6.5 Fusion base des mthodes paramtriques : ....................................................18
I.2.6.5.1 Fusion en dcision :.................................................................................................. 19
I.2.6.5.2 Fusion en score : ...................................................................................................... 19
I.2.7 Normalisation des scores :[15] ..................................................................................19
I.2.7.1 Normalisation Min-Max : .....................................................................................20
I.2.7.2 Normalisation Z-score :.......................................................................................20
I.3 Conclusion :.....................................................................................................................20
Chapitre II : Reconnaissance automatique du locuteur...................................................22
II.1 Introduction : ...................................................................................................................23
II.2 Structure gnrale dun systme de vrification du locuteur : .........................................23
II.3 Analyse acoustique et extraction des paramtres : .........................................................24
II.3.1Introduction : .............................................................................................................24
II.3.2 Production de la parole et acquisition du signal : ......................................................24
II.3.3 Prtraitement : ........................................................................................................26
II.3.3.1 Dcoupage en trames : .....................................................................................26
II.3.3.2 Praccentuation :...............................................................................................27
II.3.3.3 limination du silence : ......................................................................................28
II.3.3.4 Fentrage : ........................................................................................................29
II.3.4 Extraction des paramtres :[17]................................................................................31
II.3.4.1 Analyse cepstrale : ............................................................................................31
II.3.4.2 Filtrage Mel: .......................................................................................................31
II.3.4.3 Paramtres MFCC : ...........................................................................................32
II.3.5 Paramtres dynamiques : ........................................................................................33
II.3.6 Post-traitement : .......................................................................................................33
II.4 Conclusion :....................................................................................................................34
Chapitre III : Reconnaissance de visages .........................................................................35
III.1 Introduction : ..................................................................................................................36
III.2 Motivation : (pourquoi la reconnaissance de visages ?) ................................................36
III.3 Processus de reconnaissance de visages : ...................................................................37
III.3.1 Le monde physique : (Lextrieur) ...........................................................................38
III.3.2 LAcquisition de limage : .........................................................................................38
III.3.3 Les prtraitements : ................................................................................................38
III.3.4 Lextraction de paramtres : ....................................................................................38
III.3.5 La classification : (Modlisation)..............................................................................39
III.3.5 Lapprentissage: ......................................................................................................39
III.3.6 La dcision : ............................................................................................................39
III.4 Approches utilises dans les systmes de reconnaissance de visages : ......................39
III.4.1 Les approches globales :[7] ....................................................................................39
III.4.1.a Lanalyse en Composantes Principales (PCA) : ................................................40
III.4.1.b Lanalyse Discriminante Linaire (LDA) : .........................................................40
III.4.1.c Les rseaux de neurones (RNA) : .....................................................................41
III.4.1.d Mlange de gaussiennes (GMM) : ...................................................................41
III.4.1.e Lapproche statistique et lapproche probabiliste: ..............................................41
III.4.2 Les approches locales : ..........................................................................................42
III.4.2.a Hidden Markov Models (HMM): ........................................................................42
III.4.2.b Eigen objects (EO): ..........................................................................................42
III.4.2.c LElastic Bunch Graph Matching (EBGM): ........................................................43
III.4.2.d Lappariement de gabarits: ..............................................................................43
III.4.3 Les approches hybrides : .....................................................................................43
III.5 La transforme en cosinus discrte : (DCT) ...................................................................44
III.5.1 Introduction : ..........................................................................................................44
III.5.2 historique : .............................................................................................................44
III.5.3 Motivation : (Pourquoi la DCT ?) ............................................................................44
III.5.4 Dfinition : ..............................................................................................................44
III.5.5 Principe et formulation :..........................................................................................45
III.5.5.1 La DCT une dimension : ...................................................................................45
III.5.5.2 La DCT deux dimensions :............................................................................46
III.5.6 Proprits de la DCT : ............................................................................................46
III.5.6.1 Dcorrlation : .................................................................................................46
III.5.6.2 Compression dinformations : ..........................................................................47
III.5.6.3 Sparabilit : ...................................................................................................47
III.5.6.4 Symtrie : ........................................................................................................47
III.5.6.5 Orthogonalit : .................................................................................................48
III.6 Conclusion:....................................................................................................................49
Chapitre IV : Modlisation GMM ........................................................................................50
VI.1 Introduction : .................................................................................................................51
VI.2 Motivation :....................................................................................................................51
VI.3 Modlisation par Mlanges de Gaussiennes GMM :.....................................................51
VI.3.1 Dfinition : ..............................................................................................................51
VI.3.2 Modle du mlange : ..............................................................................................51
VI.3.3 Apprentissage du Modle : .....................................................................................52
VI.3.4 Estimation du modle GMM par EM : .....................................................................52
VI.5 Dcision : ......................................................................................................................55
VI.5.1 Identification : .........................................................................................................55
VI.5.2 Vrification : ............................................................................................................56
VI.5.3 Modlisation des imposteurs par GMM : .................................................................57
IV.5 Conclusion : .................................................................................................................58
Chapitre V : Classification par les machines vecteurs de support (SVM) ...................59
V.1 Introduction : ..................................................................................................................60
V.2 Thorie des Machines Vecteurs de Support :[29] ........................................................60
V.2.1 Formulation :............................................................................................................60
V.2.2 Minimisation du risque structurel : ............................................................................60
V.2.3 Dimension Vapnik-Chervonenkis : ...........................................................................62
V.2.4 Classification binaire par hyperplan : .......................................................................63
V.2.5 Cas de donnes linairement sparables : ..............................................................64
V.2.6 Cas de donnes non-linairement sparables : .......................................................66
V.2.7 Les fonction Noyaux : ..............................................................................................68
V.2.7.1 Introduction du noyau : ......................................................................................68
V.2.7.2 Condition de Mercer : ........................................................................................69
V.2.7.3 Exemples de noyaux : .......................................................................................69
V.3 Rsolution du problme li lapprentissage dune machine vecteurs de support : ....71
V.3.1 Les condition KKT :[40][29] ......................................................................................72
V.3.2 Algorithme dapprentissage du SVM : ......................................................................72
V.3.3 La mthode Chunking : ............................................................................................73
V.3.4 La mthode de dcomposition : ...............................................................................74
V.3.5 La mthode dOptimisation Squentielle Minimale (SMO) :[40]................................74
V.3.6 Comparaison entre les trois mthodes :...................................................................75
V.4 Conclusion : ...................................................................................................................75
Chapitre VI : Conception et ralisation .............................................................................76
VI.2 Conception (Architecture du systme): .........................................................................77
VI.2.1 Phase dApprentissage : .........................................................................................79
VI.2.3 Phase de test : ........................................................................................................80
VI.2.3.1 Vrification : .....................................................................................................80
VI.2.3.2 Identification : ...................................................................................................81
V.2.4 Structure gnrale du systme : ..............................................................................82
VI.2.4.1 module dacquisition : .......................................................................................82
V.2.4.2 module de modlisation : ..................................................................................82
VI.2.4.3 Module denregistrement: ................................................................................84
VI.2.4.4 Module de normalisation : ...............................................................................84
VI.2.4.5 Module de fusion : ............................................................................................84
VI.2.4.6 Module SVM :...................................................................................................84
VI.2.5 interaction entre les modules du systme : .............................................................84
VI.2.5.1 Interaction en mode apprentissage : ................................................................84
VI.2.5.2 Interaction en mode Test : ................................................................................85
VI .3 Implmentation et ralisation du systme : ..................................................................86
VI.3.1 Outils de tests : .......................................................................................................86
VI.3.2 Outils de dveloppement : ......................................................................................86
VI.3.3 Implmentation du systme : ..................................................................................87
VI.3.3.1 Le module VOICE: ...........................................................................................87
VI.3.3.2 Le module FACE : ............................................................................................88
VI.3.3.3 Le module GMMModlisation : .........................................................................89
VI.3.3.4 Le Module StatisticTools : ................................................................................89
VI.3.3.5 Le module FUSION : ........................................................................................90
VI.3.4 Prsentation de lapplication : .................................................................................91
VI.4 Conclusion : ..................................................................................................................93
Chapitre VII : Test et valuation des rsultats ..................................................................94
VII.1 Introduction : ................................................................................................................95
VII.2 Donnes utilise pour raliser les tests : ......................................................................95
VII.3 Protocole dvaluation : ................................................................................................96
VII.4.1 reconnaissance monomodale : ............................................................................ 101
VII.4.1.1 reconnaissance de locuteur pour la base TIMIT de 100 personnes : ............. 101
VII.4.1.2 reconnaissance de locuteur pour la base TIMIT de 40 personnes : ............... 102
VII.4.1.3 reconnaissance de visages pour la base ORL de 40 personnes : ................. 103
VII.4.2 reconnaissance bimodale pour la base TIMIT-ORL de 40 personnes : ................ 104
VII.4.3 reconnaissance bimodale avec la mthode SVM : ............................................... 107
VII.4.4 Conclusion des tests sur TIMIT-ORL : ................................................................. 109
VII.4.5 Test sur une base relle : .................................................................................... 109
VII.4.6.1 Reconnaissance de locuteur : ....................................................................... 110
VII.4.6.2 Reconnaissance de visages : ........................................................................ 111
VII.4.6.3 Reconnaissance bimodale : .......................................................................... 111
VII.4.6.4 Conclusion des tests : ................................................................................... 113
VII.5 Conclusion : ............................................................................................................... 113
Conclusion Gnrale : ..................................................................................................... 114
Bibliographie .................................................................................................................... 116
Annexes ............................................................................................................................ 119
Lalgorithme EM (Expectation-Maximisation) ..................................................................... 120
Gnralits sur le traitement dimages ............................................................................... 126
Introduction gnrale
1
Introduction gnrale :
Dans un monde o la scurit des individus est devenue un souci majeur, le besoin
de se protger augmente jour aprs jour. En effet, vu le dveloppement permanent et
important de la socit dans tous ces aspects, les outils de surveillance et de contrle
classique savoir ceux relatifs la mthode base sur la connaissance tel que le mot de
passe ou bien base sur la possession tels que les badges, les pices didentits, cls,
savrent inefficaces.
En effet, ces diffrents laissez-passer peuvent tre perdus ou mme vols. Dans le cas
du mot de passe, celui-ci peut facilement tre oubli par son utilisateur ou bien devin par
une autre personne. De plus ces mots de passes sont souvent archivs dans un bureau par
lorganisation, or ceci est une faille certaine dans le systme de scurit.
Pour pallier ces diffrents problmes dinefficacit et de non scurit, lhomme a fait
rfrence une nouvelle technique de reconnaissance qui a fait son apparition et ne cesse
de crotre depuis 1997 : il sagit des contrles daccs par les systmes biomtriques.
La biomtrie est en effet une alternative aux deux prcdents modes didentification
(connaissance, possession). Elle consiste identifier une personne partir de ses
caractristiques physiques ou comportementales. Le visage, les empreintes digitales, liris,
sont des exemples de caractristiques physiques. La voix, lcriture, le rythme de frappe sur
un clavier, etc. sont des caractristiques comportementales. Lavantage principal de cette
technique est que ces caractristiques sont propres chaque individu et ne souffrent donc
pas des faiblesses des mthodes bases sur une connaissance ou une possession. En effet,
un attribut physique ou comportemental ne peut tre oubli ou perdu et sont trs difficiles
deviner, voler et dupliquer.
Si autrefois, ces mthodes taient surtout utilises par les services de scurit tel que la
police, aujourdhui un individu a besoin dtre identifi dans une multitude de contextes
essentiellement ceux dont la scurit est ncessaire. Pour cela, diffrentes techniques
dauthentifications bases sur les caractristiques physiques de lutilisateur ont t
dveloppes, ceci a donn lieu la naissance de plusieurs produits que lon peut trouver
sur le march.
Introduction gnrale
2
Dans ce travail, on essayera de dvelopper un systme de fusion biomtrique en scores
bas sur la reconnaissance du visage et la voix, cest un systme trs rpandu au monde
grce sa simplicit et son efficacit. En effet, le visage et la voix sont certainement les
caractristiques biomtriques que lon utilise le plus naturellement pour sidentifier. Le but
dun systme de reconnaissance bimodale de visages et de voix est dautomatiser certaines
applications telles que la tlsurveillance, laccs des endroits scuriss, etc.
Pour automatiser cette fusion, plusieurs mthodes et approches ont t adoptes pour
la fusion en scores. A titre dexemple, les mthodes de fusion fixes qui nont pas besoin
dapprentissage mais qui souffre galement de souplesse car ces mthodes traitent les
scores dune manire indiffrente. Lobjectif de notre travail est de dvelopper et
implmenter une mthode rcente de fusion en score intitule Classificateur large
marge SVM. Cette approche a prouv son supriorit dans le domaine de la classification
automatique [40] car et avant tout il sagit dune mthode de fusion dite entraine, cela veut
dire que la classification par cette dernire tient compte dun apprentissage supervis qui
laide adapter son systme lenvironnement o elle opre, ensuite, elle bnficie dune
thorie de minimisation du risque structurel qui garantie une gnralisation sur un ensemble
de donnes diffrent de celui qui a servi pour lapprentissage. Le prsent mmoire est
organis comme suit :
Dans le premier chapitre, nous donnerons des notions gnrales sur la biomtrie et les
systmes de reconnaissance dindividus ainsi sur les systmes biomtriques multimodaux.
Dans le second, nous exposerons la reconnaissance automatique du locuteur en se
concentrant sur les techniques spcifiques pour la voix (MFCC). Ensuite, dans le troisime
chapitre, nous parlerons galement de la reconnaissance de visages en mettant en relief la
DCT qui nous fournit les donnes essentielles pour authentifier un visage. Aprs, le
quatrime chapitre portera sur la modlisation GMM utilise dans les deux systmes
prcdents, suivie de la partie conception du systme dans le cinquime chapitre. Et enfin,
on prsentera les tests et les rsultats obtenus aprs lvaluation de notre systme dans le
sixime chapitre et on terminera par une conclusion gnrale.
Chapitre I : Gnralits sur la biomtrie et les
systmes biomtriques
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
4
I.1 Gnralits sur la biomtrie :
I.1.1 Introduction :
Savoir dterminer de manire la fois efficace et exacte lidentit dun individu est
devenu un problme critique dans notre socit. En effet, bien que nous ne nous en
rendions pas toujours compte, notre identit est vrifie quotidiennement par de multiples
organisations : lorsque nous utilisons notre carte bancaire, lorsque nous accdons notre
lieu de travail, lorsque nous nous connectons un rseau informatique, etc. Il existe
traditionnellement deux manires didentifier un individu.
La premire mthode est base sur une connaissance (knowledge-based). Cette
connaissance correspond par exemple au mot de passe utilis au dmarrage dune session
Unix ou au code qui permet dactiver un tlphone portable. La seconde mthode est base
sur une possession (token-based). Il peut sagir dune pice didentit, une clef, un badge,
etc. Ces deux modes didentification peuvent tre utiliss de manire complmentaire afin
dobtenir une scurit accrue. Cependant, elles ont leurs faiblesses respectives. Dans le
premier cas, le mot de passe peut tre oubli par son utilisateur ou bien devin par une autre
personne. Dans le second cas, le badge (ou la pice didentit ou la clef) peut tre perdu ou
vol.
La biomtrie est une alternative aux deux prcdents modes didentification. Elle
consiste identifier une personne partir de ses caractristiques physiques ou
comportementales. Le visage, les empreintes digitales, liris, etc. sont des exemples de
caractristiques physiques. La voix, lcriture, le rythme de frappe sur un clavier, etc. sont
des caractristiques comportementales. Ces caractristiques, quelles soient innes comme
les empreintes digitales ou bien acquises comme la signature, sont attaches chaque
individu et ne souffrent donc pas des faiblesses des mthodes bases sur une connaissance
ou une possession. En effet, un attribut physique ou comportemental ne peut tre oubli
mais il risque de changer lgrement avec le temps.
I.1.2 Dfinition :
La biomtrie est un ensemble de procds automatiss de reconnaissance des
caractristiques morphologiques, biologiques et comportementales, cest la rencontre entre
des techniques numriques, des donnes biologiques du corps humain et un impratif de la
socit contemporaine : identifier facilement et srement des personnes , en effet, le terme
biomtrie est un anglicisme drivant du terme biometrics. [1]
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
5
Autre dfinition stipule que le mot franais biomtrie dfinit ltude mathmatique des
variations biologiques lintrieur dun groupe dtermin.
Chaque caractristique biomtrique est appele modalit, ainsi, un systme biomtrique
bas sur une modalit est dit monomodal, un autre bas sur plusieurs caractristiques est
appel multimodal.
Gnralement, on distingue trois catgories de mthodes de reconnaissance biomtriques :
1. les mthodes bases sur les caractristiques comportementales : la dynamique de la
signature, la frappe sur un clavier, la manire de marcher etc.
2. les mthodes bases sur les caractristiques morphologiques : empreintes digitales,
forme de la main, la rtine, liris etc.
3. les mthodes bases sur les caractristiques biologiques : ADN, salive et odeur.
Quant au mode de fonctionnement dun systme biomtrique, on distingue :
1. identification : procd permettant de dterminer lidentit dune personne dans un
groupe fini. Cest la rponse la question : qui est cette personne ? le systme
reoit lchantillon biomtrique quil le compare tous les chantillons stocks dans
la base de donnes biomtrique, sil y a correspondance, lidentit de lutilisateur est
tablie.
2. Authentification (vrification) : procd permettant de vrifier lidentit dune
personne. cest la rponse la question : est-ce que cette personne est X ? Il
comprend deux tapes : premirement, lutilisateur fournit un identifiant (id) au
systme qui reprsente une identit proclame. Ensuite, lutilisateur fournit son
chantillon qui va tre compar seulement lchantillon correspondant lutilisateur
(id) contenu dans la base de donnes du systme, sil y a correspondance,
lutilisateur est bien celui qui prtend ltre.
I.1.3 Domaines dapplication :
On peut distinguer quatre grands types dapplications de la biomtrie : le contrle
daccs (access control), lauthentification des transactions (transaction authentification), la
rpression (law enforcement) et la personnalisation (personnalisation).
1. contrle daccs :
Le contrle daccs peut tre lui-mme subdivis en deux sous catgories : le
contrle daccs physique et le contrle daccs virtuel. On parle de contrle daccs
physique lorsquun utilisateur cherche accder un lieu scuris. On parle de contrle
daccs virtuel dans le cas o un utilisateur cherche accder une ressource ou un
service.
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
6
2. authentification des transactions :
Lauthentification des transactions reprsente un march gigantesque puisquil
englobe aussi bien le retrait dargent au guichet des banques, les paiements par cartes
bancaires, les transferts de fond, les paiements effectus distance par tlphone ou sur
internent, etc.
Mastercard estime ainsi que les utilisations frauduleuses de cartes de crdit pourraient tre
rduites de 80 % en utilisant des cartes puce qui incorporeraient la reconnaissance des
empreintes digitales [19]. Les 20 % restant seraient principalement dus aux paiements
distance pour lesquelles il existerait toujours un risque. Pour les transactions distance, des
solutions sont dj dployes en particulier pour les transactions par tlphone.
Ainsi, la technologie de reconnaissance du locuteur de Nuance (Nuance VerifierTM [57]) est
utilise par les clients du Home Shopping Network, une entreprise de tlshopping, et de
Charles Schwab.
3. rpression :
Une des applications les plus immdiates de la biomtrie la rpression est la
criminologie. La reconnaissance dempreintes digitales en est lexemple le plus connu. Elle
fut accepte ds le dbut du XXe sicle comme moyen didentifier formellement un individu
et son utilisation sest rapidement rpandue.
Il existe aussi des applications dans le domaine judiciaire. T-Netix [60] propose ainsi des
solutions pour le suivi des individus en libert surveille en combinant technologies de
lInternet et de reconnaissance du locuteur.
4. personnalisation :
Les technologies biomtriques peuvent tre aussi utilises afin de personnaliser les
appareils que nous utilisons tous les jours.
Cette application de la biomtrie apporte un plus grand confort dutilisation.
Afin de personnaliser les rglages de sa voiture, Siemens propose par exemple dutiliser la
reconnaissance des empreintes. [2]
I.2 Les systmes biomtriques :
I.2.1Dfinition :
Un systme de reconnaissance dindividus est un systme qui permet didentification
ou la vrification dune personne sur la base de caractres biomtriques automatiquement
reconnaissables et vrifiables. [1]
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
7
I.2.2 Architecture dun systme biomtrique : [3]
Chaque systme biomtrique comprend deux phases fonctionnelles :
Apprentissage : cest la phase initiale qui seffectue une seule fois. On commence par une
capture de la caractristique biomtrique. En gnral, cette capture nest pas directement
stocke dans la base de donnes, des transformations lui sont appliques pour construire un
modle qui est une reprsentation compacte de lchantillon. Ce modle a lavantage de
diminuer la quantit des donnes stocker et sera exploit dans la phase de
reconnaissance.
Reconnaissance : Opration se droulant chaque fois quune personne se prsente
devant le systme, elle consiste en lextraction dun ensemble de paramtres comme pour la
phase dapprentissage suivie dune comparaison et de prise de dcision selon le mode
opratoire du systme : identification ou vrification.
Les modules qui peuvent tre intgrs dans un systme biomtriques sont :
Module de capture : a pour but lacquisition des donnes biomtriques.
Module de prtraitement : il formate la caractristique en enlevant les bruits et linformation
superflue.
Module dextraction : des paramtres : extrait linformation qui la juge utile depuis le signal
format.
Module de gnration des modles : il calcule le modle de chaque individu selon
lapproche adopte par le systme et le stocke dans la base de donnes.
Module de prise de dcision : le plus important car il accepte ou refuse le client dans le cas
dune vrification ou il fournit lidentit de la personne prsente dans le cas dune
identification.
Alors, on voit bien que chaque systme dpend systmatiquement des caractristiques
biomtriques, ces dernires, doivent remplir certaines conditions pour le bon fonctionnement
du systme :
Discriminabilit : capacit de diffrencier les personnes sans quivoque.
Invariabilit : pour assurer une bonne performance.
Universabilit : tre applicable tout le monde.
Facilit : pas de calcul complexe pour le systme.
Acceptabilit : moins de contraintes pour le grand public.
Infalsifiabilit : tre difficile usurper.
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
8
Figure I.1 : architecture dun systme biomtrique
I.2.3 Types de systmes biomtriques : [4]
Les systmes biomtriques sont gnralement classes dans deux grandes
catgories : les systmes comportementaux (behavioral systems) et les systmes
physiologiques (physiological systems).
I.2.3.1 Systmes comportementaux :
Ils sont bass sur certains comportements comme la dmarche la frappe au clavier etc.
Lcriture (signature) : ces systmes consistent analyser les caractristiques spcifiques
dune signature comme la vitesse, la pression sur le crayon, le mouvement, les points et
intervalles de temps o le crayon est lev, un stylo lectronique ou une tablette graphique
sont souvent utiliss.
Dynamique de frappe au clavier : un systme bas sur cette dynamique ne ncessite
aucun quipement ddi, seulement un ordinateur disposant dun clavier, il sagit dun
dispositif logiciel qui calcule le temps o un doigt effectue une pression sur une touche et le
Test
Apprentissage
Acquisition Prtraitement Extraction
De
Paramtres
Acquisition Prtraitement Extraction
De
Paramtres
Base de
donnes
Dcision
Calcul des
modles
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
9
temps o le doigt est dans lair (entre les frappes), aussi, la suite de lettres et la
reconnaissance de mots prcis. Cette mesure est capture environ mille fois par seconde ;
la squence de frappe est prdtermine sous forme un code. Initialement, l client doit
composer son code quelques maintes reprises afin de construire un gabarit de rfrence.
Analyse de la dmarche : laide de techniques psychologiques, ces systmes sont
devenus acceptables et souvent intgrs dans les camras de surveillance.
I.2.3.2 Les systmes morphologiques :
Ce type de systmes est bas sur la reconnaissance de traits physiques particuliers
qui sont uniques et permanentes pour toutes personne.
Empreintes digitales : cest la plus veille technique biomtrique (utilis par les chinois il y a
un millnaire). Elle est base sur le fait que deux personnes ne peuvent avoir plus de huit
minuties (caractristique locale de lempreinte) en commun.
Il existe trois principaux types de systmes de capture des empreintes digitales : optiques,
capacitifs et systmes bas sur les ultrasons. Moyennant ces technologies, plusieurs
caractristiques de lempreinte (boucles, tourbillons, lignes, verticilles) sont localises,
situes les unes par rapport aux autres et enregistres selon plusieurs modles dans une
base de donnes.
Malgr son taux de prcision trs lev, la reconnaissance dindividu par empreintes
digitales est une mthode mal accepte par les utilisateurs cause de lassociation qui est
souvent faite avec la criminologie.
La rtine : les systmes utilisant la rtine tirent leurs performances sur le fait que les veines
sous sa surface sont uniques stables dans le temps, ils ne peuvent tre affects que par
certaines maladies trs rares.
Son principe consiste placer lil de lutilisateur quelques centimtres dun orifice de
capture situ sur le lecteur ddi, il ne doit pas bouger et doit fixer un point vert lumineux qui
effectue des rotations. A ce moment, un faisceau lumineux traverse lil jusquaux vaisseaux
sanguins capillaires de la rtine. Le systme localise et capture ainsi environ 400 points de
rfrence. Cest une technique trs sre mais trs onreuse aussi et exige la coopration
des utilisateurs ce qui la rend mal accepte.
Liris : liris est la rgion annulaire situ entre la pupille et le blanc de lil, ses motifs ne se
forment quau cours des deux premires annes de la vie et elles sont stables et non
modifiables mme par des interventions chirurgicales. Ces systmes sont bass sur la
lecture de limage de liris avec un appareil quip par une camra, ces systmes sont trs
performants, coteux et gnralement mal accepts par le grand public.
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
10
La gomtrie de la main : lide de ces systmes consiste placer la main sur un gabarit
clair par une lumire infrarouge pour lacquisition de limage, les caractristiques qui
seront analyses par la suite sont la longueur, la largeur et lpaisseur de la main ainsi, la
forme des articulations et longueurs inter-articulations.
A cause de la taille considrable des capteurs, ces systmes sont peu rpandus et
vulnrables lusurpation.
La voix : la reconnaissance vocale offre lavantage dtre bien accepte par lutilisateur,
quelle que soit sa culture. De plus, elle est trs pratique pour la scurisation dune
transaction tlphonique. On distingue les systmes textes prdtermins (texte
dpendant), o lutilisateur doit rpter un texte et les systmes texte indpendant. La
performance de cette mthode est sujette la qualit du signal, qui dpend de la variabilit
de la voix du locuteur dans le temps comme le cas des maladies (rhume), des tats
motionnels et de lge, des conditions dacquisition, et la qualit des quipements.
Le visage : le visage est certainement la caractristique biomtrique que les humains
utilisent le plus naturellement pour sidentifier entre eux, ce qui peut expliquer sa popularit
et son acceptation par les individus. Dans ce type de systmes, limage du visage est capte
par une camra, les informations juges utiles sont extraites puis sont transformes pour la
reconnaissance. La difficult de la reconnaissance de visages varie normment suivant
lenvironnement de lacquisition, des paramtres tels que larrire-plan, la direction et
lintensit des sources lumineuses, langle de la prise de vue, les distances de la camra au
sujet sont des paramtres cls pour les performances.
I.2.4 Comparaison entre les types de systmes biomtriques :
Chaque technologie biomtrique possde des avantages et des inconvnients sous
forme de compromis, elles noffrent pas les mmes niveaux de scurit ni les mmes
facilits et cots dutilisation mais surtout la mme prcision. La figure 2 illustre une
comparaison intuitive entre diffrents systmes.
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
11
Figure I.2 : Comparaison ente techniques biomtriques
I.2.5 Evaluation et performances des systmes biomtriques :
Les performances dun systme de reconnaissance de forme dpendent en gnral
de plusieurs facteurs qui interviennent plusieurs niveaux et qui peuvent affecter la
prcision. Donc, il serait judicieux de sintresser ces facteurs avant de mesurer la
performance. Les principaux facteurs sont cits ci-dessous :
Lenvironnement au moment de lacquisition.
La positions des capteurs.
La qualit des capteurs.
La coopration de lutilisateur.
I.2.5.1 Performance dun systme didentification : [4]
Lune des mesures de performances de systmes didentification la plus importante est le taux de reconnaissance (identification), pour le calculer, on effectue n fois. Si la rponse du systme (la personne la plus proche rsultante de la comparaison entre le test et le base dapprentissage) est juste alors on incrmente le taux et la fin on convertit le rsultat en pourcentage. Le taux didentification correct (TIC) est calcul comme suit :
(I.1)
Voix
visage
Signature
Rtine
Iris
Empreintes
digitales
Cot
Prcision
totaltestdenombre
russitestdenombreTIC
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
12
Ainsi, plus ce taux est lev plus le systme est performant en reconnaissance.
Autre mesure autant importante que la prcdente est le temps dexcution car ces
systmes sont des systmes temps rel et sont souvent embarqus.
I.2.5.2 Performances dun systme de vrification :
Un systme de vrification ne peut rpondre, lors dune comparaison entre deux
chantillons que par une probabilit de correspondance appele score. Ce score est en suite
compar un seuil fixe que lon ajuste grce de nombreux tests, si le score est suprieur
au seuil le client est accept sinon le client est considr comme imposteur. Alors, deux
types derreurs peuvent tre commises :
Fausse acceptation (FA) : elle surgit quand le systme accepte un imposteur.
Faux rejet (FR) : cette erreur sera commise quand le systme rejette un client.
Les mesures de performances dun systme de vrification se basent principalement sur le
taux des fausses acceptations et le taux de faux rejets calculs comme le montrent les
formules ci-dessous.
(I.2)
(I.3)
Figure I.3 : distribution de scores
Seuil de
dcision
Imposteurs
Clients
Scores
Probabilit
FRR FAR
totaltestdenombre
nacceptatiofaussetestsdenombreFA
totaltestdenombre
rejetfauxautestsdenombreFR
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
13
Pour visualiser la relation qui relie le FR avec Le FA, on construit la courbe ROC
(receiver operating characteristic) en calculant un couple (FA, FR) pour chaque valeur de
seuil de dcision. On voit quils sont inversement proportionnels, le point o FR = FA est
appel EER (taux dgale erreur).
Idalement, un systme de vrification devrait avoir des FA et FR gaux zro.
Malheureusement, dans des conditions relles, ceci nest pas possible, car plus le seuil de
dcision est bas plus le systme acceptera des clients mais ainsi des imposteurs.
Inversement, plus le seuil est lev plus le systme rejettera des imposteurs mais aussi des
clients. Il est donc impossible en variant le seuil de dcision de faire diminuer les deux types
derreur en mme temps, en effet, cest linconvnient majeur des systmes bass sur une
seule modalit.
Figure I.4 : la courbe ROC
I.2.6 Systmes biomtriques multimodaux :
I.2.6.1 Pourquoi la multimodalit ?
Malgr les avancs considrable dans les dernire annes, il reste encore de srieux
dfis pour avoir une authentification fiable travers des systmes biomtriques
monomodaux, Cela est due une varit de causes, par exemple, il y des problmes
denregistrement due la nature non universelle des captures biomtriques, en effet, un
groupe dutilisateurs peut ne pas possder les trais biomtriques capturs et enregistrs
dans la base de donnes du systme. Ainsi, il nest pas difficile de tromper un systme
monomodal, ex. : lutilisation des lentilles avec copies des motifs appropri pour les
systmes de reconnaissance de liris. En outre, lenvironnement bruit affecte lexactitude
EER
Zone de
compromis
Zone de
basse
scurit
Zone de
haute
scurit
FAR
FRR
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
14
des rsultats pour les systmes de reconnaissance du locuteur, les systmes de
reconnaissance du visage dpendent largement des conditions dclairage et de nombre de
pauses devant la camra.
Certaines limitations imposes par les systmes monomodaux peuvent tre franchi
par lutilisation de plusieurs modalits biomtriques, lexactitude leve et la grande
rsistance lusurpation sont les avantages basiques des systmes multimodaux par rapport
aux systmes monomodaux. Les systmes multimodaux entranent lutilisation des
informations complmentaires ce qui rend difficile pour un infiltrant dusurper tous les trais
biomtriques considrs. En plus, le problme de la non universalit est largement dpasse
car les multiples traits assurent une couverture suffisante de la population. Pour ces
avantages, les systmes multimodaux sont prfrs malgr les quantits des donnes
importantes et le temps de calcul lev.
La fusion des informations complmentaires dans les donnes biomtriques
multimodales a t un domaine de recherche intressant car il joue un rle critique dans le
contournement des limitations des systmes monomodaux. Les efforts dans ce domaine
sont principalement concentrs dans la fusion de linformation provenant de diffrentes
modalits indpendantes. Par exemple, une approche populaire consiste un combiner les
modalits faciales et vocales pour avoir une reconnaissance plus fiable. A travers de telles
approches, les informations spares recueillies des diffrentes modalits viennent de
fournir une identit plus vidente pour lutilisateur. Dans ces scnarios, la fusion est
gnralement faite au niveau des scores, car, les modalits individuelles sont sous forme de
matrices de donnes et impliquent diffrentes mthodes de classifications pour la
discrimination. Aujourdhui, beaucoup de mthodes de fusion en scores ont t dveloppes
pour cette tche. Ainsi, on trouve les machines support de vecteurs (SVM) qui, depuis les
donnes dapprentissage, cherchent obtenir les meilleures bornes possibles pour la
classification.
I.2.6.2 Niveaux de fusion :
Les systmes biomtriques multimodaux sont diviss en trois catgories selon le
niveau dintgration des donnes issues de diffrentes modalits, cette intgration connue
sous le nom de fusion est une opration qui consiste runir deux ou plusieurs
caractristiques issues des diffrents processus monomodaux comme le montre la figure I.5
[6] [7]
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
15
Figure I.5 : niveaux de fusion dans les systmes multimodaux
1. niveau de fusion en capture
Dans ce niveau, les donnes qui ont la mme caractristique biomtrique issues de
diffrents capteurs sont combines (figure2.1). Un exemple de cette fusion est la capture
simultane dun signal vocal par deux microphones. Bien que la fusion ce niveau amliore
la prcision des systmes de reconnaissance, elle ne peut pas tre utilise dans les
Fusion en
score
Fusion en
paramtres
Fusion en
capture
Fusion en
dcision
Modle
Oui/non Score
Trouv
Paramtre
Vecteur
Capture 1
Dcision Extraction
des
paramtres
Appariement
Modle
Oui/non Score
Trouv
Paramtre
Vecteur
Capture 2
Dcision
Extraction
des
paramtres Appariement
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
16
systmes multimodaux cause de lincompatibilit des donnes de diffrentes modalits (il y
a une seule modalit).
2. niveau de fusion en extraction des paramtres
Plusieurs vecteurs issus de plusieurs modalits sont combins et sont injects dans lentre
du classificateur, il est mentionn dans [1,2] que la fusion en niveau dextraction des
paramtres a abouti des performances meilleures en comparaison avec la fusion en score.
La raison principale est que le niveau des paramtres est plus riche en information que le
niveau des donnes biomtriques brutes. Cependant, cette fusion nest pas toujours faisable
car dans certain cas les paramtres sont incompatibles entre eux ou la leurs concatnation
conduit une dimension trs leve ce qui rend la tche du classificateur trs lourde.
3. niveau de fusion en score
Couramment, cette fusion est la plus utilise cause de ces performances et simplicit. Les
sorties de plusieurs classificateurs (scores) sont combines et envoyes vers le module de
dcision, ce niveau peut tre divis en deux classes : la combinaison et la classification.
Dans lancienne approche, les diffrents scores sont normaliss puis combins par contre
les approches rcentes combinent directement les scores puis elles procdent une autre
classification (par exemple SVM).
4. niveau de fusion en dcision
Dans cette approche, une dcision spare est prise pour chaque modalit dans un stade
trs tard ce qui affecte srieusement la prcision du systme. Cest pour cette raison que la
fusion en dcision est la moins performante [29].
I.2.6.3 Mthodes et techniques de fusion :
A cause des avantages offerts par la fusion en score, les discussions sont centres
autour de ce type de fusion. Dans la littrature, les techniques de fusion en score sont
divises en deux principales catgories : les mthodes fixes (fixed rules) ou mthodes non
paramtriques et les mthodes entranes (trained rules) ou mthodes paramtriques. La
raison principale de cette catgorisation des techniques de fusion dans ce sens est que les
mthodes paramtriques ncessitent des donnes issues des modalits individuelles pour
apprendre le classificateur modliser, en dautre termes, elles utilisent les donnes
dveloppes pour extraire des paramtres qui serviront fusionner les scores en phase de
test. Par exemple, mthode de somme pondre et la mthode de produit pondr.
De lautre ct, les mthodes fixes sont directement appliques dans la fusion des
scores pour diffrentes modalits, la principale caractristique de ces mthodes est que la
contribution de chaque modalit est fixe priori. Par exemple : la mthode AND, OR,
Maximum, Minimum et le vote majoritaire.
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
17
I.2.6.4 Fusion base des mthodes non paramtriques : [9]
Ces mthodes nutilisent que des informations du premier ordre (sorties de
classificateurs). Elles sont faciles implmenter et ne ncessitent pas de phase
dapprentissage.
Cependant, le point faible de ces mthodes est quelles traitent les classificateurs de
manires quivalente ce qui ne permet pas de tenir de leur capacit individuelle.
I.2.6.4.1 Fusion en dcision :
La combinaison dun ensemble de classificateur de type classe est souvent base sur
le principe du vote. Ces mthodes consistent interprter chaque sortie dun classificateur
comme un vote pour lune des classes possibles. La classe ayant un nombre de votes
suprieur un seuil prfix est retenue comme dcision finale. Elles sont les plus simples
mettre en uvre car les votes ne sont pas pondrs et chaque classe reoit autant de votes
quil a de classificateurs combiner.
Les mthodes de vote peuvent pratiquement toutes tre drives de la rgle avec
seuil exprime par :
correspond la proportion de classificateur devant rpondre par la mme classe ^pour
que celle-ci soit retenue comme rsultat de la combinaison. Ainsi, pour = 0, il sagit du vote
la pluralit o la classe qui reoit le plus de votes est choisie comme classe finale.
On parle de majorit notoire dans le cas o pour tre dsigne comme rponse
finale, la classe majoritaire, en plus elle doit se distinguer de la deuxime classe dune
diffrence suprieure un seuil fix.
Le principal inconvnient de ces mthodes est que toutes les classes possdent le
mme vote ce qui sera considr comme un conflit. Pour remdier un ce problme, on
choisit dutiliser les classificateurs de type rang en observant non seulement les premires
rponses, mais les K premires classes ordonnes par rang et on les comptabilise dans le
vote. [8]
I.2.6.4.2 Fusion en score :
Ces mthodes combinent des mesures (scores) qui refltent le degr de confiance
des classificateurs sur lappartenance de la forme reconnatre en chacune des classes.
)5.(
sinonrejet
max)( 1
,
1
,I
LeesiCxE
L
j
jt
L
j
jii
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
18
Toutefois, comme les sorties des classificateurs ne sont pas toujours comparables, une
normalisation est souvent ncessaire. Les mthodes de combinaison non paramtriques les
plus utilises sont les rgles fixes.
Le principe de base derrire les mthodes fixes est le suivant : les classificateurs sont
indpendants et estiment des probabilits posteriori des classes. Ainsi, pour reconnatre
une forme X, on utilise une rgle de dcision E(x) qui revient choisir la classe Ci pour
laquelle la probabilit posteriori est la plus leve. La fonction f est donne par les rgles
suivantes :
- Rgle maximum : Pi = max ( Pi,1 ,,Pi,L)
- Rgle minimum : Pi = min ( Pi,1 ,,Pi,L)
- Rgle mdiane : Pi = mdiane ( Pi,1 ,,Pi,L)
- Rgle produit : ji
PLji
P,1
- Rgle linaire : ji
PLji
P,1
Les trois rgles sont connues sous le nom doprateurs dordre statique. La rgle maximum
consiste choisir la classe pour laquelle la probabilit est la plus leve. Si le classificateur
qui propose cette confiance a une mauvaise performance alors la rgle maximum nest pas
stable.
Pratiquement, tous les travaux qui ont utilis les oprateurs dordre statique montrent
clairement que la rgle mdiane est la plus robuste que la rgle maximum et minimum [19].
Mais, la dcision par cette rgle ne prend pas en compte toutes les informations de
lensemble de classificateurs.
Dans la rgle linaire, est une constante. Ainsi, pour = 1, on obtient la rgle de
somme. Si = 1/L alors la rgle est la moyenne simple. Il est constat que la rgle de
somme est la plus robuste par rapport aux autres rgles fixes, elle amliore la performance
de la fusion et elle est moins sensible aux erreurs des classificateurs [19]
Pour la rgle de produit, si lun des classificateurs donne un score faible, alors le
rsultat de la fusion sera moins crdible. [8] [9]
I.2.6.5 Fusion base des mthodes paramtriques :
Compares aux autres mthodes, les mthodes de fusion paramtriques sont plus
complexes mettre en uvre. Elles utilisent des paramtres supplmentaires calculs
pendant la phase dapprentissage. La performance de ces mthodes dpend alors de la
bonne estimation des paramtres lors de lentranement.
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
19
I.2.6.5.1 Fusion en dcision :
On a principalement le vote pondr, tel que chaque vote du classificateur est
pondr par sa fiabilit W j et on a :
En gnral, W j = taux de reconnaissance / 100-taux de rejet est calcul pendant un
test dapprentissage o on simule des reconnaissances pour valuer la fiabilit de chaque
systme sparment. Ainsi, la forme dentre est attribue la classe pour laquelle la
somme des votes, qui sont pondrs par la fiabilit estime de chacun des experts, est la
plus leve.
I.2.6.5.2 Fusion en score :
Connues sous le nom des rgles pondres, ces mthodes consistent tout
simplement appliquer des pondrations aux sorties des classificateurs. Chaque probabilit
posteriori Pi dune classe Ci peut tre obtenue par dune des rgles suivantes :
Wj est le coefficient qui dtermine limportance attribue au j-ime classificateur dans la
combinaison (j=1, L). Avec =1, la deuxime rgle est appele la somme pondre, pour
=1/L, il sagit de la moyenne pondre. La premire rgle est le produit pondr.
Dans cette catgorie, on trouve galement les machines support de vecteurs
(Support Vector Machines SVM) qui peut tre utilise dans le cas dun problme deux
classes (clients/imposteurs). Cest une nouvelle technique de classification dans le domaine
de la thorie dapprentissage statistique [84-89]. SVM est bas sur le principe de la
minimisation du risque structural (Structural risk minimization SRM) qui vise trouver un
hyper-plan optimal qui non seulement classifier (sparer) les donnes de lapprentissage
mais aussi les donnes inconnues du test. [11]
I.2.7 Normalisation des scores : [15]
Cest lopration damener tous les scores issues de diffrents classificateurs sur une
mme chelle par exemple [0 ,1].
sinonrejet
)6.(max)( 1
,
1
, ILeWeWsiCxE
L
j
jtj
L
j
jiji
)6.(,1
Iji
PWjLji
P
)7.(,1
Iji
PWjLji
P
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
20
La normalisation est une tape dterminante dans les systmes bass sur la fusion
en score car fusionner sans normaliser les scores risque de ngliger les rsultats du
classificateur ayant la plus petite chelle. Nombre dtudes comparatives ont discut leffet
de la normalisation avant la fusion. Par exemple, il est indiqu en [7] que la normalisation est
une tche ncessaire car les scores issus de diffrents systmes sont incompatibles. Autre
tude [11] mentionne que dans le cas des techniques de fusion linaire pour lintgration
des scores des modalits individuelles, lincompatibilit des scores affecte les performances
du systme.
Daprs la littrature, il y a varit de techniques de normalisation trs connues (i.e. :
Min-Max, Z-score, Tanh, Median-MAD, double-sigmoid). Min-Max et Z-score sont les plus
utilises.
I.2.7.1 Normalisation Min-Max :
Cette technique linaire convertie les scores brutes issues des diffrents
classificateurs dans une chelle de [0 1]. Elle conserve la distribution des scores, elle est
exprime par :
O x est le score normalis, n est le score brut et max et min sont respectivement les valeurs
maximales et minimales obtenues dans la phase dapprentissage.
I.2.7.2 Normalisation Z-score :
Z-score convertie les scores bruts en une distribution dont la moyenne est nulle et un
cart-type gale I. Aussi cette normalisation garde la distribution originale mais, lchelle
nest pas fixe. La normalisation Z-score est donne par :
O n est le score brut, , sont respectivement la moyenne et lcart-type de la distribution
des scores bruts.
I.3 Conclusion :
Certes que technologies biomtriques actuelles ont atteints une prcision leve qui
leurs permettrons dtre dployes dans la plupart des domaines. Mais, leurs performances
restent insuffisantes compte tenue des dexigences accrues des organisations en la matire
)7.(minmax
minI
nx
)8.(In
x
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
21
de la haute scurit. Beaucoup de techniques ont vu le jour dans le but pousser lextrme
les performances des systmes de reconnaissance. Parmi ces techniques, on trouve la
fusion de modalit qui est une technique trs prometteuse, intuitive et qui a pour linstant
fourni de bons rsultats.
Chapitre II : Reconnaissance automatique du
locuteur
Chapitre II Reconnaissance du locuteur
23
II.1 Introduction :
La vrification automatique du locuteur (VAL) consiste dterminer si un locuteur est
celui quil prtend tre. Le systme dispose en entre dun chantillon de parole et dune
identit proclame. Une mesure de ressemblance est calcule entre lchantillon et la
rfrence du locuteur correspondant lidentit prtendue. Si cette mesure est juge par le
systme suffisant, ce dernier accepte le locuteur ; dans le cas contraire, le locuteur est
considr comme imposteur et est rejet.
En fait, tous les systmes dauthentification biomtriques ont globalement la mme
architecture, donc, on va mettre on relief dans ce chapitre ce qui est spcifique seulement
aux systmes de vrification du locuteur en loccurrence lanalyse acoustique et lextraction
des paramtres.
II.2 Structure gnrale dun systme de vrification du locuteur :
On distingue deux phases dans les systmes biomtriques, la phase dapprentissage
et la phase de test qui est ou la vrification ou lidentification. La figure II.1 montre
larchitecture gnrale dun systme VAL : [6]
Figure II.1 : Structure gnrale dun systme VAL
Test
Apprentissage
Acquisition
vocale
Prtraitement Extraction
De
Paramtres
Acquisition
vocale
Prtraitement Extraction
De
Paramtres
Base de
donnes
Dcision
Calcul des
modles
Chapitre II Reconnaissance du locuteur
24
II.3 Analyse acoustique et extraction des paramtres :
II.3.1Introduction :
Dans le but de bien extraire les paramtres acoustiques dun locuteur qui doivent
porter son identit et seront cruciales pour construire son modle, le signal de la parole doit
tre format et trait.
Dabord, une connaissance du mcanisme de la production de la parole sera
ncessaire, ainsi la phase de lacquisition et ses caractristiques en loccurrence la
frquence dchantillonnage et le format du fichier son, ensuite on passera par les
prtraitements quon a jug importants : le dcoupage en trames, la praccentuation,
Elimination du silence et le fentrage. Cest le domaine du traitement de signal par
excellence.
Ensuite, on procdera lextraction des paramtres en utilisant lanalyse cepstrale et
le filtrage Mel, ces deux derniers ont prouv leurs efficacit dans le domaine de vrification
du locuteur durant ces dernire annes, nous verrons travers ces techniques que la
connaissance du mcanisme de la production de la parole humaine et celui de lcoute ont
beaucoup influenc sur lefficacit des techniques dextraction des paramtres. Cest le
domaine de reconnaissance des formes.
Enfin, nous passerons par les post-traitements qui seront considres comme des
retouches finales pour ltape dextraction des paramtres, nous verrons deux techniques
bien connues la normalisation et la pondration.
II.3.2 Production de la parole et acquisition du signal :
Le but recherch dans cette section est de dsigner un lment distinctif dans le
systme phonatoire humain qui donne chaque locuteur son identit et qui sera moins
sensible aux changements extrieurs (le temps, le lieu etc.). Cest ce quon appelle une
variabilit intra-locuteur par opposition la variabilit interlocuteur qui prsente des
diffrences de caractristiques dans une population de locuteurs. [17]
Lappareil phonatoire se compose en trois sous-ensembles fonctionnels : lensemble
poumons, trache-artre, lensemble larynx et ses environs et le conduit vocal comme
dernier ensemble, une production de la parole ou autre son est possible quand les poumons
comprime lair par contraction des muscles abdominaux et thoraciques qui lenveloppe et
lorsque cet air traversera le conduit vocal, il subira une dformation cest ce quon appelle
une modulation [9].
Chapitre II Reconnaissance du locuteur
25
Si on sintresse aux caractristiques physiques de la voix, on voit bien que le conduit
vocal peut jouer un rle discriminant dans la production de la voix car il est uniforme et
inhomogne : il est constitu des muscles, des ligaments et des structures rigides comme
les dents en plus, ces structures gomtriques change avec le temps principalement cause
de larticulation.
Une fois le signal de la parole est produit, il sera stock dans lordinateur en passant
par le microphone, ce dernier joule un rle trs important dans la qualit de lenregistrement
qui affectera bien entendu la justesse des rsultats finaux. Mais avant cela, le signal de la
voix doit tre chantillonn cest--dire transformer de la forme continue la une forme
discrte, alors le signal sera dcrit par la suite numrique de la forme : X[n] = X(nT) o T est
la priode dchantillonnage et on dduit la frquence F = 1 / T. En plus de la frquence, on
trouve aussi la quantification, une quantification sur 8 bits veut dire que chaque chantillon
est reprsent par un nombre sur 8 bits, on aura donc 2 la puissance 8 i.e. : 256
possibilits pour chaque chantillon.
Revenant maintenant la frquence dchantillonnage, si cette dernire est trop
basse, le signal chantillonn comportera une perte dinformations importante par contre si
elle est trop leve le signal restera le mme. Le thorme de Shannon stipule quune
frquence dchantillonnage suprieur deux fois la frquence la plus lev contenu dans le
signal viterait un repliement (aliasing) su spectre et garantirait une reprsentation sans
perte dinformations.
Enfin, le signal de la parole est stock dans la machine sous forme Wave. Ce format
est engendr par la spcification Microsofts RIFF pour le stockage des fichiers multimdia. Il
contiendra des informations cls telles que la frquence dchantillonnage et la quantification
utilises dans lenregistrement.
Chapitre II Reconnaissance du locuteur
26
Figure II.1 : visualisation d'un signal de parole
II.3.3 Prtraitement :
Comme on la dit prcdemment, les prtraitements servent spcifiquement
prparer le signal des traitements futurs, du fait, ils ont une importance non ngligeable
pour les performances du systme entier. En effet, ses paramtres seront une grande aide
pour tester et valuer le systme. [17][6]
II.3.3.1 Dcoupage en trames :
La non stationnarit qui est caractristique statistique inhrente du signal de la parole
rend ce prtraitement ncessaire. En effet, les paramtres statistiques tels que la moyenne
et lcart-type sont variables dans le temps cause de la dformation continue du conduit
vocal, mais tudes ont pu montrer que le signal peut tre considr comme quasi-
stationnaire dans des intervalles de temps infrieur 30 ms. Alors, si on veut chercher la
longueur dune trame en nombre dchantillon et quon a comme de donn la frquence
dchantillonnage, on trouve quune trame de 256 chantillons du signal vocal chantillonn
avec 16 KHz ait une dure de t_trame : 16000Hz /1s = 256Hz/t_trame => t_trame = 16 ms.
Chapitre II Reconnaissance du locuteur
27
Donc, le signal de la parole sera dcoup en segments gaux de 256 chantillons
quon les appelle trames. Une autre technique importante est galement utilis : le
chevauchement, cest--dire lentrelacement entre les trames adjacentes. Cela est justifi
par le besoin de prserver le maximum dinformations dans les extrmits des trames car le
fentrage qui le dernier prtraitement dgrade ces informations.
Le nombre de trames pour un signal donn et un taux de chevauchement de 50% est
donn par :
(II.1)
II.3.3.2 Praccentuation :
Si on observe le signal de la voix produit par un humain, on trouve que les sons qui
sortent par la cavit nasale ont une haute frquence mais aussi une faible amplitude ce qui
cre une difficult pour distinguer clairement ces sons. Pour remdier ce problme, on
appliquera un filtre sur notre signal et donc sur toutes les trames et on aura une amplification
des composantes de haute frquence. La transform en Z de ce filtre est donn par : H(z) =
1 0.95 z -1.
Figure II.2 : filtre de praccentuation
1*2
rameillonsParTnbreEchant
illonsnbreEchantnbreTrame
Chapitre II Reconnaissance du locuteur
28
II.3.3.3 limination du silence :
Tout signal de la parole compote des portions de silence qui sont inutiles voire
dgradantes pour les performances du systme que ce soit au temps dexcution o
lexactitude des paramtres.
Donc, on essayera denlever des zones de silence et pour cela on va se baser sur
des paramtres bien connus :
Le taux de passage par zro (ZCR :Zero Crossing Rate) qui est le nombre de
changement de signe dun chantillon son successeur dans la mme trame. Le
ZCR dune trame est dfini par :
Lnergie du signal qui est discriminante, en effet, une zone de silence a une nergie
faible contrairement aux portions de parole. Pour calculer lnergie dune trame, on
donne :
( ) ( ) (II.3)
Il existe deux algorithmes pour llimination du silence :
Algorithme VAD (Voice Activity Detection):
Cet algorithme calcule pour chaque trame une fonction de cot bas sur les deux
paramtres prcdents, ensuite il compare de cot avec un seuil pour dcider si cette trame
est un silence ou parole. La fonction de cot est donn par :
Pour calculer ce seuil, on supposera que le segment des 120 premires
millisecondes est un silence ce qui est le cas en gnral, donc, on aura 5 trames de silence,
les valeurs de la fonction de cot W de ces 5 trames serviront pour calculer le seuil comme
suit :
Avec = 0.2 - 0.8
0x.........0.........
0x.........1.........sng(x)
)2.(1))sgn(s(nsgn(s(n))L
1 (m)
m
1Lm
IIzcr
)4.(ZCR(m)E(m).(1W(m) II
)5.(silence
seuil IIww
Chapitre II Reconnaissance du locuteur
29
O w, w sont respectivement la variance et la moyenne de W pour les 5 premires trames.
Quant au terme , cest une constante qui dpend des caractristiques du signal. [17]
Second algorithme
La mme supposition sera considre ici, on se sert des cinq premires trames pour
calculer un seuil IZTU qui reprsente ZCR et un autre seuil ITU pour lnergie. Une premire
slection des trames sera fait en comparant leurs nergies au seuil ITU, puis en se basant
sur le paramtre IZTU, on rajuste la slection en rajoutant ou supprimant des trames
adjacentes une trame limite.
II.3.3.4 Fentrage :
Si on passe directement au domaine frquentiel moyennant la transforme de Fourier
et on observe le spectre, on trouve certainement des informations provenant du signal lui-
mme mais aussi dautres provenant du dcoupage de signal en trame. Ceci est expliqu
mathmatiquement par le fait quune trame est obtenue en appliquant une fentre
rectangulaire au signal ce qui sera une convolution du signal avec la fonction Sinc au
domaine frquentiel.
Sachant que la fonction Sinc prsente des lobes non ngligeables aux extrmits ce
qui engendre des dformations du spectre, le mieux serait dappliquer une fentre qui rduit
progressivement lamplitude du signal lextrmit de la trame contrairement la fentre
rectangulaire qui linterrompre brusquement.
Pour cela, il ya beaucoup de fentres qui ont cette caractristique, mais on ne
sintresse quau deux : la fentre de Hamming et celle de Blackman qui sont dfinies ci-
dessous :
(II.6) Fentre de Hamming
(II.7) Fentre de Blackman
)1N
n2cos(0.460.54W(n)
)1
4cos(*08.0)
1N
n2cos(50.420.W(n)
N
n
Chapitre II Reconnaissance du locuteur
30
La figure II.3 montre que la fentre de Hamming a un lobe plus large que celui de
Blackman ce qui se traduit par un passage plus rapide de la bande passante la bande
bloquante (environ 20% plus rapide). Cependant, la fentre de Blackman prsente un taux
dattnuation plus lev celui de hamming (0.02% pour Blackman et 0.2% pour hamming),
cela est illustr dans la figure II.3
Alors, on voit bien quil sagit dun compromis entre les deux fentres, si on gagne un
passage rapide, on perd au taux dattnuation et vice versa.
Figure II.3 : comparaison entre la fentre de Hamming et Blackman
Chapitre II Reconnaissance du locuteur
31
II.3.4 Extraction des paramtres : [17]
Aprs avoir format notre signal, nous procderons extraire de linformation utile
depuis chaque trame qui sera par la suite notre unit de traitement. Pour aboutir cet
objectif, nous allons prsenter deux notions : lanalyse cepstrale et le filtrage Mel.
II.3.4.1 Analyse cepstrale :
Tout dabord, le cepstre dun signal x(n) est donn par la formule suivante :
Si on suppose que le signal de la parole est le produit de convolution entre la source
glottique et le conduit vocal : s(n) = e(n) * h(n), la notion de cepstre devienne intressante
car elle facilite la dconvolution et lisolation de leffet de la source. Le passage au domaine
frquentiel travers la transform de Fourier donne : S(f) = E(f) X H(f).
Pour sparer linfluence de la source glottique et lisoler on applique le logarithme sur
le produit po