Rouidi Houssam Mémoire de Fin d'étude

Ministre de l'enseignement suprieur et de la recherche scientifique

Ecole nationale suprieure dinformatique (ESI- EX INI)

En collaboration avec le

Centre de recherche des technologies avances

(CDTA)

Alger

Mmoire de fin d'tude

Pour l'obtention du diplme d'ingnieur d'tat en informatique

Option: Systmes informatiques

Thme

Conception et ralisation dune Plateforme de fusion

biomtrique en score base des machines

vecteurs de support (SVM)

Ralis par : M. ROUIDI Houssam

Promotion: 2007/2008

Remerciements Nos remerciements et nos profondes gratitudes vont nos promoteurs Messieurs HARIZI Farid et BENGHERABI Messaoud pour leur encadrement, leur suivi et leurs conseils tout au long de cette priode. Nous remercions aussi Monsieur le directeur du centre de recherche des technologies avances CDTA de nous avoir accueilli ainsi que tout le personnel quon a eu la chance de ctoyer. Nous tenons aussi remercier mesdames et messieurs les membres du jury pour leur prcieux temps accord ltude de notre mmoire. Nos remerciements et notre gratitude vont aux professeurs et enseignants de lINI ainsi que ses tudiants, en particulier ELHADDAD Mohamed, et son personnel ctoys tout au long de notre cursus universitaire. Que toute personne ayant uvr de prs ou de loin la ralisation de ce projet par une quelconque forme de contribution, trouve ici le tmoignage de notre plus profonde reconnaissance.

Abrviations DCT : Discret Cosine Transform.

EER : Equal Error Rate.

FAR : False Acceptation Rate.

FRR : False Rejection Rate.

TFR : Taux de Faux Rejet.

TFA : Taux de Fausse Acceptation.

GMM : Gaussian Mixtures Models.

ORL : Olivetti Research Laboratory.

EM : Expectation Maximization.

MFCC : Mel-Frequencies Cepstral Coefficients.

VAD : Voice Activity Detection.

VQ : Vector Quantization.

QLQ: Quadric-Line-Quadric.

LBG : Linde, Buzo et Gray

ROC: Receiver Operating Characteristic

UBM: Universal Background model

FA: Fuse Acceptation

FR : Faux rejet

FFT : Fast Fourrier Transform.

RAL : Reconnaissance du locuteur.

iDCT : inverse Discret Cosine Transform.

HMM : Hidden Markov Model.

MV : Maximum de Vraisemblance.

RNV : Les Rseaux de Neurones Virtuels.

MLP : Multi-Layer Perceptron.

TID : Taux dIdentification

SVM : Support vector machines

Liste des figures

Figure I.1 : architecture dun systme biomtrique .................................................................8

Figure I.2 : Comparaison ente techniques biomtriques ......................................................11

Figure I.3 : distribution de scores ..........................................................................................12

Figure I.4 : la courbe ROC ....................................................................................................13

Figure I.5 : niveaux de fusion dans les systmes multimodaux .............................................15

Figure II.1 : Structure gnrale dun systme VAL ................................................................23

Figure II.1 : visualisation d'un signal de parole .....................................................................26

Figure II.2 : filtre de praccentuation ....................................................................................27

Figure II.3 : comparaison entre la fentre de Hamming et Blackman ....................................30

Figure II.4 : lchelle Mel .......................................................................................................32

Figure II.5: Calcul des coefficients MFCC .............................................................................33

Figure III.1 : Processus dun systme de reconnaissance de visages .................................37

Figure III.2 : Distribution frquentielle des coefficients DCT [38] ...........................................47

Figure III.3 : Schma du parcours dune matrice en zigzag ..................................................49

Figure IV.1 : Exemple d'utilisation du mlange. ....................................................................55

Figure IV.2 : Diffrentes approches de calcul du modle UBM .............................................58

Figure V.1 : Configuration de 3 points par les droites de 2 .................................................63

Figure V.2 : Donnes linairement sparables .....................................................................65

Figure V.3 : Vecteurs de support ..........................................................................................66

Figure V.4 : Sparation par un noyau linaire .......................................................................69

Figure V.5 : Sparation par un noyau polynomial .................................................................70

Figure V.6 : sparation de donnes non linairement sparable par un noyau RBF .............71

Figure VI.1 : Architecture du systme ...................................................................................78

Figure VI.2 : Diagramme de squence en mode Apprentissage ...........................................80

Figure VI.3 : Diagramme de squence en mode vrification .................................................81

Figure VI.4: Diagramme de squence en mode identification ...............................................82

Figure VI.4 : Interaction entre les classes en mode Apprentissage .......................................85

Figure VI.5 : Interaction entre les classes en mode Test ......................................................85

Figure VI.6 : Visualisation dun signal vocal ..........................................................................92

Figure VI.6 : Acquisition dune image partir de la WebCam ...............................................92

Figure VII.6 : linarit de la sparation ............................................................................... 109

Figure VII.9 : Distribution des scores clients et imposteurs ................................................. 111

Figure B.1 : Exemple dhistogramme dune image [20] ...................................................... 127

Figure B.2 : Exemple de normalisation dhistogramme [20] ............................................... 129

Figure B.3 : Exemple dgaliseur dhistogramme ............................................................... 130

Figure B.4 : Exemple de filtre moyenne [17] ...................................................................... 131

Figure B.5 : Exemple de filtre gaussien [17] ...................................................................... 132

Figure B.6 : Exemple de filtre Mdian [20] ........................................................................ 133

Figure B.7 : Exemple du filtre de Nagao [18] ..................................................................... 133

Liste des tableaux

Tableau V.1 : comparaison entre les trois algorithmes .........................................................75

Tableau VI.1 : Implmentation du module VOICE ................................................................88

Tableau VI.2 : Implmentation du module FACE ..................................................................88

Tableau VI.3 : implmentation du module GMMModlisation ...............................................89

Tableau VI.4 : implmentation du module StatisticsTools .....................................................90

Tableau VI.5 : implmentation du module FUSION ..............................................................91

Tableau VII.1 : gnration des scores pour la base TIMIT de 40 personnes ........................97

Tableau VII.5 : Configurations du classificateur SVM ......................................................... 101

Tableau VII.6 : EER et taux didentification ......................................................................... 101



Tableau VII.12 : EER pour le classificateur SVM ................................................................ 108

Tableau VII.13 : EER et taux didentification ....................................................................... 110

Tableau VII.14 : EER et taux didentification ....................................................................... 111

Tableau VII.15 : EER aprs diffrentes fusion et normalisations ........................................ 112

Tableau VII.16 : EER pour le classificateur SVM ................................................................ 113

Sommaire

Introduction gnrale : .........................................................................................................1

Chapitre I : Gnralits sur la biomtrie et les systmes biomtriques ...........................3

I.1 Gnralits sur la biomtrie : .............................................................................................4

I.1.1 Introduction : ...............................................................................................................4

I.1.3 Domaines dapplication : .............................................................................................5

I.2 Les systmes biomtriques : .............................................................................................6

I.2.1Dfinition : ....................................................................................................................6

I.2.2 Architecture dun systme biomtrique :[3] ..................................................................7

I.2.3 Types de systmes biomtriques :[4] ..........................................................................8

I.2.3.1 Systmes comportementaux : ..............................................................................8

I.2.3.2 Les systmes morphologiques : ...........................................................................9

I.2.4 Comparaison entre les types de systmes biomtriques : .........................................10

I.2.5 Evaluation et performances des systmes biomtriques : .........................................11

I.2.5.1 Performance dun systme didentification :[4] .......................................................11

I.2.5.2 Performances dun systme de vrification : .......................................................12

I.2.6 Systmes biomtriques multimodaux : ......................................................................13

I.2.6.1 Pourquoi la multimodalit ? ................................................................................13

I.2.6.2 Niveaux de fusion : .............................................................................................14

I.2.6.3 Mthodes et techniques de fusion : ....................................................................16

I.2.6.4 Fusion base des mthodes non paramtriques :[9].........................................17

I.2.6.4.1 Fusion en dcision :.................................................................................................. 17

I.2.6.4.2 Fusion en score : ...................................................................................................... 17

I.2.6.5 Fusion base des mthodes paramtriques : ....................................................18

I.2.6.5.1 Fusion en dcision :.................................................................................................. 19

I.2.6.5.2 Fusion en score : ...................................................................................................... 19

I.2.7 Normalisation des scores :[15] ..................................................................................19

I.2.7.1 Normalisation Min-Max : .....................................................................................20

I.2.7.2 Normalisation Z-score :.......................................................................................20

I.3 Conclusion :.....................................................................................................................20

Chapitre II : Reconnaissance automatique du locuteur...................................................22

II.1 Introduction : ...................................................................................................................23

II.2 Structure gnrale dun systme de vrification du locuteur : .........................................23

II.3 Analyse acoustique et extraction des paramtres : .........................................................24

II.3.1Introduction : .............................................................................................................24

II.3.2 Production de la parole et acquisition du signal : ......................................................24

II.3.3 Prtraitement : ........................................................................................................26

II.3.3.1 Dcoupage en trames : .....................................................................................26

II.3.3.2 Praccentuation :...............................................................................................27

II.3.3.3 limination du silence : ......................................................................................28

II.3.3.4 Fentrage : ........................................................................................................29

II.3.4 Extraction des paramtres :[17]................................................................................31

II.3.4.1 Analyse cepstrale : ............................................................................................31

II.3.4.2 Filtrage Mel: .......................................................................................................31

II.3.4.3 Paramtres MFCC : ...........................................................................................32

II.3.5 Paramtres dynamiques : ........................................................................................33

II.3.6 Post-traitement : .......................................................................................................33

II.4 Conclusion :....................................................................................................................34

Chapitre III : Reconnaissance de visages .........................................................................35

III.1 Introduction : ..................................................................................................................36

III.2 Motivation : (pourquoi la reconnaissance de visages ?) ................................................36

III.3 Processus de reconnaissance de visages : ...................................................................37

III.3.1 Le monde physique : (Lextrieur) ...........................................................................38

III.3.2 LAcquisition de limage : .........................................................................................38

III.3.3 Les prtraitements : ................................................................................................38

III.3.4 Lextraction de paramtres : ....................................................................................38

III.3.5 La classification : (Modlisation)..............................................................................39

III.3.5 Lapprentissage: ......................................................................................................39

III.3.6 La dcision : ............................................................................................................39

III.4 Approches utilises dans les systmes de reconnaissance de visages : ......................39

III.4.1 Les approches globales :[7] ....................................................................................39

III.4.1.a Lanalyse en Composantes Principales (PCA) : ................................................40

III.4.1.b Lanalyse Discriminante Linaire (LDA) : .........................................................40

III.4.1.c Les rseaux de neurones (RNA) : .....................................................................41

III.4.1.d Mlange de gaussiennes (GMM) : ...................................................................41

III.4.1.e Lapproche statistique et lapproche probabiliste: ..............................................41

III.4.2 Les approches locales : ..........................................................................................42

III.4.2.a Hidden Markov Models (HMM): ........................................................................42

III.4.2.b Eigen objects (EO): ..........................................................................................42

III.4.2.c LElastic Bunch Graph Matching (EBGM): ........................................................43

III.4.2.d Lappariement de gabarits: ..............................................................................43

III.4.3 Les approches hybrides : .....................................................................................43

III.5 La transforme en cosinus discrte : (DCT) ...................................................................44

III.5.1 Introduction : ..........................................................................................................44

III.5.2 historique : .............................................................................................................44

III.5.3 Motivation : (Pourquoi la DCT ?) ............................................................................44

III.5.4 Dfinition : ..............................................................................................................44

III.5.5 Principe et formulation :..........................................................................................45

III.5.5.1 La DCT une dimension : ...................................................................................45

III.5.5.2 La DCT deux dimensions :............................................................................46

III.5.6 Proprits de la DCT : ............................................................................................46

III.5.6.1 Dcorrlation : .................................................................................................46

III.5.6.2 Compression dinformations : ..........................................................................47

III.5.6.3 Sparabilit : ...................................................................................................47

III.5.6.4 Symtrie : ........................................................................................................47

III.5.6.5 Orthogonalit : .................................................................................................48

III.6 Conclusion:....................................................................................................................49

Chapitre IV : Modlisation GMM ........................................................................................50

VI.1 Introduction : .................................................................................................................51

VI.2 Motivation :....................................................................................................................51

VI.3 Modlisation par Mlanges de Gaussiennes GMM :.....................................................51

VI.3.1 Dfinition : ..............................................................................................................51

VI.3.2 Modle du mlange : ..............................................................................................51

VI.3.3 Apprentissage du Modle : .....................................................................................52

VI.3.4 Estimation du modle GMM par EM : .....................................................................52

VI.5 Dcision : ......................................................................................................................55

VI.5.1 Identification : .........................................................................................................55

VI.5.2 Vrification : ............................................................................................................56

VI.5.3 Modlisation des imposteurs par GMM : .................................................................57

IV.5 Conclusion : .................................................................................................................58

Chapitre V : Classification par les machines vecteurs de support (SVM) ...................59

V.1 Introduction : ..................................................................................................................60

V.2 Thorie des Machines Vecteurs de Support :[29] ........................................................60

V.2.1 Formulation :............................................................................................................60

V.2.2 Minimisation du risque structurel : ............................................................................60

V.2.3 Dimension Vapnik-Chervonenkis : ...........................................................................62

V.2.4 Classification binaire par hyperplan : .......................................................................63

V.2.5 Cas de donnes linairement sparables : ..............................................................64

V.2.6 Cas de donnes non-linairement sparables : .......................................................66

V.2.7 Les fonction Noyaux : ..............................................................................................68

V.2.7.1 Introduction du noyau : ......................................................................................68

V.2.7.2 Condition de Mercer : ........................................................................................69

V.2.7.3 Exemples de noyaux : .......................................................................................69

V.3 Rsolution du problme li lapprentissage dune machine vecteurs de support : ....71

V.3.1 Les condition KKT :[40][29] ......................................................................................72

V.3.2 Algorithme dapprentissage du SVM : ......................................................................72

V.3.3 La mthode Chunking : ............................................................................................73

V.3.4 La mthode de dcomposition : ...............................................................................74

V.3.5 La mthode dOptimisation Squentielle Minimale (SMO) :[40]................................74

V.3.6 Comparaison entre les trois mthodes :...................................................................75

V.4 Conclusion : ...................................................................................................................75

Chapitre VI : Conception et ralisation .............................................................................76

VI.2 Conception (Architecture du systme): .........................................................................77

VI.2.1 Phase dApprentissage : .........................................................................................79

VI.2.3 Phase de test : ........................................................................................................80

VI.2.3.1 Vrification : .....................................................................................................80

VI.2.3.2 Identification : ...................................................................................................81

V.2.4 Structure gnrale du systme : ..............................................................................82

VI.2.4.1 module dacquisition : .......................................................................................82

V.2.4.2 module de modlisation : ..................................................................................82

VI.2.4.3 Module denregistrement: ................................................................................84

VI.2.4.4 Module de normalisation : ...............................................................................84

VI.2.4.5 Module de fusion : ............................................................................................84

VI.2.4.6 Module SVM :...................................................................................................84

VI.2.5 interaction entre les modules du systme : .............................................................84

VI.2.5.1 Interaction en mode apprentissage : ................................................................84

VI.2.5.2 Interaction en mode Test : ................................................................................85

VI .3 Implmentation et ralisation du systme : ..................................................................86

VI.3.1 Outils de tests : .......................................................................................................86

VI.3.2 Outils de dveloppement : ......................................................................................86

VI.3.3 Implmentation du systme : ..................................................................................87

VI.3.3.1 Le module VOICE: ...........................................................................................87

VI.3.3.2 Le module FACE : ............................................................................................88

VI.3.3.3 Le module GMMModlisation : .........................................................................89

VI.3.3.4 Le Module StatisticTools : ................................................................................89

VI.3.3.5 Le module FUSION : ........................................................................................90

VI.3.4 Prsentation de lapplication : .................................................................................91

VI.4 Conclusion : ..................................................................................................................93

Chapitre VII : Test et valuation des rsultats ..................................................................94

VII.1 Introduction : ................................................................................................................95

VII.2 Donnes utilise pour raliser les tests : ......................................................................95

VII.3 Protocole dvaluation : ................................................................................................96

VII.4.1 reconnaissance monomodale : ............................................................................ 101

VII.4.1.1 reconnaissance de locuteur pour la base TIMIT de 100 personnes : ............. 101

VII.4.1.2 reconnaissance de locuteur pour la base TIMIT de 40 personnes : ............... 102

VII.4.1.3 reconnaissance de visages pour la base ORL de 40 personnes : ................. 103

VII.4.2 reconnaissance bimodale pour la base TIMIT-ORL de 40 personnes : ................ 104

VII.4.3 reconnaissance bimodale avec la mthode SVM : ............................................... 107

VII.4.4 Conclusion des tests sur TIMIT-ORL : ................................................................. 109

VII.4.5 Test sur une base relle : .................................................................................... 109

VII.4.6.1 Reconnaissance de locuteur : ....................................................................... 110

VII.4.6.2 Reconnaissance de visages : ........................................................................ 111

VII.4.6.3 Reconnaissance bimodale : .......................................................................... 111

VII.4.6.4 Conclusion des tests : ................................................................................... 113

VII.5 Conclusion : ............................................................................................................... 113

Conclusion Gnrale : ..................................................................................................... 114

Bibliographie .................................................................................................................... 116

Annexes ............................................................................................................................ 119

Lalgorithme EM (Expectation-Maximisation) ..................................................................... 120

Gnralits sur le traitement dimages ............................................................................... 126

Introduction gnrale

1

Introduction gnrale :

Dans un monde o la scurit des individus est devenue un souci majeur, le besoin

de se protger augmente jour aprs jour. En effet, vu le dveloppement permanent et

important de la socit dans tous ces aspects, les outils de surveillance et de contrle

classique savoir ceux relatifs la mthode base sur la connaissance tel que le mot de

passe ou bien base sur la possession tels que les badges, les pices didentits, cls,

savrent inefficaces.

En effet, ces diffrents laissez-passer peuvent tre perdus ou mme vols. Dans le cas

du mot de passe, celui-ci peut facilement tre oubli par son utilisateur ou bien devin par

une autre personne. De plus ces mots de passes sont souvent archivs dans un bureau par

lorganisation, or ceci est une faille certaine dans le systme de scurit.

Pour pallier ces diffrents problmes dinefficacit et de non scurit, lhomme a fait

rfrence une nouvelle technique de reconnaissance qui a fait son apparition et ne cesse

de crotre depuis 1997 : il sagit des contrles daccs par les systmes biomtriques.

La biomtrie est en effet une alternative aux deux prcdents modes didentification

(connaissance, possession). Elle consiste identifier une personne partir de ses

caractristiques physiques ou comportementales. Le visage, les empreintes digitales, liris,

sont des exemples de caractristiques physiques. La voix, lcriture, le rythme de frappe sur

un clavier, etc. sont des caractristiques comportementales. Lavantage principal de cette

technique est que ces caractristiques sont propres chaque individu et ne souffrent donc

pas des faiblesses des mthodes bases sur une connaissance ou une possession. En effet,

un attribut physique ou comportemental ne peut tre oubli ou perdu et sont trs difficiles

deviner, voler et dupliquer.

Si autrefois, ces mthodes taient surtout utilises par les services de scurit tel que la

police, aujourdhui un individu a besoin dtre identifi dans une multitude de contextes

essentiellement ceux dont la scurit est ncessaire. Pour cela, diffrentes techniques

dauthentifications bases sur les caractristiques physiques de lutilisateur ont t

dveloppes, ceci a donn lieu la naissance de plusieurs produits que lon peut trouver

sur le march.

Introduction gnrale

2

Dans ce travail, on essayera de dvelopper un systme de fusion biomtrique en scores

bas sur la reconnaissance du visage et la voix, cest un systme trs rpandu au monde

grce sa simplicit et son efficacit. En effet, le visage et la voix sont certainement les

caractristiques biomtriques que lon utilise le plus naturellement pour sidentifier. Le but

dun systme de reconnaissance bimodale de visages et de voix est dautomatiser certaines

applications telles que la tlsurveillance, laccs des endroits scuriss, etc.

Pour automatiser cette fusion, plusieurs mthodes et approches ont t adoptes pour

la fusion en scores. A titre dexemple, les mthodes de fusion fixes qui nont pas besoin

dapprentissage mais qui souffre galement de souplesse car ces mthodes traitent les

scores dune manire indiffrente. Lobjectif de notre travail est de dvelopper et

implmenter une mthode rcente de fusion en score intitule Classificateur large

marge SVM. Cette approche a prouv son supriorit dans le domaine de la classification

automatique [40] car et avant tout il sagit dune mthode de fusion dite entraine, cela veut

dire que la classification par cette dernire tient compte dun apprentissage supervis qui

laide adapter son systme lenvironnement o elle opre, ensuite, elle bnficie dune

thorie de minimisation du risque structurel qui garantie une gnralisation sur un ensemble

de donnes diffrent de celui qui a servi pour lapprentissage. Le prsent mmoire est

organis comme suit :

Dans le premier chapitre, nous donnerons des notions gnrales sur la biomtrie et les

systmes de reconnaissance dindividus ainsi sur les systmes biomtriques multimodaux.

Dans le second, nous exposerons la reconnaissance automatique du locuteur en se

concentrant sur les techniques spcifiques pour la voix (MFCC). Ensuite, dans le troisime

chapitre, nous parlerons galement de la reconnaissance de visages en mettant en relief la

DCT qui nous fournit les donnes essentielles pour authentifier un visage. Aprs, le

quatrime chapitre portera sur la modlisation GMM utilise dans les deux systmes

prcdents, suivie de la partie conception du systme dans le cinquime chapitre. Et enfin,

on prsentera les tests et les rsultats obtenus aprs lvaluation de notre systme dans le

sixime chapitre et on terminera par une conclusion gnrale.

Chapitre I : Gnralits sur la biomtrie et les

systmes biomtriques

Chapitre I Gnralit sur la biomtrie et les systmes biomtriques

4

I.1 Gnralits sur la biomtrie :

I.1.1 Introduction :

Savoir dterminer de manire la fois efficace et exacte lidentit dun individu est

devenu un problme critique dans notre socit. En effet, bien que nous ne nous en

rendions pas toujours compte, notre identit est vrifie quotidiennement par de multiples

organisations : lorsque nous utilisons notre carte bancaire, lorsque nous accdons notre

lieu de travail, lorsque nous nous connectons un rseau informatique, etc. Il existe

traditionnellement deux manires didentifier un individu.

La premire mthode est base sur une connaissance (knowledge-based). Cette

connaissance correspond par exemple au mot de passe utilis au dmarrage dune session

Unix ou au code qui permet dactiver un tlphone portable. La seconde mthode est base

sur une possession (token-based). Il peut sagir dune pice didentit, une clef, un badge,

etc. Ces deux modes didentification peuvent tre utiliss de manire complmentaire afin

dobtenir une scurit accrue. Cependant, elles ont leurs faiblesses respectives. Dans le

premier cas, le mot de passe peut tre oubli par son utilisateur ou bien devin par une autre

personne. Dans le second cas, le badge (ou la pice didentit ou la clef) peut tre perdu ou

vol.

La biomtrie est une alternative aux deux prcdents modes didentification. Elle

consiste identifier une personne partir de ses caractristiques physiques ou

comportementales. Le visage, les empreintes digitales, liris, etc. sont des exemples de

caractristiques physiques. La voix, lcriture, le rythme de frappe sur un clavier, etc. sont

des caractristiques comportementales. Ces caractristiques, quelles soient innes comme

les empreintes digitales ou bien acquises comme la signature, sont attaches chaque

individu et ne souffrent donc pas des faiblesses des mthodes bases sur une connaissance

ou une possession. En effet, un attribut physique ou comportemental ne peut tre oubli

mais il risque de changer lgrement avec le temps.

I.1.2 Dfinition :

La biomtrie est un ensemble de procds automatiss de reconnaissance des

caractristiques morphologiques, biologiques et comportementales, cest la rencontre entre

des techniques numriques, des donnes biologiques du corps humain et un impratif de la

socit contemporaine : identifier facilement et srement des personnes , en effet, le terme

biomtrie est un anglicisme drivant du terme biometrics. [1]


5

Autre dfinition stipule que le mot franais biomtrie dfinit ltude mathmatique des

variations biologiques lintrieur dun groupe dtermin.

Chaque caractristique biomtrique est appele modalit, ainsi, un systme biomtrique

bas sur une modalit est dit monomodal, un autre bas sur plusieurs caractristiques est

appel multimodal.

Gnralement, on distingue trois catgories de mthodes de reconnaissance biomtriques :

1. les mthodes bases sur les caractristiques comportementales : la dynamique de la

signature, la frappe sur un clavier, la manire de marcher etc.

2. les mthodes bases sur les caractristiques morphologiques : empreintes digitales,

forme de la main, la rtine, liris etc.

3. les mthodes bases sur les caractristiques biologiques : ADN, salive et odeur.

Quant au mode de fonctionnement dun systme biomtrique, on distingue :

1. identification : procd permettant de dterminer lidentit dune personne dans un

groupe fini. Cest la rponse la question : qui est cette personne ? le systme

reoit lchantillon biomtrique quil le compare tous les chantillons stocks dans

la base de donnes biomtrique, sil y a correspondance, lidentit de lutilisateur est

tablie.

2. Authentification (vrification) : procd permettant de vrifier lidentit dune

personne. cest la rponse la question : est-ce que cette personne est X ? Il

comprend deux tapes : premirement, lutilisateur fournit un identifiant (id) au

systme qui reprsente une identit proclame. Ensuite, lutilisateur fournit son

chantillon qui va tre compar seulement lchantillon correspondant lutilisateur

(id) contenu dans la base de donnes du systme, sil y a correspondance,

lutilisateur est bien celui qui prtend ltre.

I.1.3 Domaines dapplication :

On peut distinguer quatre grands types dapplications de la biomtrie : le contrle

daccs (access control), lauthentification des transactions (transaction authentification), la

rpression (law enforcement) et la personnalisation (personnalisation).

1. contrle daccs :

Le contrle daccs peut tre lui-mme subdivis en deux sous catgories : le

contrle daccs physique et le contrle daccs virtuel. On parle de contrle daccs

physique lorsquun utilisateur cherche accder un lieu scuris. On parle de contrle

daccs virtuel dans le cas o un utilisateur cherche accder une ressource ou un

service.


6

2. authentification des transactions :

Lauthentification des transactions reprsente un march gigantesque puisquil

englobe aussi bien le retrait dargent au guichet des banques, les paiements par cartes

bancaires, les transferts de fond, les paiements effectus distance par tlphone ou sur

internent, etc.

Mastercard estime ainsi que les utilisations frauduleuses de cartes de crdit pourraient tre

rduites de 80 % en utilisant des cartes puce qui incorporeraient la reconnaissance des

empreintes digitales [19]. Les 20 % restant seraient principalement dus aux paiements

distance pour lesquelles il existerait toujours un risque. Pour les transactions distance, des

solutions sont dj dployes en particulier pour les transactions par tlphone.

Ainsi, la technologie de reconnaissance du locuteur de Nuance (Nuance VerifierTM [57]) est

utilise par les clients du Home Shopping Network, une entreprise de tlshopping, et de

Charles Schwab.

3. rpression :

Une des applications les plus immdiates de la biomtrie la rpression est la

criminologie. La reconnaissance dempreintes digitales en est lexemple le plus connu. Elle

fut accepte ds le dbut du XXe sicle comme moyen didentifier formellement un individu

et son utilisation sest rapidement rpandue.

Il existe aussi des applications dans le domaine judiciaire. T-Netix [60] propose ainsi des

solutions pour le suivi des individus en libert surveille en combinant technologies de

lInternet et de reconnaissance du locuteur.

4. personnalisation :

Les technologies biomtriques peuvent tre aussi utilises afin de personnaliser les

appareils que nous utilisons tous les jours.

Cette application de la biomtrie apporte un plus grand confort dutilisation.

Afin de personnaliser les rglages de sa voiture, Siemens propose par exemple dutiliser la

reconnaissance des empreintes. [2]

I.2 Les systmes biomtriques :

I.2.1Dfinition :

Un systme de reconnaissance dindividus est un systme qui permet didentification

ou la vrification dune personne sur la base de caractres biomtriques automatiquement

reconnaissables et vrifiables. [1]


7

I.2.2 Architecture dun systme biomtrique : [3]

Chaque systme biomtrique comprend deux phases fonctionnelles :

Apprentissage : cest la phase initiale qui seffectue une seule fois. On commence par une

capture de la caractristique biomtrique. En gnral, cette capture nest pas directement

stocke dans la base de donnes, des transformations lui sont appliques pour construire un

modle qui est une reprsentation compacte de lchantillon. Ce modle a lavantage de

diminuer la quantit des donnes stocker et sera exploit dans la phase de

reconnaissance.

Reconnaissance : Opration se droulant chaque fois quune personne se prsente

devant le systme, elle consiste en lextraction dun ensemble de paramtres comme pour la

phase dapprentissage suivie dune comparaison et de prise de dcision selon le mode

opratoire du systme : identification ou vrification.

Les modules qui peuvent tre intgrs dans un systme biomtriques sont :

Module de capture : a pour but lacquisition des donnes biomtriques.

Module de prtraitement : il formate la caractristique en enlevant les bruits et linformation

superflue.

Module dextraction : des paramtres : extrait linformation qui la juge utile depuis le signal

format.

Module de gnration des modles : il calcule le modle de chaque individu selon

lapproche adopte par le systme et le stocke dans la base de donnes.

Module de prise de dcision : le plus important car il accepte ou refuse le client dans le cas

dune vrification ou il fournit lidentit de la personne prsente dans le cas dune

identification.

Alors, on voit bien que chaque systme dpend systmatiquement des caractristiques

biomtriques, ces dernires, doivent remplir certaines conditions pour le bon fonctionnement

du systme :

Discriminabilit : capacit de diffrencier les personnes sans quivoque.

Invariabilit : pour assurer une bonne performance.

Universabilit : tre applicable tout le monde.

Facilit : pas de calcul complexe pour le systme.

Acceptabilit : moins de contraintes pour le grand public.

Infalsifiabilit : tre difficile usurper.


8

Figure I.1 : architecture dun systme biomtrique

I.2.3 Types de systmes biomtriques : [4]

Les systmes biomtriques sont gnralement classes dans deux grandes

catgories : les systmes comportementaux (behavioral systems) et les systmes

physiologiques (physiological systems).

I.2.3.1 Systmes comportementaux :

Ils sont bass sur certains comportements comme la dmarche la frappe au clavier etc.

Lcriture (signature) : ces systmes consistent analyser les caractristiques spcifiques

dune signature comme la vitesse, la pression sur le crayon, le mouvement, les points et

intervalles de temps o le crayon est lev, un stylo lectronique ou une tablette graphique

sont souvent utiliss.

Dynamique de frappe au clavier : un systme bas sur cette dynamique ne ncessite

aucun quipement ddi, seulement un ordinateur disposant dun clavier, il sagit dun

dispositif logiciel qui calcule le temps o un doigt effectue une pression sur une touche et le

Test

Apprentissage

Acquisition Prtraitement Extraction

De

Paramtres

Acquisition Prtraitement Extraction

De

Paramtres

Base de

donnes

Dcision

Calcul des

modles


9

temps o le doigt est dans lair (entre les frappes), aussi, la suite de lettres et la

reconnaissance de mots prcis. Cette mesure est capture environ mille fois par seconde ;

la squence de frappe est prdtermine sous forme un code. Initialement, l client doit

composer son code quelques maintes reprises afin de construire un gabarit de rfrence.

Analyse de la dmarche : laide de techniques psychologiques, ces systmes sont

devenus acceptables et souvent intgrs dans les camras de surveillance.

I.2.3.2 Les systmes morphologiques :

Ce type de systmes est bas sur la reconnaissance de traits physiques particuliers

qui sont uniques et permanentes pour toutes personne.

Empreintes digitales : cest la plus veille technique biomtrique (utilis par les chinois il y a

un millnaire). Elle est base sur le fait que deux personnes ne peuvent avoir plus de huit

minuties (caractristique locale de lempreinte) en commun.

Il existe trois principaux types de systmes de capture des empreintes digitales : optiques,

capacitifs et systmes bas sur les ultrasons. Moyennant ces technologies, plusieurs

caractristiques de lempreinte (boucles, tourbillons, lignes, verticilles) sont localises,

situes les unes par rapport aux autres et enregistres selon plusieurs modles dans une

base de donnes.

Malgr son taux de prcision trs lev, la reconnaissance dindividu par empreintes

digitales est une mthode mal accepte par les utilisateurs cause de lassociation qui est

souvent faite avec la criminologie.

La rtine : les systmes utilisant la rtine tirent leurs performances sur le fait que les veines

sous sa surface sont uniques stables dans le temps, ils ne peuvent tre affects que par

certaines maladies trs rares.

Son principe consiste placer lil de lutilisateur quelques centimtres dun orifice de

capture situ sur le lecteur ddi, il ne doit pas bouger et doit fixer un point vert lumineux qui

effectue des rotations. A ce moment, un faisceau lumineux traverse lil jusquaux vaisseaux

sanguins capillaires de la rtine. Le systme localise et capture ainsi environ 400 points de

rfrence. Cest une technique trs sre mais trs onreuse aussi et exige la coopration

des utilisateurs ce qui la rend mal accepte.

Liris : liris est la rgion annulaire situ entre la pupille et le blanc de lil, ses motifs ne se

forment quau cours des deux premires annes de la vie et elles sont stables et non

modifiables mme par des interventions chirurgicales. Ces systmes sont bass sur la

lecture de limage de liris avec un appareil quip par une camra, ces systmes sont trs

performants, coteux et gnralement mal accepts par le grand public.


10

La gomtrie de la main : lide de ces systmes consiste placer la main sur un gabarit

clair par une lumire infrarouge pour lacquisition de limage, les caractristiques qui

seront analyses par la suite sont la longueur, la largeur et lpaisseur de la main ainsi, la

forme des articulations et longueurs inter-articulations.

A cause de la taille considrable des capteurs, ces systmes sont peu rpandus et

vulnrables lusurpation.

La voix : la reconnaissance vocale offre lavantage dtre bien accepte par lutilisateur,

quelle que soit sa culture. De plus, elle est trs pratique pour la scurisation dune

transaction tlphonique. On distingue les systmes textes prdtermins (texte

dpendant), o lutilisateur doit rpter un texte et les systmes texte indpendant. La

performance de cette mthode est sujette la qualit du signal, qui dpend de la variabilit

de la voix du locuteur dans le temps comme le cas des maladies (rhume), des tats

motionnels et de lge, des conditions dacquisition, et la qualit des quipements.

Le visage : le visage est certainement la caractristique biomtrique que les humains

utilisent le plus naturellement pour sidentifier entre eux, ce qui peut expliquer sa popularit

et son acceptation par les individus. Dans ce type de systmes, limage du visage est capte

par une camra, les informations juges utiles sont extraites puis sont transformes pour la

reconnaissance. La difficult de la reconnaissance de visages varie normment suivant

lenvironnement de lacquisition, des paramtres tels que larrire-plan, la direction et

lintensit des sources lumineuses, langle de la prise de vue, les distances de la camra au

sujet sont des paramtres cls pour les performances.

I.2.4 Comparaison entre les types de systmes biomtriques :

Chaque technologie biomtrique possde des avantages et des inconvnients sous

forme de compromis, elles noffrent pas les mmes niveaux de scurit ni les mmes

facilits et cots dutilisation mais surtout la mme prcision. La figure 2 illustre une

comparaison intuitive entre diffrents systmes.


11

Figure I.2 : Comparaison ente techniques biomtriques

I.2.5 Evaluation et performances des systmes biomtriques :

Les performances dun systme de reconnaissance de forme dpendent en gnral

de plusieurs facteurs qui interviennent plusieurs niveaux et qui peuvent affecter la

prcision. Donc, il serait judicieux de sintresser ces facteurs avant de mesurer la

performance. Les principaux facteurs sont cits ci-dessous :

Lenvironnement au moment de lacquisition.

La positions des capteurs.

La qualit des capteurs.

La coopration de lutilisateur.

I.2.5.1 Performance dun systme didentification : [4]

Lune des mesures de performances de systmes didentification la plus importante est le taux de reconnaissance (identification), pour le calculer, on effectue n fois. Si la rponse du systme (la personne la plus proche rsultante de la comparaison entre le test et le base dapprentissage) est juste alors on incrmente le taux et la fin on convertit le rsultat en pourcentage. Le taux didentification correct (TIC) est calcul comme suit :

(I.1)

Voix

visage

Signature

Rtine

Iris

Empreintes

digitales

Cot

Prcision

totaltestdenombre

russitestdenombreTIC


12

Ainsi, plus ce taux est lev plus le systme est performant en reconnaissance.

Autre mesure autant importante que la prcdente est le temps dexcution car ces

systmes sont des systmes temps rel et sont souvent embarqus.

I.2.5.2 Performances dun systme de vrification :

Un systme de vrification ne peut rpondre, lors dune comparaison entre deux

chantillons que par une probabilit de correspondance appele score. Ce score est en suite

compar un seuil fixe que lon ajuste grce de nombreux tests, si le score est suprieur

au seuil le client est accept sinon le client est considr comme imposteur. Alors, deux

types derreurs peuvent tre commises :

Fausse acceptation (FA) : elle surgit quand le systme accepte un imposteur.

Faux rejet (FR) : cette erreur sera commise quand le systme rejette un client.

Les mesures de performances dun systme de vrification se basent principalement sur le

taux des fausses acceptations et le taux de faux rejets calculs comme le montrent les

formules ci-dessous.

(I.2)

(I.3)

Figure I.3 : distribution de scores

Seuil de

dcision

Imposteurs

Clients

Scores

Probabilit

FRR FAR

totaltestdenombre

nacceptatiofaussetestsdenombreFA

totaltestdenombre

rejetfauxautestsdenombreFR


13

Pour visualiser la relation qui relie le FR avec Le FA, on construit la courbe ROC

(receiver operating characteristic) en calculant un couple (FA, FR) pour chaque valeur de

seuil de dcision. On voit quils sont inversement proportionnels, le point o FR = FA est

appel EER (taux dgale erreur).

Idalement, un systme de vrification devrait avoir des FA et FR gaux zro.

Malheureusement, dans des conditions relles, ceci nest pas possible, car plus le seuil de

dcision est bas plus le systme acceptera des clients mais ainsi des imposteurs.

Inversement, plus le seuil est lev plus le systme rejettera des imposteurs mais aussi des

clients. Il est donc impossible en variant le seuil de dcision de faire diminuer les deux types

derreur en mme temps, en effet, cest linconvnient majeur des systmes bass sur une

seule modalit.

Figure I.4 : la courbe ROC

I.2.6 Systmes biomtriques multimodaux :

I.2.6.1 Pourquoi la multimodalit ?

Malgr les avancs considrable dans les dernire annes, il reste encore de srieux

dfis pour avoir une authentification fiable travers des systmes biomtriques

monomodaux, Cela est due une varit de causes, par exemple, il y des problmes

denregistrement due la nature non universelle des captures biomtriques, en effet, un

groupe dutilisateurs peut ne pas possder les trais biomtriques capturs et enregistrs

dans la base de donnes du systme. Ainsi, il nest pas difficile de tromper un systme

monomodal, ex. : lutilisation des lentilles avec copies des motifs appropri pour les

systmes de reconnaissance de liris. En outre, lenvironnement bruit affecte lexactitude

EER

Zone de

compromis

Zone de

basse

scurit

Zone de

haute

scurit

FAR

FRR


14

des rsultats pour les systmes de reconnaissance du locuteur, les systmes de

reconnaissance du visage dpendent largement des conditions dclairage et de nombre de

pauses devant la camra.

Certaines limitations imposes par les systmes monomodaux peuvent tre franchi

par lutilisation de plusieurs modalits biomtriques, lexactitude leve et la grande

rsistance lusurpation sont les avantages basiques des systmes multimodaux par rapport

aux systmes monomodaux. Les systmes multimodaux entranent lutilisation des

informations complmentaires ce qui rend difficile pour un infiltrant dusurper tous les trais

biomtriques considrs. En plus, le problme de la non universalit est largement dpasse

car les multiples traits assurent une couverture suffisante de la population. Pour ces

avantages, les systmes multimodaux sont prfrs malgr les quantits des donnes

importantes et le temps de calcul lev.

La fusion des informations complmentaires dans les donnes biomtriques

multimodales a t un domaine de recherche intressant car il joue un rle critique dans le

contournement des limitations des systmes monomodaux. Les efforts dans ce domaine

sont principalement concentrs dans la fusion de linformation provenant de diffrentes

modalits indpendantes. Par exemple, une approche populaire consiste un combiner les

modalits faciales et vocales pour avoir une reconnaissance plus fiable. A travers de telles

approches, les informations spares recueillies des diffrentes modalits viennent de

fournir une identit plus vidente pour lutilisateur. Dans ces scnarios, la fusion est

gnralement faite au niveau des scores, car, les modalits individuelles sont sous forme de

matrices de donnes et impliquent diffrentes mthodes de classifications pour la

discrimination. Aujourdhui, beaucoup de mthodes de fusion en scores ont t dveloppes

pour cette tche. Ainsi, on trouve les machines support de vecteurs (SVM) qui, depuis les

donnes dapprentissage, cherchent obtenir les meilleures bornes possibles pour la

classification.

I.2.6.2 Niveaux de fusion :

Les systmes biomtriques multimodaux sont diviss en trois catgories selon le

niveau dintgration des donnes issues de diffrentes modalits, cette intgration connue

sous le nom de fusion est une opration qui consiste runir deux ou plusieurs

caractristiques issues des diffrents processus monomodaux comme le montre la figure I.5

[6] [7]


15

Figure I.5 : niveaux de fusion dans les systmes multimodaux

1. niveau de fusion en capture

Dans ce niveau, les donnes qui ont la mme caractristique biomtrique issues de

diffrents capteurs sont combines (figure2.1). Un exemple de cette fusion est la capture

simultane dun signal vocal par deux microphones. Bien que la fusion ce niveau amliore

la prcision des systmes de reconnaissance, elle ne peut pas tre utilise dans les

Fusion en

score

Fusion en

paramtres

Fusion en

capture

Fusion en

dcision

Modle

Oui/non Score

Trouv

Paramtre

Vecteur

Capture 1

Dcision Extraction

des

paramtres

Appariement

Modle

Oui/non Score

Trouv

Paramtre

Vecteur

Capture 2

Dcision

Extraction

des

paramtres Appariement


16

systmes multimodaux cause de lincompatibilit des donnes de diffrentes modalits (il y

a une seule modalit).

2. niveau de fusion en extraction des paramtres

Plusieurs vecteurs issus de plusieurs modalits sont combins et sont injects dans lentre

du classificateur, il est mentionn dans [1,2] que la fusion en niveau dextraction des

paramtres a abouti des performances meilleures en comparaison avec la fusion en score.

La raison principale est que le niveau des paramtres est plus riche en information que le

niveau des donnes biomtriques brutes. Cependant, cette fusion nest pas toujours faisable

car dans certain cas les paramtres sont incompatibles entre eux ou la leurs concatnation

conduit une dimension trs leve ce qui rend la tche du classificateur trs lourde.

3. niveau de fusion en score

Couramment, cette fusion est la plus utilise cause de ces performances et simplicit. Les

sorties de plusieurs classificateurs (scores) sont combines et envoyes vers le module de

dcision, ce niveau peut tre divis en deux classes : la combinaison et la classification.

Dans lancienne approche, les diffrents scores sont normaliss puis combins par contre

les approches rcentes combinent directement les scores puis elles procdent une autre

classification (par exemple SVM).

4. niveau de fusion en dcision

Dans cette approche, une dcision spare est prise pour chaque modalit dans un stade

trs tard ce qui affecte srieusement la prcision du systme. Cest pour cette raison que la

fusion en dcision est la moins performante [29].

I.2.6.3 Mthodes et techniques de fusion :

A cause des avantages offerts par la fusion en score, les discussions sont centres

autour de ce type de fusion. Dans la littrature, les techniques de fusion en score sont

divises en deux principales catgories : les mthodes fixes (fixed rules) ou mthodes non

paramtriques et les mthodes entranes (trained rules) ou mthodes paramtriques. La

raison principale de cette catgorisation des techniques de fusion dans ce sens est que les

mthodes paramtriques ncessitent des donnes issues des modalits individuelles pour

apprendre le classificateur modliser, en dautre termes, elles utilisent les donnes

dveloppes pour extraire des paramtres qui serviront fusionner les scores en phase de

test. Par exemple, mthode de somme pondre et la mthode de produit pondr.

De lautre ct, les mthodes fixes sont directement appliques dans la fusion des

scores pour diffrentes modalits, la principale caractristique de ces mthodes est que la

contribution de chaque modalit est fixe priori. Par exemple : la mthode AND, OR,

Maximum, Minimum et le vote majoritaire.


17

I.2.6.4 Fusion base des mthodes non paramtriques : [9]

Ces mthodes nutilisent que des informations du premier ordre (sorties de

classificateurs). Elles sont faciles implmenter et ne ncessitent pas de phase

dapprentissage.

Cependant, le point faible de ces mthodes est quelles traitent les classificateurs de

manires quivalente ce qui ne permet pas de tenir de leur capacit individuelle.

I.2.6.4.1 Fusion en dcision :

La combinaison dun ensemble de classificateur de type classe est souvent base sur

le principe du vote. Ces mthodes consistent interprter chaque sortie dun classificateur

comme un vote pour lune des classes possibles. La classe ayant un nombre de votes

suprieur un seuil prfix est retenue comme dcision finale. Elles sont les plus simples

mettre en uvre car les votes ne sont pas pondrs et chaque classe reoit autant de votes

quil a de classificateurs combiner.

Les mthodes de vote peuvent pratiquement toutes tre drives de la rgle avec

seuil exprime par :

correspond la proportion de classificateur devant rpondre par la mme classe ^pour

que celle-ci soit retenue comme rsultat de la combinaison. Ainsi, pour = 0, il sagit du vote

la pluralit o la classe qui reoit le plus de votes est choisie comme classe finale.

On parle de majorit notoire dans le cas o pour tre dsigne comme rponse

finale, la classe majoritaire, en plus elle doit se distinguer de la deuxime classe dune

diffrence suprieure un seuil fix.

Le principal inconvnient de ces mthodes est que toutes les classes possdent le

mme vote ce qui sera considr comme un conflit. Pour remdier un ce problme, on

choisit dutiliser les classificateurs de type rang en observant non seulement les premires

rponses, mais les K premires classes ordonnes par rang et on les comptabilise dans le

vote. [8]

I.2.6.4.2 Fusion en score :

Ces mthodes combinent des mesures (scores) qui refltent le degr de confiance

des classificateurs sur lappartenance de la forme reconnatre en chacune des classes.

)5.(

sinonrejet

max)( 1

,

1

,I

LeesiCxE

L

j

jt

L

j

jii


18

Toutefois, comme les sorties des classificateurs ne sont pas toujours comparables, une

normalisation est souvent ncessaire. Les mthodes de combinaison non paramtriques les

plus utilises sont les rgles fixes.

Le principe de base derrire les mthodes fixes est le suivant : les classificateurs sont

indpendants et estiment des probabilits posteriori des classes. Ainsi, pour reconnatre

une forme X, on utilise une rgle de dcision E(x) qui revient choisir la classe Ci pour

laquelle la probabilit posteriori est la plus leve. La fonction f est donne par les rgles

suivantes :

- Rgle maximum : Pi = max ( Pi,1 ,,Pi,L)

- Rgle minimum : Pi = min ( Pi,1 ,,Pi,L)

- Rgle mdiane : Pi = mdiane ( Pi,1 ,,Pi,L)

- Rgle produit : ji

PLji

P,1

- Rgle linaire : ji

PLji

P,1

Les trois rgles sont connues sous le nom doprateurs dordre statique. La rgle maximum

consiste choisir la classe pour laquelle la probabilit est la plus leve. Si le classificateur

qui propose cette confiance a une mauvaise performance alors la rgle maximum nest pas

stable.

Pratiquement, tous les travaux qui ont utilis les oprateurs dordre statique montrent

clairement que la rgle mdiane est la plus robuste que la rgle maximum et minimum [19].

Mais, la dcision par cette rgle ne prend pas en compte toutes les informations de

lensemble de classificateurs.

Dans la rgle linaire, est une constante. Ainsi, pour = 1, on obtient la rgle de

somme. Si = 1/L alors la rgle est la moyenne simple. Il est constat que la rgle de

somme est la plus robuste par rapport aux autres rgles fixes, elle amliore la performance

de la fusion et elle est moins sensible aux erreurs des classificateurs [19]

Pour la rgle de produit, si lun des classificateurs donne un score faible, alors le

rsultat de la fusion sera moins crdible. [8] [9]

I.2.6.5 Fusion base des mthodes paramtriques :

Compares aux autres mthodes, les mthodes de fusion paramtriques sont plus

complexes mettre en uvre. Elles utilisent des paramtres supplmentaires calculs

pendant la phase dapprentissage. La performance de ces mthodes dpend alors de la

bonne estimation des paramtres lors de lentranement.


19

I.2.6.5.1 Fusion en dcision :

On a principalement le vote pondr, tel que chaque vote du classificateur est

pondr par sa fiabilit W j et on a :

En gnral, W j = taux de reconnaissance / 100-taux de rejet est calcul pendant un

test dapprentissage o on simule des reconnaissances pour valuer la fiabilit de chaque

systme sparment. Ainsi, la forme dentre est attribue la classe pour laquelle la

somme des votes, qui sont pondrs par la fiabilit estime de chacun des experts, est la

plus leve.

I.2.6.5.2 Fusion en score :

Connues sous le nom des rgles pondres, ces mthodes consistent tout

simplement appliquer des pondrations aux sorties des classificateurs. Chaque probabilit

posteriori Pi dune classe Ci peut tre obtenue par dune des rgles suivantes :

Wj est le coefficient qui dtermine limportance attribue au j-ime classificateur dans la

combinaison (j=1, L). Avec =1, la deuxime rgle est appele la somme pondre, pour

=1/L, il sagit de la moyenne pondre. La premire rgle est le produit pondr.

Dans cette catgorie, on trouve galement les machines support de vecteurs

(Support Vector Machines SVM) qui peut tre utilise dans le cas dun problme deux

classes (clients/imposteurs). Cest une nouvelle technique de classification dans le domaine

de la thorie dapprentissage statistique [84-89]. SVM est bas sur le principe de la

minimisation du risque structural (Structural risk minimization SRM) qui vise trouver un

hyper-plan optimal qui non seulement classifier (sparer) les donnes de lapprentissage

mais aussi les donnes inconnues du test. [11]

I.2.7 Normalisation des scores : [15]

Cest lopration damener tous les scores issues de diffrents classificateurs sur une

mme chelle par exemple [0 ,1].

sinonrejet

)6.(max)( 1

,

1

, ILeWeWsiCxE

L

j

jtj

L

j

jiji

)6.(,1

Iji

PWjLji

P

)7.(,1

Iji

PWjLji

P


20

La normalisation est une tape dterminante dans les systmes bass sur la fusion

en score car fusionner sans normaliser les scores risque de ngliger les rsultats du

classificateur ayant la plus petite chelle. Nombre dtudes comparatives ont discut leffet

de la normalisation avant la fusion. Par exemple, il est indiqu en [7] que la normalisation est

une tche ncessaire car les scores issus de diffrents systmes sont incompatibles. Autre

tude [11] mentionne que dans le cas des techniques de fusion linaire pour lintgration

des scores des modalits individuelles, lincompatibilit des scores affecte les performances

du systme.

Daprs la littrature, il y a varit de techniques de normalisation trs connues (i.e. :

Min-Max, Z-score, Tanh, Median-MAD, double-sigmoid). Min-Max et Z-score sont les plus

utilises.

I.2.7.1 Normalisation Min-Max :

Cette technique linaire convertie les scores brutes issues des diffrents

classificateurs dans une chelle de [0 1]. Elle conserve la distribution des scores, elle est

exprime par :

O x est le score normalis, n est le score brut et max et min sont respectivement les valeurs

maximales et minimales obtenues dans la phase dapprentissage.

I.2.7.2 Normalisation Z-score :

Z-score convertie les scores bruts en une distribution dont la moyenne est nulle et un

cart-type gale I. Aussi cette normalisation garde la distribution originale mais, lchelle

nest pas fixe. La normalisation Z-score est donne par :

O n est le score brut, , sont respectivement la moyenne et lcart-type de la distribution

des scores bruts.

I.3 Conclusion :

Certes que technologies biomtriques actuelles ont atteints une prcision leve qui

leurs permettrons dtre dployes dans la plupart des domaines. Mais, leurs performances

restent insuffisantes compte tenue des dexigences accrues des organisations en la matire

)7.(minmax

minI

nx

)8.(In

x


21

de la haute scurit. Beaucoup de techniques ont vu le jour dans le but pousser lextrme

les performances des systmes de reconnaissance. Parmi ces techniques, on trouve la

fusion de modalit qui est une technique trs prometteuse, intuitive et qui a pour linstant

fourni de bons rsultats.

Chapitre II : Reconnaissance automatique du

locuteur

Chapitre II Reconnaissance du locuteur

23

II.1 Introduction :

La vrification automatique du locuteur (VAL) consiste dterminer si un locuteur est

celui quil prtend tre. Le systme dispose en entre dun chantillon de parole et dune

identit proclame. Une mesure de ressemblance est calcule entre lchantillon et la

rfrence du locuteur correspondant lidentit prtendue. Si cette mesure est juge par le

systme suffisant, ce dernier accepte le locuteur ; dans le cas contraire, le locuteur est

considr comme imposteur et est rejet.

En fait, tous les systmes dauthentification biomtriques ont globalement la mme

architecture, donc, on va mettre on relief dans ce chapitre ce qui est spcifique seulement

aux systmes de vrification du locuteur en loccurrence lanalyse acoustique et lextraction

des paramtres.

II.2 Structure gnrale dun systme de vrification du locuteur :

On distingue deux phases dans les systmes biomtriques, la phase dapprentissage

et la phase de test qui est ou la vrification ou lidentification. La figure II.1 montre

larchitecture gnrale dun systme VAL : [6]

Figure II.1 : Structure gnrale dun systme VAL

Test

Apprentissage

Acquisition

vocale

Prtraitement Extraction

De

Paramtres

Acquisition

vocale

Prtraitement Extraction

De

Paramtres

Base de

donnes

Dcision

Calcul des

modles


24

II.3 Analyse acoustique et extraction des paramtres :

II.3.1Introduction :

Dans le but de bien extraire les paramtres acoustiques dun locuteur qui doivent

porter son identit et seront cruciales pour construire son modle, le signal de la parole doit

tre format et trait.

Dabord, une connaissance du mcanisme de la production de la parole sera

ncessaire, ainsi la phase de lacquisition et ses caractristiques en loccurrence la

frquence dchantillonnage et le format du fichier son, ensuite on passera par les

prtraitements quon a jug importants : le dcoupage en trames, la praccentuation,

Elimination du silence et le fentrage. Cest le domaine du traitement de signal par

excellence.

Ensuite, on procdera lextraction des paramtres en utilisant lanalyse cepstrale et

le filtrage Mel, ces deux derniers ont prouv leurs efficacit dans le domaine de vrification

du locuteur durant ces dernire annes, nous verrons travers ces techniques que la

connaissance du mcanisme de la production de la parole humaine et celui de lcoute ont

beaucoup influenc sur lefficacit des techniques dextraction des paramtres. Cest le

domaine de reconnaissance des formes.

Enfin, nous passerons par les post-traitements qui seront considres comme des

retouches finales pour ltape dextraction des paramtres, nous verrons deux techniques

bien connues la normalisation et la pondration.

II.3.2 Production de la parole et acquisition du signal :

Le but recherch dans cette section est de dsigner un lment distinctif dans le

systme phonatoire humain qui donne chaque locuteur son identit et qui sera moins

sensible aux changements extrieurs (le temps, le lieu etc.). Cest ce quon appelle une

variabilit intra-locuteur par opposition la variabilit interlocuteur qui prsente des

diffrences de caractristiques dans une population de locuteurs. [17]

Lappareil phonatoire se compose en trois sous-ensembles fonctionnels : lensemble

poumons, trache-artre, lensemble larynx et ses environs et le conduit vocal comme

dernier ensemble, une production de la parole ou autre son est possible quand les poumons

comprime lair par contraction des muscles abdominaux et thoraciques qui lenveloppe et

lorsque cet air traversera le conduit vocal, il subira une dformation cest ce quon appelle

une modulation [9].


25

Si on sintresse aux caractristiques physiques de la voix, on voit bien que le conduit

vocal peut jouer un rle discriminant dans la production de la voix car il est uniforme et

inhomogne : il est constitu des muscles, des ligaments et des structures rigides comme

les dents en plus, ces structures gomtriques change avec le temps principalement cause

de larticulation.

Une fois le signal de la parole est produit, il sera stock dans lordinateur en passant

par le microphone, ce dernier joule un rle trs important dans la qualit de lenregistrement

qui affectera bien entendu la justesse des rsultats finaux. Mais avant cela, le signal de la

voix doit tre chantillonn cest--dire transformer de la forme continue la une forme

discrte, alors le signal sera dcrit par la suite numrique de la forme : X[n] = X(nT) o T est

la priode dchantillonnage et on dduit la frquence F = 1 / T. En plus de la frquence, on

trouve aussi la quantification, une quantification sur 8 bits veut dire que chaque chantillon

est reprsent par un nombre sur 8 bits, on aura donc 2 la puissance 8 i.e. : 256

possibilits pour chaque chantillon.

Revenant maintenant la frquence dchantillonnage, si cette dernire est trop

basse, le signal chantillonn comportera une perte dinformations importante par contre si

elle est trop leve le signal restera le mme. Le thorme de Shannon stipule quune

frquence dchantillonnage suprieur deux fois la frquence la plus lev contenu dans le

signal viterait un repliement (aliasing) su spectre et garantirait une reprsentation sans

perte dinformations.

Enfin, le signal de la parole est stock dans la machine sous forme Wave. Ce format

est engendr par la spcification Microsofts RIFF pour le stockage des fichiers multimdia. Il

contiendra des informations cls telles que la frquence dchantillonnage et la quantification

utilises dans lenregistrement.


26

Figure II.1 : visualisation d'un signal de parole

II.3.3 Prtraitement :

Comme on la dit prcdemment, les prtraitements servent spcifiquement

prparer le signal des traitements futurs, du fait, ils ont une importance non ngligeable

pour les performances du systme entier. En effet, ses paramtres seront une grande aide

pour tester et valuer le systme. [17][6]

II.3.3.1 Dcoupage en trames :

La non stationnarit qui est caractristique statistique inhrente du signal de la parole

rend ce prtraitement ncessaire. En effet, les paramtres statistiques tels que la moyenne

et lcart-type sont variables dans le temps cause de la dformation continue du conduit

vocal, mais tudes ont pu montrer que le signal peut tre considr comme quasi-

stationnaire dans des intervalles de temps infrieur 30 ms. Alors, si on veut chercher la

longueur dune trame en nombre dchantillon et quon a comme de donn la frquence

dchantillonnage, on trouve quune trame de 256 chantillons du signal vocal chantillonn

avec 16 KHz ait une dure de t_trame : 16000Hz /1s = 256Hz/t_trame => t_trame = 16 ms.


27

Donc, le signal de la parole sera dcoup en segments gaux de 256 chantillons

quon les appelle trames. Une autre technique importante est galement utilis : le

chevauchement, cest--dire lentrelacement entre les trames adjacentes. Cela est justifi

par le besoin de prserver le maximum dinformations dans les extrmits des trames car le

fentrage qui le dernier prtraitement dgrade ces informations.

Le nombre de trames pour un signal donn et un taux de chevauchement de 50% est

donn par :

(II.1)

II.3.3.2 Praccentuation :

Si on observe le signal de la voix produit par un humain, on trouve que les sons qui

sortent par la cavit nasale ont une haute frquence mais aussi une faible amplitude ce qui

cre une difficult pour distinguer clairement ces sons. Pour remdier ce problme, on

appliquera un filtre sur notre signal et donc sur toutes les trames et on aura une amplification

des composantes de haute frquence. La transform en Z de ce filtre est donn par : H(z) =

1 0.95 z -1.

Figure II.2 : filtre de praccentuation

1*2

rameillonsParTnbreEchant

illonsnbreEchantnbreTrame


28

II.3.3.3 limination du silence :

Tout signal de la parole compote des portions de silence qui sont inutiles voire

dgradantes pour les performances du systme que ce soit au temps dexcution o

lexactitude des paramtres.

Donc, on essayera denlever des zones de silence et pour cela on va se baser sur

des paramtres bien connus :

Le taux de passage par zro (ZCR :Zero Crossing Rate) qui est le nombre de

changement de signe dun chantillon son successeur dans la mme trame. Le

ZCR dune trame est dfini par :

Lnergie du signal qui est discriminante, en effet, une zone de silence a une nergie

faible contrairement aux portions de parole. Pour calculer lnergie dune trame, on

donne :

( ) ( ) (II.3)

Il existe deux algorithmes pour llimination du silence :

Algorithme VAD (Voice Activity Detection):

Cet algorithme calcule pour chaque trame une fonction de cot bas sur les deux

paramtres prcdents, ensuite il compare de cot avec un seuil pour dcider si cette trame

est un silence ou parole. La fonction de cot est donn par :

Pour calculer ce seuil, on supposera que le segment des 120 premires

millisecondes est un silence ce qui est le cas en gnral, donc, on aura 5 trames de silence,

les valeurs de la fonction de cot W de ces 5 trames serviront pour calculer le seuil comme

suit :

Avec = 0.2 - 0.8

0x.........0.........

0x.........1.........sng(x)

)2.(1))sgn(s(nsgn(s(n))L

1 (m)

m

1Lm

IIzcr

)4.(ZCR(m)E(m).(1W(m) II

)5.(silence

seuil IIww


29

O w, w sont respectivement la variance et la moyenne de W pour les 5 premires trames.

Quant au terme , cest une constante qui dpend des caractristiques du signal. [17]

Second algorithme

La mme supposition sera considre ici, on se sert des cinq premires trames pour

calculer un seuil IZTU qui reprsente ZCR et un autre seuil ITU pour lnergie. Une premire

slection des trames sera fait en comparant leurs nergies au seuil ITU, puis en se basant

sur le paramtre IZTU, on rajuste la slection en rajoutant ou supprimant des trames

adjacentes une trame limite.

II.3.3.4 Fentrage :

Si on passe directement au domaine frquentiel moyennant la transforme de Fourier

et on observe le spectre, on trouve certainement des informations provenant du signal lui-

mme mais aussi dautres provenant du dcoupage de signal en trame. Ceci est expliqu

mathmatiquement par le fait quune trame est obtenue en appliquant une fentre

rectangulaire au signal ce qui sera une convolution du signal avec la fonction Sinc au

domaine frquentiel.

Sachant que la fonction Sinc prsente des lobes non ngligeables aux extrmits ce

qui engendre des dformations du spectre, le mieux serait dappliquer une fentre qui rduit

progressivement lamplitude du signal lextrmit de la trame contrairement la fentre

rectangulaire qui linterrompre brusquement.

Pour cela, il ya beaucoup de fentres qui ont cette caractristique, mais on ne

sintresse quau deux : la fentre de Hamming et celle de Blackman qui sont dfinies ci-

dessous :

(II.6) Fentre de Hamming

(II.7) Fentre de Blackman

)1N

n2cos(0.460.54W(n)

)1

4cos(*08.0)

1N

n2cos(50.420.W(n)

N

n


30

La figure II.3 montre que la fentre de Hamming a un lobe plus large que celui de

Blackman ce qui se traduit par un passage plus rapide de la bande passante la bande

bloquante (environ 20% plus rapide). Cependant, la fentre de Blackman prsente un taux

dattnuation plus lev celui de hamming (0.02% pour Blackman et 0.2% pour hamming),

cela est illustr dans la figure II.3

Alors, on voit bien quil sagit dun compromis entre les deux fentres, si on gagne un

passage rapide, on perd au taux dattnuation et vice versa.

Figure II.3 : comparaison entre la fentre de Hamming et Blackman


31

II.3.4 Extraction des paramtres : [17]

Aprs avoir format notre signal, nous procderons extraire de linformation utile

depuis chaque trame qui sera par la suite notre unit de traitement. Pour aboutir cet

objectif, nous allons prsenter deux notions : lanalyse cepstrale et le filtrage Mel.

II.3.4.1 Analyse cepstrale :

Tout dabord, le cepstre dun signal x(n) est donn par la formule suivante :

Si on suppose que le signal de la parole est le produit de convolution entre la source

glottique et le conduit vocal : s(n) = e(n) * h(n), la notion de cepstre devienne intressante

car elle facilite la dconvolution et lisolation de leffet de la source. Le passage au domaine

frquentiel travers la transform de Fourier donne : S(f) = E(f) X H(f).

Pour sparer linfluence de la source glottique et lisoler on applique le logarithme sur

le produit po

Documents

Rouidi Houssam Mémoire de Fin d'étude