14
ESTIMATION ROBUSTE LES ALGORITHMES MVE ET MCD ET FAST MCD PETER J. ROUSSEEUW Présenté par : MOHSEN BEN HASSINE Janvier 2011

ESTIMATION ROBUSTE LES ALGORITHMES MVE ET MCD ET FAST MCD PETER J. ROUSSEEUW

Embed Size (px)

DESCRIPTION

ESTIMATION ROBUSTE LES ALGORITHMES MVE ET MCD ET FAST MCD PETER J. ROUSSEEUW. Présenté par : MOHSEN BEN HASSINE. Janvier 2011. MINIMUM VOLUME ELLIPSOID ESTIMATOR. - PowerPoint PPT Presentation

Citation preview

Page 1: ESTIMATION ROBUSTE  LES ALGORITHMES MVE ET MCD ET FAST MCD PETER J. ROUSSEEUW

ESTIMATION ROBUSTE LES ALGORITHMES MVE ET MCD ET

FAST MCD PETER J. ROUSSEEUW

Présenté par : MOHSEN BEN HASSINEJanvier 2011

Page 2: ESTIMATION ROBUSTE  LES ALGORITHMES MVE ET MCD ET FAST MCD PETER J. ROUSSEEUW

2

MINIMUM VOLUME ELLIPSOID ESTIMATOR

Rousseeuw (1983, 1984) a introduit un estimateur equivariant avec un breakdown maximal de (n/2 –p + 1) /n , qui converge vers 50 % quand n ∞

Principe : Trouver l’ellipsoide qui couvre au moins n /2 des points

2

Page 3: ESTIMATION ROBUSTE  LES ALGORITHMES MVE ET MCD ET FAST MCD PETER J. ROUSSEEUW

3

MVE : illustration

Hertzsprung-Russell data (star cluster cygnus)47 points2 variables ( température , light)97.5% tolerance ellipse6 outliers

3

Page 4: ESTIMATION ROBUSTE  LES ALGORITHMES MVE ET MCD ET FAST MCD PETER J. ROUSSEEUW

4

MVE : Etapes et algorithme

On commence par un échantillon de ( p + 1) observations, indexé par J = {i1, . . . , ip+1}, P: nombre de paramètres

On calcule la moyenne arithmétique et la matrice de covariance, comme suit :

4

Page 5: ESTIMATION ROBUSTE  LES ALGORITHMES MVE ET MCD ET FAST MCD PETER J. ROUSSEEUW

5

Pour chaque observation on calcule la distance : Dji= Trouver la médiane

Le volume de l’ellipsoide est proportionnel à : Vj ~

MVE : Etapes et algorithme5

Page 6: ESTIMATION ROBUSTE  LES ALGORITHMES MVE ET MCD ET FAST MCD PETER J. ROUSSEEUW

6

Le volume calculé Vj correspond à un seul échantillon, on doit répéter le calcul précédent pour m échantillons

Retenir L’échantillon dont la valeur Vj est minimale

Les valeurs de la moyenne et de la matrice de covariance seront donc :

: facteur de correction

MVE : Etapes et algorithme6

Page 7: ESTIMATION ROBUSTE  LES ALGORITHMES MVE ET MCD ET FAST MCD PETER J. ROUSSEEUW

7

MVE : Etapes et algorithme

Calculer les distances robustes :

Les outliers : RDi > C= Pondération:

Valeurs pondérées:

7

Page 8: ESTIMATION ROBUSTE  LES ALGORITHMES MVE ET MCD ET FAST MCD PETER J. ROUSSEEUW

8

MINIMUM COVARIANCE DETERMINANT ESTIMATOR

Idée: Chercher h observations parmi n , dont le déterminant de la matrice de covariance est minimum

Estimateur avec un breakdown maximal de (n/2 –p + 1) /n , qui converge vers 50 % quand n ∞

8

Page 9: ESTIMATION ROBUSTE  LES ALGORITHMES MVE ET MCD ET FAST MCD PETER J. ROUSSEEUW

9

MINIMUM COVARIANCE DETERMINANT ESTIMATOR

Idée: Chercher h observations parmi n , dont le déterminant de la matrice de covariance est minimum

Estimateur avec un breakdown maximal de (n/2 –p + 1) /n , qui converge vers 50 % quand n ∞

9

Page 10: ESTIMATION ROBUSTE  LES ALGORITHMES MVE ET MCD ET FAST MCD PETER J. ROUSSEEUW

10

MCD : ILLUSTRATION10

Page 11: ESTIMATION ROBUSTE  LES ALGORITHMES MVE ET MCD ET FAST MCD PETER J. ROUSSEEUW

11

MCD: LES ETAPES Choisir une taille d’échantillon : h entre (n+p+1)/2 et n Choisir m échantillons de taille (p+1) ou h ?1. Pour chaque échantillon J , si det (cov(J)) =0 , étendre la taille de

l’échantillon 2. Calculer : T0= moyenne(J), S0=cov(J)3. Calculer : D02 (i)= 4. Trier ces distances par ordre croissant 5. Recalculer T0 et S0 pour l’échantillon J1 de h nouveaux points Cette procédure est appelée C-step (1:5), est répétée n fois

11

Page 12: ESTIMATION ROBUSTE  LES ALGORITHMES MVE ET MCD ET FAST MCD PETER J. ROUSSEEUW

12

MCD: LES ETAPES Pour les 10 meilleurs échantillons parmi m

(min(det(cov(J))) , Répéter les C-steps jusqu’à convergence det(Si+1)= det(Si)

Reporter T et S / Min [ det(Sj)] Calculer les distances robustes et déduire

les outliers

12

Page 13: ESTIMATION ROBUSTE  LES ALGORITHMES MVE ET MCD ET FAST MCD PETER J. ROUSSEEUW

13

FAST MCD Motivations :

Si n devient plus grand >600 (nested extension)

Optimiser le nombre de c-steps Temps de réponse nettement amélioré

13

Page 14: ESTIMATION ROBUSTE  LES ALGORITHMES MVE ET MCD ET FAST MCD PETER J. ROUSSEEUW

14

BIBLIOGRAPHIE14

1. Rousseeuw, P.J. and Leroy, A.M. (1987), Robust Regression and Outlier Detection, New York: John Wiley & Sons, Inc.

2. Rousseeuw, P.J. and van Driessen, K. (1999), A fast algorithm for the minimum covariance determinant estimator, Technometrics, 41, 212–223.

3. Rousseeuw, P.J. and Bert van zomeren, Robust distances : simulations and cutoff values, The IMA volumes in mathematics and its applications, vol 34, new york 1991