Upload
vera-manning
View
13
Download
0
Embed Size (px)
DESCRIPTION
ESTIMATION ROBUSTE LES ALGORITHMES MVE ET MCD ET FAST MCD PETER J. ROUSSEEUW. Présenté par : MOHSEN BEN HASSINE. Janvier 2011. MINIMUM VOLUME ELLIPSOID ESTIMATOR. - PowerPoint PPT Presentation
Citation preview
ESTIMATION ROBUSTE LES ALGORITHMES MVE ET MCD ET
FAST MCD PETER J. ROUSSEEUW
Présenté par : MOHSEN BEN HASSINEJanvier 2011
2
MINIMUM VOLUME ELLIPSOID ESTIMATOR
Rousseeuw (1983, 1984) a introduit un estimateur equivariant avec un breakdown maximal de (n/2 –p + 1) /n , qui converge vers 50 % quand n ∞
Principe : Trouver l’ellipsoide qui couvre au moins n /2 des points
2
3
MVE : illustration
Hertzsprung-Russell data (star cluster cygnus)47 points2 variables ( température , light)97.5% tolerance ellipse6 outliers
3
4
MVE : Etapes et algorithme
On commence par un échantillon de ( p + 1) observations, indexé par J = {i1, . . . , ip+1}, P: nombre de paramètres
On calcule la moyenne arithmétique et la matrice de covariance, comme suit :
4
5
Pour chaque observation on calcule la distance : Dji= Trouver la médiane
Le volume de l’ellipsoide est proportionnel à : Vj ~
MVE : Etapes et algorithme5
6
Le volume calculé Vj correspond à un seul échantillon, on doit répéter le calcul précédent pour m échantillons
Retenir L’échantillon dont la valeur Vj est minimale
Les valeurs de la moyenne et de la matrice de covariance seront donc :
: facteur de correction
MVE : Etapes et algorithme6
7
MVE : Etapes et algorithme
Calculer les distances robustes :
Les outliers : RDi > C= Pondération:
Valeurs pondérées:
7
8
MINIMUM COVARIANCE DETERMINANT ESTIMATOR
Idée: Chercher h observations parmi n , dont le déterminant de la matrice de covariance est minimum
Estimateur avec un breakdown maximal de (n/2 –p + 1) /n , qui converge vers 50 % quand n ∞
8
9
MINIMUM COVARIANCE DETERMINANT ESTIMATOR
Idée: Chercher h observations parmi n , dont le déterminant de la matrice de covariance est minimum
Estimateur avec un breakdown maximal de (n/2 –p + 1) /n , qui converge vers 50 % quand n ∞
9
10
MCD : ILLUSTRATION10
11
MCD: LES ETAPES Choisir une taille d’échantillon : h entre (n+p+1)/2 et n Choisir m échantillons de taille (p+1) ou h ?1. Pour chaque échantillon J , si det (cov(J)) =0 , étendre la taille de
l’échantillon 2. Calculer : T0= moyenne(J), S0=cov(J)3. Calculer : D02 (i)= 4. Trier ces distances par ordre croissant 5. Recalculer T0 et S0 pour l’échantillon J1 de h nouveaux points Cette procédure est appelée C-step (1:5), est répétée n fois
11
12
MCD: LES ETAPES Pour les 10 meilleurs échantillons parmi m
(min(det(cov(J))) , Répéter les C-steps jusqu’à convergence det(Si+1)= det(Si)
Reporter T et S / Min [ det(Sj)] Calculer les distances robustes et déduire
les outliers
12
13
FAST MCD Motivations :
Si n devient plus grand >600 (nested extension)
Optimiser le nombre de c-steps Temps de réponse nettement amélioré
13
14
BIBLIOGRAPHIE14
1. Rousseeuw, P.J. and Leroy, A.M. (1987), Robust Regression and Outlier Detection, New York: John Wiley & Sons, Inc.
2. Rousseeuw, P.J. and van Driessen, K. (1999), A fast algorithm for the minimum covariance determinant estimator, Technometrics, 41, 212–223.
3. Rousseeuw, P.J. and Bert van zomeren, Robust distances : simulations and cutoff values, The IMA volumes in mathematics and its applications, vol 34, new york 1991