Upload
christian-robert
View
1.945
Download
2
Embed Size (px)
DESCRIPTION
Slides of my R class at Université Paris Dauphine (in French)
Citation preview
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Nouveaux outils informatiquespour la Statistique exploratoire
(=NOISE)
Christian P. Robert
Universite Paris Dauphinehttp://www.ceremade.dauphine.fr/~xian
L3 MI2E, 2009–2010
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Outline
1 Simulation de variables aleatoires
2 Methodes de Monte Carlo
3 Methode du bootstrap
4 Statistique non–parametrique
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Chapitre 1 :Simulation de variables aleatoires
IntroductionGenerateur pseudo-aleatoireDistributions non-uniformes (1)Distributions non-uniformes (2)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Introduction
Besoin de “produire le hasard” par ordinateur
Evaluer le comportement d’un systeme complexe (programme,reseau, file d’attente, systeme de particules, atmosphere,epidemie, actions...)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Introduction
Besoin de “produire le hasard” par ordinateur
Evaluer le comportement d’un systeme complexe (programme,reseau, file d’attente, systeme de particules, atmosphere,epidemie, actions...)
Determiner les proprietes probabilistes d’une procedurestatistique non-standard ou sous une loi inconnue [bootstrap]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Introduction
Besoin de “produire le hasard” par ordinateur
Evaluer le comportement d’un systeme complexe (programme,reseau, file d’attente, systeme de particules, atmosphere,epidemie, actions...)
Determiner les proprietes probabilistes d’une procedurestatistique non-standard ou sous une loi inconnue [bootstrap]
Validation d’un modele probabiliste
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Introduction
Besoin de “produire le hasard” par ordinateur
Evaluer le comportement d’un systeme complexe (programme,reseau, file d’attente, systeme de particules, atmosphere,epidemie, actions...)
Determiner les proprietes probabilistes d’une procedurestatistique non-standard ou sous une loi inconnue [bootstrap]
Validation d’un modele probabiliste
Approcher une esperance/integrale sous une loi non-standard[loi des grands nombres]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Introduction
Besoin de “produire le hasard” par ordinateur
Evaluer le comportement d’un systeme complexe (programme,reseau, file d’attente, systeme de particules, atmosphere,epidemie, actions...)
Determiner les proprietes probabilistes d’une procedurestatistique non-standard ou sous une loi inconnue [bootstrap]
Validation d’un modele probabiliste
Approcher une esperance/integrale sous une loi non-standard[loi des grands nombres]
Maximiser une fonction/vraisemblance faiblement reguliere
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Example (TCL pour la loi binomiale)
SiXn ∼ B(n, p) ,
Xn converge en loi vers la loi normale :
√n (Xn − p)
n→∞ N
(0,
p(1 − p)
n
)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
n= 4
0.0 0.2 0.4 0.6 0.8 1.0
010
2030
n= 8
0.0 0.2 0.4 0.6 0.8 1.0
05
1015
2025
n= 16
0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
05
1015
20
n= 32
0.2 0.3 0.4 0.5 0.6 0.7 0.8
02
46
810
14
n= 64
0.3 0.4 0.5 0.6
05
1015
2025
n= 128
0.35 0.40 0.45 0.50 0.55 0.60 0.65
05
1015
n= 256
0.40 0.45 0.50 0.55 0.60
05
1020
30
n= 512
0.44 0.46 0.48 0.50 0.52 0.54 0.56 0.58
05
1015
2025
n= 1024
0.46 0.48 0.50 0.52 0.54
010
2030
4050
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Example (Minimisation aleatoire)
On considere la fonction
h(x, y) = (x sin(20y) + y sin(20x))2 cosh(sin(10x)x)
+ (x cos(10y) − y sin(10x))2 cosh(cos(20y)y) ,
a minimiser.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Example (Minimisation aleatoire)
On considere la fonction
h(x, y) = (x sin(20y) + y sin(20x))2 cosh(sin(10x)x)
+ (x cos(10y) − y sin(10x))2 cosh(cos(20y)y) ,
a minimiser. (On sait que le minimum global vaut 0 en(x, y) = (0, 0).)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
-1
-0.5
0
0.5
1
X
-1
-0.5
0
0.5
1
Y
01
23
45
6Z
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Example (Minimisation aleatoire (2))
Au lieu de chercher a resoudre les equations du premier ordre
∂h(x, y)
∂x= 0 ,
∂h(x, y)
∂y= 0
et a verifier les conditions du second ordre, on peut generer la suitealeatoire dans R2
θj+1 = θj +αj
2βj∆h(θj , βjζj) ζj
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Example (Minimisation aleatoire (2))
Au lieu de chercher a resoudre les equations du premier ordre
∂h(x, y)
∂x= 0 ,
∂h(x, y)
∂y= 0
et a verifier les conditions du second ordre, on peut generer la suitealeatoire dans R2
θj+1 = θj +αj
2βj∆h(θj , βjζj) ζj
ou
⋄ les ζj sont uniformes sur le cercle unite x2 + y2 = 1;
⋄ ∆h(θ, ζ) = h(θ + ζ) − h(θ − ζ);
⋄ (αj) et (βj) tendent vers 0
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
-0.2 0.0 0.2 0.4 0.6
0.2
0.4
0.6
0.8
Cas ou αj = 1/10 log(1 + j) et βj = 1/j
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Probleme du voyageur de commerce
Probleme classique d’allocation:
Representant devant visiterun ensemble de n villes
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Probleme du voyageur de commerce
Probleme classique d’allocation:
Representant devant visiterun ensemble de n villes
Couts de voyages entre deuxvilles fixes [et differents]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Probleme du voyageur de commerce
Probleme classique d’allocation:
Representant devant visiterun ensemble de n villes
Couts de voyages entre deuxvilles fixes [et differents]
Recherche du cout globalminimum
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Probleme du voyageur de commerce
Probleme classique d’allocation:
Representant devant visiterun ensemble de n villes
Couts de voyages entre deuxvilles fixes [et differents]
Recherche du cout globalminimum
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Probleme NP-complet
Probleme du voyageur decommerce representatif deproblemes mathematiquesdurs a temps de resolutionexplosifs
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Probleme NP-complet
Probleme du voyageur decommerce representatif deproblemes mathematiquesdurs a temps de resolutionexplosifsNombre de chemins possiblesn! et solutions exactesdisponibles en temps O(2n)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Probleme NP-complet
Probleme du voyageur decommerce representatif deproblemes mathematiquesdurs a temps de resolutionexplosifsNombre de chemins possiblesn! et solutions exactesdisponibles en temps O(2n)Probleme a nombreusesapplications (reseaux,conception de circuitsimprimes, sequencage degenome, etc.) Concours Procter & Gamble
1962
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Probleme toujours ouvert
Solution exacte pour 15, 112villes allemandes trouvee en 2001en 22.6 annees CPU.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Probleme toujours ouvert
Solution exacte pour 15, 112villes allemandes trouvee en 2001en 22.6 annees CPU.
Resolution pour les 24, 978 villessuedoises en 2004 en 84.8 anneesCPU
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Resolution par simulation
Algorithme du recuit simule:Repeter
Modifications aleatoires de parties du circuit de cout C0
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Resolution par simulation
Algorithme du recuit simule:Repeter
Modifications aleatoires de parties du circuit de cout C0
Evaluation du cout C du nouveau circuit
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Resolution par simulation
Algorithme du recuit simule:Repeter
Modifications aleatoires de parties du circuit de cout C0
Evaluation du cout C du nouveau circuit
Acceptation du nouveau circuit avec probabilite
exp
{C0 − C
T
}∧ 1
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Resolution par simulation
Algorithme du recuit simule:Repeter
Modifications aleatoires de parties du circuit de cout C0
Evaluation du cout C du nouveau circuit
Acceptation du nouveau circuit avec probabilite
exp
{C0 − C
T
}∧ 1
T , temperature, est reduite progressivement.[Metropolis, 1953]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Illustration
Example (400 villes)
T = 1.2
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Illustration
Example (400 villes)
T = 0.8
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Illustration
Example (400 villes)
T = 0.4
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Illustration
Example (400 villes)
T = 0.0
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Pricing d’options
Calcul complexe d’esperances/valeurs moyennes d’options, E[CT ],necessaire pour evaluer le prix d’achat (1 + r)−T E[CT ]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Pricing d’options
Calcul complexe d’esperances/valeurs moyennes d’options, E[CT ],necessaire pour evaluer le prix d’achat (1 + r)−T E[CT ]
Example (Options europeennes)
Cas ouCT = (ST − K)+
avec
ST = S0 × Y1 × · · · × YT , Pr(Yi = u) = 1 − Pr(Yi = d) = p .
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Pricing d’options
Calcul complexe d’esperances/valeurs moyennes d’options, E[CT ],necessaire pour evaluer le prix d’achat (1 + r)−T E[CT ]
Example (Options europeennes)
Cas ouCT = (ST − K)+
avec
ST = S0 × Y1 × · · · × YT , Pr(Yi = u) = 1 − Pr(Yi = d) = p .
Resolution par simulation des binomiales Yi
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Pricing d’options (suite)
Example (Options asiatiques)
Modele en temps continu ou
CT =
(1
T
∫ T
0S(t)dt − K
)+
≈(
1
T
T∑
n=1
S(n) − K
)+
,
avec
S(n + 1) = S(n) × exp {∆X(n + 1)} , ∆X(n)iid∼ N (0, σ2) .
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Introduction
Pricing d’options (suite)
Example (Options asiatiques)
Modele en temps continu ou
CT =
(1
T
∫ T
0S(t)dt − K
)+
≈(
1
T
T∑
n=1
S(n) − K
)+
,
avec
S(n + 1) = S(n) × exp {∆X(n + 1)} , ∆X(n)iid∼ N (0, σ2) .
Resolution par simulation des normales ∆Xi
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Generateur pseudo-aleatoire
Generateur pseudo-aleatoireElement central des methodes de simulation : elles reposent toutessur la transformation de variables uniformes U (0, 1)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Generateur pseudo-aleatoire
Generateur pseudo-aleatoireElement central des methodes de simulation : elles reposent toutessur la transformation de variables uniformes U (0, 1)
Definition (Generateur pseudo-aleatoire)
Un generateur pseudo-aleatoire est une transformationdeterministe Ψ de ]0, 1[ dans ]0, 1[ telle que, pour toute valeurinitiale u0 et tout n, la suite
{u0, Ψ(u0), Ψ(Ψ(u0)), . . . ,Ψn(u0)}
a le meme comportement statistique qu’une suite iid U (0, 1)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Generateur pseudo-aleatoire
Generateur pseudo-aleatoireElement central des methodes de simulation : elles reposent toutessur la transformation de variables uniformes U (0, 1)
Definition (Generateur pseudo-aleatoire)
Un generateur pseudo-aleatoire est une transformationdeterministe Ψ de ]0, 1[ dans ]0, 1[ telle que, pour toute valeurinitiale u0 et tout n, la suite
{u0, Ψ(u0), Ψ(Ψ(u0)), . . . ,Ψn(u0)}
a le meme comportement statistique qu’une suite iid U (0, 1)
¡Paradoxe!
Sans appel au “hasard”, la suite deterministe(u0, u1 = Ψ(u0), . . . , un = Ψ(un−1))doit ressembler a une suite aleatoire
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Generateur pseudo-aleatoire
En R, appel a la procedure
runif( )
Description:‘runif’ generates random deviates.Example:u = runif(20)‘Random.seed’ is an integer vector, containing the random numbergenerator (RNG) state for random number generation in R. It canbe saved and restored, but should not be altered by the user.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Generateur pseudo-aleatoire
500 520 540 560 580 600
0.0
0.2
0.4
0.6
0.8
1.0
uniform sample
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.5
1.0
1.5
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Generateur pseudo-aleatoire
En C, appel a la procedure
rand() / random()
SYNOPSIS# include <stdlib.h>long int random(void);DESCRIPTIONThe random() function uses a non-linear additive feedback randomnumber generator employing a default table of size 31 longintegers to return successive pseudo-random numbers in the rangefrom 0 to RAND MAX. The period of this random generator isvery large, approximately 16*((2**31)-1).RETURN VALUErandom() returns a value between 0 and RAND MAX.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Generateur pseudo-aleatoire
En Scilab, appel a la procedure
rand()
rand() : with no arguments gives a scalar whose value changeseach time it is referenced. By default, random numbers areuniformly distributed in the interval (0,1). rand(’normal’) switchesto a normal distribution with mean 0 and variance 1.rand(’uniform’) switches back to the uniform distributionEXAMPLEx=rand(10,10,’uniform’)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Generateur pseudo-aleatoire
Example (Generateur usuel)
Le generateur congruenciel
D(x) = (ax + b) mod (M + 1).
est de periode M pour les bons choix de (a, b) et se transforme engenerateur sur ]0, 1[ par division par M + 2.
v = u*69069069 (1)
0.0 0.2 0.4 0.6 0.8 1.0
0.00.2
0.40.6
0.81.0
1.2
0.0 0.2 0.4 0.6 0.8 1.0
0.00.2
0.40.6
0.81.0
t
t+1
0.0 0.2 0.4 0.6 0.8 1.0
0.00.2
0.40.6
0.81.0
t
t+5
0.0 0.2 0.4 0.6 0.8 1.0
0.00.2
0.40.6
0.81.0
t
t+10
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Generateur pseudo-aleatoire
Conclusion :
Utiliser la fonction appropriee sur l’ordinateur ou le logiciel enservice plutot que de construire un generateur aleatoire demauvaise qualite
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (1)
Autres distributions que la loi uniforme (1)
Probleme regle en principe puisque
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (1)
Autres distributions que la loi uniforme (1)
Probleme regle en principe puisque
Theorem (Inversion generique)
Si U est une variable aleatoire uniforme sur [0, 1) et FX est lafonction de repartition de la variable X, F−1
X (U) a meme loi que X
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (1)
Autres distributions que la loi uniforme (1)
Probleme regle en principe puisque
Theorem (Inversion generique)
Si U est une variable aleatoire uniforme sur [0, 1) et FX est lafonction de repartition de la variable X, F−1
X (U) a meme loi que X
Preuve. On a
P (F−1X (U) ≤ x) = P (U ≤ FX(x)) = FX(x)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (1)
Autres distributions que la loi uniforme (1)
Probleme regle en principe puisque
Theorem (Inversion generique)
Si U est une variable aleatoire uniforme sur [0, 1) et FX est lafonction de repartition de la variable X, F−1
X (U) a meme loi que X
Preuve. On a
P (F−1X (U) ≤ x) = P (U ≤ FX(x)) = FX(x)
Note. Si FX n’est pas strictement croissante, on prend
F−1X (u) = inf {x; FX(x) ≥ u}
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (1)
Applications...
Loi binomiale, B(n, p),
FX(x) =∑
i≤x
(n
i
)pi(1 − p)n−i
et F−1X (u) s’obtient numeriquement
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (1)
Applications...
Loi binomiale, B(n, p),
FX(x) =∑
i≤x
(n
i
)pi(1 − p)n−i
et F−1X (u) s’obtient numeriquement
Loi exponentielle, E xp(λ),
FX(x) = 1 − exp(λx) et F−1X (u) = − log(u)/λ
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (1)
Applications...
Loi binomiale, B(n, p),
FX(x) =∑
i≤x
(n
i
)pi(1 − p)n−i
et F−1X (u) s’obtient numeriquement
Loi exponentielle, E xp(λ),
FX(x) = 1 − exp(λx) et F−1X (u) = − log(u)/λ
Loi de Cauchy, C (0, 1),
FX(x) =1
πarctan(x)+
1
2et F−1
X (u) = tan(π(u−1/2))
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (1)
Autres transformations...
[Indice]
Trouver des transformations reliant la loi d’interet et des lois plussimples/mieux connues
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (1)
Autres transformations...
[Indice]
Trouver des transformations reliant la loi d’interet et des lois plussimples/mieux connues
Example (Transformation de Box-Muller)
Pour la loi normale N (0, 1), si X1, X2i.i.d.∼ N (0, 1),
X21 + X2
2 ∼ χ22, arctan(X1/X2) ∼ U ([0, 2π])
[Jacobien]Comme χ2
2 est identique a E xp(1/2), il vient par inversion
X1 =√−2 log(U1) sin(2πU2) X2 =
√−2 log(U1) cos(2πU2)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (1)
Example
Les lois de Student et de Fisher se deduisent naturellement de laloi normale et de la loi du chi-deux.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (1)
Example
Les lois de Student et de Fisher se deduisent naturellement de laloi normale et de la loi du chi-deux.
Example
La loi de Cauchy se deduit de la loi normale par : si
X1, X2i.i.d.∼ N (0, 1), X1/X2 ∼ C (0, 1)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (1)
Example
La loi Beta B(α, β), de densite
fX(x) =Γ(α + β)
Γ(α)Γ(β)xα−1(1 − x)β−1 ,
s’obtient a partir de la loi gamma par: si X1 ∼ G a(α, 1),X2 ∼ G a(β, 1), alors
X1
X1 + X2∼ B(α, β)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (1)
Lois multidimensionnelles
Soit a generer dans Rp
(X1, . . . , Xp) ∼ f(x1, . . . , xp)
dont les composantes ne sont pas necessairement independantes
Cascade rule
f(x1, . . . , xp) = f1(x1) × f2|1(x2|x1) . . . × fp|−p(xp|x1, . . . , xp−1)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (1)
Implementation
Simuler pour t = 1, . . . , T
1 X1 ∼ f1(x1)
2 X2 ∼ f2|1(x2|x1)
...
p. Xp ∼ fp|−p(xp|x1, . . . , xp−1)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (2)
Autres distributions que la loi uniforme (2)
F−1X rarement disponible
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (2)
Autres distributions que la loi uniforme (2)
F−1X rarement disponible
algorithme resident sur machine seulement pour lois usuelles
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (2)
Autres distributions que la loi uniforme (2)
F−1X rarement disponible
algorithme resident sur machine seulement pour lois usuelles
lemme d’inversion ne s’applique qu’en dimension 1
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (2)
Autres distributions que la loi uniforme (2)
F−1X rarement disponible
algorithme resident sur machine seulement pour lois usuelles
lemme d’inversion ne s’applique qu’en dimension 1
nouvelle distribution demandant resolution rapide
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (2)
Methode d’acceptation–rejet
Distribution de densite f a simuler
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (2)
Methode d’acceptation–rejet
Distribution de densite f a simuler
Theorem (fondamental de la simulation)
La loi uniforme sur le sous-graphe
Sf = {(x, u); 0 ≤ u ≤ f(x)}
a comme loi marginale en x la loide densite f .
0 2 4 6 8 100.0
00.0
50.1
00.1
50.2
00.2
5
x
f(x)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (2)
Raison :
Loi marginale donnee par
∫ ∞
0I0≤u≤f(x)du = f(x)
et independance a la constante de normalisation
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (2)
Raison :
Loi marginale donnee par
∫ ∞
0I0≤u≤f(x)du = f(x)
et independance a la constante de normalisation
Example
Pour une loi normale, il “suffit” de simuler (u, x) au hasard dans
{(u, x); 0 ≤ u ≤ exp(−x2/2)}
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (2)
Algorithme d’acceptation-rejet
1 Trouver une densite g simulable telle que
supx
f(x)
g(x)= M < ∞
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (2)
Algorithme d’acceptation-rejet
1 Trouver une densite g simulable telle que
supx
f(x)
g(x)= M < ∞
2 Generer
Y1, Y2, . . .i.i.d.∼ g , U1, U2, . . .
i.i.d.∼ U ([0, 1])
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (2)
Algorithme d’acceptation-rejet
1 Trouver une densite g simulable telle que
supx
f(x)
g(x)= M < ∞
2 Generer
Y1, Y2, . . .i.i.d.∼ g , U1, U2, . . .
i.i.d.∼ U ([0, 1])
3 Prendre X = Yk ou
k = inf{n ; Un ≤ f(Yn)/Mg(Yn)}
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (2)
Theorem (Acceptation–rejet)
La variable produite par la regle d’arret ci-dessous est distribueesuivant la loi fX
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (2)
Theorem (Acceptation–rejet)
La variable produite par la regle d’arret ci-dessous est distribueesuivant la loi fX
Preuve (1) : On a
P (X ≤ x) =∞∑
k=1
P (X = Yk , Yk ≤ x)
=∞∑
k=1
(1 − 1
M
)k−1
P (Uk ≤ f(Yk)/Mg(Yk) , Yk ≤ x)
=∞∑
k=1
(1 − 1
M
)k−1 ∫ x
−∞
∫ f(y)/Mg(y)
0du g(y)dy
=∞∑
k=1
(1 − 1
M
)k−1 1
M
∫ x
−∞f(y)dy
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (2)
Preuve (2)
Si (X, U) est uniforme surA ⊃ B, la distribution de (X, U)retreinte a B est uniforme sur B.
−4 −2 0 2 4
01
23
45
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (2)
Proprietes
Fonctionne sans constante de normalisation
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (2)
Proprietes
Fonctionne sans constante de normalisation
Ne necessite pas une borne exacte M
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (2)
Proprietes
Fonctionne sans constante de normalisation
Ne necessite pas une borne exacte M
Autorise le recyclage des Yk pour une autre loi f (les Yk
refuses ne sont plus de loi g)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (2)
Proprietes
Fonctionne sans constante de normalisation
Ne necessite pas une borne exacte M
Autorise le recyclage des Yk pour une autre loi f (les Yk
refuses ne sont plus de loi g)
Demande en moyenne M va Yk pour un X (mesured’efficacite)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (2)
Example
Soit f(x) = exp(−x2/2) et g(x) = 1/(1 + x2)
f(x)
g(x)= (1 + x2) e−x2/2 ≤ 2/
√e
Probabilite d’acceptation√
e/2π = 0.66
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (2)
Theorem (Enveloppe)
S’il existe une densite gm, une fonction gl et une constante Mtelles que
gl(x) ≤ f(x) ≤ Mgm(x) ,
alors
1 Generer X ∼ gm(x), U ∼ U[0,1];
2 Accepter X si U ≤ gl(X)/Mgm(X);
3 sinon, accepter X si U ≤ f(X)/Mgm(X)
donne des variables aleatoires suivant la loi f .
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (2)
Algorithme du rapport d’uniformesSlice sampler
Resultat :
Simulation uniforme sur
{(u, v); 0 ≤ u ≤√
2f(v/u)}
produitX = V/U ∼ f
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (2)
Algorithme du rapport d’uniformesSlice sampler
Resultat :
Simulation uniforme sur
{(u, v); 0 ≤ u ≤√
2f(v/u)}
produitX = V/U ∼ f
Raison :
Changement de variable (u, v) → (x, u) de Jacobien u et loimarginale de x donnee par
x ∼∫ √
2f(x)
0u du =
√2f(x)
2
2= f(x)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Simulation de variables aleatoires
Distributions non-uniformes (2)
Example
Pour une loi normale, simuler(u, v) au hasard dans
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4
0.0
0.2
0.4
0.6
u
v
{(u, v); 0 ≤ u ≤√
2 e−v2/4u2} = {(u, v); v2 ≤ −4 u2 log(u/√
2)}
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Chapitre 2 :Methodes de Monte Carlo
IntroductionIntegration par la methode de Monte CarloFonctions d’importanceMethodes d’acceleration
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Introduction
Utilisations de la simulation
1 integration
I = Ef [h(X)] =
∫h(x)f(x)dx
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Introduction
Utilisations de la simulation
1 integration
I = Ef [h(X)] =
∫h(x)f(x)dx
2 comportement limite/stationnaire de systemes complexes
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Introduction
Utilisations de la simulation
1 integration
I = Ef [h(X)] =
∫h(x)f(x)dx
2 comportement limite/stationnaire de systemes complexes
3 optimisation
arg minx
h(x) = arg maxx
exp{−βh(x)} β > 0
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Introduction
Example (Propagation d’une epidemie)
Sur un territoire quadrille, on represente par x, y les coordonneesd’un point.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Introduction
Example (Propagation d’une epidemie)
Sur un territoire quadrille, on represente par x, y les coordonneesd’un point.La probabilite d’attraper la maladie est
Px,y =exp(α + β · nx,y)
1 + exp(α + β · nx,y)Inx,y>0
si nx,y denote le nombre de voisins de (x, y) ayant deja cettemaladie.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Introduction
Example (Propagation d’une epidemie)
Sur un territoire quadrille, on represente par x, y les coordonneesd’un point.La probabilite d’attraper la maladie est
Px,y =exp(α + β · nx,y)
1 + exp(α + β · nx,y)Inx,y>0
si nx,y denote le nombre de voisins de (x, y) ayant deja cettemaladie.La probabilite de guerir de la maladie est
Qx,y =exp(δ + γ · nx,y)
1 + exp(δ + γ · nx,y)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Introduction
Example (Propagation d’une epidemie (2))
Question
En fonction de (α, β, γ, δ), quelle est la vitesse de propagation decette epidemie ? la duree moyenne ? le nombre de personnesinfectees ?
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Integration par la methode de Monte Carlo
Integration par Monte Carlo
Loi des grands nombres
Si X1, . . . , Xn simules suivant f ,
In =1
n
n∑
i=1
h(Xi) −→ I
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Integration par la methode de Monte Carlo
Theoreme Central Limit
Evaluation de l’erreur par
σ2n =
1
n2
n∑
i=1
(h(Xi) − I)2
etIn ≈ N (I, σ2
n)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Integration par la methode de Monte Carlo
Example (Normale)
Pour une loi normale, E[X4] = 3. Par la methode de Monte Carlo,n 5 50 500 5000 50,000 500,000
In 1.65 5.69 3.24 3.13 3.038 3.029
5 10 50 100 500 1000 5000 10000 50000
0.00.5
1.01.5
2.02.5
3.0
n
In
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Integration par la methode de Monte Carlo
Example (Cauchy / Normale)
On considere le modele joint
X|θ ∼ N (θ, 1), θ ∼ C(0, 1)
Apres observation de X, on estime θ par
δπ(x) =
∫ ∞
−∞
θ
1 + θ2e−(x−θ)2/2dθ
∫ ∞
−∞
1
1 + θ2e−(x−θ)2/2dθ
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Integration par la methode de Monte Carlo
Example (Cauchy / Normale (2))
Cette forme δπ suggere de simuler des variables iid
θ1, · · · , θm ∼ N (x, 1)
et de calculer
δπm(x) =
∑mi=1
θi
1 + θ2i
∑mi=1
1
1 + θ2i
.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Integration par la methode de Monte Carlo
Example (Cauchy / Normale (2))
Cette forme δπ suggere de simuler des variables iid
θ1, · · · , θm ∼ N (x, 1)
et de calculer
δπm(x) =
∑mi=1
θi
1 + θ2i
∑mi=1
1
1 + θ2i
.
Par la Loi des Grands Nombres,
δπm(x) −→ δπ(x) quand m −→ ∞.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Integration par la methode de Monte Carlo
Example (FdR normale)
Approximation de la fonction de repartition de la loi normale
Φ(t) =
∫ t
−∞
1√2π
e−y2/2dy
par
Φ(t) =1
n
n∑
i=1
IXi≤t,
ayant genere un echantillon de taille n, (X1, . . . , Xn), vial’algorithme de Box-Muller.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Integration par la methode de Monte Carlo
Example (FdR normale (2))
• VarianceΦ(t)(1 − Φ(t))/n,
car les variables IXi≤t sont iid Bernoulli(Φ(t)).
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Integration par la methode de Monte Carlo
Example (FdR normale (2))
• VarianceΦ(t)(1 − Φ(t))/n,
car les variables IXi≤t sont iid Bernoulli(Φ(t)).
• Pour t pres de t = 0 la variance vaut approximativement 1/4n:une precision de quatre decimales demande en moyenne
√n =
√2 104
simulations, donc, 200 millions d’iterations.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Integration par la methode de Monte Carlo
Example (FdR normale (2))
• VarianceΦ(t)(1 − Φ(t))/n,
car les variables IXi≤t sont iid Bernoulli(Φ(t)).
• Pour t pres de t = 0 la variance vaut approximativement 1/4n:une precision de quatre decimales demande en moyenne
√n =
√2 104
simulations, donc, 200 millions d’iterations.
• Plus grande precision [absolue] dans les queues
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Integration par la methode de Monte Carlo
Example (FdR normale (3))
n 0.0 0.67 0.84 1.28 1.65 2.32 2.58 3.09 3.72
102
0.485 0.74 0.77 0.9 0.945 0.985 0.995 1 1
103
0.4925 0.7455 0.801 0.902 0.9425 0.9885 0.9955 0.9985 1
104
0.4962 0.7425 0.7941 0.9 0.9498 0.9896 0.995 0.999 0.9999
105
0.4995 0.7489 0.7993 0.9003 0.9498 0.9898 0.995 0.9989 0.9999
106
0.5001 0.7497 0.8 0.9002 0.9502 0.99 0.995 0.999 0.9999
107
0.5002 0.7499 0.8 0.9001 0.9501 0.99 0.995 0.999 0.9999
108
0.5 0.75 0.8 0.9 0.95 0.99 0.995 0.999 0.9999
Evaluation de quantiles normaux par Monte Carlo fondee surn generations normales.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Fonctions d’importance
Fonctions d’importance
Representation alternative :
I =
∫h(x)f(x)dx =
∫h(x)
f(x)
g(x)g(x)dx
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Fonctions d’importance
Fonctions d’importance
Representation alternative :
I =
∫h(x)f(x)dx =
∫h(x)
f(x)
g(x)g(x)dx
Donc, si Y1, . . . , Yn simules suivant g,
In =1
n
n∑
i=1
h(Yi)f(Yi)
g(Yi)−→ I
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Fonctions d’importance
Interet
Fonctionne pour tout choix de g tel que
supp(g) ⊃ supp(f)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Fonctions d’importance
Interet
Fonctionne pour tout choix de g tel que
supp(g) ⊃ supp(f)
Amelioration possible de la variance
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Fonctions d’importance
Interet
Fonctionne pour tout choix de g tel que
supp(g) ⊃ supp(f)
Amelioration possible de la variance
Recyclage de simulations Yi ∼ g pour d’autres densites f
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Fonctions d’importance
Interet
Fonctionne pour tout choix de g tel que
supp(g) ⊃ supp(f)
Amelioration possible de la variance
Recyclage de simulations Yi ∼ g pour d’autres densites f
Utilisation de lois simples g
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Fonctions d’importance
Example (Normale)
Pour la loi normale et l’approximation de E[X4],
∫ ∞
−∞x4e−x2/2dx
[y=x2]= 2
∫ ∞
0y3/2 1
2e−y/2dy
suggere d’utiliser g(y) = exp(−y/2)/2n 5 50 500 5000 50000
In 3.29 2.89 3.032 2.97 3.041
5 10 50 100 500 1000 5000 10000 50000
−0.1
0.00.1
0.20.3
0.40.5
n
In
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Fonctions d’importance
Choix de la fonction d’importance
La “bonne” fonction g depend de la densite f et de la fonction h
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Fonctions d’importance
Choix de la fonction d’importance
La “bonne” fonction g depend de la densite f et de la fonction h
Theorem (Importance optimale)
Le choix de g minimisant la variance de In est
g⋆(x) =|h(x)|f(x)
I
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Fonctions d’importance
Remarques
Variance finie seulement si
Ef
[h2(X)
f(X)
g(X)
]=
∫
Xh2(x)
f(X)
g(X)dx < ∞ .
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Fonctions d’importance
Remarques
Variance finie seulement si
Ef
[h2(X)
f(X)
g(X)
]=
∫
Xh2(x)
f(X)
g(X)dx < ∞ .
Variance nulle pour g⋆ si h positive (!!)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Fonctions d’importance
Remarques
Variance finie seulement si
Ef
[h2(X)
f(X)
g(X)
]=
∫
Xh2(x)
f(X)
g(X)dx < ∞ .
Variance nulle pour g⋆ si h positive (!!)
g⋆ depend de I que l’on cherche a estimer (??)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Fonctions d’importance
Remarques
Variance finie seulement si
Ef
[h2(X)
f(X)
g(X)
]=
∫
Xh2(x)
f(X)
g(X)dx < ∞ .
Variance nulle pour g⋆ si h positive (!!)
g⋆ depend de I que l’on cherche a estimer (??)
Remplacement de In par moyenne harmonique
In =
∑ni=1 h(yi)/|h(yi)|∑n
i=1 1/|h(yi)|
(numerateur et denominateur sont convergents)souvent mauvais (variance infinie)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Fonctions d’importance
Example (Normale)
Pour la loi normale et l’approximation de E[X4],g⋆(x) ∝ x4 exp(−x2/2), loi de la racine d’une G a(5/2, 1/2)
[Exercice]
n 5 50 500 5,000 50,000 500,000
In 4.877 2.566 2.776 2.317 2.897 3.160
1e+01 1e+02 1e+03 1e+04 1e+05
−10
12
n
In
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Fonctions d’importance
Example (Loi de Student)
X ∼ T (ν, θ, σ2), de densite
f(x) =Γ((ν + 1)/2)
σ√
νπ Γ(ν/2)
(1 +
(x − θ)2
νσ2
)−(ν+1)/2
.
Soient θ = 0, σ = 1 et
I =
∫ ∞
2.1x5f(x)dx.
a calculer
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Fonctions d’importance
Example (Loi de Student (2))
• Choix de fonctionsd’importance
◦ f , car f = N (0,1)√χ2
ν/ν
◦ Cauchy C(0, 1)◦ Normale N (0, 1)◦ U ([0, 1/2.1])
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Fonctions d’importance
Example (Loi de Student (2))
• Choix de fonctionsd’importance
◦ f , car f = N (0,1)√χ2
ν/ν
◦ Cauchy C(0, 1)◦ Normale N (0, 1)◦ U ([0, 1/2.1])
Resultats:
◦ Uniforme optimale
◦ Cauchy OK
◦ f et Normale mauvaises
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Fonctions d’importance
Example (Loi de Student (2))
• Choix de fonctionsd’importance
◦ f , car f = N (0,1)√χ2
ν/ν
◦ Cauchy C(0, 1)◦ Normale N (0, 1)◦ U ([0, 1/2.1])
Resultats:
◦ Uniforme optimale
◦ Cauchy OK
◦ f et Normale mauvaises
0 10000 20000 30000 40000 50000
5.05.5
6.06.5
7.0
0 10000 20000 30000 40000 50000
5.05.5
6.06.5
7.0
0 10000 20000 30000 40000 50000
5.05.5
6.06.5
7.0
0 10000 20000 30000 40000 50000
5.05.5
6.06.5
7.0
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Methodes d’acceleration
Simulations correlees
La correlation negative...
Deux echantillons (X1, . . . , Xm) et (Y1, . . . , Ym) suivant f pourestimer
I =
∫
R
h(x)f(x)dx .
Soient
I1 =1
m
m∑
i=1
h(Xi) et I2 =1
m
m∑
i=1
h(Yi)
de moyenne I et variance σ2
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Methodes d’acceleration
Simulations correlees (2)
...reduit la variance
La variance de la moyenne vaut
var
(I1 + I2
2
)=
σ2
2+
1
2cov(I1, I2).
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Methodes d’acceleration
Simulations correlees (2)
...reduit la variance
La variance de la moyenne vaut
var
(I1 + I2
2
)=
σ2
2+
1
2cov(I1, I2).
Par consequent, si les deux echantillons sont negativementcorreles,
cov(I1, I2) ≤ 0 ,
ils font mieux que deux echantillons independants de meme taille
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Methodes d’acceleration
Variables antithetiques
Construction de variables negativement correlees
1 Si f symetrique autour de µ, prendre Yi = 2µ − Xi
2 Si Xi = F−1(Ui), prendre Yi = F−1(1 − Ui)
3 Si (Ai)i est une partition de X , echantillonnage partitionne enprenant des Xj dans chaque Ai (necessite de connaıtrePr(Ai))
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Methodes d’acceleration
Variables de controle
Soit
I =
∫h(x)f(x)dx
a evaluer et
I0 =
∫h0(x)f(x)dx
connueOn estime quand meme I0 par I0 (et I par I)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Methodes d’acceleration
Variables de controle (2)
Estimateur combine
I∗ = I + β(I0 − I0)
I∗ est sans biais pour I et
var(I∗) = var(I) + β2var(I) + 2βcov(I, I0)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Methodes d’acceleration
Variables de controle (3)
Choix optimal de β
β⋆ = −cov(I, I0)
var(I0),
avecvar(I⋆) = (1 − ρ2) var(I) ,
ou ρ correlation entre I et I0
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Methodes d’acceleration
Example (Approximation de quantiles)
Soit a evaluer
= Pr(X > a) =
∫ ∞
af(x)dx
par
ˆ =1
n
n∑
i=1
I(Xi > a), Xiiid∼ f
avec Pr(X > µ) = 12
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Methodes d’acceleration
Example (Approximation de quantiles (2))
La variable de controle
1
n
n∑
i=1
I(Xi > a) + β
(1
n
n∑
i=1
I(Xi > µ) − Pr(X > µ)
)
ameliore ˆ si
β < 0 et |β| < 2cov(δ1, δ3)
var(δ3)= 2
Pr(X > a)
Pr(X > µ).
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Methodes d’acceleration
Integration par conditionnementTirer parti de l’inegalite
var(E[δ(X)|Y]) ≤ var(δ(X))
appelee aussi Theoreme de Rao-Blackwell
Consequence :
Si I est un estimateur sans biais de I = Ef [h(X)], avec X simulea partir de la densite jointe f(x, y), ou
∫f(x, y)dy = f(x),
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Methodes d’acceleration
Integration par conditionnementTirer parti de l’inegalite
var(E[δ(X)|Y]) ≤ var(δ(X))
appelee aussi Theoreme de Rao-Blackwell
Consequence :
Si I est un estimateur sans biais de I = Ef [h(X)], avec X simulea partir de la densite jointe f(x, y), ou
∫f(x, y)dy = f(x),
l’estimateurI∗ = Ef [I|Y1, . . . , Yn]
domine I(X1, . . . , Xn) en variance (et est aussi sans biais)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Methodes d’acceleration
Example (Esperance de loi de Student)
Soit a calculer
E[h(x)] = E[exp(−x2)] avec X ∼ T (ν, 0, σ2)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Methodes d’acceleration
Example (Esperance de loi de Student)
Soit a calculer
E[h(x)] = E[exp(−x2)] avec X ∼ T (ν, 0, σ2)
La loi de Student peut etre simulee par
X|y ∼ N (µ, σ2y) et Y −1 ∼ χ2ν .
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Methodes d’acceleration
Example (Esperance de loi de Student (2))
La moyenne empirique
1
m
m∑
j=1
exp(−X2j ) ,
peut etre amelioree a partir de l’echantillon joint
((X1, Y1), . . . , (Xm, Ym))
puisque
1
m
m∑
j=1
E[exp(−X2)|Yj ] =1
m
m∑
j=1
1√2σ2Yj + 1
est l’esperance conditionnelle
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methodes de Monte Carlo
Methodes d’acceleration
Example (Esperance de loi de Student (3))
Dans ce cas particulier, la precision est dix fois plus grande
0 2000 4000 6000 8000 10000
0.50
0.52
0.54
0.56
0.58
0.60
0 2000 4000 6000 8000 10000
0.50
0.52
0.54
0.56
0.58
0.60
Estimateurs de E[exp(−X2)]: moyenne empirique (traitspleins) contre esperance conditionnelle (pointilles) pour(ν, µ, σ) = (4.6, 0, 1).
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Chapitre 3 :Methode du bootstrap
IntroductionLe theoreme de GlivenkoCantelliBootstrapBootstrap parametrique
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Introduction
Alea intrinseque
Estimation a partir d’un echantillon aleatoire = incertitude
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Introduction
Alea intrinseque
Estimation a partir d’un echantillon aleatoire = incertitudePuisque fonde sur un echantillon aleatoire, un estimateur
δ(X1, . . . , Xn)
est aussi (une variable) aleatoire
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Introduction
Variation moyenne
Question 1 :
De combien varie δ(X1, . . . , Xn) quand l’echantillon varie ?
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Introduction
Variation moyenne
Question 1 :
De combien varie δ(X1, . . . , Xn) quand l’echantillon varie ?
Question 2 :
Quelle est la variance de δ(X1, . . . , Xn) ?
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Introduction
Variation moyenne
Question 1 :
De combien varie δ(X1, . . . , Xn) quand l’echantillon varie ?
Question 2 :
Quelle est la variance de δ(X1, . . . , Xn) ?
Question 3 :
Quelle est la distribution de δ(X1, . . . , Xn) ?
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Introduction
Example (Echantillon normal)
Soit X1, . . . , X100 un echantillon normal N (θ, 1). Sa moyenne θest estimee par
θ =1
100
100∑
i=1
Xi
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Introduction
Example (Echantillon normal)
Soit X1, . . . , X100 un echantillon normal N (θ, 1). Sa moyenne θest estimee par
θ =1
100
100∑
i=1
Xi
Moyennes de 100 points pour 200 echantillons
x
−0.2 −0.1 0.0 0.1 0.2 0.3
01
23
45
6
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Introduction
Example (Echantillon normal)
Soit X1, . . . , X100 un echantillon normal N (θ, 1). Sa moyenne θest estimee par
θ =1
100
100∑
i=1
Xi
Moyennes de 100 points pour 200 echantillons
x
−0.2 −0.1 0.0 0.1 0.2 0.3
01
23
45
6
Variation compatible avec la loi (connue) θ ∼ N (θ, 1/100)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Introduction
Problemes correspondants
On observe un seul echantillon en general
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Introduction
Problemes correspondants
On observe un seul echantillon en general
La loi de l’echantillon est souvent inconnue
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Introduction
Problemes correspondants
On observe un seul echantillon en general
La loi de l’echantillon est souvent inconnue
L’evaluation de la variation moyenne de δ(X1, . . . , Xn) estessentielle pour la construction d’intervalles de confiance et detests de/reponses a des questions comme
H0 : θ ≤ 0
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Introduction
Problemes correspondants
On observe un seul echantillon en general
La loi de l’echantillon est souvent inconnue
L’evaluation de la variation moyenne de δ(X1, . . . , Xn) estessentielle pour la construction d’intervalles de confiance et detests de/reponses a des questions comme
H0 : θ ≤ 0
En cas de normalite de l’echantillon, le vrai θ se trouve avecforte probabilite dans l’intervalle
[θ − 2σ, θ + 2σ] .
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Introduction
Problemes correspondants
On observe un seul echantillon en general
La loi de l’echantillon est souvent inconnue
L’evaluation de la variation moyenne de δ(X1, . . . , Xn) estessentielle pour la construction d’intervalles de confiance et detests de/reponses a des questions comme
H0 : θ ≤ 0
En cas de normalite de l’echantillon, le vrai θ se trouve avecforte probabilite dans l’intervalle
[θ − 2σ, θ + 2σ] .
Quid de σ ?!
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Le theoreme de GlivenkoCantelli
Estimation de la fonction de repartition
Extension/application de la LGN a l’approximation de la fonctionde repartition :
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Le theoreme de GlivenkoCantelli
Estimation de la fonction de repartition
Extension/application de la LGN a l’approximation de la fonctionde repartition :Pour un echantillon X1, . . . , Xn, si
Fn(x) =1
n
n∑
i=1
I]−∞,Xi](x)
=card {Xi; Xi ≤ x}
n,
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Le theoreme de GlivenkoCantelli
Estimation de la fonction de repartition
Extension/application de la LGN a l’approximation de la fonctionde repartition :Pour un echantillon X1, . . . , Xn, si
Fn(x) =1
n
n∑
i=1
I]−∞,Xi](x)
=card {Xi; Xi ≤ x}
n,
Fn(x) est un estimateur convergent de la fonction derepartition F (x)
[Glivenko–Cantelli]
Fn(x) −→ Pr(X ≤ x)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Le theoreme de GlivenkoCantelli
Example (Echantillon normal)
−2 −1 0 1 2
0.00.2
0.40.6
0.81.0
−2 −1 0 1 20.0
0.20.4
0.60.8
1.0
Estimation de la fonction de repartition F a partir d’unechantillon normal de 100 points et variation de cetteestimation sur 200 echantillons normaux
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Le theoreme de GlivenkoCantelli
Proprietes
Estimateur dit non-parametrique : on n’a pas besoin de la loini de la forme de la loi de l’echantillon pour construire cetestimateur c© Il est toujours disponible
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Le theoreme de GlivenkoCantelli
Proprietes
Estimateur dit non-parametrique : on n’a pas besoin de la loini de la forme de la loi de l’echantillon pour construire cetestimateur c© Il est toujours disponible
Robustesse contre efficacite : si la forme [parametrique] dela loi est connue, meilleure approximation fondee sur cetteforme, mais si on se trompe de [forme de] loi, le resultat peutetre bien pire !
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Le theoreme de GlivenkoCantelli
Example (Echantillon normal)
Fonction de repartition de N (θ, 1), Φ(x − θ)
−2 −1 0 1 2
0.00.2
0.40.6
0.81.0
−2 −1 0 1 2
0.00.2
0.40.6
0.81.0
Estimation de Φ(· − θ) par Fn et Φ(· − θ) a partir de 100points et variation maximale de ces estimations sur 200replications
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Le theoreme de GlivenkoCantelli
Example (Echantillon non-normal)
Echantillon provenant de
0.3N (0, 1) + 0.7N (2.5, 1)
faussement alloue a une loi normale Φ(· − θ)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Le theoreme de GlivenkoCantelli
−2 −1 0 1 2 3 4
0.0
0.2
0.4
0.6
0.8
−2 −1 0 1 2 3 4
0.0
0.2
0.4
0.6
0.8
Estimation de F par Fn et Φ(· − θ) a partir d’un echantillonde melange de 100 points et variation de ces estimations sur200 echantillons de melange
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Le theoreme de GlivenkoCantelli
Extension aux fonctionnelles de F
Pour toute expression de la forme
θ(F ) =
∫h(x) dF (x) ,
[Fonctionnelle de la cdf]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Le theoreme de GlivenkoCantelli
Extension aux fonctionnelles de F
Pour toute expression de la forme
θ(F ) =
∫h(x) dF (x) ,
[Fonctionnelle de la cdf]utilisation de l’approximation
θ(F ) = θ(Fn)
=
∫h(x) dFn(x)
=1
n
n∑
i=1
h(Xi)
[Estimateur des moments]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Le theoreme de GlivenkoCantelli
Example (Echantillon normal)
Comme θ est (aussi) la mediane de N (θ, 1), θ peut etre priscomme mediane de Fn, donc comme mediane de X1, . . . , Xn, soitX(n/2)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Le theoreme de GlivenkoCantelli
Example (Echantillon normal)
Comme θ est (aussi) la mediane de N (θ, 1), θ peut etre priscomme mediane de Fn, donc comme mediane de X1, . . . , Xn, soitX(n/2)
−0.4 −0.2 0.0 0.2 0.4
01
23
−0.4 −0.2 0.0 0.2 0.4
01
23
Histogramme des medianes
−0.4 −0.2 0.0 0.2 0.4
01
23
Histogramme des moyennes
Comparaison des variations des moyennes et des medianessur 200 echantillons normaux
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap
Comment approcher la distribution de θ(Fn) ?
Principe
Comme
θ(Fn) = θ(X1, . . . , Xn) avec X1, . . . , Xni.i.d.∼ F
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap
Comment approcher la distribution de θ(Fn) ?
Principe
Comme
θ(Fn) = θ(X1, . . . , Xn) avec X1, . . . , Xni.i.d.∼ F
on remplace F par Fn :
θ(Fn) ≈ θ(X∗1 , . . . , X∗
n) avec X∗1 , . . . , X∗
ni.i.d.∼ Fn
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap
Implementation
Fn etant connue, on peut simuler suivant Fn, donc approcher la loide θ(X∗
1 , . . . , X∗n) [au lieu de celle de θ(X1, . . . , Xn)]
La loi correspondant a
Fn(x) =card {Xi; Xi ≤ x}
n
donne une probabilite de 1/n a chaque point de {x1, . . . , xn} :
PrFn(X∗ = xi) =1
n
Il suffit donc d’operer des tirages avec remise dans (X1, . . . , Xn)
[en R, sample(x,n,replace=T)]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap
Simulation par Monte Carlo
1 Pour b = 1, . . . , B,1 generer un echantillon Xb
1, . . . ,Xbn suivant Fn
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap
Simulation par Monte Carlo
1 Pour b = 1, . . . , B,1 generer un echantillon Xb
1, . . . ,Xbn suivant Fn
2 construire l’image correspondante
θb = θ(Xb1, . . . ,X
bn)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap
Simulation par Monte Carlo
1 Pour b = 1, . . . , B,1 generer un echantillon Xb
1, . . . ,Xbn suivant Fn
2 construire l’image correspondante
θb = θ(Xb1, . . . ,X
bn)
2 Utiliser l’echantillonθ1, . . . , θB
pour approcher la distribution de
θ(X1, . . . , Xn)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap
Notesbootstrap = languette de botte
on utilise seulement l’echantillon pour construire uneevaluation de sa loi
[Aventures du Baron de Munchausen ]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap
Notesbootstrap = languette de botte
on utilise seulement l’echantillon pour construire uneevaluation de sa loi
[Aventures du Baron de Munchausen ]
un echantillon bootstrap est obtenu par n tirages avec remisedans (X1, . . . , Xn)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap
Notesbootstrap = languette de botte
on utilise seulement l’echantillon pour construire uneevaluation de sa loi
[Aventures du Baron de Munchausen ]
un echantillon bootstrap est obtenu par n tirages avec remisedans (X1, . . . , Xn)
il peut donc prendre nn valeurs (ou(2n−1
n
)valeurs si on ne
considere pas l’ordre)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap
Example (Echantillon 0.3N (0, 1) + 0.7N (2.5, 1))
1.4 1.6 1.8 2.0 2.2
0.00.5
1.01.5
2.02.5
3.0
Variation des moyennes empiriques sur 200 echantillonsbootstrap et moyenne de l’echantillon observe
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap
Example (Calcul de la variation moyenne)
Pour un estimateur θ(X1, . . . , Xn), l’ecart-type est donne par
η(F ) =
√EF [(θ(X1, . . . , Xn) − EF [θ(X1, . . . , Xn)])2]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap
Example (Calcul de la variation moyenne)
Pour un estimateur θ(X1, . . . , Xn), l’ecart-type est donne par
η(F ) =
√EF [(θ(X1, . . . , Xn) − EF [θ(X1, . . . , Xn)])2]
et son approximation bootstrap est
η(Fn) =
√EFn [(θ(X1, . . . , Xn) − EFn [θ(X1, . . . , Xn)])2]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap
Example (Calcul de la variation moyenne (2))
Approximation elle-meme approchee par
η(Fn) =
(1
B
B∑
b=1
(θ(Xb1, . . . , X
bn) − θ)2
)1/2
ou
θ =1
B
B∑
b=1
θ(Xb1, . . . , X
bn)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap
Example (Echantillon 0.3N (0, 1) + 0.7N (2.5, 1))
1.4 1.6 1.8 2.0 2.2
0.00.5
1.01.5
2.02.5
3.0
Intervalle de variation bootstrap a ±2η(Fn) et moyenne del’echantillon observe
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap
Example (Echantillon normal)
Echantillon(X1, . . . , X100)
i.i.d.∼ N (θ, 1)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap
Example (Echantillon normal)
Echantillon(X1, . . . , X100)
i.i.d.∼ N (θ, 1)
Comparaison des intervalles de confiance
[x − 2 ∗ σx/10, x + 2 ∗ σx/10] = [−0.113, 0.327]
[approximation normale]
[x∗ − 2 ∗ σ∗, x∗ + 2 ∗ σ∗] = [−0.116, 0.336]
[approximation bootstrap normale]
[q∗(0.025), q∗(0.975)] = [−0.112, 0.336]
[approximation bootstrap generique]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap
−0.2 −0.1 0.0 0.1 0.2 0.3 0.4
01
23
4
Approximation normale
Intervalle normal
Intervalle bootstrap
normal
Intervalle bootstrap generique
Intervalles de variation a 95% pour un echantillon de 100points et 200 repliques bootstrap
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap parametrique
Boostrap parametre
Si la forme parametrique de F est connue,
F (·) = Φλ(·) λ ∈ Λ ,
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap parametrique
Boostrap parametre
Si la forme parametrique de F est connue,
F (·) = Φλ(·) λ ∈ Λ ,
une evaluation de F plus efficace que Fn est fournie par
Φλn
ou λn est un estimateur convergent de λ[Cf Exemple 40]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap parametrique
Boostrap parametrique
Approximation de la loi de
θ(X1, . . . , Xn)
par la loi de
θ(X∗1 , . . . , X∗
n) X∗1 , . . . , X∗
ni.i.d.∼ Φλn
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap parametrique
Boostrap parametrique
Approximation de la loi de
θ(X1, . . . , Xn)
par la loi de
θ(X∗1 , . . . , X∗
n) X∗1 , . . . , X∗
ni.i.d.∼ Φλn
Peut eviter le recours a la simulation dans certains cas
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap parametrique
Example (Echantillon exponentiel)
SoitX1, . . . , Xn
i.i.d.∼ Exp(λ)
et λ = 1/Eλ[X] a estimer.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap parametrique
Example (Echantillon exponentiel)
SoitX1, . . . , Xn
i.i.d.∼ Exp(λ)
et λ = 1/Eλ[X] a estimer.Un estimateur possible est
λ(x1, . . . , xn) =n∑n
i=1 xi
mais cet estimateur est biaise :
Eλ[λ(X1, . . . , Xn)] 6= λ
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap parametrique
Example (Echantillon exponentiel (2))
Questions :
Comment evaluer le biais
λ − Eλ[λ(X1, . . . , Xn)]
de cet estimateur ?
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap parametrique
Example (Echantillon exponentiel (2))
Questions :
Comment evaluer le biais
λ − Eλ[λ(X1, . . . , Xn)]
de cet estimateur ?
Quelle est la loi de cet estimateur ?
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap parametrique
Evaluation bootstrap du biais
Example (Echantillon exponentiel (3))
λ(x1, . . . , xn) − Eλ(x1,...,xn)[λ(X1, . . . , Xn)]
[Forme parametrique]
λ(x1, . . . , xn) − EFn[λ(X1, . . . , Xn)]
[Forme non-parametrique]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap parametrique
Example (Echantillon exponentiel (4))
Dans le premier cas (parametrique),
1/λ(X1, . . . , Xn) ∼ Ga(n, nλ)
etEλ[λ(X1, . . . , Xn)] =
n
n − 1λ
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap parametrique
Example (Echantillon exponentiel (4))
Dans le premier cas (parametrique),
1/λ(X1, . . . , Xn) ∼ Ga(n, nλ)
etEλ[λ(X1, . . . , Xn)] =
n
n − 1λ
donc le biais est analytiquement evalue comme
−λ/n − 1
estime par
− λ(X1, . . . , Xn)
n − 1= −0.00787
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap parametrique
Example (Echantillon exponentiel (5))
Dans le second cas (non-parametrique), evaluation par MonteCarlo,
λ(x1, . . . , xn) − EFn[λ(X1, . . . , Xn)] = 0.00142
qui est du “mauvais” signe
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap parametrique
Example (Echantillon exponentiel (6))
Construction d’un intervalle de confiance sur λPar bootstrap parametrique,
Prλ
(λ1 ≤ λ ≤ λ2
)= Pr
(ω1 ≤ λ/λ ≤ ω2
)= 0.95
peut etre deduit deλ/λ ∼ Ga(n, n)
[En R, qgamma(0.975,n,1/n)]
[λ1, λ2] = [0.452, 0.580]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap parametrique
Example (Echantillon exponentiel (7))
Par bootstrap non-parametrique, on remplace
PrF (q(.025) ≤ λ(F ) ≤ q(.975)) = 0.95
par
PrFn
(q∗(.025) ≤ λ(Fn) ≤ q∗(.975)
)= 0.95
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap parametrique
Example (Echantillon exponentiel (7))
Par bootstrap non-parametrique, on remplace
PrF (q(.025) ≤ λ(F ) ≤ q(.975)) = 0.95
par
PrFn
(q∗(.025) ≤ λ(Fn) ≤ q∗(.975)
)= 0.95
Approximation des quantiles q∗(.025) et q∗(.975) de λ(Fn) parechantillonnage bootstrap (Monte Carlo)
[q∗(.025), q∗(.975)] = [0.454, 0.576]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap parametrique
0.45 0.50 0.55 0.60
02
46
810
1214
Intervalle bootstrap
parametrique
Intervalle bootstrap
non−parametrique
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap parametrique
Example (Echantillon Student)
Soit
X1, . . . , Xni.i.d.∼ T(5, µ, τ2)
def= µ + τ
N (0, 1)√χ2
5/5
On peut alors estimer µ et τ par
µn =1
n
n∑
i=1
Xi τn =
√5 − 2
5
√√√√ 1
n
n∑
i=1
(Xi − µ)2
=
√5 − 2
5σn
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap parametrique
Example (Echantillon Student (2))
Probleme
µn n’est pas distribuee comme une loi de Student T(5, µ, τ2/n)On doit donc reconstituer la loi de µn par echantillonnagebootstrap.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap parametrique
Example (Echantillon Student (3))
Comparaison des intervalles de confiance
[µn − 2 ∗ σn/10, µn + 2 ∗ σn/10] = [−0.068, 0.319]
[approximation normale]
[q∗(0.05), q∗(0.95)] = [−0.056, 0.305]
[approximation bootstrap parametrique]
[q∗(0.05), q∗(0.95)] = [−0.094, 0.344]
[approximation bootstrap non-parametrique]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Methode du bootstrap
Bootstrap parametrique
−0.2 −0.1 0.0 0.1 0.2 0.3 0.4
01
23
45
6
Intervalle normal a 2 SD
Intervalle bootstrap
nonparametrique
01
23
45
Intervalle normal a 2 SD
Intervalle bootstrap
parametrique
Intervalles de variation a 95% pour un echantillon de 150points et 400 repliques bootstrap (haut) non-parametriqueset (bas) parametriques
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Chapitre 4 :Statistique non–parametrique :
Rudiments
IntroductionEstimation de la densiteTests non-parametriques
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Introduction
Probleme :
Comment conduire une inference statistique quand on ne connaitpas la loi des observations X1, . . . , Xn ?
X1, . . . , Xni.i.d.∼ F
avec F inconnu
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Introduction
Probleme :
Comment conduire une inference statistique quand on ne connaitpas la loi des observations X1, . . . , Xn ?
X1, . . . , Xni.i.d.∼ F
avec F inconnu
Probleme non-parametrique par opposition au contexteparametrique ou F (·) = Gθ(·) et seul θ est inconnu.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Introduction
Inference statistique non–parametrique
Estimation d’une quantite dependant de F
θ(F ) =
∫h(x) dF (x)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Introduction
Inference statistique non–parametrique
Estimation d’une quantite dependant de F
θ(F ) =
∫h(x) dF (x)
Decision a propos d’une hypothese sur F
F ∈ F0 ? F == F0 ? θ(F ) ∈ Θ0 ?
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Introduction
Inference statistique non–parametrique
Estimation d’une quantite dependant de F
θ(F ) =
∫h(x) dF (x)
Decision a propos d’une hypothese sur F
F ∈ F0 ? F == F0 ? θ(F ) ∈ Θ0 ?
Estimation de fonctions dependant de F
F f(x) =dF
dx(x) EF [h(X1)|X2 = x]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Estimation de la densite
Pour estimer
f(x) =dF
dx(x)
[densite de X]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Estimation de la densite
Pour estimer
f(x) =dF
dx(x)
[densite de X]on peut songer a prendre
fn(x) =dFn
dx(x)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Estimation de la densite
Pour estimer
f(x) =dF
dx(x)
[densite de X]on peut songer a prendre
fn(x) =dFn
dx(x)
maisFn n’est pas derivable !
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Estimation par histogramme
Une premiere solution est de reproduire la representation enescalier de Fn pour f
fn(x) =k∑
i=1
ωiI[ai,ai+1[(x) a1 < . . . < ak+1
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Estimation par histogramme
Une premiere solution est de reproduire la representation enescalier de Fn pour f
fn(x) =k∑
i=1
ωiI[ai,ai+1[(x) a1 < . . . < ak+1
en choisissant les ωi tels que
k∑
i=1
ωi(ai+1 − ai) = 1 et ωi(ai+1 − ai) = PF (X ∈ [ai, ai+1[)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Estimation par histogramme (cont’d)
Par exemple,
ωi(ai+1 − ai) =1
n
n∑
i=1
I[ai,ai+1[(Xi)
= Fn(ai+1) − Fn(ai)
[bootstrap]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Estimation par histogramme (cont’d)
Par exemple,
ωi(ai+1 − ai) =1
n
n∑
i=1
I[ai,ai+1[(Xi)
= Fn(ai+1) − Fn(ai)
[bootstrap]est un estimateur convergent de PF (X ∈ [ai, ai+1[)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Estimation par histogramme (cont’d)
Par exemple,
ωi(ai+1 − ai) =1
n
n∑
i=1
I[ai,ai+1[(Xi)
= Fn(ai+1) − Fn(ai)
[bootstrap]est un estimateur convergent de PF (X ∈ [ai, ai+1[)
[Attention aux effets de bord !]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
hist(x)$density
En R, hist(x)$density donne les valeurs des ωi et hist(x)$breaks lesvaleurs des ai
Il est preferable d’utiliser les valeursproduites par hist(x)$density pourcontruire une fonction lineaire parmorceaux par plot(hist(x)$density)plutot qu’une fonction par escalier.
−2 −1 0 1 2 30
.00
.10
.20
.30
.40
.5
Estimateur par histogrammepour k = 45 et 450observations normales
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Interpretation probabiliste
Partant de fonctions en escalier, on aboutit a une representation dela loi approchee comme somme ponderee d’uniformes
k∑
i=1
πiU([ai, ai+1])
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Interpretation probabiliste
Partant de fonctions en escalier, on aboutit a une representation dela loi approchee comme somme ponderee d’uniformes
k∑
i=1
πiU([ai, ai+1])
Equivalent a une approximation lineaire par morceaux de lafonction de repartition
Fn(x) =n∑
i=1
πix − ai
ai+1 − aiI[ai,ai+1[(x)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Defauts
Depend du choix de la partition (ai)i, souvent construite enfonction des donnees (comme dans R)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Defauts
Depend du choix de la partition (ai)i, souvent construite enfonction des donnees (comme dans R)
Probleme des extremites a1 et ak+1 : ils ne peuvent pas etreinfinis (pourquoi?) mais doivent suffisamment approcher lesupport de f
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Defauts
Depend du choix de la partition (ai)i, souvent construite enfonction des donnees (comme dans R)
Probleme des extremites a1 et ak+1 : ils ne peuvent pas etreinfinis (pourquoi?) mais doivent suffisamment approcher lesupport de f
k et (ai)i doivent dependre de n pour permettre laconvergence de fn vers f
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Defauts
Depend du choix de la partition (ai)i, souvent construite enfonction des donnees (comme dans R)
Probleme des extremites a1 et ak+1 : ils ne peuvent pas etreinfinis (pourquoi?) mais doivent suffisamment approcher lesupport de f
k et (ai)i doivent dependre de n pour permettre laconvergence de fn vers f
mais... ai+1 − ai ne doit pas decroıtre trop vite vers 0 pourque l’estimation πi soit convergente : il faut suffisammentd’observations par intervalle [ai, ai+1]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Fenetres de Scott
Choix “optimal” de la largeur des classes :
hn = 3.5 σ n−1/3 et hn = 2.15 σ n−1/5
donnent les bonnes largeurs ai+1 − ai (nclass = range(x) / h) pourfn en escalier et lineaire par morceaux, respectivement. (Etassurent la convergence de fn vers f quand n tend vers ∞.)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Fenetres de Scott
Choix “optimal” de la largeur des classes :
hn = 3.5 σ n−1/3 et hn = 2.15 σ n−1/5
donnent les bonnes largeurs ai+1 − ai (nclass = range(x) / h) pourfn en escalier et lineaire par morceaux, respectivement. (Etassurent la convergence de fn vers f quand n tend vers ∞.)
[nclass=9 et nclass=12 dans l’exemple suivant]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
−2 −1 0 1 2 3
0.00
0.10
0.20
0.30
k = 5
−2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
k = 15
−2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
k = 25
−2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
k = 35
−2 −1 0 1 2 3
0.0
0.2
0.4
k = 45
−2 −1 0 1 2 3
0.0
0.2
0.4
k = 55
−2 −1 0 1 2 3
0.0
0.2
0.4
k = 65
−2 −1 0 1 2 3
0.0
0.2
0.4
k = 75
−2 −1 0 1 2 3
0.0
0.2
0.4
0.6
k = 85
Variation des estimateurs par histogramme en fonction de kpour un echantillon normal de 450 observations
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Estimateur du noyauPartant de la definition
f(x) =dF
dx(x) ,
on peut utiliser l’approximation
f(x) =Fn(x + δ) − Fn(x − δ)
2δ
=1
2δn
n∑
i=1
{IXi<x+δ − IXi<x−δ}
=1
2δn
n∑
i=1
I[−δ,δ](x − Xi)
pour δ assez petit.[Bon point : f est une densite]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Interpretation analytique et probabiliste
On a
fn(x) =Nb. observations proches de x
2δn
Cas particulier de l’estimateur par histogramme ou les ai sont de laforme Xj ± δ
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Interpretation analytique et probabiliste
On a
fn(x) =Nb. observations proches de x
2δn
Cas particulier de l’estimateur par histogramme ou les ai sont de laforme Xj ± δ
Representation de fn comme somme ponderee d’uniformes
1
n
n∑
i=1
U([Xi − δ, Xi + δ])
[Cf. lien avec bootstrap]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
−2 −1 0 1 2 3 4
0.0
0.2
0.4
0.6
0.8
bandwith 0.1
−2 0 2 4
0.0
0.1
0.2
0.3
0.4
bandwith 0.5
−2 0 2 4
0.00
0.10
0.20
0.30
bandwith 1
−10 −5 0 5 10
0.00
0.04
0.08
0.12
bandwith 10
Variation des estimateurs du noyau uniforme en fonction de δpour un echantillon non-normal de 200 observations
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Extension
Au lieu de considerer une approximation uniforme autour dechaque Xi, on peut utiliser une distribution plus lisse :
f(x) =1
δn
n∑
i=1
K
(x − Xi
δ
)
ou K est une densite de probabilite (noyau) et δ un facteurd’echelle “assez” petit.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Extension
Au lieu de considerer une approximation uniforme autour dechaque Xi, on peut utiliser une distribution plus lisse :
f(x) =1
δn
n∑
i=1
K
(x − Xi
δ
)
ou K est une densite de probabilite (noyau) et δ un facteurd’echelle “assez” petit.
En R, density(x)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Choix de noyaux
Toutes les densites sont en theorie acceptables. On utilise enpratique (et dans R)
le noyau normal [kernel=”gaussian” ou ”g”]
le noyau d’Epanechnikov [kernel=”epanechnikov” ou ”e”]
K(y) = C {1 − y2}2 I[−1,1](y)
le noyau triangulaire [kernel=”triangular” ou ”t”]
K(y) = (1 + y)I[−1,0](y) + (1 − y)I[0,1](y)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Choix de noyaux
Toutes les densites sont en theorie acceptables. On utilise enpratique (et dans R)
le noyau normal [kernel=”gaussian” ou ”g”]
le noyau d’Epanechnikov [kernel=”epanechnikov” ou ”e”]
K(y) = C {1 − y2}2 I[−1,1](y)
le noyau triangulaire [kernel=”triangular” ou ”t”]
K(y) = (1 + y)I[−1,0](y) + (1 − y)I[0,1](y)
Conclusion : Peu d’influence sur l’estimation de f (a l’exceptiondu noyau uniforme [kernel=”rectangular” ou ”r”]).
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
−4 −2 0 2 4 6
0.00
0.05
0.10
0.15
0.20
0.25
Noyau uniforme
−4 −2 0 2 4 6
0.00
0.05
0.10
0.15
0.20
0.25
Noyau triangulaire
−4 −2 0 2 4 6
0.00
0.05
0.10
0.15
0.20
0.25
Noyau normal
−4 −2 0 2 4 6
0.00
0.05
0.10
0.15
0.20
0.25
Noyau d’Epanechnikov
Variation des estimateurs du noyau en fonction du noyaupour un echantillon non-normal de 200 observations
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Convergence vers f
Choix de la fenetre δ crucial, par contre !
Si δ grand, beaucoup de Xi contribuent a l’estimation de f(x)[Over-smoothing]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Convergence vers f
Choix de la fenetre δ crucial, par contre !
Si δ grand, beaucoup de Xi contribuent a l’estimation de f(x)[Over-smoothing]
Si δ petit, peu de Xi contribuent a l’estimation de f(x)[Under-smoothing]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
−2 0 2 4
0.00
0.10
0.20
0.30
bandwith 0.5
−2 0 2 4
0.00
0.10
0.20
0.30
bandwith 1
−4 −2 0 2 4 6
0.00
0.05
0.10
0.15
0.20
0.25
bandwith 2.5
−6 −4 −2 0 2 4 6 8
0.00
0.05
0.10
0.15
0.20
bandwith 5
Variation de fn en fonction de δ pour un echantillonnon-normal de 200 observations
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Fenetre optimale
En etudiant l’erreur moyenne integree
d(f, fn) = E
[∫{f(x) − fn(x)}2 dx
],
on peut trouver un choix optimal pour la fenetre δ, notee hn poursouligner sa dependence a n.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Fenetre optimale (bis)
De la decomposition
∫ {f(x) − E
[f(x)
]}2dx +
∫var{f(x)}dx ,
[Biais2+variance]et des approximations
f(x) − E
[f(x)
]≃ f ′′(x)
2h2
n
E
[exp{−(Xi − x)2/2h2
n}√2πhn
]≃ f(x) ,
[Exercice]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Fenetre optimale (ter)
on en deduit que le biais est de l’ordre de
∫ {f ′′(x)
2
}2
dx h4n
et que le terme de variance est approximativement
1
nhn
√2π
∫f(x) dx =
1
nhn
√2π
[Exercice]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Fenetre optimale (fin)
Par consequent, l’erreur tend vers 0 quand n tend vers ∞ si
1 hn tend vers 0 et
2 nhn tend vers l’infini.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Fenetre optimale (fin)
Par consequent, l’erreur tend vers 0 quand n tend vers ∞ si
1 hn tend vers 0 et
2 nhn tend vers l’infini.
La fenetre optimale est donnee par
h⋆n =
(√2π
∫ {f ′′(x)
}2dx n
)−1/5
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Fenetre empirique
Comme la fenetre optimale depend de f inconnu, on utilise uneapproximation de la forme
hn =0.9 min(σ, q75 − q25)
(1.34n)1/5,
ou σ est l’ecart-type estime et q25 et q75 sont les quantiles a 25%et a 75% estimes.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Fenetre empirique
Comme la fenetre optimale depend de f inconnu, on utilise uneapproximation de la forme
hn =0.9 min(σ, q75 − q25)
(1.34n)1/5,
ou σ est l’ecart-type estime et q25 et q75 sont les quantiles a 25%et a 75% estimes.
Note : Les constantes 0.9 et 1.34 correspondent au noyau normal.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Estimation de la densite
Fenetre empirique
Comme la fenetre optimale depend de f inconnu, on utilise uneapproximation de la forme
hn =0.9 min(σ, q75 − q25)
(1.34n)1/5,
ou σ est l’ecart-type estime et q25 et q75 sont les quantiles a 25%et a 75% estimes.
Note : Les constantes 0.9 et 1.34 correspondent au noyau normal.
Warning! Cette formule n’est pas celle utilisee par defaut dans R
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
La problematique des tests statistiques
Face a une question sur F , commeEst ce que F est egale a F0, connue ?
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
La problematique des tests statistiques
Face a une question sur F , commeEst ce que F est egale a F0, connue ?
la reponse statistique se fonde sur les donnees
X1, . . . , Xn ∼ F
pour decider si oui ou non la question [l’hypothese] estcompatible avec ces donnees.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
La problematique des tests statistiques (bis)
Une procedure de test (ou test statistique) ϕ(x1, . . . , xn) est avaleurs dans {0, 1} (pour oui/non)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
La problematique des tests statistiques (bis)
Une procedure de test (ou test statistique) ϕ(x1, . . . , xn) est avaleurs dans {0, 1} (pour oui/non)
En prenant une decision sur la question sur F , on peut faire deuxerreurs :
1 refuser l’hypothese a tort (Type I)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
La problematique des tests statistiques (bis)
Une procedure de test (ou test statistique) ϕ(x1, . . . , xn) est avaleurs dans {0, 1} (pour oui/non)
En prenant une decision sur la question sur F , on peut faire deuxerreurs :
1 refuser l’hypothese a tort (Type I)
2 accepter l’hypothese a tort (Type II)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
La problematique des tests statistiques (bis)
Une procedure de test (ou test statistique) ϕ(x1, . . . , xn) est avaleurs dans {0, 1} (pour oui/non)
En prenant une decision sur la question sur F , on peut faire deuxerreurs :
1 refuser l’hypothese a tort (Type I)
2 accepter l’hypothese a tort (Type II)
Il faudrait donc balancer ces deux types d’erreur.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
La problematique des tests statistiques (ter)
En pratique, on se concentre sur le type I et on decide de rejeterl’hypothese seulement si les donnees semblent significativementincompatibles avec cette hypothese.
0 1 2 3 4
0.0
0.1
0.2
0.3
0.4
Acceptation
Rejet
Accepter une hypothese apres un test signifie seulement queles donnees n’ont pas rejete cette hypothese !!!
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Comparaison de distributions
Example (Deux distributions egales ?)
Soient deux echantillons X1, . . . , Xn et Y1, . . . , Ym, dedistributions respectives F et G, inconnues.Comment repondre a la question
F == G ?
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Example (Comparaison de distributions (suite))
Idee :
Comparer les estimateurs de F et G,
Fn(x) =1
n
n∑
i=1
IXi≤x et Gm(x) =1
m
m∑
i=1
IYi≤x
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Statistique de Kolmogorov–Smirnov
−4 −2 0 2 4 6
0.0
0.2
0.4
0.6
0.8
1.0
Meme distribution difference maximale 0.05
−4 −2 0 2 4 60.
00.
20.
40.
60.
81.
0
Deux distributions difference maximale 0.14
Evaluation via la difference
K(m, n) = maxx
∣∣∣Fn(x) − Gm(x)∣∣∣ = max
Xi,Yj
∣∣∣Fn(x) − Gm(x)∣∣∣
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
−4 −2 0 2 4 6
−0.0
20.
000.
020.
04
Meme distribution difference maximale 0.05
−4 −2 0 2 4 6
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
Deux distributions difference maximale 0.14
Evolution de la difference Fn(x)− Gm(x) pour deux situations
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Statistique de Kolmogorov–Smirnov (suite)
Utilisation :
Si K(m, n) “grand”, les distributions F et G sontsignificativement differentes.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Statistique de Kolmogorov–Smirnov (suite)
Utilisation :
Si K(m, n) “grand”, les distributions F et G sontsignificativement differentes.Si K(m, n) “petit”, on ne peut pas les distinguer au vu desechantillons X1, . . . , Xn et Y1, . . . , Ym, donc on “accepte” queF = G.
[Test de Kolmogorov–Smirnov]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Statistique de Kolmogorov–Smirnov (suite)
Utilisation :
Si K(m, n) “grand”, les distributions F et G sontsignificativement differentes.Si K(m, n) “petit”, on ne peut pas les distinguer au vu desechantillons X1, . . . , Xn et Y1, . . . , Ym, donc on “accepte” queF = G.
[Test de Kolmogorov–Smirnov]
En R, ks.test(x,y)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Calibration du test
A m et n donnes, si F = G, K(m, n) a la meme distribution pourtout F .
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Calibration du test
A m et n donnes, si F = G, K(m, n) a la meme distribution pourtout F .On peut se ramener a la comparaison de deux echantillonsuniformes et utiliser la simulation pour approcher la distribution deK(m, n) et ses quantiles.
m=200,n=200
0.05 0.10 0.15
05
1015 Valeur
observee
Quantile a 95%
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Calibration du test (suite)
Si K(m, n) observe depasse le quantile de K(m, n) sous H0 a 90ou 95 %, la valeur est tres improbable
si F = G
et on rejette l’hypothese d’egalite des deux distributions.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Calibration du test (suite)
Exemple de sortie R :Two-sample Kolmogorov-Smirnov testdata: z[, 1] and z[, 2]D = 0.05, p-value = 0.964alternative hypothesis: two.sided
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Calibration du test (suite)
Exemple de sortie R :Two-sample Kolmogorov-Smirnov testdata: z[, 1] and z[, 2]D = 0.05, p-value = 0.964alternative hypothesis: two.sidedp-value = 0.964 signifie que la probabilite que K(m, n) depasse lavaleur observee D = 0.05 est de 0.964, donc la valeur observee estpetite pour la distribution de K(m, n) : on accepte l’hypothesed’egalite.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Test d’independence
Example (Independence)
On cherche a tester l’independence entre deux v.a. X et Y enobservant les couples (X1, Y1), . . . , (Xn, Yn)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Test d’independence
Example (Independence)
On cherche a tester l’independence entre deux v.a. X et Y enobservant les couples (X1, Y1), . . . , (Xn, Yn)Question
X ⊥ Y ?
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Test de rang
Idee :
Si on range les Xi par ordre croissant
X(1) ≤ . . . X(n)
les rangs Ri (ordres apres rangement) des Yi correspondants,
Y[1], . . . , Y[n],
doivent etre completement aleatoires.
En R, rank(y[order(x)])
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Test de rang (suite)
Rang : On appelleR = (R1, . . . , Rn)
la statistique de rang de l’echantillon (Y[1], . . . Y[n])
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Test de rang (suite)
Rang : On appelleR = (R1, . . . , Rn)
la statistique de rang de l’echantillon (Y[1], . . . Y[n])La statistique de Spearman est
Sn =n∑
i=1
i Ri
[Correlation entre i et Ri]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Test de rang (suite)
Rang : On appelleR = (R1, . . . , Rn)
la statistique de rang de l’echantillon (Y[1], . . . Y[n])La statistique de Spearman est
Sn =n∑
i=1
i Ri
[Correlation entre i et Ri]On montre que, si X ⊥ Y ,
E[Sn] =n(n + 1)2
4var(Sn) =
n2(n + 1)2(n − 1)
144
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Statistique de Spearman
Distribution de Sn disponible par simulation [uniforme] ouapproximation normale
Distribution de S sur 500 echantillons de 200 points
−2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
Version recentree de la statistique de Spearman etapproximation normale
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Statistique de Spearman (suite)
On peut donc determiner les quantiles a 5% et 95% de Sn parsimulation et decider si la valeur observee de Sn est a l’interieur deces quantiles ( = on accepte l’independence) ou a l’exterieur ( =on rejette l’independence)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Tests multinomiaux
Example (Test du chi deux)
Une approche par histogramme permet d’apporter une reponserobuste aux problemes de test, comme par exemple a la question
L’echantillon X1, . . . , Xn est il normal N (0, 1) ?
Idee:
On remplace le probleme par sa forme discretisee a des intervalles[ai, ai+1]
Est ce que
P (Xi ∈ [ai, ai+1]) =
∫ ai+1
ai
exp(−x2/2)√2π
dxdef= pi ?
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Principe
Modelisation multinomiale
On se ramene toujours a un probleme d’adequation a une loimultinomiale
Mk
(p01, . . . , p
0k
)
ou a une famille de lois multinomiales
Mk (p1(θ), . . . , pk(θ)) θ ∈ Θ
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Exemples
Dans le cas de l’adequation a la loi normale standard,N (0, 1), k est determine par le nombre d’intervalles [ai, ai+1]et les p0
i par
p0i =
∫ ai+1
ai
exp(−x2/2)√2π
dx
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Exemples
Dans le cas de l’adequation a la loi normale standard,N (0, 1), k est determine par le nombre d’intervalles [ai, ai+1]et les p0
i par
p0i =
∫ ai+1
ai
exp(−x2/2)√2π
dx
Dans le cas de l’adequation a une loi normale, N (θ, 1), lespi(θ) sont donnes par
pi(θ) =
∫ ai+1
ai
exp(−(x − θ)2/2)√2π
dx
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Exemples (suite)
Dans le cas d’un test d’independence entre deux variables, Xet Y ,
X ⊥ Y ?
k est le nombre de cubes [ai, ai+1] × [bi, bi+1], θ est definicomme
θ1i = P (X ∈ [ai, ai+1]) θ2i = P (Y ∈ [bi, bi+1])
et
pi,j(θ)def= P (X ∈ [ai, ai+1], Y ∈ [bi, bi+1])
= θ1i × θ2j
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Test du chi-deuxL’estimateur naturel des pi est
pi = P (X ∈ [ai, ai+1]) = Fn(ai+1) − Fn(ai)
[Cf. bootstrap]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Test du chi-deuxL’estimateur naturel des pi est
pi = P (X ∈ [ai, ai+1]) = Fn(ai+1) − Fn(ai)
[Cf. bootstrap]La statistique du chi-deux est
Sn = nk∑
i=1
(pi − p0i )
2
p0i
=
k∑
i=1
(ni − np0i )
2
np0i
si on teste l’adequation a une loi multinomiale
Mk
(p01, . . . , p
0k
)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Test du chi-deux (suite)
et
Sn = nk∑
i=1
(pi − pi(θ))2
pi(θ)
=k∑
i=1
(ni − npi(θ))2
npi(θ)
si on teste l’adequation a une famille de lois multinomiales
Mk (p1(θ), . . . , pk(θ)) θ ∈ Θ
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Loi approchee
Pour l’adequation a une loi multinomiale, la loi de Sn estapproximativement (pour n grand)
Sn ∼ χ2k−1
et pour l’adequation a une famille de lois multinomiales, avecdim(θ) = p,
Sn ∼ χ2k−p−1
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
0 5 10 15 20
0.00
0.05
0.10
0.15
0.20
0.25
Distributions of Sn
Distribution de Sn pour 200 echantillons normaux de 100points et un test d’adequation a N (0, 1) avec k = 4
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Utilisation et limitations
On rejette l’hypothese testee si Sn est trop grande pour une loiχ2
k−1 ou χ2k−p−1
[En R, pchisq(S)]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
Utilisation et limitations
On rejette l’hypothese testee si Sn est trop grande pour une loiχ2
k−1 ou χ2k−p−1
[En R, pchisq(S)]La convergence (en n) vers une loi χ2
k−1 (ou χ2k−p−1) n’est etablie
que pour k et (ai) fixes. En pratique, on choisit k et (ai) enfonction des observations, ce qui diminue la validite del’approximation.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–parametrique
Tests non-parametriques
−4 −2 0 2 4
−2−1
01
23
Normal Q−Q Plot
Quantile normal
Quan
tile o
bser
ve
0 5000 10000 15000 200000
5010
015
020
0
n
S n
QQ-plot d’un echantillon non-normal et evolution de Sn enfonction de n pour cet echantillon