125

Rappel sur les concepts de base de statistiques et ...preredd.comifac.org/carbone/phocadownload/Formation/AnalyseDonne… · Rappel sur les concepts de base de statistiques et statistiques

  • Upload
    voque

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Rappel sur les concepts de base de statistiques etstatistiques descriptives

Atelier de formation à l'analyse des données pour l'estimation des

stocks de carbone forestier, 30 juin�4 juillet 2014, Yaoundé

Nicolas Picard

[email protected]

Projet de renforcement des capacités institutionnelles en matière de

REDD+ pour la gestion durable des forêts dans le bassin du Congo

PREREDD (COMIFAC) Rappel sur les concepts de base de statistiques et statistiques descriptivesI 1 / 9

Panorama des statistiques et rappels

1 Panorama

2 Rappels de probabilités

3 Lois usuelles

4 Statistiques descriptives : cas unidimensionnel

5 Statistiques descriptives : cas multidimensionnel

6 Conclusion

Nicolas Picard (CIRAD / IRET) December 1, 2011 1 / 106

Utilité des statistiques en foresterieQuelques exemples

Inventorier une ressource forestière (stock de bois. . . )I on ne peut pas tout mesurerZ quelle règle d’échantillonnage pour estimer la ressource avec une

précision donnée ?

Mesurer des arbres (dendrométrie)I tarifs de cubage : prédire le volume en fonction du diamètre et/ou

de la hauteurI relation hauteur / diamètreZ comment établir une relation alors qu’il y a naturellement de la

variabilité ?

Nicolas Picard (CIRAD / IRET) December 1, 2011 2 / 106

Utilité des statistiques en foresterieQuelques exemples

Inventorier une ressource forestière (stock de bois. . . )I on ne peut pas tout mesurerZ quelle règle d’échantillonnage pour estimer la ressource avec une

précision donnée ?

å échantillonnageMesurer des arbres (dendrométrie)

I tarifs de cubage : prédire le volume en fonction du diamètre et/oude la hauteur

I relation hauteur / diamètreZ comment établir une relation alors qu’il y a naturellement de la

variabilité ?

å modélisation

Nicolas Picard (CIRAD / IRET) December 1, 2011 2 / 106

Utilité des statistiques en foresterieQuelques exemples (suite)

Comprendre l’écologie des espècesI relation sol / espèceZ comment tester une relation qui n’est pas univoque ?

Analyser des données d’inventaire d’aménagementI décrire la structuration des donnéesI définir des types de formations végétalesZ comment extraire l’information d’une masse de données ?Z comment classer des observations ?

Nicolas Picard (CIRAD / IRET) December 1, 2011 3 / 106

Utilité des statistiques en foresterieQuelques exemples (suite)

Comprendre l’écologie des espècesI relation sol / espèceZ comment tester une relation qui n’est pas univoque ?

å test statistiqueAnalyser des données d’inventaire d’aménagement

I décrire la structuration des donnéesI définir des types de formations végétalesZ comment extraire l’information d’une masse de données ?Z comment classer des observations ?

å statistiques descriptives (analyses multivariées)

Nicolas Picard (CIRAD / IRET) December 1, 2011 3 / 106

Statistiques et probabilités

Probabilité : théorie mathématique traitant des événementsaléatoiresStatistique : dès que l’on a affaire à des observations, des données

Z les statistiques s’appuient sur les probabilités. . .mais une partie des statistiques (en particulier les statistiquesdescriptives) ne font pas référence aux probabilités

Ce cours n’est pas un cours de mathématiques :approche intuitivesavoir quand utiliser les méthodes adéquatessavoir interpréter les résultatssavoir chercher de l’aide pour les analyses plus poussées !

Nicolas Picard (CIRAD / IRET) December 1, 2011 4 / 106

Panorama : probabilités

Probabilités

Variablealéatoire• fonction de

répartition• densité• moments• lois continues• lois discrètes• fonction

caractéristique

Couplede VA• loi jointe• loi marginale• loi condition-

-nelle

Vecteuraléatoire

Processusaléatoire• processus

temporel• processus

ponctuel

Nicolas Picard (CIRAD / IRET) December 1, 2011 5 / 106

Panorama : probabilités

Probabilités

Variablealéatoire• fonction de

répartition• densité• moments• lois continues• lois discrètes• fonction

caractéristique

Couplede VA• loi jointe• loi marginale• loi condition-

-nelle

Vecteuraléatoire

Processusaléatoire• processus

temporel• processus

ponctuel

Nicolas Picard (CIRAD / IRET) December 1, 2011 5 / 106

Panorama : probabilités

Probabilités

Variablealéatoire• fonction de

répartition• densité• moments• lois continues• lois discrètes• fonction

caractéristique

Couplede VA• loi jointe• loi marginale• loi condition-

-nelle

Vecteuraléatoire

Processusaléatoire• processus

temporel• processus

ponctuel

Nicolas Picard (CIRAD / IRET) December 1, 2011 5 / 106

Panorama : probabilités

Probabilités

Variablealéatoire• fonction de

répartition• densité• moments• lois continues• lois discrètes• fonction

caractéristique

Couplede VA• loi jointe• loi marginale• loi condition-

-nelle

Vecteuraléatoire

Processusaléatoire• processus

temporel• processus

ponctuel

Nicolas Picard (CIRAD / IRET) December 1, 2011 5 / 106

Panorama : probabilités

Probabilités

Variablealéatoire• fonction de

répartition• densité• moments• lois continues• lois discrètes• fonction

caractéristique

Couplede VA• loi jointe• loi marginale• loi condition-

-nelle

Vecteuraléatoire

Processusaléatoire• processus

temporel• processus

ponctuel

Nicolas Picard (CIRAD / IRET) December 1, 2011 5 / 106

Panorama : probabilités

Probabilités

Variablealéatoire• fonction de

répartition• densité• moments• lois continues• lois discrètes• fonction

caractéristique

Couplede VA• loi jointe• loi marginale• loi condition-

-nelle

Vecteuraléatoire

Processusaléatoire• processus

temporel• processus

ponctuel

Variablealéatoire• fonction de

répartition• densité• moments• lois continues• lois discrètes• fonction

caractéristique

Couplede VA• loi jointe• loi marginale• loi condition-

-nelle

Vecteuraléatoire

Journée 1

Nicolas Picard (CIRAD / IRET) December 1, 2011 5 / 106

Panorama : statistique exploratoire

Statistique exploratoire

Statistiques descriptives Analyses multivariées

Description d’une variable

• moyenne• médiane• quantiles• écart-type• graphiques

Liaison entre deux variables

• graphiques• numériques• ordinales• qualitatives• quantitative et qualitative

Analyse d’untableau

• ACP• AFC• AFCM

Couplage de2 tableaux• variables

instrumentales• co-inertie• canonique

Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106

Panorama : statistique exploratoire

Statistique exploratoire

Statistiques descriptives Analyses multivariées

Description d’une variable

• moyenne• médiane• quantiles• écart-type• graphiques

Liaison entre deux variables

• graphiques• numériques• ordinales• qualitatives• quantitative et qualitative

Analyse d’untableau

• ACP• AFC• AFCM

Couplage de2 tableaux• variables

instrumentales• co-inertie• canonique

Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106

Panorama : statistique exploratoire

Statistique exploratoire

Statistiques descriptives Analyses multivariées

Description d’une variable

• moyenne• médiane• quantiles• écart-type• graphiques

Liaison entre deux variables

• graphiques• numériques• ordinales• qualitatives• quantitative et qualitative

Analyse d’untableau

• ACP• AFC• AFCM

Couplage de2 tableaux• variables

instrumentales• co-inertie• canonique

Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106

Panorama : statistique exploratoire

Statistique exploratoire

Statistiques descriptives Analyses multivariées

Description d’une variable

• moyenne• médiane• quantiles• écart-type• graphiques

Liaison entre deux variables

• graphiques• numériques• ordinales• qualitatives• quantitative et qualitative

Description d’une variable

• moyenne• médiane• quantiles• écart-type• graphiques

Liaison entre deux variables

• graphiques• numériques• ordinales• qualitatives• quantitative et qualitative

Journée 1

Analyse d’untableau

• ACP• AFC• AFCM

Couplage de2 tableaux• variables

instrumentales• co-inertie• canonique

Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106

Panorama : statistique exploratoire

Statistique exploratoire

Statistiques descriptives Analyses multivariées

Description d’une variable

• moyenne• médiane• quantiles• écart-type• graphiques

Liaison entre deux variables

• graphiques• numériques• ordinales• qualitatives• quantitative et qualitative

Analyse d’untableau

• ACP• AFC• AFCM

Couplage de2 tableaux• variables

instrumentales• co-inertie• canonique

Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106

Panorama : statistique exploratoire

Statistique exploratoire

Statistiques descriptives Analyses multivariées

Description d’une variable

• moyenne• médiane• quantiles• écart-type• graphiques

Liaison entre deux variables

• graphiques• numériques• ordinales• qualitatives• quantitative et qualitative

Analyse d’untableau

• ACP• AFC• AFCM

Couplage de2 tableaux• variables

instrumentales• co-inertie• canonique

Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106

Panorama : statistique exploratoire

Statistique exploratoire

Statistiques descriptives Analyses multivariées

Description d’une variable

• moyenne• médiane• quantiles• écart-type• graphiques

Liaison entre deux variables

• graphiques• numériques• ordinales• qualitatives• quantitative et qualitative

Analyse d’untableau

• ACP• AFC• AFCM

Couplage de2 tableaux• variables

instrumentales• co-inertie• canonique

Classificationautomatique• hiérarchique• non hiérarchique

Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106

Panorama : statistique exploratoire

Statistique exploratoire

Statistiques descriptives Analyses multivariées

Description d’une variable

• moyenne• médiane• quantiles• écart-type• graphiques

Liaison entre deux variables

• graphiques• numériques• ordinales• qualitatives• quantitative et qualitative

Analyse d’untableau

• ACP• AFC• AFCM

Couplage de2 tableaux• variables

instrumentales• co-inertie• canonique

Analyse d’untableau

• ACP• AFC• AFCM

Couplage de2 tableaux• variables

instrumentales• co-inertie• canonique

Classificationautomatique• hiérarchique• non hiérarchique

Journées 5 & 6

Nicolas Picard (CIRAD / IRET) December 1, 2011 6 / 106

Panorama : statistique inférentielle

Statistique inférentielle (1)

Distribution d’unéchantillon

• fonction derépartitionempirique

• moyenneempirique

• varianceempirique

• échantillongaussien

Estimation

• maximum devraisemblance

• moments• intervalle de

confiance• taille de

population

Échantillonnage

Nicolas Picard (CIRAD / IRET) December 1, 2011 7 / 106

Panorama : statistique inférentielle

Statistique inférentielle (1)

Distribution d’unéchantillon

• fonction derépartitionempirique

• moyenneempirique

• varianceempirique

• échantillongaussien

Estimation

• maximum devraisemblance

• moments• intervalle de

confiance• taille de

population

Échantillonnage

Nicolas Picard (CIRAD / IRET) December 1, 2011 7 / 106

Panorama : statistique inférentielle

Statistique inférentielle (1)

Distribution d’unéchantillon

• fonction derépartitionempirique

• moyenneempirique

• varianceempirique

• échantillongaussien

Estimation

• maximum devraisemblance

• moments• intervalle de

confiance• taille de

population

Échantillonnage

Nicolas Picard (CIRAD / IRET) December 1, 2011 7 / 106

Panorama : statistique inférentielle

Statistique inférentielle (1)

Distribution d’unéchantillon

• fonction derépartitionempirique

• moyenneempirique

• varianceempirique

• échantillongaussien

Estimation

• maximum devraisemblance

• moments• intervalle de

confiance• taille de

population

Échantillonnage

Nicolas Picard (CIRAD / IRET) December 1, 2011 7 / 106

Panorama : statistique inférentielle

Statistique inférentielle (1)

Distribution d’unéchantillon

• fonction derépartitionempirique

• moyenneempirique

• varianceempirique

• échantillongaussien

Estimation

• maximum devraisemblance

• moments• intervalle de

confiance• taille de

population

Échantillonnage

Tests

• ajustement• comparaison de

2 moyennes• comparaison

multiplede moyennes

• comparaison devariance

• du χ2

Nicolas Picard (CIRAD / IRET) December 1, 2011 7 / 106

Panorama : statistique inférentielle

Statistique inférentielle (1)

Distribution d’unéchantillon

• fonction derépartitionempirique

• moyenneempirique

• varianceempirique

• échantillongaussien

Estimation

• maximum devraisemblance

• moments• intervalle de

confiance• taille de

population

Échantillonnage

Tests

• ajustement• comparaison de

2 moyennes• comparaison

multiplede moyennes

• comparaison devariance

• du χ2

Journée 2

Nicolas Picard (CIRAD / IRET) December 1, 2011 7 / 106

Panorama : statistique inférentielle (suite)

Statistique inférentielle (2)

Modèle linéaire

• analyse de varianceà un facteur

• analyse de varianceà n facteurs

• régression simple• régression multiple• analyse de covariance• cas général

Dispositifs expérimentaux

Modèle nonlinéaire

Analysediscriminante

Nicolas Picard (CIRAD / IRET) December 1, 2011 8 / 106

Panorama : statistique inférentielle (suite)

Statistique inférentielle (2)

Modèle linéaire

• analyse de varianceà un facteur

• analyse de varianceà n facteurs

• régression simple• régression multiple• analyse de covariance• cas général

Dispositifs expérimentaux

Modèle nonlinéaire

Analysediscriminante

Nicolas Picard (CIRAD / IRET) December 1, 2011 8 / 106

Panorama : statistique inférentielle (suite)

Statistique inférentielle (2)

Modèle linéaire

• analyse de varianceà un facteur

• analyse de varianceà n facteurs

• régression simple• régression multiple• analyse de covariance• cas général

Dispositifs expérimentaux

Modèle nonlinéaire

Analysediscriminante

Nicolas Picard (CIRAD / IRET) December 1, 2011 8 / 106

Panorama : statistique inférentielle (suite)

Statistique inférentielle (2)

Modèle linéaire

• analyse de varianceà un facteur

• analyse de varianceà n facteurs

• régression simple• régression multiple• analyse de covariance• cas général

Dispositifs expérimentaux

Modèle nonlinéaire

Analysediscriminante

Nicolas Picard (CIRAD / IRET) December 1, 2011 8 / 106

Panorama : statistique inférentielle (suite)

Statistique inférentielle (2)

Modèle linéaire

• analyse de varianceà un facteur

• analyse de varianceà n facteurs

• régression simple• régression multiple• analyse de covariance• cas général

Dispositifs expérimentaux

Modèle nonlinéaire

Analysediscriminante

Nicolas Picard (CIRAD / IRET) December 1, 2011 8 / 106

Panorama : statistique inférentielle (suite)

Statistique inférentielle (2)

Modèle linéaire

• analyse de varianceà un facteur

• analyse de varianceà n facteurs

• régression simple• régression multiple• analyse de covariance• cas général

Dispositifs expérimentaux

Modèle nonlinéaire

Analysediscriminante

Modèle linéaire

• analyse de varianceà un facteur

• analyse de varianceà n facteurs

• régression simple• régression multiple• analyse de covariance• cas général Journées 3 & 4

Nicolas Picard (CIRAD / IRET) December 1, 2011 8 / 106

Et encore :

Statistique bayésienneSéries chronologiquesStatistiques spatiales :

I géostatistiqueI processus ponctuelsI lattices

Etc, etc.

Nicolas Picard (CIRAD / IRET) December 1, 2011 9 / 106

Panorama des statistiques et rappels

1 Panorama

2 Rappels de probabilités

3 Lois usuelles

4 Statistiques descriptives : cas unidimensionnel

5 Statistiques descriptives : cas multidimensionnel

6 Conclusion

Nicolas Picard (CIRAD / IRET) December 1, 2011 10 / 106

Probabilités : les basesApproche fréquentiste

Événement aléatoire défini par :I ses réalisations possiblesI la probabilité associée à chaque réalisation

Exemple : dé à 6 facesSi on note A1, . . . , An les réalisations possibles et Pr la mesure deprobabilité :

Pr(Ai ∪Aj) = Pr(Ai) + Pr(Aj) (i 6= j)n∑

i=1

Pr(Ai) = 1

Nicolas Picard (CIRAD / IRET) December 1, 2011 11 / 106

Probabilité conditionnelle et indépendance

Soient A et B deux événements aléatoiresProbabilité conditionnelle de A sachant B :

Pr(A|B) =Pr(A ∩B)

Pr(B)

Indépendance de A par rapport à B :

Pr(A|B) = Pr(A)

A indépendant de B :B indépendant de A

Pour des événements indépendants :

Pr(A ∩B) = Pr(A)× Pr(B)

Nicolas Picard (CIRAD / IRET) December 1, 2011 12 / 106

Variable aléatoireDéfinition

Application qui associe à chaque réalisation d’un événementaléatoire une valeur numérique (réelle)Exemple : dé à 6 faces ; on y associe X ∈ {1, 2, 3, 4, 5, 6}Exemple : statut d’un arbre pris au hasard en forêt

I dominant → 1I co-dominant → 2I dominé → 3

Exemple : diamètre d’un arbre pris au hasard en forêtD ∈ [dmin; +∞[

Nicolas Picard (CIRAD / IRET) December 1, 2011 13 / 106

Variable aléatoireDéfinition

Application qui associe à chaque réalisation d’un événementaléatoire une valeur numérique (réelle)Exemple : dé à 6 faces ; on y associe X ∈ {1, 2, 3, 4, 5, 6}Exemple : statut d’un arbre pris au hasard en forêt

I dominant → 1I co-dominant → 2I dominé → 3

Exemple : diamètre d’un arbre pris au hasard en forêtD ∈ [dmin; +∞[

Nicolas Picard (CIRAD / IRET) December 1, 2011 13 / 106

Variable aléatoireDéfinition

Application qui associe à chaque réalisation d’un événementaléatoire une valeur numérique (réelle)Exemple : dé à 6 faces ; on y associe X ∈ {1, 2, 3, 4, 5, 6}Exemple : statut d’un arbre pris au hasard en forêt

I dominant → 1I co-dominant → 2I dominé → 3

Exemple : diamètre d’un arbre pris au hasard en forêtD ∈ [dmin; +∞[

Nicolas Picard (CIRAD / IRET) December 1, 2011 13 / 106

Fonction de répartition

Définition :F (x) = Pr(X < x)

Fonction à valeurs dans [0, 1] monotone croissantePropriété :

Pr(a ≤ X < b) = F (b)− F (a)

Nicolas Picard (CIRAD / IRET) December 1, 2011 14 / 106

Différents types de variable

Variable discrèteI Variable ordinale

Exemple : statut de l’arbredominant > co-dominant > dominé

I Variable nominaleExemple : couleur du feuillagevert clair → 1 vert clair → 4vert foncé→ 2 ou bien vert foncé→ 8jaune → 3 jaune → 5

Variable continueExemple : diamètre

Nicolas Picard (CIRAD / IRET) December 1, 2011 15 / 106

Variable aléatoire discrèteLoi de probabilité

On indexe les modalités de la variable par des entiers 1, 2, 3, . . . , mLoi de probabilité : définie par Pr(X = i) pour tout i = 1, . . . ,m

Exemple : somme du lancer de deux dés à 6 faces

2 4 6 8 10 12

0.00

0.05

0.10

0.15

Pro

babi

lité

1/36

2/36

3/36

4/36

5/36

6/36

5/36

4/36

3/36

2/36

1/36

Nicolas Picard (CIRAD / IRET) December 1, 2011 16 / 106

Variable aléatoire discrèteFonction de répartition

Exemple : somme du lancer de deux dés à 6 faces

2 4 6 8 10 12

0.0

0.2

0.4

0.6

0.8

1.0

Pro

babi

lité

1/36

3/36

6/36

10/36

15/36

21/36

26/36

30/36

33/36

35/36

Nicolas Picard (CIRAD / IRET) December 1, 2011 17 / 106

Variable aléatoire continueLoi de probabilité

Densité de probabilité :

Pr(x < X < x+ dx) = f(x) dx

Fonction de répartition :

F (b) =

∫ b

−∞f(x) dx

En d’autres termes :f(x) = F ′(x)

Nicolas Picard (CIRAD / IRET) December 1, 2011 18 / 106

Variable aléatoire continueExemple

X défini par :

Pr(X > x) =

{exp(−λx)1

f(x) =

{λ exp(−λx) (x ≥ 0)0 (x < 0)

x

Pr(a < X < b)

a b0

λ

0

f(x)

x

0

1

0

F(x)

Nicolas Picard (CIRAD / IRET) December 1, 2011 19 / 106

Changement de variable

Nouvelle variable aléatoire Y = ϕ(X) avec ϕ bijectiveFonction de répartition de Y :

G(y) =

{F (ϕ−1(y)) (ϕ croissante)1− F (ϕ−1(y)) (ϕ décroissante)

Densité de Y :

g(y) =f [ϕ−1(y)]

|ϕ′[ϕ−1(y)]|

Nicolas Picard (CIRAD / IRET) December 1, 2011 20 / 106

Indépendance de deux variables aléatoires

X et Y sont indépendantes si et seulement si :Fonction de répartition du couple (X,Y ) :

H(x, y) = Pr(X < x et Y < y) = F (x)G(y)

Densité du couple (X,Y ) :

h(x, y) = f(x) g(y)

Nicolas Picard (CIRAD / IRET) December 1, 2011 21 / 106

Moments d’une variable aléatoire

Moment non centré d’ordre p :

mp =

∫ ∞

−∞xp f(x) dx

Moment centré d’ordre p :

µp =

∫ ∞

−∞(x−m1)

p f(x) dx

Par définition, le moment non centré d’ordre 1 s’appelle l’espéranceNotation : E(X)

Par définition, le moment centré d’ordre 2 s’appelle la varianceNotation : Var(X)

Nicolas Picard (CIRAD / IRET) December 1, 2011 22 / 106

Espérance

Interprétation : tirons n valeurs de X de façon indépendante :x1, x2, . . . , xn

Z la moyenne empirique (x1 + x2 + . . .+ xn)/n converge vers E(X)

Espérance d’une somme de deux variables aléatoires :

E(X + Y ) = E(X) + E(Y )

Espérance d’un produit de deux variables aléatoires :

X et Y indépendantes : E(XY ) = E(X)E(Y )

Nicolas Picard (CIRAD / IRET) December 1, 2011 23 / 106

Espérance d’une fonction d’une variable aléatoire

Changement de variable Y = ϕ(X) (pas forcément bijective)Espérance :

E[ϕ(X)] =

∫ ∞

−∞ϕ(x) f(x) dx

Exemple : moment non centré d’ordre p = E(Xp)

Nicolas Picard (CIRAD / IRET) December 1, 2011 24 / 106

Variance

Variance :Var(X) = E[(X − E(X))2]

Z mesure la dispersion autour de l’espéranceAutre expression équivalente :

Var(X) = E(X2)− [E(X)]2

« espérance du carré moins le carré de l’espérance »Écart-type : σ =

√Var(X)

Variance d’une somme de variables aléatoires :

X et Y indépendantes : Var(X + Y ) = Var(X) + Var(Y )

� Unités : si X en m, Var(X) en m2 (mais σ en m)

Nicolas Picard (CIRAD / IRET) December 1, 2011 25 / 106

Quantiles et médiane

quantile d’ordre q = F−1(q)

c’est la probabilité p telleque Pr(X < p) = q

médiane = quantile 50%

0.0

0.2

0.4

0.6

0.8

1.0

x

F(x

)1e

r qua

rtile

méd

iane

3e q

uarti

le

Nicolas Picard (CIRAD / IRET) December 1, 2011 26 / 106

Mode(s)

Mode = maximum (local) de la densité de distribution

x

f(x)

Nicolas Picard (CIRAD / IRET) December 1, 2011 27 / 106

Couple de variables aléatoires

fonction de répartition :

H(x, y) = Pr(X < x et Y < y)

densité de distribution (variables continues) :

h(x, y) =∂2H

∂x∂y

densités marginales :

f(x) =

Rh(x, y) dy F (x) = H(x,∞)

g(y) =

Rh(x, y) dx G(y) = H(∞, y)

Nicolas Picard (CIRAD / IRET) December 1, 2011 28 / 106

Couple de VA : covariance

Covariance :

Cov(X,Y ) = E[(X − E(X)) (Y − E(Y ))]

Autre expression équivalente :

Cov(X,Y ) = E(XY )− E(X)E(Y )

Si X et Y sont indépendants, alors Cov(X,Y ) = 0

Cov(X,X) = Var(X)

Nicolas Picard (CIRAD / IRET) December 1, 2011 29 / 106

Vecteur aléatoire

généralise le couple de variables aléatoires à p variables aléatoiresX = (X1, X2, . . . , Xp)

fonction de répartition :

F (x1, x2, . . . , xp) = Pr(X1 < x1 et X2 < x2 et . . . et Xp < xp)

densité de distribution :

f(x1, x2, . . . , xp) =∂pF

∂x1 ∂x2 . . . ∂xp

Nicolas Picard (CIRAD / IRET) December 1, 2011 30 / 106

Vecteur aléatoire : moments d’ordre 1 et 2

espérance : vecteur de longueur p

E(X1, X2, . . . , Xp) = (E(X1),E(X2), . . . ,E(Xp)) = m

matrice de variance-covariance : matrice p× p

Cov(X) =

σ21 Cov(X1, X2) . . . Cov(X1, Xp)

Cov(X2, X1) σ22

......

. . .Cov(Xp, X1) . . . σ2

p

= E(XtX)−mtm

Z matrice symétriqueZ matrice diagonale si X1, . . . , Xm mutuellement indépendants

Nicolas Picard (CIRAD / IRET) December 1, 2011 31 / 106

Panorama des statistiques et rappels

1 Panorama

2 Rappels de probabilités

3 Lois usuelles

4 Statistiques descriptives : cas unidimensionnel

5 Statistiques descriptives : cas multidimensionnel

6 Conclusion

Nicolas Picard (CIRAD / IRET) December 1, 2011 32 / 106

Loi uniforme (U)Lois discrètes

Ex.: dé à n facesparamètre : n

X ∈ {1, 2, 3, . . . , n}Pr(X = k) =

1

npour tout k

E(X) =n+ 1

2

Var(X) =n2 − 1

21 2 3 4 5 6

0.00

0.05

0.10

0.15

x

Pr(X

=x)

Nicolas Picard (CIRAD / IRET) December 1, 2011 33 / 106

Loi de BernoulliLois discrètes

Ex.: lancer d’une pièce(pile ou face)Ex.: survie d’un arbreparamètre : p

X ∈ {0, 1}Pr(X = 1) = p (0 < p < 1)E(X) = p

Var(X) = p(1− p)−0.5 0.0 0.5 1.0 1.5

0.0

0.2

0.4

0.6

x

Pr(X

=x)

Nicolas Picard (CIRAD / IRET) December 1, 2011 34 / 106

Loi binomiale (B)Lois discrètes

Ex.: nombre d’arbres mortsparamètres : n et p

somme de n variables indépendantes et identiquement distribuées(i.i.d) ∼ Bernoulli(p)X ∈ {0, 1, . . . , n}Pr(X = k) = Ck

npk(1− p)n−k

E(X) = np

Var(X) = np(1− p)

propriété d’additivité :

X ∼ B(n, p)Y ∼ B(m, p)X et Y indépendantes

: X + Y ∼ B(n+m, p)

Nicolas Picard (CIRAD / IRET) December 1, 2011 35 / 106

Loi binomiale (B) (suite)

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

0.5

0.6

x

Pr(X

=x)

n = 10p = 0.05

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

x

Pr(X

=x)

n = 10p = 0.1

0 2 4 6 8 10

0.00

0.10

0.20

0.30

x

Pr(X

=x)

n = 10p = 0.2

0 2 4 6 8 10

0.00

0.05

0.10

0.15

0.20

0.25

x

Pr(X

=x)

n = 10p = 0.5

Nicolas Picard (CIRAD / IRET) December 1, 2011 36 / 106

Loi de Poisson (P)Lois discrètes

paramètre : µ

X ∈ N

Pr(X = k) = exp(−µ)µk

k!E(X) = Var(X) = µ

Loi de référence pour les variables de comptageSi E(X) < Var(X), sous-dispersionSi E(X) > Var(X), sur-dispersionpropriété d’additivité :

X ∼ P(µ)Y ∼ P(λ)X et Y indépendantes

: X + Y ∼ P(λ+ µ)

Nicolas Picard (CIRAD / IRET) December 1, 2011 37 / 106

Loi de Poisson (P) (suite)

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

0.5

0.6

x

Pr(X

=x)

µ = 0.5

0 2 4 6 8 10

0.00

0.10

0.20

0.30

x

Pr(X

=x)

µ = 1.5

0 2 4 6 8 10

0.00

0.05

0.10

0.15

0.20

x

Pr(X

=x)

µ = 3

0 2 4 6 8 10

0.00

0.05

0.10

0.15

x

Pr(X

=x)

µ = 5

Nicolas Picard (CIRAD / IRET) December 1, 2011 38 / 106

Origines de la loi de Poisson

1 Limite d’une loi binomiale : soit un événement A de probabilité ptrès faible (< 0.1) que l’on essaie d’obtenir quelques fois enrépétant l’expérience un grande nombre de fois (n > 50). Lenombre de réalisations de A suit une loi binomiale B(n, p) avec :

B(n, p) ≈ P(np)

2 Processus temporel de Poisson :I temps d’attente indépendantsI la loi du nombre d’événements arrivant dans l’intervalle {t; t+ T}

ne dépend que de TI deux événements ne peuvent pas arriver simultanément

Alors le nombre d’événements suit une loi de Poisson3 Processus spatial de Poisson

Nicolas Picard (CIRAD / IRET) December 1, 2011 39 / 106

Autres loi discrètes

loi géométriqueloi hypergéométriqueloi de Pascalloi binomiale négativeetc. (N.ML. Johnson, A.W. Kemp & S. Kotz, 2005, UnivariateDiscrete Distributions, 3e édition, John Wiley & Sons, New York,646 p.)

Nicolas Picard (CIRAD / IRET) December 1, 2011 40 / 106

Loi uniformeLois continues

paramètre : a et b

X ∈ [a, b]

f(x) = 1/(b− a) pourx ∈ [a, b], 0 sinonF (x) = (x− a)/(b− a)pour x ∈ [a, b]

E(X) = (a+ b)/2

Var(X) = (b− a)2/12

x

f(x)

a b

1

b − a

Nicolas Picard (CIRAD / IRET) December 1, 2011 41 / 106

Loi exponentielleLois continues

paramètre : µ

X > 0

f(x) = µ exp(−µx) pourx > 0, 0 sinonF (x) = 1− exp(−µx) pourx > 0

E(X) = 1/λ

Var(X) = 1/λ2

x

f(x)

µ

Nicolas Picard (CIRAD / IRET) December 1, 2011 42 / 106

Loi de Laplace-Gauss (N )Lois continues

aussi appelée « loi normale»paramètre : m et σ

X ∈ R

f(x) =1

σ√2π

exp

[−1

2

(x−m

σ

)2]

E(X) = m

Var(X) = σ2

x

f(x)

m− 3σ

m− 2σ

m− σ m

m+ σ

m+ 2σ

m+ 3σ

Nicolas Picard (CIRAD / IRET) December 1, 2011 43 / 106

Quelques propriétés de la loi normale

quantiles à 95 % :

Pr(m− 1.96σ < X < m+ 1.96σ) = 0.95

propriété d’additivité :

X ∼ N (m,σ)Y ∼ N (p, τ)X et Y indépendantes

: X + Y ∼ N (m+ p,√σ + τ)

convergence de la loi de Poisson vers la loi normale : X ∼ P(µ)

X − µ√µ

−→µ→∞

N (0, 1)

Nicolas Picard (CIRAD / IRET) December 1, 2011 44 / 106

Théorème central-limite

il justifie le rôle central de la loi normale(Xn) suite de variables aléatoires i.i.d d’espérance µ et d’écart-typeσ

1√n

(X1 +X2 + . . .+Xn − nµ

σ

)−→n→∞

N (0, 1)

Nicolas Picard (CIRAD / IRET) December 1, 2011 45 / 106

Loi du chi-deux (χ2)Lois continues

Définition :U1, U2, . . . , Up

i.i.d∼ N (0, 1)

p∑

i=1

U2i ∼ χ2

p

paramètre : p ∈ N∗

X > 0

E(X) = p

Var(X) = 2p0 10 20 30 40 50 60 70

0.0

0.1

0.2

0.3

0.4

0.5

x

f(x)

1

2

345678910

15 20 25 30 40 50

Nicolas Picard (CIRAD / IRET) December 1, 2011 46 / 106

Loi de Fisher-Snedecor (F )Lois continues

Définition :X ∼ χ2

n

Y ∼ χ2p

X et Y indépendantsX/n

Y/p∼ F (n, p)

paramètre : n et p

Nicolas Picard (CIRAD / IRET) December 1, 2011 47 / 106

Loi de Student (T )Lois continues

Définition :U ∼ N (0, 1)

X ∼ χ2n

X et U indépendants

U√X/n

∼ T (n)

paramètre : n

E(X) = 0 (n > 1)Var(X) = n/(n− 2)(n > 2) −4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

n = 1n = 2n = 5n = 10n = 50

Nicolas Picard (CIRAD / IRET) December 1, 2011 48 / 106

Autres lois continues

loi gammaloi bêta (type I, type II)loi de l’arc sinusloi log-normaleloi de Weibullloi Cauchyloi de Gumbelloi du T 2 de Hotellingloi du Λ de WilksEtc. (N.L. Johnson & S. Kotz, 1970, Distributions in Statistics:Continuous Univariate Distributions, vol.1, John Wiley & Sons,New York, 300 p.)

Nicolas Picard (CIRAD / IRET) December 1, 2011 49 / 106

Loi multinomiale (M)Loi multivariée discrète

Généralise la loi binomiale à k modalitésDéfinition :

I soit X variable modale à k modalitésI soit pi la probabilité de tirer la modalité iI on fait n tirages indépendants de XI soit Ni le nombre de fois où l’on a tiré la ie modalité

(N1, N2, . . . , Nk) ∼ M(n, p1, p2, . . . , pk)

Loi :

Pr(N1 = n1, . . . , Nk = nk) =n!

n1!n2! . . . nk!pn11 pn2

2 . . . pnkk

Nicolas Picard (CIRAD / IRET) December 1, 2011 50 / 106

Loi multinomiale (suite)

Espérance :

E(N1, N2, . . . , Nk) = (np1, np2, . . . , npk)

Résultat à la base du test du χ2 :

k∑

i=1

(Ni − npi)2

npi−→n→∞

χ2k−1

Nicolas Picard (CIRAD / IRET) December 1, 2011 51 / 106

Loi multinormaleLoi multivariée continue

Définition : X est un vecteur gaussien à p dimensions si toutecombinaison linéaire de ses composantes suit une loi deLaplace-Gaussdensité de probabilité :

f(x1, x2, . . . , xp) =1

(2π)p/2√detΣ

exp

(−1

2t(x−m)Σ−1(x−m)

)

avec m = espérance du vecteur et Σ = matrice devariance-covariance

Nicolas Picard (CIRAD / IRET) December 1, 2011 52 / 106

Loi multinormale (suite)

x

y

f(x,y)

x

y

f(x,y)

−3 −2 −1 0 1 2 3

−3

−2

−1

01

23

x

y

−3 −2 −1 0 1 2 3

−3

−2

−1

01

23

x

y

Nicolas Picard (CIRAD / IRET) December 1, 2011 53 / 106

Autres lois multivariées

loi de WishartEtc. (N.L. Johnson & S. Kotz (1972) Distributions in Statistics:Continuous Multivariate Distributions, vol.2, John Wiley & Sons,New York)

Nicolas Picard (CIRAD / IRET) December 1, 2011 54 / 106

Panorama des statistiques et rappels

1 Panorama

2 Rappels de probabilités

3 Lois usuelles

4 Statistiques descriptives : cas unidimensionnel

5 Statistiques descriptives : cas multidimensionnel

6 Conclusion

Nicolas Picard (CIRAD / IRET) December 1, 2011 55 / 106

Présentation des données : variable numérique discrète

Variable prenant des valeurs entières (plus rarement décimales)Nombre de valeurs distinctes assez faibles (. 20)Exemple : nombre de semis d’une essence dans 48 placeaux

24 19 13 0 26 16 0 0 0 13 15 0 0 9 12 1011 13 22 18 8 0 0 0 13 0 0 7 19 0 0 190 0 0 11 19 9 0 19 0 11 17 10 0 16 15 0

Nicolas Picard (CIRAD / IRET) December 1, 2011 56 / 106

Présentation des données : tableau statistiqueVariable numérique discrète

1ère colonne : observationsdistinctes rangées par ordrecroissant2e colonne : effectif3e colonne : effectif cumulé4e colonne : fréquence5e colonne : fréquence cumulée

x n N f F0 20 20 41.7 41.77 1 21 2.1 43.88 1 22 2.1 45.89 2 24 4.2 50.0

10 2 26 4.2 54.211 3 29 6.2 60.412 1 30 2.1 62.513 4 34 8.3 70.815 2 36 4.2 75.016 2 38 4.2 79.217 1 39 2.1 81.218 1 40 2.1 83.319 5 45 10.4 93.822 1 46 2.1 95.824 1 47 2.1 97.926 1 48 2.1 100.0

Nicolas Picard (CIRAD / IRET) December 1, 2011 57 / 106

Présentation des données : « stem-and-leaf »Variable numérique discrète

« tige » : chiffre des dizaines« feuille » : chiffre des unités

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 7 8 9 91 0 0 1 1 1 2 3 3 3 31 5 5 6 6 7 8 9 9 9 9 92 2 42 6

Nicolas Picard (CIRAD / IRET) December 1, 2011 58 / 106

Présentation des données : variable qualitative

Tableau statistiqueExemple : répartition de la population active selon la catégoriesocioprofessionnelle (France, 1988)

CSP effectif fréquenceagriculteurs 1312 6.1artisans, commerçants 1739 8.1cadres 2267 10.6professions intermédiaires 4327 20.1employés 5815 27.0ouvriers 6049 28.1

Nicolas Picard (CIRAD / IRET) December 1, 2011 59 / 106

Présentation des données : variable quantitative continue

Découpage en classesTableau statistique sur les classesExemple : diamètres de 255 sapelli (Entandrophragma cylindricum)avec D ≥ 10 cm

classe effectif fréquence[10, 20) 145 56.9[20, 30) 23 9.0[30, 40) 13 5.1[40, 50) 1 0.4[50, 60) 4 1.6[60,∞) 69 27.1

Nicolas Picard (CIRAD / IRET) December 1, 2011 60 / 106

Représentation graphique : diagramme en bâtonsVariable quantitative discrète

Exemple du nombre de semis dans 48 placeaux

0 5 10 15 20 25

510

1520

Nombre de semis

Effe

ctif

Nicolas Picard (CIRAD / IRET) December 1, 2011 61 / 106

Représentation graphique : diagramme cumulatifVariable quantitative discrète

Exemple du nombre de semis dans 48 placeaux

0 5 10 15 20 25 30

010

2030

40

Nombre de semis

Effe

ctif

cum

ulé

Nicolas Picard (CIRAD / IRET) December 1, 2011 62 / 106

Représentation graphique : diagramme en colonnesVariable qualitative

Exemple des catégories socioprofessionnelles

Effe

ctif

020

0040

0060

00

agric

ulteu

rs

artis

ans..

.

cadr

es

prof

s. int

erm

.

emplo

yés

ouvr

iers

Nicolas Picard (CIRAD / IRET) December 1, 2011 63 / 106

Représentation graphique : diagramme en barreVariable qualitative

Exemple des catégories socioprofessionnellesE

ffect

if cu

mul

é

050

0015

000

050

0015

000

agriculteursartisans...cadresprofs. interm.employésouvriers

Nicolas Picard (CIRAD / IRET) December 1, 2011 64 / 106

Représentation graphique : diagramme en secteursVariable qualitative

Exemple des catégories socioprofessionnelles

agriculteurs

artisans...

cadresprofs. interm.

employés

ouvriers

Nicolas Picard (CIRAD / IRET) December 1, 2011 65 / 106

Représentation graphique : courbe cumulativeVariable quantitative continue

Exemple des diamètres de sapelli

50 100 150

0.0

0.2

0.4

0.6

0.8

1.0

Diamètre (cm)

Fré

quen

ce c

umul

ée

Nicolas Picard (CIRAD / IRET) December 1, 2011 66 / 106

Représentation graphique : histogrammeVariable quantitative continue

Exemple des diamètres de sapelli

Diamètre (cm)

Effe

ctif

0 50 100 150

050

100

150

Nicolas Picard (CIRAD / IRET) December 1, 2011 67 / 106

Représentation graphique : histogramme (suite)Variable quantitative continue

Exemple des diamètres de sapelli

Diamètre (cm)

Den

sité

de

fréq

uenc

e

50 100 150

0.00

0.04

0.08

Nicolas Picard (CIRAD / IRET) December 1, 2011 68 / 106

Représentation graphique : courbe de densitéVariable quantitative continue

Exemple des diamètres de sapelli

0 50 100 150 200

0.00

00.

010

0.02

0

N = 255 Bandwidth = 11.29

Den

sité

Nicolas Picard (CIRAD / IRET) December 1, 2011 69 / 106

Représentation graphique : boîte à moustachesVariable quantitative continue

Exemple des diamètres de sapelli

5010

015

0

Dia

mèt

re (

cm)

Nicolas Picard (CIRAD / IRET) December 1, 2011 70 / 106

Résumés numériquesVariable quantitative continue

une variable :I moyenneI écart-typeI coefficient de variationI quartiles et médiane

deux variables : corrélation. . .n variables : matrice des corrélations. . .

Nicolas Picard (CIRAD / IRET) December 1, 2011 71 / 106

La moyenne empirique

Moyenne arithmétique :

x =1

n(x1 + x2 + . . .+ xn)

Il existe d’autres moyennes :I moyenne géométrique : n

√x1 . . . xn

→ certains indices économiquesI moyenne quadratique :

√(x2

1 + . . .+ x2n)/n

→ diamètre équivalentI moyenne harmonique :

1

1n

(1x1

+ . . .+ 1xn

)

Nicolas Picard (CIRAD / IRET) December 1, 2011 72 / 106

La médiane empirique

x1 < x2 < . . . < xn

m = x(n+1)/2 ouxn/2 + xn/2+1

2

Nicolas Picard (CIRAD / IRET) December 1, 2011 73 / 106

Le quantile empirique α

x1 < x2 < . . . < xnxm tel que

m

n= α

Exemple : quantile à 95 %

Nicolas Picard (CIRAD / IRET) December 1, 2011 74 / 106

L’écart-type empirique

Variance empirique :

s2 =1

n

n∑

i=1

(xi − x)2

Écart-type empirique : s =√s2

Nicolas Picard (CIRAD / IRET) December 1, 2011 75 / 106

Cas de la loi normale

Relation entre moyenne (m), écart-type (σ) et quantiles :

95 % des observations sont comprises entrem− 1.96σ

etm+ 1.96σ

Nicolas Picard (CIRAD / IRET) December 1, 2011 76 / 106

Limites de l’écart-typeValeur relative et absolue

Un écart-type de 500 g pour la masse n’a pas la même significationselon la taille de l’animal :

Nicolas Picard (CIRAD / IRET) December 1, 2011 77 / 106

Le coefficient de variation

CV =s

x

Nicolas Picard (CIRAD / IRET) December 1, 2011 78 / 106

Panorama des statistiques et rappels

1 Panorama

2 Rappels de probabilités

3 Lois usuelles

4 Statistiques descriptives : cas unidimensionnel

5 Statistiques descriptives : cas multidimensionnel

6 Conclusion

Nicolas Picard (CIRAD / IRET) December 1, 2011 79 / 106

Liaison entre deux variables quantitativesMéthode graphique

Nuage de points :une des variables sur l’axe des x

l’autre sur l’axe des y

Nicolas Picard (CIRAD / IRET) December 1, 2011 80 / 106

Coefficient de corrélation linéaire

Définition :ρ =

Cov(X,Y )

σXσY

Estimation :

Cov(X,Y ) =1

n

n∑

i=1

(Xi − X)(Yi − Y )

Remarque :

Cov(X,X) =1

n

n∑

i=1

(Xi − X)2 = Var(X) = S2X

donc ρ(X,X) = 1

Nicolas Picard (CIRAD / IRET) December 1, 2011 81 / 106

Coefficient de corrélation linéaire (suite)

Le coefficient de corrélation linéaire est aussi :la racine carrée du coefficient de détermination de la régressionlinéaire de Y par rapport à X

le pourcentage de variance expliquée par cette régression linéaire

Nicolas Picard (CIRAD / IRET) December 1, 2011 82 / 106

Il quantifie la « force » de la relation linéaireet varie entre −1 et 1

−2 −1 0 1 2

−2

−1

01

2

X

Y

R = 0

−3 −2 −1 0 1 2−

2−

10

12

X

Y

R = 0.3

−2 −1 0 1 2 3

−2

−1

01

2

X

Y

R = 0.5

−2 −1 0 1 2

−2

−1

01

2

X

Y

R = 0.7

−3 −2 −1 0 1 2

−2

−1

01

2

X

Y

R = 0.9

−2 −1 0 1 2−

2−

10

12

X

Y

R = −0.7

Nicolas Picard (CIRAD / IRET) December 1, 2011 83 / 106

Les pièges du coefficient de corrélation linéaire

§ρ = 0.77 ρ = 0.66

ρ = 0.8 ρ = 0.76

Nicolas Picard (CIRAD / IRET) December 1, 2011 84 / 106

Réchauffement climatiqueCorrélation positive. . .

Nicolas Picard (CIRAD / IRET) December 1, 2011 85 / 106

Réchauffement climatique. . . ou corrélation négative ?

Nicolas Picard (CIRAD / IRET) December 1, 2011 86 / 106

Liaison entre deux variables ordinales

Coefficient de corrélation des rangs τ de Kendall :k = 1 si Xi < Xj et Yi < Yj , ou si Xi > Xj et Yi > Yj

k = −1 sinonS =

∑k sur les n(n− 1)/2 couples

τ =2S

n(n− 1)

Nicolas Picard (CIRAD / IRET) December 1, 2011 87 / 106

Liaison entre une variable quantitative et une variablequalitative

Rapport de corrélation :

η2 =Var[E(Y |X)]

Var(Y )

C’est aussi :la racine carrée du coefficient de détermination de l’analyse devariance de Y par rapport à X

le coefficient de corrélation multiple de Y par rapport aux variablesindicatrices des modalités de X

la racine carrée du coefficient de détermination de la régressionmultiple de Y par rapport à ces variables indicatrices

Nicolas Picard (CIRAD / IRET) December 1, 2011 88 / 106

Liaison entre une variable quantitative et une variablequalitativeReprésentation graphique

Boîtes parallèles : une boîte à moustache de la variable quantitative parmodalité de la variable qualitative

a b c d e f

−2

02

46

8

Modalités

Val

eurs

Nicolas Picard (CIRAD / IRET) December 1, 2011 89 / 106

Liaison entre deux variables qualitatives

Coefficient de corrélation canonique : c’est la valeur maximale(autre que 1) du coefficient de corrélation linéaire entre unecombinaison linéaire des variables indicatrices des modalités de Xet une combinaison linéaire des variables indicatrices des modalitésde Y

C’est aussi la première valeur propre (autre que 1) de l’analysecanonique des tableaux disjonctifs complets formés à partir de Xet Y

Nicolas Picard (CIRAD / IRET) December 1, 2011 90 / 106

Liaison entre deux variables qualitatives

Statistique du χ2 sur table de contingence

Yj...

Xi · · · nij · · · ni....n.j n

X2 =∑

i

j

(nij −

ni.n.j

n

)2

ni.n.j

n

Nicolas Picard (CIRAD / IRET) December 1, 2011 91 / 106

Liaison entre deux variables qualitativesReprésentation graphique

Diagramme en barres : un diagramme pour l’une des variables parmodalité de l’autre variableExemple : durée d’obtention du DEUG en fonction de l’âged’obtention du bac

<18 18 19 >19

Âge d’obtention du bac (ans)

Effe

ctif

010

020

030

040

0

moy. 18 19 >19

Âge d’obtention du bac (ans)

Fré

quen

ce

0.0

0.2

0.4

0.6

0.8

1.0

Durée d’obtention du DEUG

2 ans3 ans4 ans

Nicolas Picard (CIRAD / IRET) December 1, 2011 92 / 106

Liaison entre n variables

Liaison deux à deux :matrice des corrélationsgraphiques

j L’absence de liaisons 2 à 2 ne signifie pas qu’il n’y apas de liaisons entre 3, 4. . . variables j

Contre-exemple : (X,Y, Z) avecX ∼ loi uniforme dans {−1, 1}Y ∼ loi uniforme dans {−1, 1} indépendamment de X

Z = X × Y

Nicolas Picard (CIRAD / IRET) December 1, 2011 93 / 106

Exemple : les iris de Fisher

Nicolas Picard (CIRAD / IRET) December 1, 2011 94 / 106

Relation entre n variables : tableau des nuages de points

Exemple des iris :

Sepal.Length

2.0 3.0 4.0 0.5 1.5 2.5

4.5

5.5

6.5

7.5

2.0

3.0

4.0

Sepal.Width

Petal.Length

12

34

56

7

4.5 5.5 6.5 7.5

0.5

1.5

2.5

1 2 3 4 5 6 7

Petal.Width

Nicolas Picard (CIRAD / IRET) December 1, 2011 95 / 106

Panorama des statistiques et rappels

1 Panorama

2 Rappels de probabilités

3 Lois usuelles

4 Statistiques descriptives : cas unidimensionnel

5 Statistiques descriptives : cas multidimensionnel

6 Conclusion

Nicolas Picard (CIRAD / IRET) December 1, 2011 96 / 106

Démarche

Question scientifique↓

Quelle méthode ? Quel dispositif de mesure ?↓

Acquisition, puis structuration des données↓

Analyses exploratoires↓

Analyse pour répondre à la question

Nicolas Picard (CIRAD / IRET) December 1, 2011 97 / 106

Quelle méthode ? Quel dispositif de mesure ?

EstimerExemple de la moyenne d’une population gaussienne→ quelle taille d’échantillon ?TesterExemple de la comparaison des moyennes de deux populationsgaussiennesLiaisons

Nicolas Picard (CIRAD / IRET) December 1, 2011 98 / 106