Analyse statistique pour données à haut débit

Preview:

Citation preview

Analyse statistique pour données à haut débit

Sébastien Déjean www.lsp.ups-tlse.fr/Dejean

Institut de Mathématiques de ToulouseUniversité Paul Sabatier (Toulouse III)

Licence professionnelle Systèmes d'informations et de modélisations appliqués à la Bioinformatique Institut Universitaire de Technologie Aurillac, Université Clermont-Ferrand I

Cours préparé en collaboration avec Pascal Martin

Unité de Pharmacologie et Toxicologie, INRA Toulouse

2Sébastien Déjean Analyse statistique pour données à haut débit

Objectif du coursL’objectif de ce cours est de présenter des méthodes statistiques standard ainsi que leur application à des données issues de biopuces(puce à ADN, microarray, DNA chip).

Pour la plupart des thèmes abordés, on retrouvera :

1. une « petite histoire » : pas forcément connectée à la statistique ou à la biologie, illustrant l’objectif ou le principe de la méthode

2. les aspects mathématiques

3. une application à des données transcriptomiques

3Sébastien Déjean Analyse statistique pour données à haut débit

Limites du coursCe cours ne traite pas les étapes l’on peut globalement intégrerau pré-traitement des données visant à gommer les biais systématiques liés à la technologie.

Pour les microarrays, cela concerne essentiellement :

• La correction de bruit de fond ( analyse d’image)

• La suppression de valeurs aberrantes

• La normalisation des données. La procédure mise en œuvre dépend de la technologie adoptée : marquage fluorescent sur lame de verre, marquage radioactif sur membrane nylon, technologie Affymetrix.

• …

Dans le cadre de ce cours, nous nous plaçons après ces étapes. Cependant, dans la pratique, on peut très bien être amené à remettre en cause le pré-traitement si l’analyse statistique effectuée a posteriori révèle des incohérences.

4Sébastien Déjean Analyse statistique pour données à haut débit

Au salon de coiffureQue se passe-t-il au salon de coiffure et quel est le rapport avec l’analyse de données de microarray ?

????

Au salon de coiffure, en général, on nous propose le pack lavage-coupe-coiffage. Une fois ce travail accompli, que se passe-t-il ? On se regarde attentivement dans la glace, on nous montre l’arrière du crâne avec un petit miroir. Bref, on nous montre le résultat sous différents points de vue. Si cela ne convient pas (un épi rebelle), on peut demander quelques coups de ciseaux supplémentaires et une nouvelle vérification.

Pour exploiter des données de microarray, la procédure peut très bien être analogue. On procède d’abord à un pré-traitement (correction-suppression-normalisation). Ensuite, on analyse le résultat avec différentes méthodes (tests, classification, ACP). Si les résultats montre des incohérences (un spot aberrant), on peut revenir au pré-traitement, supprimer cette donnée aberrante et reprendre l’analyse.

5Sébastien Déjean Analyse statistique pour données à haut débit

Application aux biopucesÉtude de nutrition chez la souris

Étude réalisée à l’unité de Pharmacologie et Toxicologie de l’INRA de Toulouse

40 souris réparties selon 2 facteurs croisés dans un plan complet et équilibré à 4 répétitions :

• Génotype (2 niveaux) : sauvage (wild-type, WT) ou PPARαdéficientes

• Régime (5 niveaux) :dha (régime enrichi en acides gras de la famille ω3 et particulièrement en

acide docosahexaénoïque, à base d’huile de poisson)

efad (Essential Fatty Acid Deficient, régime constitué uniquement d’acides gras saturés, à base d’huile de coco hydrogénée) ;

lin (régime riche en ω3, à base d’huile de lin) ;

ref (régime dont l’apport en ω6 et en ω3 est adapté des Apports Nutritionnels Conseillés pour la population française, sept fois plus d’ω6 que d’ω3) ;

tsol (riche en ω6, à base d’huile de tournesol).

Données d’expression recueillies pour 120 gènes sur membranes nylon avec marquage radioactif.

6Sébastien Déjean Analyse statistique pour données à haut débit

Plan

I. Indicateurs statistiques 1D et 2D

II. Statistique inférentielle

III. Statistique descriptive

IV. Ouvertures

Rappels ?

7Sébastien Déjean Analyse statistique pour données à haut débit

Indicateurs statistiques unidimensionnels et bi-

dimensionnels

1. Indicateurs de position

2. Indicateurs de dispersion

3. Représentations graphiques

4. Statistiques bi-dimensionnelles

8Sébastien Déjean Analyse statistique pour données à haut débit

Indicateurs de position

∑=

=n

1iiX

n1X

Moyenne Médiane

Quartiles

Mode

Valeur qui sépare l’échantillon en 2 sous-ensembles de taille égales.

Valeur la plus fréquente dans un échantillon.

3 valeurs qui sépare l’échantillon en 4 sous-ensembles de taille égales.

Déciles 9 valeurs qui sépare l’échantillon en 10 sous-ensembles de taille égales.

Quantiles : généralisation de la notion de médiane, quartile…

9Sébastien Déjean Analyse statistique pour données à haut débit

Indicateurs de positionLors d’une négociation salariale entre le dirigeant d’une entreprise et les représentants du personnel, la discussion tourne autour d’une demande d’augmentation généralisée des salaires. Quels chiffres chaque camp doit-il avancer pour convaincre du bien fondé de sa position ?

• La direction a intérêt à avancer le montant du salaire moyen qui est plus largement influencé par les salaires de la direction.

• Du côté du personnel, il faut insister pour prendre en compte non pas le salaire moyen mais le salaire médian plus robuste aux valeurs extrêmes (que sont les salaires des dirigeants).

Exemple : supposons que l’entreprise compte 14 personnes :

• 10 ouvriers : 1000 € / personne

• Un chef d’atelier : 2000 €

• Un directeur technique : 5000 €

• Un directeur des ressources humaines : 8000 €

• Un directeur général : 10 000 €

Salaire moyen : 2500 € - Salaire médian : 1000 €

10Sébastien Déjean Analyse statistique pour données à haut débit

Indicateurs de position

0

2000

4000

6000

8000

10000

12000

Moyenne

Médiane

2500

1000

11Sébastien Déjean Analyse statistique pour données à haut débit

Indicateurs de dispersion

( )∑=

−=n

ii XXnX

1

21)var(

Variance Écart-type

Étendue

Espace inter-quartileCorrespond à l’étendue de l’échantillon privé de la moitié de ces observations (le ¼ le plus élevé et le ¼ le plus faible)

Différence entre la plus grande et la plus petite valeur d’un échantillon

)var()( XX =σ

12Sébastien Déjean Analyse statistique pour données à haut débit

( )24 XX −

Variance

X4 X3 X2 X1 X5XXX −1XX −2

XX −3

XX −4

( )23 XX −

XX −5

( )22 XX −

( )25 XX −

« Moyenne des carrés des écarts à la moyenne »

( )21 XX −

13Sébastien Déjean Analyse statistique pour données à haut débit

Écart-type« Racine carrée de la variance »

Quelques propriétés de l’écart-type :

• Positif (nul si la série est constante)

• Invariant par translation

• Sensible aux valeurs extrêmes

• Dépend de l’ordre de grandeur de l’échantillon d’où l’utilité, parfois, d’utiliser l’écart-type relatif, rapport de l’écart-type sur la moyenne.

• De la même unité que la donnée (et que la moyenne) :

Si l’échantillon est constitué de mesures en m alors l’écart-type s’exprime également en m (tout comme la moyenne) ; ce qui n’est pas le cas de la variance m² !

On peut ainsi additionner moyenne et écart-type (mais pas moyenne et variance), ce qui est fondamental pour la construction d’intervalle de confiance.

14Sébastien Déjean Analyse statistique pour données à haut débit

Centrage-Réduction

X

XXZ ii σ−=

Centrer : retrancher la moyenne

Réduire : diviser par l’écart-type

• Permet d’exprimer des variables différentes sur une échelle commune, en les débarrassant de leurs unités physiques : les observations s’expriment en nombre d’écart-type par rapport à la moyenne.

• Après centrage-réduction, la moyenne des observations est nulle et l’écart-type vaut 1.

Appelé parfois « z-transformation » ou « z-score » dans la littérature anglophone

15Sébastien Déjean Analyse statistique pour données à haut débit

Représentations graphiquesDiagramme-boîte (boxplot)

*

Q2 : Médiane (50%)

Q3 : 3ème quartile (75%)

Q1 : 1er quartile (25%)

Espace inter-quartile

Q3-Q1

Q3 + 1.5(Q3-Q1)

Q1 - 1.5(Q3-Q1)

Point extrême (aberrant ? outlier)

16Sébastien Déjean Analyse statistique pour données à haut débit

Représentations graphiquesBoxplot et histogramme

-2 -1 0 1 2 3

-2 -1 0 1 2 3

05

1015

0 1 2 3 4 5 6

0 1 2 3 4 5 6 7

010

2030

4050

6070

Individuellement, ces graphiques apportent la même information sur la position et la répartition des données. Les boxplots ont cependant l’avantage d’être plus lisible pour un nombre important de séries à représenter.

17Sébastien Déjean Analyse statistique pour données à haut débit

Application aux biopuces

Comparaison des histogrammes et boxplots pour 16 gènes.

18Sébastien Déjean Analyse statistique pour données à haut débit

Application aux biopuces

Boxplot parallèles pour 120 gènes

19Sébastien Déjean Analyse statistique pour données à haut débit

Application aux biopuces

Boxplot parallèles pour 40 souris

20Sébastien Déjean Analyse statistique pour données à haut débit

98.5 99.0 99.5 100.0 100.5 101.0 101.5

-4-2

02

46

x

y

+

+-

-

Covariance

Indicateurs statistiques 2D

( )( )∑=

−−=n

iii YYXXnYX

1

1),cov(

Intuitivement :• Si les + l’emportent

liaison linéaire positive

• Si les – l’emportentliaison linéaire négative

Sur cet exemple : cov(X,Y)=-1.36 X

Y

La covariance dépend des unités de mesure coefficient de corrélation

Signe du produit (Xi-X)(Yi-Y)

)var(),cov( XXX =

21Sébastien Déjean Analyse statistique pour données à haut débit

Coefficient(s) de corrélation

Coefficient de corrélation linéaire de Pearson

Coefficient de corrélation de SpearmanRobustesse due au travail sur les rangs

YX

YXYX σσρ ),cov(),( =

)1( 6 1),( 21

2

−−=∑=

nn

dYX

n

isρ

X Y RX RY d = RX-RY d²20,6 20,7 6 7 -1 121,6 21,8 2 2 0 018,8 20,4 9 8 1 120,8 21,1 3 4 -1 117,5 18,3 10 10 0 019,5 18,9 7 9 -2 420,8 21,1 4 4 0 020,6 21,2 5 3 2 419,2 20,9 8 6 2 422,2 22,9 1 1 0 0

Somme 15

1) Calcul des rangs des observations

2) Différence des rangs

3) Carrés des différences des rangs

∑=

n

id

1

24) Somme des

carrés des différences des

rangs

22Sébastien Déjean Analyse statistique pour données à haut débit

Coefficient(s) de corrélation

Quelques propriétés des coefficients de corrélation :

• Compris entre –1 et 1.

• Les valeurs extrêmes –1 et 1 indique des corrélations parfaites entre les 2 variables.

• Si le coefficient est positif : quand une variable est élevée, l’autre l’est également. Quand une variable est faible, l’autre l’est également.

• Si le coefficient est négatif : quand une variable est élevée (resp. faible), l’autre est faible (resp. élevée).

• Un coefficient nul indique une absence de relation linéaireentre les variables.

23Sébastien Déjean Analyse statistique pour données à haut débit

-1 0 1 2

01

23

45

x2cor1

x2co

r2

18 19 20 21 22

1214

1618

2022

xcor

zcor

18 19 20 21 22

1920

2122

23

xcor

ycor

Coefficient(s) de corrélation

ρ=0.884 - ρs=0.9 ρ=0.676 - ρs=0.912

ρ=0.584 - ρs=0.491

18 19 20 21 22

0 e

+00

1 e

+09

2 e

+09

3 e

+09

4 e

+09

xcor

exp(

xcor

)

ρ = 0.822 - ρs=1

ρ=-0.954 - ρs=-0.903

-1 0 1 2

-3-2

-10

1

x

mx

-1 0 1 2

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

x

xr

ρ=-0.248 - ρs=-0.164

24Sébastien Déjean Analyse statistique pour données à haut débit

Corrélation ≠ Causalité

Quelques exemples d’événements corrélés n’impliquant pas forcément une causalité :

• Le fait de dormir avec ses chaussures est fortement corrélé avec le fait de se réveiller avec la « gueule de bois ». Doit-on en conclure que dormir avec ses chaussures donne la « gueule de bois » ? Ou un troisième facteur est-il impliqué ?

• Mon âge est très fortement corrélé à l’évolution du prix du carburant : les 2 ont augmenté durant les 30 dernières années. Sans minimiser mon impact sur la société, je crois bien que je n’y suis pas pour grand-chose.

• Les personnes qui meurent ont très fréquemment vu un médecin dans les jours qui ont précédé. Est-il si dangereux de rencontrer un médecin ?

• Dans la plupart des villes, on constate une forte corrélation positive entre le nombre de nids de cigognes et la natalité. Nous cacherait-on des choses ?

• …

25Sébastien Déjean Analyse statistique pour données à haut débit

1. Loi de probabilité

2. Estimation

3. Test statistique

4. Gestion de la multiplicité dans les tests

5. Analyse de la variance (ANOVA)

Statistique inférentielle

26Sébastien Déjean Analyse statistique pour données à haut débit

Variable aléatoireUne variable aléatoire est utilisée pour modéliser le résultat d’une expérience non déterministe qui génère un résultat aléatoire.

Exemples :

• lancement d’une pièce, d’un dé (v.a. discrète)

• taille d’un individu pris au hasard dans une population (v.a. continue)

La répartition des valeurs prises par une v.a. conduit à la notion de loi de probabilité.

27Sébastien Déjean Analyse statistique pour données à haut débit

Loi de probabilitéLoi de probabilité Fonction de répartition

)()( kXPkPX ==

Cas continu (densité f)

)()( kXPnFn

kX ==∑

−∞=

Cas discret

∫ ∞−=x

X dttfxF )()(∫=<<b

adxxfbXaP )()(

• croissante sur ]-∞;+∞[

• continue à droite en tout point

• tend vers 0 en -∞ et 1+∞

• dérivée de la fdr

• à valeur positive ou nulle

• 1)( =∫+∞

∞−dxxf1)( ==∑

∈ZkkXP

28Sébastien Déjean Analyse statistique pour données à haut débit

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

-3 -2 -1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

Loi de probabilité

0.31

0.31

Loi de probabilité Fonction de répartition

29Sébastien Déjean Analyse statistique pour données à haut débit

Loi de probabilitéLoi binomiale B(n,p)

0.00

0.05

0.10

0.15

0.0

0.2

0.4

0.6

0.8

1.0

knkkn ppCkXP −−== )1()(

Ex : n=20, p=0.5 )!( !!knk

nCkn −=

Loi de probabilité Fonction de répartition

30Sébastien Déjean Analyse statistique pour données à haut débit

Loi de probabilitéLoi de Poisson P(λ)

0.00

0.05

0.10

0.15

0.0

0.2

0.4

0.6

0.8

1.0

!)( kekXPkλ

λ−==

Loi de probabilité Fonction de répartition

Ex : λ=4

31Sébastien Déjean Analyse statistique pour données à haut débit

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

Loi de probabilitéLoi normale N(μ,σ²)

N(0,1) N(1,1) N(0,2)

⎟⎠⎞

⎜⎝⎛ −

= 2

2

2

)(exp

21)( σ

μπσ

xxf

Ex :

Loi de probabilité Fonction de répartition-4 -2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

32Sébastien Déjean Analyse statistique pour données à haut débit

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

Loi de probabilitéLoi exponentielle E(λ)

λ=1 – 0.5 - 2

)exp()( xxf λλ −=

Ex :

Loi de probabilité Fonction de répartition

33Sébastien Déjean Analyse statistique pour données à haut débit

Loi de probabilitéLoi de Student St(k)

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

k=1 - 2 - 5 - 10

-3 -2 -1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

Loi normale N(0,1) - - -Ex :

Loi de probabilité Fonction de répartition

( )( ) 2

12

12

21

)( +

⎟⎠⎞

⎜⎝⎛ +Γ

+Γ= k

ktkk

kxf

π

Γ fonction Gamma d’Euler

34Sébastien Déjean Analyse statistique pour données à haut débit

Loi de probabilitéLoi du khi-deux χ2(k) ( ) 22

2

1

221)(

xk

k exkxf −−

Γ=

Loi de probabilité Fonction de répartition0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

1.2

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

k=1 - 5 - 10 - 20Ex :

Γ fonction Gamma d’Euler

35Sébastien Déjean Analyse statistique pour données à haut débit

Loi de probabilité Fonction de répartition

Loi de Fisher F(n1,n2)

Loi de probabilité

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.2

0.4

0.6

0.8

1.0

F(1,1) F(1,5) F(5,1) F(5,5) F(10,10)Ex :

( )( ) ( )( ) 22121

1221

21 21

1

22

21

22

2)( nn

n

nxnnnxnn

nnxfnn

+

+ΓΓ

+Γ=

Γ fonction Gamma d’Euler

36Sébastien Déjean Analyse statistique pour données à haut débit

Estimation

Dans un fabrique de biscuit, le procédé mis en œuvre pour vérifier l’aspect moelleux du produit fini consiste à plier le biscuit et à mesurer l’angle d’inclinaison nécessaire pour le casser (un tel test est dit destructif). La règle étant qu’un bon biscuit doit avoir un angle de rupture de 50° (valeur fictive). Tout lot de biscuit doit être validé de la sorte avant d’être commercialisé.

Il va de soi qu’un biscuit cassé n’est pas commercialisable ainsi qu’un biscuit n’étant pas convenablement moelleux (angle de rupture ≠ 50°).

Dans de telles conditions, il est impossible de tester l’ensemble des biscuits (test destructif). Il est donc nécessaire d’effectuer les mesures sur un échantillon représentatif de la population des biscuits. L’angle moyen de rupture calculé sur l’échantillon est un estimateur de cet angle chez les biscuits du même lot (aux conditions de fabrication analogues).

Une histoire de biscuits

37Sébastien Déjean Analyse statistique pour données à haut débit

EstimationQuelques estimateurs

Variance : σ2(X)

Espérance (mathématique) : E(X)

EmpiriqueThéorique

∑=

=n

1iiX

n1X

( )∑=

−=n

ii XXnS

1

22 1

( )∑=

−−=n

ii XXnS

1

221

1

Écart-type : σ (X)

(sans biais)

2SS=

38Sébastien Déjean Analyse statistique pour données à haut débit

Test statistiqueEncore quelques biscuits

Région critique [2]Région critique [1]

Exemple : Fabrication industrielle de biscuit dont l’angle de rupture doit être de 50°. Des facteurs incontrôlés font que cet angle est aléatoire : on suppose qu’il suit une loi N(μ,σ2) avec σ2=9.

Question : comment décider qu’un lot est conforme ?

Hypothèses :H0 : le lot est conforme (μ=50)H1 : le lot n’est pas conforme (μ≠50)

Pour trancher entre les 2 hypothèses, on tire au hasard un échantillon de nbiscuits et on en mesure l’angle de rupture (Xi)i=1,…n. Chaque Xi suit une loi N(μ,σ2).

Règle de décision (principe): Rejet de H0 ⇔ X∉[50-c ; 50+c]

5050-c 50+c

39Sébastien Déjean Analyse statistique pour données à haut débit

Test statistique

βBonne décision

H1

Bonne décisionαH0Réalité

H0(accept. H0)

H1(rejet de H0)

Décision

Erreurs de décision

Interprétation des risques :

• α : rejeter le lot de biscuits alors qu’il est conforme (gaspillage !)

Le patron ne vas pas être content.

• β : déclarer conforme (et donc vendre) des biscuits « défectueux »

Dans ce cas, c’est le client qui n’est pas content.

40Sébastien Déjean Analyse statistique pour données à haut débit

Xi ≈ N(μ,σ2) X ≈ N(μ,σ2/n)

Test statistique

Règle de décision : Rejet de H0 ⇔ X∉[50-c ; 50+c]

α = P[Rejeter H0 // H0 vraie] = P[X ∉ [50-c ; 50+c] // μ =50]

Avec n=16, α=0.05=P[« N(50,9/16) » ∉ [50-c ; 50+c] ]

R> qnorm(0.025,50,0.75) # 48.53

R> qnorm(0.975,50,0.75) # 51.47

c = 1.47 (=1.96*3/4)

Région critique

48.53 51.47

Densité de la loi N(50;9/16)

41Sébastien Déjean Analyse statistique pour données à haut débit

Test statistique

Cas 1) : Jour J1, 16 biscuits tirés au hasard, diamètre moyen : 49.3

Cette valeur n’est pas dans la région critique, on ne peut pas rejeter H0, la production du jour est probablement conforme. La p-value associée à la valeur 49.3 est environ 0.34 ce qui est supérieur au seuil de 5%.

• Cas 2) : Jour J2, 16 biscuits tirés au hasard, diamètre moyen : 52.4

Cette valeur est dans la région critique, on rejette H0, la production du jour n’est pas conforme (au seuil de 5%). La p-value associée à la valeur 52.4 est de l’ordre de 0.0007 ce qui est inférieur au seuil de 5%.

49.3 52.4

p-value

42Sébastien Déjean Analyse statistique pour données à haut débit

Test statistique

X1, X2, …, Xn : n observations aléatoires supposées indépendantes et identiquement distribuées (i.i.d.) de même loi N(μ,σ2) où μ et σ2 sont inconnus.

∑=

=n

1iiX

n1X ( )∑

=−−=

n

ii XXnS

1

221

1

)(n-nS

XT 1/

0 St ≈−= μ

Estimateur de la moyenne

• Hypothèse alternative

H1 : μ > μ0 Rejet de H0 ⇔ Tobs ≥ tn-1,α (test unilatéral)

H1’ : μ < μ0 Rejet de H0 ⇔ Tobs ≤ tn-1,α (test unilatéral)

H1’’ : μ ≠ μ0 Rejet de H0 ⇔ |Tobs| ≥ tn-1,α/2 (test bilatéral)

Si cette hypothèse est vraie, alors on a :

Estimateur de la variance

• Hypothèse nulle : H0 : μ = μ0

Test de Student pour un échantillon

43Sébastien Déjean Analyse statistique pour données à haut débit

Test statistiqueTest de Fisher d’égalité des variances

X1, X2, …, Xn : n1 observations supposées i.i.d. N(μ1,σ12) où μ1 et σ1

2 sont inconnus.

Y1, Y2, …, Yn : n2 observations supposées i.i.d. N(μ2,σ22) où μ2 et σ2

2 sont inconnus.

( )∑=

−−=1

1

2

12

1 11 n

ii XXnS

( )1,1 2132

21 −≈= n-nSSF F

• Hypothèse alternative

H1 : σ12 > σ2

2 Rejet de H0 ⇔ Fobs > fn1-1,n2-1α

H1’ : σ12 < σ2

2 Rejet de H0 ⇔ Fobs < fn1-1,n2-1α

H1’’ : σ12 ≠ σ2

2 Rejet de H0 ⇔ |Fobs| > fn1-1,n2-1,α/2

Si cette hypothèse est vraie, alors on a :

Estimateurs des variances

• Hypothèse nulle : H0 : σ12 = σ2

2

( )∑=

−−=2

1

2

222 1

1 n

ii YYnS

44Sébastien Déjean Analyse statistique pour données à haut débit

Test statistiqueTest de Student pour 2 échantillons

Pour effectuer ce test, on suppose les 2 variances égales. Cela peut être contrôlé par un test de Fisher d’égalité des variances.

x y

-20

-10

010

2030

( ) ( )2

1121

2222

112−+−+−= nnSnSnS

( ) ( ) )-n(n

nnSYXT 2

11/21

21

21 +≈+

−−−= St μμ

• Hypothèse alternative

H1 : μ1 > μ2 Rejet de H0 ⇔ Tobs ≥ tn1+n2-2,α

H1’ : μ1 < μ2 Rejet de H0 ⇔ Tobs ≤ tn1+n2-2,α

H1’’ : μ1 ≠ μ2 Rejet de H0 ⇔ |Tobs| ≥ tn1+n2-2,α/2

Si cette hypothèse est vraie, alors on a :

• Hypothèse nulle : H0 : μ1 = μ2

Estimateur de la variance commune σ

Dans le cas ci-contre, la comparaison des moyennes n’a pas vraiment de sens.

45Sébastien Déjean Analyse statistique pour données à haut débit

Test statistiqueQuelques autres tests (en vrac)

Test du chi-deux : indépendance, homogénéité

Test de Bartlett : homogénéité de variances

Test de Kolmogorov-Smirnov : distribution de variables aléatoires

Test de Shapiro-Wilk : normalité

Test de Wilcoxon (test des rangs signés) : comparaison de distributions

46Sébastien Déjean Analyse statistique pour données à haut débit

Test statistique

0 1

-1.1

-1.0

-0.9

-0.8

-0.7

0 1

-1.2

5-1

.20

-1.1

5-1

.10

-1.0

5

L’expression du gène OCTN2 est-elle identique chez les souris WT et PPARα ?

L’expression du gène BIEN est-elle identique chez les souris WT et PPARα ?

Comparaison des variancesF test to compare two variances

F = 0.9745, num df = 19, denom df = 19, p-value = 0.9557

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval: 0.3857185 2.4620238

sample estimates: ratio of variances 0.974499

Comparaison des variances

F = 0.8557, num df = 19, denom df = 19, p-value = 0.7376

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval: 0.3386984 2.1618964

sample estimates: ratio of variances 0.8557049

Comparaison des moyennes

t = -0.9872, df = 38, p-value = 0.3298

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval: -0.05948870 0.02048870

sample estimates: mean of x / mean of y -1.1490 / -1.1295

Comparaison des moyennes

t = 4.3584, df = 38, p-value = 9.618e-05

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval: 0.06613658 0.18086342

sample estimates: mean of x / mean of y -0.8595 / -0.9830

La conclusion des tests de comparaison de variance permet de procéder à la comparaison des moyennes.

La différence est significative pour BIEN mais pas pour OCTN2.

47Sébastien Déjean Analyse statistique pour données à haut débit

MultiplicitéPetite histoire (sordide)

La roulette russe est un jeu consistant à mettre une ou plusieurs cartouches (suivant la probabilité souhaitée) dans le barillet d'un revolver, à tourner ce dernier de manière aléatoire puis à pointer le revolver sur sa tempe avant d'actionner la détente. Si une cartouche se trouve alors dans la chambre placée dans l'axe du canon elle sera percutée et le « joueur » mourra ou sera blessé. (Wikipedia)

Supposons que le barillet contienne 100 emplacements de cartouche et que le « joueur » mette 5 cartouches aléatoirement. Sa probabilité d’être blessé (soyons optimiste) est de 5%.

Supposons maintenant que l’individu « joue » plusieurs fois de suite. Intuitivement, on sent bien qu’il va finir par « se faire mal » et que la probabilité de « perdre » au moins une fois augmente à chaque tentative.

Nous allons traduire mathématiquement cette petite histoire.

48Sébastien Déjean Analyse statistique pour données à haut débit

MultiplicitéPetits calculs

Calculons la probabilité qu’à le « joueur » de rester bien portant après n tentatives

• Pour n=1, P[bp(1)]=1-0.05=0.95

• Pour n=2, il faut que le « joueur » soit bien portant après le 1er essai ET après le second

P[bp(2)]=(1-0.05)*(1-0.05)=0.952=0.9025

• Et ainsi de suite…

Règle générale : P[bp(n)]=(1-0.05)n

n 1 2 5 10 100 1000

P[bp(n)] 0.95 0.902 0.774 0.599 0.006 10-23

Quelques valeurs

49Sébastien Déjean Analyse statistique pour données à haut débit

Multiplicité

0 50 100 150 200

0.0

0.2

0.4

0.6

0.8

Nombre de tentatives

Pro

babi

lité

de re

ster

bie

n po

rtant

1 chance sur 2 au bout de 7 tentatives

1 chance sur 10 au bout de 45 tentatives

1 chance sur 100 au bout de 90 tentatives

Représentation de la fonction

n f(n)=0.95n

Graphiquement

50Sébastien Déjean Analyse statistique pour données à haut débit

Multiplicité

Une autre façon de considérer le problème consiste à envisager plusieurs « joueurs » jouant simultanément. Si le risque est toujours fixé à 5% (avec 5 cartouches sur 100 emplacements), et si 100 joueurs actionne la détente, on peut s’attendre à ce que 5 joueurs perdent. Ils seront 50 pour 1000 joueurs…

Cette façon de voir le problème de multiplicité est plus proche de la problématique de la détection de gènes différentiellement exprimés. En effet, un test statistique effectué pour l’ensemble des tests d’une biopuce (plusieurs milliers) au risque de 5% implique nécessairement la détection de gènes non pertinents.

51Sébastien Déjean Analyse statistique pour données à haut débit

MultiplicitéApplication aux biopuces

Dans le cas de l’analyse des biopuces, la conséquence de l’erreur est moins radicale que pour la roulette russe.

Si les tests sont effectués pour détecter les gènes différentiellement exprimés (DE) entre 2 conditions alors le risque consiste à déclarer un gène DE alors qu’il ne l’est pas : on parle de gène faux-positif (FP). Au contraire, un gène « réellement » DE non détecté par le test est dit faux-négatif (FN).

Les conséquences de ces 2 types d’erreur sont de natures diverses. Dans le premier cas, on va engager des moyens (humains et financiers) pour valider l’hypothèse que le gène FP est effectivement intéressant alors qu’il ne l’est pas. Dans le second cas (FN), on passe peut-être à côté de la découverte du siècle en négligeant un gène important !!!

52Sébastien Déjean Analyse statistique pour données à haut débit

Multiplicité

• 1 comparaison : α = P[Rejeter H0 // H0 vraie] = 5%

• 3 comparaisons :α1 = P[Rejeter H01 // H01 vraie] = 5%α2 = P[Rejeter H02 // H02 vraie] = 5%α3 = P[Rejeter H03 // H03 vraie] = 5%

Probabilité de ne pas commettre d’erreur : 1-0.05 = 0.95

Probabilité de ne pas commettre d’erreur = produit des probabilités de ne pas commettre d’erreur à chacune des 3 comparaisons = (1-0.05) * (1-0.05) * (1-0.05) = 0.86

Le risque (global) de commettre au moins une erreur est :

1-0.86 = 0.14

Il faut donc diminuer le risque associé à chaque comparaison pour contrôler le risque global.

Retour sur les tests

53Sébastien Déjean Analyse statistique pour données à haut débit

Multiplicité

En prenant α1=α2=α3=αg/3=0.05/3, on a la probabilité de ne pas commettre d’erreur :

(1-0.05/3) * (1-0.05/3) * (1-0.05/3) = 0.9508

Ce qui correspond à un risque global inférieur à 5%.

Méthode de Bonferroni

La méthode de Bonferroni consiste à corriger le risque associé à chaque comparaison (αi) en le divisant par le nombre de comparaisons à effectuer pour contrôler le risque global (αg)

Dans le cas des biopuces comportant plusieurs centaines voire plusieurs milliers de gènes, cette correction peut devenir trop conservative et conduire à la détection d’aucun gène. D’autres méthodes plus sophistiquées existent : Sidak, Holm, Westfall et Young, Hochberg…

54Sébastien Déjean Analyse statistique pour données à haut débit

MultiplicitéComparaison de méthodes de prise en compte de la multiplicité

Dans le graphique ci-contre, on constate que les 2 méthodes extrêmes sont l’absence d’ajustement (rawp) et la correction de Bonferroni qui détectent respectivement le plus grand (~55) et le plus petit (~25) nombre de gènes. Les autres méthodes d’ajustement sont des intermédiaires entre ces 2 extrêmes.

5%

55Sébastien Déjean Analyse statistique pour données à haut débit

ANOVA (1 facteur)Notations

• Yij : jème observation pour la ième modalité du facteur

• Yi. : moyenne des observations de la ième modalité

• Y.j : moyenne des observations de la jème répétition

• Y.. : moyenne générale

• I modalités, J observations par modalité (plan équilibré)

• N=IJ observations

RépétitionsModalité

1

Y11

Y21

YI1

Y.1

2 … J

1

Moyenne

Y12

Y22

2

Y1.

YI2

Y.2

Y1J…

Y2J

YIJ

… Y.I

Y2.

I YI.

Moyenne Y..

56Sébastien Déjean Analyse statistique pour données à haut débit

ANOVA (1 facteur)

Modèle d’ANOVA :

SCtotale SCfacteur SCrésidu

Test de l’effet du facteur :

Modèle et somme de carrés

ijiij εαμY ++=

0 ,...,1 : 0 ==∀ iIiH α

( ) ( ) ( )∑∑∑∑∑= === =

−+−=−I

i

J

jiij

I

ii

I

i

J

jij yyyyJyy

1 1

2.

1

2...

1 1

2..

μ : effet moyen général

αi : effet différentiel de la ième modalité du facteur

57Sébastien Déjean Analyse statistique pour données à haut débit

ANOVA (1 facteur)

P value

F= CMf/CMr

Statistique de test F

SCtotaleN-1Variation

totale

CMr= SCr/(N-I)SCrésiduN-I

Variation « résidu »

CMf= SCf/(I-1)SCfacteurI-1

Variation « facteur »

Carrés moyens

Somme de carrés

Degrés de liberté

Source de variation

Plus la variabilité due au facteur est importante par rapport à celle due au résidu, plus le test est susceptible de conclure à un effet du facteur.

Table d’ANOVA

Règle de décision : F > FI-1,N-I,αrejet de H0

58Sébastien Déjean Analyse statistique pour données à haut débit

Degré de liberté

Dans la table d’ANOVA présentée précédemment, on retrouve une colonne « degré de liberté ». Cette information est essentielle dans tous les aspects de la statistique liés à la modélisation et aux tests. Elle traduit la quantité d’information dont on dispose pour estimer une quantité inconnue. Dans le calcul des degrés de liberté, on se retrouve systématiquement avec une valeur –1.

Imaginons 3 personnes (X, Y, Z) face à 3 vêtements (R, V, B). Chacune des personnes doit choisir à son tour un vêtement.

• X commence et a le choix entre 3 vêtements R, V, B. Il choisit R.

• Y vient ensuite. Il ne reste que 2 choix possibles : V et B. Il choisit B.

• Z arrive et n’a plus le choix, il prend V !

Ainsi, dans une situation où 3 unités sont initialement présentes, on constate que seulement 2 choix sont possibles ; le troisième étant nécessairement imposé.

59Sébastien Déjean Analyse statistique pour données à haut débit

ANOVA (2 facteurs)

Facteur B (J modalités)Facteur A

(I modalités) 1

Y111

Y11K

Y211

Y21K

YI11

YI1K

Y.1.

2 … J

1

Moyenne

Y121

Y12K

Y221

Y22K

2

Y1..

YI21

YI2K

Y.2.

Y1J1

Y1JK

Y2J1

Y2JK

YIJ1

YIJK

… Y.3.

Y2 ..

I YI ..

Moyenne Y…

Notations

Y11. Y12. Y1J.

Y21. Y22. Y2J.

YI1. YI2. YIJ.

60Sébastien Déjean Analyse statistique pour données à haut débit

ANOVA (2 facteurs)

ijkijjiijk εαμY ++++= γβ

( ) ( ) ( ) ( )∑∑∑∑∑∑∑= = == ===

−++−−+−+−I

i

J

j

K

kijijk

I

i

J

jjiij

I

ij

I

ii yyyyyyKyyIKyyJK

1 1 1

2.

1 1

2........

1

2.....

1

2.....

Modèle

SCtotale

Scfacteur A SCrésidu

Décomposition

Scfacteur B Scinteraction

( )∑∑∑= = =

=−I

i

J

j

K

kijk yy

1 1 1

2...

μ : effet moyen général αi : effet différentiel de la ième modalité du facteur Aβi : effet différentiel de la jème modalité du facteur Bγij : effet d’interaction de la ième modalité du facteur A avec la jème du facteur B

61Sébastien Déjean Analyse statistique pour données à haut débit

ANOVA (2 facteurs)

CMresid = SCErésidu /IJ(K-1)SCErésiduIJ(K-1)Résiduelle

…CMA*B / CMrésidu

CMA*B = SCEA*Bt /(I-1)(J-1)

SCEA*B(I-1)(J-1)Interaction

…CMB / CMrésiduCMB = SCEB /(J-1)SCEBJ-1Facteur B

…CMA / CMrésiduCMA = SCEA/(I-1)SCEAI-1Facteur A

p-valueFCM

(carré moyen)

SCE(Somme de carrés d’écarts)

Degrés de liberté

Sources de

variation

62Sébastien Déjean Analyse statistique pour données à haut débit

ANOVA (2 facteurs)Graphes d’interaction

Var

iable

rép

onse

Facteur B_1

Facteur B_2

Facteur A_1 Facteur A_2Var

iable

rép

onse

Facteur B_1

Facteur B_2

Facteur A_1 Facteur A_2

L’effet d’un facteur dépend de la modalité de l’autre facteur l’interaction sera

probablement déclarée significative lors du test statistique

L’effet d’un facteur ne dépend pas de la modalité de l’autre facteur l’interaction

sera probablement déclarée non significative lors du test statistique

Y11.

Y21.

Y12.

Y22.

Y11.

Y21.

Y12.

Y22.

63Sébastien Déjean Analyse statistique pour données à haut débit

ANOVA

1) Homoscédasticité

2) Indépendance

3) Normalité

Les données doivent vérifier 3 hypothèses :(de la plus importante à la moins importante)

Dans quels cas peut-on utiliser l’analyse de variance ?

64Sébastien Déjean Analyse statistique pour données à haut débit

ANOVAHomoscédasticité

La variance de la variable à expliquer ne dépend pas des facteurs i.e., la variance est homogène entre les groupes d’individus.

Valeurs prédites par le modèle (fitted values)

Rés

idus

est

imés

Valeurs prédites par le modèle (fitted values)

Rés

idus

est

imés

Hétéroscédasticité Homoscédasticité ☺

65Sébastien Déjean Analyse statistique pour données à haut débit

ANOVAIndépendance

L’effet d’un facteur sur un individu n’a pas d’effet sur un autre individu.

En général, l’indépendance est postulée car elle est définie par le protocole expérimental.

Si il y a une coïncidence spatiale et temporelle des observations, l’indépendance est à mettre en doute.

66Sébastien Déjean Analyse statistique pour données à haut débit

ANOVANormalité

Pour une combinaison donnée des facteurs explicatifs, la distribution des données doit être normale (gaussienne).

Il existe des tests pour vérifier si un ensemble de valeurs est issu d’une loi normale : test de Kolmogorov-Smirnov, test de Shapiro-Wilk…

En général, on se limite à une étude graphique : qqplot (qq : quantile-quantile)

Quan

tile

s em

piriq

ues

des

rés

idus

Quantiles de la loi normale N(0,1)

67Sébastien Déjean Analyse statistique pour données à haut débit

ANOVA

Que faire si les conditions ne sont pas vérifiées par les données ?

Homoscédasticité : faire une transformation des variables (par exemple en prenant le log) et réévaluer l’homoscédasticité.

Indépendance : il existe d’autres méthodes qui permettent de gérer la dépendance.

Normalité : un écart modéré à l’hypothèse de normalité est sans conséquence sur les résultats de l’ANOVA. Si l’écart est trop important, tester des transformations de variables.

68Sébastien Déjean Analyse statistique pour données à haut débit

ANOVAInterprétation des résultats

vérification des hypothèses : homoscédasticité, indépendance et normalité

dans le cas d’un modèle à plusieurs facteurs, analyser en premier lieu les termes d’interactions d’ordre le plus élevé

se servir au mieux des sorties graphiques

gestion de la multiplicité ?

69Sébastien Déjean Analyse statistique pour données à haut débit

ANOVAModèle à 1 facteur : test de l’effet régime pour les souris WTGène BIEN Df Sum Sq Mean Sq F value Pr(>F)

reg 4 0.089270 0.022318 4.4546 0.01429

Residuals 15 0.075150 0.005010

Gène OCTN2 Df Sum Sq Mean Sq F value Pr(>F)

reg 4 0.010520 0.002630 0.6109 0.6611

Residuals 15 0.064575 0.004305

Le régime a un effet sur l’expression du gène BIEN, ce qui n’est pas le cas pour OCTN2.

Modèle à 2 facteurs : test des effets régime et génotypeGène BIEN Df Sum Sq Mean Sq F value Pr(>F)

reg 4 0.063725 0.015931 4.2740 0.007435

geno 1 0.152523 0.152523 40.9182 4.626e-07

reg:geno 4 0.129565 0.032391 8.6898 8.790e-05

Residuals 30 0.111825 0.003727

Gène ApoA.I Df Sum Sq Mean Sq F value Pr(>F)

reg 4 0.058565 0.014641 2.3717 0.0746722

geno 1 0.086490 0.086490 14.0103 0.0007697

reg:geno 4 0.044935 0.011234 1.8197 0.1510557

Residuals 30 0.185200 0.006173

Le régime et le génotype ont un effet sur l’expression du gène BIEN. Seul le génotype influence significativement l’expression du gène OCTN2.

70Sébastien Déjean Analyse statistique pour données à haut débit

Un peu de logiqueIls sont tous égaux

Ils ne sont pas tous égaux

Ils sont tous différents Au moins un est différent

?

71Sébastien Déjean Analyse statistique pour données à haut débit

Logique… et ANOVA

II αααα ==== −121 L Cette relation est fausse (rejetée)

Négation de l’affirmation : « ils sont tous égaux »

1) « ils sont tous différents » ?

OU

2) « il en existe au moins un qui est différent des autres » ?

En cas de rejet de l’hypothèse H0

Oui, mais le(s)quel(s) ? tests multiples

0 ,...,1 : 0 ==∀ iIiH α

72Sébastien Déjean Analyse statistique pour données à haut débit

1. Classification hiérarchique

2. Nuées dynamiques

3. Analyse en Composantes Principales

4. Positionnement multidimensionnel

Statistique descriptive multidimensionnelle

73Sébastien Déjean Analyse statistique pour données à haut débit

Multidimensionnel

Variable v1

Variable V2

Intérêt d’une approche multidimensionnelle ?

Ce qui n’est pas visible en 1 dimension (séparation des points bleus et rouges) devient évident en 2 dimensions

74Sébastien Déjean Analyse statistique pour données à haut débit

Jeu de données• 20 individus : 10 femmes, 10 hommes

• 5 variables :

V1 V2 V3 V4 V5

H 1 106.2 89.5 71.5 65.6 174.0

H 2 110.5 97.0 79.0 71.8 175.3

H 3 115.1 97.5 83.2 80.7 193.5

H 4 104.5 97.0 77.8 72.6 186.5

H 5 107.5 97.5 80.0 78.8 187.2

H 6 119.8 99.9 82.5 74.8 181.5

H 7 123.5 106.9 82.0 86.4 184.0

H 8 120.4 102.5 76.8 78.4 184.5

H 9 111.0 91.0 68.5 62.0 175.0

H 10 119.5 93.5 77.5 81.6 184.0

V1 V2 V3 V4 V5

F 1 105.0 89.0 71.2 67.3 169.5

F 2 100.2 94.1 79.6 75.5 160.0

F 3 99.1 90.8 77.9 68.2 172.7

F 4 107.6 97.0 69.6 61.4 162.6

F 5 104.0 95.4 86.0 76.8 157.5

F 6 108.4 91.8 69.9 71.8 176.5

F 7 99.3 87.3 63.5 55.5 164.4

F 8 91.9 78.1 57.9 48.6 160.7

F 9 107.1 90.9 72.2 66.4 174.0

F 10 100.5 97.1 80.4 67.3 163.8

V1 : tour au niveau des épaules (cm)V2 : tour de poitrine (cm)V3 : tour de taille (cm)V4 : masse (kg)V5 : taille (cm)

75Sébastien Déjean Analyse statistique pour données à haut débit

ClassificationObjectif : classer des individus en groupes

« homogènes »

Critère d’homogénéité : Taille ? Couleur ? Sourire ?

76Sébastien Déjean Analyse statistique pour données à haut débit

Classif. ascendante hiérarchique

• Préalable : distance inter-individus ET critère

d’agglomération (entre groupes d’individus)

• Procédure :

Début : chaque individu est une classe

Déroulement : à chaque étape, on regroupe les 2

« objets » les plus proches

Fin : une classe regroupe tous les individus

• Résultat : construction d’un arbre de classification

(dendrogramme)

77Sébastien Déjean Analyse statistique pour données à haut débit

ClassificationDistance euclidienne

H 1 H 2 H 3 H 4 H 5 …H2 13.08H3 29.81 21.20H4 17.44 12.79 16.01H5 22.05 14.17 10.55 7.28H6 23.56 12.43 14.39 17.16 14.55

2nn211n

1i

2ii2 )YX(...)YX()YX()Y,X(d −++−=−= ∑=

08.13)3.175174()8.716.65()795.71()975.89()5.1102.106()2,1( 222222 =−+−+−+−+−=HHd

Exemple

V1 V2 V3 V4 V5H1 106,2 89,5 71,5 65,6 174,0H2 110,5 97,0 79,0 71,8 175,3H1-H2 -4,3 -7,5 -7,5 -6,2 -1,3(H1-H2)² 18,5 56,3 56,3 38,4 1,7 171,1

13,08

Détail d’un calcul

78Sébastien Déjean Analyse statistique pour données à haut débit

Classification

H 1 H 2 H 3 H 4 H 5 …H2 0.0003H3 0.0035 0.0048H4 0.0051 0.0045 0.0032H5 0.0058 0.0062 0.0016 0.0009H6 0.0011 0.0016 0.0077 0.0108 0.0121

( )( )

( ) ( )∑ ∑

= =

=

−−

−−−=−=−

n

i

n

iii

n

iii

YX YYXX

YYXXYXYXcor

1 1

22

11),cov(1),(1σσ

Distance 1-corrélationPlutôt que d’utiliser directement la corrélation, on préfère, dans ce contexte, calculer 1-cor(X,Y) qui fournit des valeurs faibles pour des éléments proches. Les valeurs sont alors comprises entre 0 et 2.

V1 V2 V3 V4 V5 E-TH1 106,2 89,5 71,5 65,6 174,0 39,02H2 110,5 97,0 79,0 71,8 175,3 36,88

cov(H1,H2) 1438,3cor(H1,H2) 0,9997 0,0003

Exemple

Détail d’un calcul

Valeur proche de 0 : corrélation forte et positive

Valeur proche de 1 : pas de corrélation

Valeur proche de 2 : corrélation forte et négative

79Sébastien Déjean Analyse statistique pour données à haut débit

Classification

0

0

0

5

4

3

2

1

X

0

0

2

6

5

4

3

2

Y1

0.99500

1.102

56717

150-6

440-5

530-4

320-3

210-2

Y4Y3Y2

Comparaison de distance

Distance euclidienne

Corrélation 1-cor(X,Yi)

Corrélation carrée

sqrt(1-cor2(X,Yi))

Il n’existe pas une distance meilleure que les autres ! Le choix de la distance dépend de l’objectif.

80Sébastien Déjean Analyse statistique pour données à haut débit

ClassificationComparaison de distance

1 2 3 4 5

-10

010

2030

4050

xy1y2y3y4

81Sébastien Déjean Analyse statistique pour données à haut débit

Classification

Minimum (single) Maximum (complete) Moyen (average)

Ward ( ) ( ) ( )∑∑∑∑∑= === =

−+−=−p

1j

n

1i

2Gij

p

1j

2GG

p

1j

n

1i

2Gij XXXXXX j

Minimiser l’inertie intra-classe

Maximiser l’inertie inter-classes

Critère d’agglomération (linkage)

82Sébastien Déjean Analyse statistique pour données à haut débit

Classification

H 2 13 H 3 30 21 H 4 17 13 16 H 5 22 14 11 7 H 6 24 12 14 17 15 H 7 35 24 17 26 20 14 H 8 26 16 13 18 14 8 11 H 9 7 16 31 20 25 24 36 25 H10 24 16 13 18 14 11 15 10 25 F 1 5 14 33 21 25 26 37 28 10 26 F 2 20 19 37 27 29 30 38 33 26 31 17 F 3 10 14 30 17 21 26 36 29 17 27 10 15 F 4 14 19 40 28 32 29 40 32 14 33 12 19 18 F 5 25 21 38 30 31 29 36 34 30 32 22 8 20 23 F 6 8 11 25 14 17 20 30 20 10 18 10 21 13 18 26 F 7 18 29 47 33 39 40 51 42 18 41 16 27 21 15 33 24 F 8 31 44 61 46 52 55 66 57 32 55 30 39 34 30 45 37 15 F 9 2 11 29 16 21 22 33 24 7 23 5 20 10 14 25 7 19 33 F10 17 16 36 24 27 27 37 31 21 32 14 10 11 14 13 20 23 36 16

H1 H2 H3 H4 H5 H6 H7 H8 H9 H10 F1 F2 F3 F4 F5 F6 F7 F8 F9

1 32 5 6 7

Critère : Saut minimum (single)

4

Dendrogramme

83Sébastien Déjean Analyse statistique pour données à haut débit

ClassificationcH

MG

CoA

SA

CC

2P

LTP

AD

SS1 MS

eif2

gTR

bP

PAR

gV

LDLr

Pex1

1aB

cl.3

CO

X1C

YP4

A10

CY

P4A1

4H

MG

CoA

red

FX

Rm

ABC

1S

R.B

IA

CO

TH

CAR

1C

AC

PC

PT2

BIE

NM

RP6

FD

FT

PP

ARa

IL.2

MT

HF

RA

DIS

PR

XR

b2P

XR

LPL

LXR

bS

HP1

FAT

SIAT

4cU

CP2

i.BA

TP

PAR

dTR

aG

SA

CC

1i.N

OS

CY

P24

CY

P27

b1 ap2

CID

EA

CY

P2b

10P

ALc.

fos

RX

Rg1

UC

P3Tp

beta

G6P

DH

CO

X2i.F

ABP

Waf

1C

YP

2b13

NU

RR

1P

DK4

VDR

M.C

PT1

hABC

1R

AR

b2C

YP2

6Lp

in3

NG

FiB

OC

TN2

MD

R1

RAR

aC

16S

Rap

oA.I

SP

I1.1

apoE

PON

AM

2RA

CA

T1M

CA

DR

XRa

LXR

aT

HB

CY

P7a

MD

R2

i.BAB

PA

LDH

3P

ECI

Lpin

2LD

LrT

palp

hacM

OA

TS1

4Lp

inLp

in1

AC

AT2

CYP

8b1

GK

HP

NC

LB

SEP

CY

P27

a1G

6Pas

ePM

DC

Iap

oBG

STa

LCE

CY

P2c

29G

ST

mu

GS

Tpi2

L.F

ABP

FAS

CY

P3A1

1T

HIO

LA

CB

PC

BS

X36

b4N

tcp

AO

Xm

HM

GC

oAS

BA

CT

LPK

apoC

3

020

4060

8010

012

0

Dendrogramme issu de la classification ascendante hiérarchique des 120 gènes avec distinction de 5 groupes.

84Sébastien Déjean Analyse statistique pour données à haut débit

ClassificationQuelques remarques sur la classification hiérarchique :

• aucune connaissance a priori sur le phénomène étudié n’est requise

• réflexion préalable sur le choix de la distance et du critère d’agglomération. Il est même vivement conseillé de procéder à plusieurs classifications et de s’intéresser aux choses qui changent

• critère de saut minimum effet de chaîne (dendrogramme en forme d’escalier)

• le résultat est « figé ». Une fois effectué, un regroupement ne peut plus être défait.

Quand on dit oui, c’est pour la vie !

• un dendrogramme doit être vu comme un mobile pour bébé (le truc que l’on pend au dessus d’un berceau et dont les branches peuvent tourner). Ainsi, les « distances » entre les individus ne sont valables qu’en remontant les branches pas selon leur proximité « visuelle » (T.S.V.P.)

85Sébastien Déjean Analyse statistique pour données à haut débit

ClassificationAu gré de la rotation du mobile, le singe (rose) pourra très bien se retrouver à côté du chien (jaune) ou du lapin (bleu), mais le lapin sera toujours proche de sa balle bleue, le singe de sa balle rose et le chien de sa balle jaune.

Un dendrogramme… c’est pareil !

86Sébastien Déjean Analyse statistique pour données à haut débit

ClassificationFl

orid

aN

orth

Car

olin

aC

alifo

rnia

Mar

ylan

dA

rizon

aN

ew M

exic

oD

elaw

are

Ala

bam

aLo

uisi

ana

Illin

ois

New

Yor

kM

ichi

gan

Nev

ada

Ala

ska

Mis

siss

ippi

Sou

th C

arol

ina

Was

hing

ton

Ore

gon

Wyo

min

gO

klah

oma

Virg

inia

Rho

de Is

land

Mas

sach

uset

tsN

ew J

erse

yM

isso

uri

Ark

ansa

sTe

nnes

see

Geo

rgia

Col

orad

oTe

xas

Idah

oN

ebra

ska

Ken

tuck

yM

onta

naO

hio

Uta

hIn

dian

aK

ansa

sC

onne

ctic

utP

enns

ylva

nia

Haw

aii

Wes

t Virg

inia

Mai

neS

outh

Dak

ota

Nor

th D

akot

aV

erm

ont

Min

neso

taW

isco

nsin

Iow

aN

ew H

amps

hire

050

100

150

Pour enfoncer le clou !Exemple extrait de l’aide en ligne de la fonction hclust() de R

87Sébastien Déjean Analyse statistique pour données à haut débit

ClassificationEncore un coup pour les sportifs !Tableau masculin de l’US Open 2007 de Tennis (à partir des ¼ de finales)

Ferrer Chela Moya Djokovic Federer Roddick Davydenko Haas

Ferrer Djokovic Federer Davydenko

Djokovic Federer

Federer

Djokovic Moya Ferrer Chela Davydenko Haas Roddick Federer

Les rencontres successives ne dépendent pas de l’ordre des joueurs sur le tableau initial. Federer et Djokovic ne pouvaient se rencontrer qu’en finale quelle que soit leur position « visuelle » dans le tableau.

88Sébastien Déjean Analyse statistique pour données à haut débit

ClassificationImage de la matrice des données brutes

H3

H4

H5

H7

H10 H

6

H8 F7 F8 F2 F5 H9 F6 F1 H1 F9 F4 H2 F3 F10

020

4060

8010

012

014

0

Hei

ght

Taill

e

T.ta

ille

Mas

se

T.ep

aule

T.po

itrin

e

010

020

030

040

050

0

Hei

ght

Classification des variables

Classification des individus

Représentation simultanée des classifications des individus et des variables autour d’une image de la matrice des données restructurée selon les dendrogrammes.

Restr

uctura

tion

89Sébastien Déjean Analyse statistique pour données à haut débit

Classification

Cla

ssif

icati

on

des

sou

ris

Classification des gènes

90Sébastien Déjean Analyse statistique pour données à haut débit

Nuées dynamiques

• Préalable : déterminer le nombre de groupes (k) soit par une

connaissance a priori du phénomène étudié, soit par une autre méthode

(classification hiérarchique par exemple)

• Procédure :

Début : k centres (soit tirés aléatoirement, soit imposés par l’utilisateur)

Déroulement : à chaque étape,

tous les individus sont affectés au centre le plus proche

les centres de chaque groupe sont recalculés

Fin : les individus ne changent pas de groupe entre 2 étapes successives

• Résultat : répartition des individus en k groupes

Objectif : répartir des individus dans des groupes « homogènes » dont le nombre est fixé a priori

91Sébastien Déjean Analyse statistique pour données à haut débit

Nuées dynamiques

-0.5 0.0 0.5 1.0

-0.5

0.0

0.5

1.0

x

y

-0.5 0.0 0.5 1.0

-0.5

0.0

0.5

1.0

x

y

Exemple sur données simuléesRépartition en 2 groupes avec tirage aléatoire des centres initiaux

92Sébastien Déjean Analyse statistique pour données à haut débit

Nuées dynamiquesQuelques remarques sur les nuées dynamiques :

• nécessite de déterminer préalablement le nombre de groupes

• si les centres initiaux sont tirés aléatoirement, des exécutions successives de l’algorithme peuvent donner des résultats différents. Face à cela, on peut :

imposer les centres initiaux (par exemple, les barycentres des classes issues d’une classification hiérarchique)

s’intéresser aux formes fortes : quels que soient les centres, certains points se retrouvent toujours dans le même groupe

• un algorithme de nuées dynamiques exécuté après une classification hiérarchique permet de « stabiliser » la classification obtenue : l’algorithme de nuées dynamiques va permettre à des points de changer de groupe au gré de l’évolution de l’algorithme (ce que ne permet pas la classification hiérarchique (Quand on dit oui…)

93Sébastien Déjean Analyse statistique pour données à haut débit

ACP

Exemple tiré de S. Jay Gould (La mal-mesure de l’homme, chapitre 6)

Devinette : Que représente l’image ci-dessous ?(Attention, il y a un piège…)

94Sébastien Déjean Analyse statistique pour données à haut débit

ACPRéponse : C’est la représentation d’un poisson…

en 2 dimensions !!!

1ère composante principale

2ème composante principale

Centre de gravité du poisson

95Sébastien Déjean Analyse statistique pour données à haut débit

ACPL’image de la diapositive précédente est la représentation en 2 dimensions d’un poisson. En d’autres termes, c’est la projection d’un poisson sur un espace de dimension 2. Cette représentation est tellement fidèle à l’original en 3 dimensions (même si certains spécimens sont plutôt plats comme la sole, ils sont quand même en 3D) que nous n’avons aucun mal à le reconnaître. L’information apportée par la 3ème

dimension est minimale et sa perte n’est pas préjudiciable à la reconnaissance de l’objet.

Parmi les projections possibles en 2D, toutes ne permettent pas de reconnaître aussi facilement l’original. Imaginons par exemple, la projection de face (et non plus latéralement) du poisson, il estprobable que la réponse à la devinette soit aussi évidente.

L’ACP permet de déterminer les espaces de dimension inférieure à l’espace initial sur lesquels la projection du nuage de pointsinitial soit la moins déformée possible, autrement dit celle qui

conserve le plus d’information c’est-à-dire de variabilité.

Quelques explications

96Sébastien Déjean Analyse statistique pour données à haut débit

ACP

T.ep T.p T.t Masse Taille

T.ep 1.00 0.74 0.48 0.72 0.71

T.p 0.74 1.00 0.78 0.81 0.51

T.t 0.48 0.78 1.00 0.86 0.37

Masse 0.72 0.81 0.86 1.00 0.61

Taille 0.71 0.51 0.37 0.61 1.00Matrice des corrélations

Tour de Taille Tour

de

Poitr

ineT

ou

r d

’Ép

au

le

Plus mathématiquement (mais pas trop)

Les 5 variables morphologiques recueillies sur les 20 individus présentent des corrélations importantes. On peut en effet supposer qu’une personne ayant un tour d’épaule important a également un tout de poitrine élevé (la carrure de Casimir étant peu répandue chez l’Homo Sapiens). Dans ces conditions, l’information apportée par les 5 variables est redondante. Graphiquement, sur les 3 premières variables (« Tour des épaules », « Tour de poitrine » et « Tour de taille »), cela se traduit par des zones vides de points dans le cube. Une variable unique calculée comme combinaison de ces 3 variables (représentée par le flèche en pointillés) suffirait à représenter les individus avec une perte d’information minimale

car tous les points sont relativement proches de ce nouvel axe qui est la première composante principale.

97Sébastien Déjean Analyse statistique pour données à haut débit

T.Ep. T.P. T.T. M T

H2 110.5 97.0 79.0 71.8 175.3

H3 115.1 97.5 83.2 80.7 193.5

H7 123.5 106.9 82.0 86.4 184.0

H9 111.0 91.0 68.5 62.0 175.0

H10 119.5 93.5 77.5 81.6 184.0

F2 100.2 94.1 79.6 75.5 160.0

F5 104.0 95.4 86.0 76.8 157.5

F8 91.9 78.1 57.9 48.6 160.7

ACP

73 %

17 %

7 %2 % 1 %

Représentation graphique

98Sébastien Déjean Analyse statistique pour données à haut débit

ACPApplication aux biopuces

Représentation des individus (souris) et des variables (gènes) sur le premier plan principal

99Sébastien Déjean Analyse statistique pour données à haut débit

Positionnement multidimensionnel MultiDimensional Scaling

(MDS)

DonnéesBrutesn x p

Distanceinter-individus

n x n

• Principe : mettre en œuvre une ACP sur un tableau de distance

• Objectif : fournir une représentation des individus sur un espace de petitedimension respectant au mieux les distances initiales

La mise en œuvre du MDS peut se faire soit directement sur des données de type distance, soit, sur des distances calculées à partir d’un tableau individus ×variables selon n’importe quelle distance.

100Sébastien Déjean Analyse statistique pour données à haut débit

MDSExemple : distance entre 21 villes européennes

Athens Barcelona Brussels Calais Cherbourg Cologne Copenhagen . . .

Barcelona 3313

Brussels 2963 1318

Calais 3175 1326 204

Cherbourg 3339 1294 583 460

Cologne 2762 1498 206 409 785

Copenhagen 3276 2218 966 1136 1545 760

Geneva 2610 803 677 747 853 1662 1418

Gibraltar 4485 1172 2256 2224 2047 2436 3196

. . .

Jeu de données extrait de « TheCambridge Encyclopaedia » disponible directement dans R

La projection sur le premier plan obtenu par MDS donne une assez bonne répartition

géographique des villes européennes.

Pour des données de ce type, le format individus × variables n’a pas lieu d’être. Les données sont par nature de type distance.

101Sébastien Déjean Analyse statistique pour données à haut débit

MDSComparaison de distances

Distance euclidienne Corrélation Corrélation carrée

Influence du choix de la distance sur la position relative des gènes CAR1 et GSTpi2.

102Sébastien Déjean Analyse statistique pour données à haut débit

ConclusionBiologiste 1 – 0 Statisticien (Traduit de R. Tibshirani)

Avant d’être exécutés, on accorde une dernière volonté à un statisticien et à un biologiste. Le statisticien demande l’autorisation de donner une dernière conférence sur sa Grande Théorie des Statistiques. Le biologiste demande à être exécuté en premier (…avant la conférence…)

Aujourd’hui les biologistes sont confrontés à un afflux massif de données dont la gestion et l’analyse nécessitent des outils adaptés que seuls les statisticiens et les informaticiens maîtrisent.

INTERACTIONS

Biologiste 1 – 1 Statisticien (R.A. Fisher)

To call in a statistician after the experiment is done may beno more than asking him to perform a postmortemexamination: he may be able to say what the experimentdied of.

Les statisticiens se confrontent à des questions nouvelles apportées par les biologistes et à des données d’origine biologique avec leurs spécificités (dimensions, bruits, etc…)

103Sébastien Déjean Analyse statistique pour données à haut débit

Statistique• L. Lebart, A. Morineau, M. Piron - Statistique exploratoire multidimensionnelle, Dunod (1995).

• G. Saporta - Probabilités analyse des données et statistique, Éditions Technip (1990).

Bibliographie

Web• www.lsp.ups-tlse.fr/Biopuces : publications, supports de formation, bibliographie…

Vulgarisation scientifique• Jay Gould S. La mal-mesure de l’homme, Livre de Poche (1997).Corrélation-causalité, analyse factorielles (ACP)…

• Jay Gould S. L’éventail du vivant, Points Sciences (2001).Indicateurs statistiques : moyenne, médiane, mode…

104Sébastien Déjean Analyse statistique pour données à haut débit

Ouvertures

1) Classification de courbesLissage spline

2) Recherche de corrélations entre 2 jeux de données

Analyse canonique

Traitement de problèmes spécifiques

105Sébastien Déjean Analyse statistique pour données à haut débit

Cas n°1

(P. Martin, Unité de Pharmacologie et Toxicologie, INRA Toulouse)

Expérience de jeûne chez la souris 11 temps de mesure entre 0 et 72h (0 – 3 – 6 – 9 – 12 – 18 – 24 – 36 – 48 – 60 – 72)

4 souris par temps~200 gènes étudiés (130 après « nettoyage »)Objectif : classification des gènes selon leur profil temporeld’expression au cours du jeûne

106Sébastien Déjean Analyse statistique pour données à haut débit

Les données

107Sébastien Déjean Analyse statistique pour données à haut débit

Méthodologie

1) Lissage par spline cubique2) Calcul de la fonction dérivée3) Discrétisation de la courbe

dérivée4) Classification sur la base des

valeurs de la dérivée aux points de discrétisation

108Sébastien Déjean Analyse statistique pour données à haut débit

Lissage

Paramètre de lissage :

• plus λ est élevé, plus la courbe lissé se rapproche d’une droite (régression linéaire)

• quand λ est faible, la solution du problème d’optimisation se rapproche d’une fonction d’interpolation

109Sébastien Déjean Analyse statistique pour données à haut débit

Influence de λ

110Sébastien Déjean Analyse statistique pour données à haut débit

Courbes dérivées

111Sébastien Déjean Analyse statistique pour données à haut débit

Courbes lissées et dérivées

112Sébastien Déjean Analyse statistique pour données à haut débit

Choix de λ

Question centrale dans les problèmes de lissage (et plus généralement dans l’optimisation de fonctions pénalisées)

Méthodes automatiques : validation croisée, sélection de modèle…

Méthodes « pragmatiques » : intégration du phénomène biologique sous-jacent, pertinence du nombre de changements de signe de la dérivée

λ = 0.6

113Sébastien Déjean Analyse statistique pour données à haut débit

Discrétisation20 points de discrétisation équi-répartis entre 0 et 72h

114Sébastien Déjean Analyse statistique pour données à haut débit

Nouvelles données

Les gènes ne sont plus caractérisés par des mesures à 11 temps différents mais par 20 valeurs de la dérivée de leur profil lissé

Le nouveau tableau de données a donc 130 lignes et 20 colonnes

Dans ce nouveau cadre, les variables sont les temps de discrétisation (et non plus les temps réels d’acquisition)

115Sébastien Déjean Analyse statistique pour données à haut débit

Classification

Mise en œuvre d’un algorithme de type kmeans pour stabiliser les groupes issus de la CAH

116Sébastien Déjean Analyse statistique pour données à haut débit

ACP

117Sébastien Déjean Analyse statistique pour données à haut débit

Groupes de profils

118Sébastien Déjean Analyse statistique pour données à haut débit

Cas n°2

(P. Martin, Unité de Pharmacologie et Toxicologie, INRA Toulouse)

Expérience de nutrition chez la souris 40 souris (4 souris × 5 régimes × 2 génotypes)

2 types de mesure :Expression de 120 gènesConcentration de 21 acides gras hépatiques

Objectif : recherche de corrélationsentre les niveaux d’expression desgènes et les concentrations en acides gras hépatiques

119Sébastien Déjean Analyse statistique pour données à haut débit

Les données

X(40 ×20)

Y(40×120)

40 souris

120 gènes21 lipides

2121 XXXX ... = 12021 YYYY ... =

120Sébastien Déjean Analyse statistique pour données à haut débit

Analyse canoniquePrincipe : rechercher les combinaisons linéaires, une dans chaque groupe de variables, les plus corrélées ( analogie avec l’ACP ?)

21121

212

111

1 XaXaXaU +++= L1201

12021

211

11 YbYbYbV +++= L

( ) ( )VUcorVUcorVU

,max,,

111 ==ρ

Premières variables canoniques

21221

222

121

2 XaXaXaU +++= L1202

12022

212

12 YbYbYbV +++= L

( ) ( )VUcorVUcorVU

,max,,

222 ==ρDeuxièmes variables canoniques

( ) ( ) 0,, 2121 == VVcorUUcor

121Sébastien Déjean Analyse statistique pour données à haut débit

Mathématiquement

( ) ttX XXXXP 1−= ( ) ttY YYYYP 1−=

Soit PX et PY les projecteurs sur les espaces engendrés respectivement par les colonnes des matrices X et Y

Les corrélations canoniques ρs sont égales aux racines carrées des valeurs propres de la matrice PXPY

Les vecteurs Us sont les vecteurs propres de la matrice PXPY associés aux valeurs propres λs

Les vecteurs Vs sont les vecteurs propres de la matrice PYPX associés aux valeurs propres λs

122Sébastien Déjean Analyse statistique pour données à haut débit

AC régularisée

( ) ttX XIXXXP 11

−+= λ ( ) ttY YIYYYP 12

−+= λ

Quand on dispose de plus de variables que d’individus, les matrices XtX et YtY deviennent mal conditionnées et leur inversion délicate.

Pour remédier à cela, on peut avoir recours à une technique de régularisation consistant à ajouter un terme, plus ou moins grand, à la diagonale de la matrice à inverser.

Problème de réglage des paramètres de régularisation λ1 et λ2 : validation croisée …

123Sébastien Déjean Analyse statistique pour données à haut débit

Résultats

VariablesIndividus

?

ConnuRésultat de l’étude (validé par ailleurs)