33
Analyse de donn´ ees Analyse de donn´ ees Licence Pro ”Am´ elioration V´ eg´ etale” Marc Bailly-Bechet Universit´ e Claude Bernard Lyon I – France [email protected] 1 [email protected] Analyse de donn´ ees

Analyse de donn ees Licence Pro Am elioration V eg etale

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Analyse de donneesLicence Pro ”Amelioration Vegetale”

Marc Bailly-Bechet

Universite Claude Bernard Lyon I – France

[email protected]

1 [email protected] Analyse de donnees

Page 2: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Des stats pour faire quoi ?

Table des matieres

1 Des stats pour faire quoi ?

2 Variables aleatoires et lois de probabilite

3 Statistiques descriptives, estimation et intervalles de confiance

4 Tests de comparaison de moyennes et de proportions

2 [email protected] Analyse de donnees

Page 3: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Des stats pour faire quoi ?

Organisation des enseignements d’analyse de donnees

3 cours ”theoriques” de 1h30.

16h de TP sur ordinateur.

3 [email protected] Analyse de donnees

Page 4: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Des stats pour faire quoi ?

Pourquoi faire des statistiques en biologie ?

Variabilite : Une experience en biologie donne rarement unresultat tranche ou parfaitement reproductible.

Quantite : Les nouvelles technologies biologiques permettentde recueillir des quantites pharamineuses de donnees.

4 [email protected] Analyse de donnees

Page 5: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Des stats pour faire quoi ?

Les statistiques vues de loin

Population ⇒ Echantillonp, µ, σ2 n individus tires aleatoirement

⇑ ⇓Tests, estimation k

n , x , s2

Statistique inferentielle ⇐ Statistiques descriptives

5 [email protected] Analyse de donnees

Page 6: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Variables aleatoires et lois de probabilite

Table des matieres

1 Des stats pour faire quoi ?

2 Variables aleatoires et lois de probabilite

3 Statistiques descriptives, estimation et intervalles de confiance

4 Tests de comparaison de moyennes et de proportions

6 [email protected] Analyse de donnees

Page 7: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Variables aleatoires et lois de probabilite

Loi binomiale

La loi binomiale est la loi de probabilite decrivant le nombre dereussites parmi un ensemble de tirages aleatoires et independants.Elle se note B(n, p) avec n le nombre de tirages et p la probabilitede reussite a chaque tirage.

● ●

●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 10 20 30 40

0.0

0.1

0.2

0.3

n=100

Nombre de succès

Pro

babi

lité

● ●

●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●

●● ●

●●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●

●●

●●

● ● ● ●●

●●

●●

●● ● ● ● ● ● ● ●

p = 0.01p = 0.05p = 0.1p = 0.25

5 10 25

7 [email protected] Analyse de donnees

Page 8: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Variables aleatoires et lois de probabilite

Loi de Poisson

La loi de Poisson (de Simeon Denis Poisson, 1781-1840) est la loide probabilite decrivant le nombre d’evenements aleatoires etindependants arrivant dans le meme intervalle de temps oud’espace. Elle se note P(λ) avec λ l’esperance et la variance de laloi.

● ●

●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 5 10 15 20

0.0

0.1

0.2

0.3

Nombre d'évenements

Pro

babi

lité

● ●

●● ● ● ● ● ● ● ● ● ● ● ● ● ●

● ●

●● ● ● ● ● ● ● ● ● ●● ● ● ●

●● ●

●●

● ● ● ●

λ = 1λ = 2λ = 5λ = 10

1 2 5 10

8 [email protected] Analyse de donnees

Page 9: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Variables aleatoires et lois de probabilite

Probabilite absolue

Pas de 10 cm

Taille

a<P

(x)<

b

120 160 200

0

0.1

0.2

0.3

0.4

Pas de 5 cm

Taille

a<P

(x)<

b

120 160 200

0

0.1

0.2

0.3

0.4

Pas de 1 cm

Taille

a<P

(x)<

b

120 160 200

0

0.1

0.2

0.3

0.4

Pas de 0.1 cm

Taille

a<P

(x)<

b

120 160 200

0

0.1

0.2

0.3

0.4

9 [email protected] Analyse de donnees

Page 10: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Variables aleatoires et lois de probabilite

Densite de probabilite

Pas de 10 cm

Taille

Den

sité

120 160 200

0.00

0.01

0.02

0.03

0.04

Pas de 5 cm

Taille

Den

sité

120 160 200

0.00

0.01

0.02

0.03

0.04

Pas de 1 cm

Taille

Den

sité

120 160 200

0.00

0.01

0.02

0.03

0.04

120 160 200

0.00

0.01

0.02

0.03

0.04

Limite continue

Taille

Den

sité

10 [email protected] Analyse de donnees

Page 11: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Variables aleatoires et lois de probabilite

Loi normale

La loi normale est la loi de probabilite des variables aleatoirescontinues dependantes d’un grand nombre de causesindependantes et additives. Elle se note N (µ, σ) avec µ l’esperancede la loi et σ l’ecart-type.

−2 0 2 4 6 8 10 12

0.0

0.1

0.2

0.3

0.4µ=5

Valeur obtenue

Den

sité

de

prob

abili

σ = 1σ = 2σ = 5σ = 20

11 [email protected] Analyse de donnees

Page 12: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Statistiques descriptives, estimation et intervalles de confiance

Table des matieres

1 Des stats pour faire quoi ?

2 Variables aleatoires et lois de probabilite

3 Statistiques descriptives, estimation et intervalles de confiance

4 Tests de comparaison de moyennes et de proportions

12 [email protected] Analyse de donnees

Page 13: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Statistiques descriptives, estimation et intervalles de confiance

Variable discrete

Le balanin est un parasite de la chataigne.

Nb. de parasites xi 0 1 2 3 4 5 6 et plusNombre de fruits ni 1043 172 78 15 10 7 4ayant xi parasites

Frequence fi 0.785 0.129 0.059 0.011 0.007 0.005 0.004Frequence cumulee 0.785 0.914 0.973 0.984 0.991 0.996 1∑i

j=1 fj

13 [email protected] Analyse de donnees

Page 14: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Statistiques descriptives, estimation et intervalles de confiance

Variable continue

On observe la concentration en glucose dans plusieursmangues.

Concentration (g.L−1) Nb de mangues Frequence Frequence cumulee

X njniN

∑ij=1 fj

[135, 150[ 7 0.113 0.113[150, 165[ 10 0.161 0.274[165, 180[ 23 0.371 0.645[180, 195[ 14 0.226 0.871[195, 210[ 5 0.080 0.951[210, 225[ 3 0.049 1

14 [email protected] Analyse de donnees

Page 15: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Statistiques descriptives, estimation et intervalles de confiance

Moyenne observee sur des donnees groupees

On veut la moyenne du taux de glucose dans le melangefinal de nos 4 types de mangues :

Concentration (g.L−1) Moyenne Nb de manguesX x?j nj

[135, 165[ 150 17[165, 180[ 172.5 23[180, 195[ 187.5 14[195, 225[ 210 8

x =1

62(150× 17 + 172.5× 23 + . . .) =

10822.5

62= 174.56 g.L−1

15 [email protected] Analyse de donnees

Page 16: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Statistiques descriptives, estimation et intervalles de confiance

Difference entre mediane et moyenne

Revenu mensuel moyen des menages en France : 2474 eurosRevenu mensuel median des menages en France : 1514 euros

0 2000 4000 6000 8000 10000

0.00

000

0.00

010

0.00

020

Revenu mensuel des ménages

Den

sité

de

prob

abili

MoyenneMédiane

16 [email protected] Analyse de donnees

Page 17: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Statistiques descriptives, estimation et intervalles de confiance

Difference entre mediane et moyenne

Revenu mensuel moyen des menages en France : 2474 eurosRevenu mensuel median des menages en France : 1514 euros

0 2000 4000 6000 8000 10000

0.00

000

0.00

010

0.00

020

Revenu mensuel des ménages

Den

sité

de

prob

abili

MoyenneMédiane

16 [email protected] Analyse de donnees

Page 18: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Statistiques descriptives, estimation et intervalles de confiance

Les mangues sont a la mode

On observe la concentration en glucose dans plusieursmangues.

Concentration en glucose (g/L)

Nom

bre

de m

angu

es

140 160 180 200 220

0

5

10

15

20

17 [email protected] Analyse de donnees

Page 19: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Statistiques descriptives, estimation et intervalles de confiance

Variance et ecart-type observes, donnees groupees

La variance sur des donnees groupees se calcule ainsi :

Concentration (g.L−1) Moyenne Nb de manguesX x?

j nj[135, 165[ 150 17[165, 180[ 172.5 23[180, 195[ 187.5 14[195, 225[ 210 8

x = 174.56 g.L−1

s2 =1

62

(17× 1502 + 23× 172.52 + . . .

)− 174.562

= 365.60

s =√

365.60 = 19.12 g.L−1

18 [email protected] Analyse de donnees

Page 20: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Statistiques descriptives, estimation et intervalles de confiance

Loi de la moyenne de n v.a., n grand

n=1

Fré

quen

ce

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.4

0.8

n=20

Fré

quen

ce

0.0 0.2 0.4 0.6 0.8 1.0

01

23

45

n=100

Fré

quen

ce

0.0 0.2 0.4 0.6 0.8 1.0

02

46

810

n=1000

Fré

quen

ce

0.0 0.2 0.4 0.6 0.8 1.0

010

2030

40

19 [email protected] Analyse de donnees

Page 21: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Statistiques descriptives, estimation et intervalles de confiance

Distribution d’echantillonnage d’une moyenne observee

0.0

0.1

0.2

0.3

0.4

Moyenne observée de l'échantillon

Den

sité

de

prob

abili

µ

20 [email protected] Analyse de donnees

Page 22: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Statistiques descriptives, estimation et intervalles de confiance

Quantiles de la loi normale

P(µ− Cα < x < µ+ Cα) = 1− α

0.0

0.1

0.2

0.3

0.4

Moyenne observée de l'échantillon

Den

sité

de

prob

abili

µ − Cα µ µ + Cα

α 2 α 2

21 [email protected] Analyse de donnees

Page 23: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Statistiques descriptives, estimation et intervalles de confiance

Quantiles de la loi normale, α = 0.20

P(µ− C0.20 < x < µ+ C0.20) = 0.80

0.0

0.1

0.2

0.3

0.4

Moyenne observée de l'échantillon

Den

sité

de

prob

abili

µ − C0.2 µ µ + C0.2

0.1 0.1

22 [email protected] Analyse de donnees

Page 24: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Statistiques descriptives, estimation et intervalles de confiance

Quantiles de la loi normale, α = 0.05

P(µ− C0.05 < x < µ+ C0.05) = 0.95

0.0

0.1

0.2

0.3

0.4

Moyenne observée de l'échantillon

Den

sité

de

prob

abili

µ − C0.05 µ µ + C0.05

0.025 0.025

23 [email protected] Analyse de donnees

Page 25: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Statistiques descriptives, estimation et intervalles de confiance

Quantiles de la loi normale, α = 0.001

P(µ− C0.001 < x < µ+ C0.001) = 0.999

0.0

0.1

0.2

0.3

0.4

Moyenne observée de l'échantillon

Den

sité

de

prob

abili

µ − C0.001 µ µ + C0.001

5e−04 5e−04

24 [email protected] Analyse de donnees

Page 26: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Statistiques descriptives, estimation et intervalles de confiance

Quantiles de la loi normale centree reduite

0.0

0.1

0.2

0.3

0.4

Den

sité

de

prob

abili

z =x − µ

σ2

n

−3.29 −1.96−1.29 0 1.29 1.96 3.29− ε0.001 − ε0.05 − ε0.2 0 ε0.2 ε0.05 ε0.001

25 [email protected] Analyse de donnees

Page 27: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Tests de comparaison de moyennes et de proportions

Table des matieres

1 Des stats pour faire quoi ?

2 Variables aleatoires et lois de probabilite

3 Statistiques descriptives, estimation et intervalles de confiance

4 Tests de comparaison de moyennes et de proportions

26 [email protected] Analyse de donnees

Page 28: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Tests de comparaison de moyennes et de proportions

Distribution d’echantillonnage et moyenne observee

0.0

0.1

0.2

0.3

0.4

Den

sité

de

prob

abili

µ0 x

27 [email protected] Analyse de donnees

Page 29: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Tests de comparaison de moyennes et de proportions

Distribution d’echantillonnage et moyenne observee

0.0

0.1

0.2

0.3

0.4

Den

sité

de

prob

abili

µ0 x

Risque α

0.200.050.001

28 [email protected] Analyse de donnees

Page 30: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Tests de comparaison de moyennes et de proportions

Risque de deuxieme espece

0.0

0.1

0.2

0.3

0.4

Den

sité

de

prob

abili

−4 −2 0 2 4 6x − µ

σ2

n

H0 H1

29 [email protected] Analyse de donnees

Page 31: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Tests de comparaison de moyennes et de proportions

Risque de deuxieme espece

0.0

0.1

0.2

0.3

0.4

Den

sité

de

prob

abili

−4 −2 0 2 4 6x − µ

σ2

n

H0 H1

α2

α2

30 [email protected] Analyse de donnees

Page 32: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Tests de comparaison de moyennes et de proportions

Risque de deuxieme espece

0.0

0.1

0.2

0.3

0.4

Den

sité

de

prob

abili

−4 −2 0 2 4 6x − µ

σ2

n

H0 H1

α2

α2

β

31 [email protected] Analyse de donnees

Page 33: Analyse de donn ees Licence Pro Am elioration V eg etale

Analyse de donnees

Tests de comparaison de moyennes et de proportions

Test unilateral, α = 5%

H1 : µ 6= µ0 H1 : µ > µ0

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

Den

sité

de

prob

abili

α2

α2

ε0.05 = 1.96−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

α

ε0.1 = 1.645

32 [email protected] Analyse de donnees