45
1 Introduction aux statistiques exploratoires Jean Paul Maalouf [email protected] 25 octobre 2017 Illustrée avec XLSTAT www.xlstat.com

Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

  • Upload
    others

  • View
    13

  • Download
    0

Embed Size (px)

Citation preview

Page 2: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

2

PLAN

• XLSTAT : qui sommes-nous ?

• Statistiques : catégories

• Rappel : Variables, individus, Statistiques Descriptives

• Vers les statistiques exploratoires : nuage de points coloré par groupe

• Statistiques exploratoires et data mining

• Analyse en Composantes Principales (ACP) : concept et application

• Classification Ascendante Hiérarchique (CAH) : concept et application

Toutes les données de ce webinar ont été inventées

sauf mention contraire

Page 3: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

3

Logiciel XLSTAT

XLSTAT est un logiciel d’analyse de

données convivial qui s’intègre à Excel

Page 4: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

4

XLSTAT, HistoriqueUn logiciel en pleine croissance, une équipe grandissante

Thierry Fahmydéveloppe une

alternative user-friendly

pour l’analyse de données :

Naissance d’XLSTAT

Première vente sur

internet

Nouvelle version, Interface : VBA,

Calculs : C++7 langues

Nouveaux produitsNouveau site

Equipe grandissante

Création de la société

Addinsoft

Nouvelles offres

modulaires

XLSTAT 365Version Cloud

pour Excel 365XLSTAT-Free

1993 2000 2009 2016

201520061996

Intégration R

R

2017

Page 5: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

5

XLSTAT en quelques chiffres

200+ fonctionnalités statistiques

Réparties dans des solutions généralistes ou

orientées-métier

100k utilisateurs

A travers le monde. Secteurs privé, éducation,

recherche

22 salariés

A l’écoute des utilisateurs

220k visites/mois sur le site web

Tutoriels didactiques en 5 langues

7 langues 10k téléchargements/mois

Page 6: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

6

Statistiques : 4

catégories

Page 7: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

7

Statistiques : 4 catégories

Description Exploration Tests Modélisation

Je veux résumer des

données grâce à des

calculs ou des

graphiques simples

(moyenne, écart

type, box plot…)

Je veux plonger

facilement dans un gros

jeu de données sans

forcément avoir une

question précise

derrière la tête (ACP,

CAH...)

Je veux accepter /

rejeter une hypothèse

bien précise en

assumant des risques

d’erreur (test t,

ANOVA, khi²,

corrélation...)

Je cherche à comprendre

comment évolue un

phénomène en fonction

d’un ensemble de

paramètres (régression,

ANCOVA, ANOVA)

Page 9: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

9

Rappel :

Variables,

individus,

statistiques

descriptives

Page 10: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

10

Variables, individus...

Variable

Elément qui peut prendre différentes valeurs

Variable qualitative

Variable qu’on ne peut pas quantifier. Exemples :

catégorie socioprofessionnelle, origine

géographique, type de licence, groupe sanguin...

Variable quantitative

Variable qu’on peut quantifier. Exemples : montant

d’une facture, nb de “j’aime” sur fb, concentration en

sucre, taille...

Individu

Unité statistique élémentaire. Peut être décrit par

des variables. Exemples : clients, personnes sondées,

patients, souris de laboratoires...

Page 11: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

11

Tableau de données : plateforme de vente

de chaussures en ligne

Variables

Ind

ivid

us

Page 12: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

12

Statistiques DescriptivesOutils courants selon le cas

1 var. qualiTri à plat, mode, graphique en camembert…

1 var. quantiTendance centrale (moyenne / médiane) ;

dispersion (variance / écart type) ; box plot

1 var. quali x 1 var. qualiTri croisé (tableau de contingence)

1 var. quanti x 1 var. quantiNuage de points

1 var. quanti x 1 var. qualiStatistiques quanti par modalité quali ;

graphique avec un box plot par modalité de

variable quali

1 var. quanti x 1 var. quanti x 1 var. qualiNuage de points coloré en fonction des

modalités de la variable quali

Page 13: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

13

Vers les

statistiques

exploratoires :

nuage de points

coloré par

groupe

Page 14: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

14

Vers les statistiques exploratoires : nuage de points

coloré par groupe

- Montant facture diminue avec temps passé sur le site

- Clients plutoniens passent moins de temps sur le site que les autres

- Martiens et terriens forment un grouperelativement homogène

- ...

Page 15: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

15

Imaginez le même raisonnement sur un nombre plus élevé de variables ... Place aux statistiques exploratoires

Page 16: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

16

Exemple : Analyse en Composantes Principales (ACP)On veut raisonner de la même manière qu’avec le nuage de points (2D)

mais en utilisant un tableau à plus de 2 colonnes (dimensions)

Page 17: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

17

Statistiques

exploratoiresJe veux plonger facilement dans un gros

jeu de données sans forcément avoir une

question précise derrière la tête

Page 18: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

18

Statistiques exploratoires : quelques mots

Statistiques exploratoires

Rechercher de l’information dans un jeu de données à plusieurs variables, sans

avoir d’attentes très précises. Font partie du Data Mining

Première utilité : concentrer l’information de gros tableaux de

données sur quelques dimensions

Exemples : Analyse en Composantes Principales, analyse des correspondances

Deuxième utilité : classification (ou segmentation)

Exemples : Classification Ascendante Hiérarchique, k-means

Page 19: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

19

Analyse en

Composantes

Principales (ACP)Je veux pouvoir résumer un jeu de

données à plusieurs colonnes sur

quelques graphiques simples

- Les relations entre variablesOn pourra examiner :

- La proximité des individusentre eux

- La caractérisation des individus par les variables

Page 20: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

20

ACP : concept

Jeu de données initial

+

Quantitéd’information

-

Jeu de données artificiel synthétisé par l’ACP.

Information redistribuée de manière à en concentrer un maximum sur quelques dimensions (les premières)

Jargon d’ACP :dimension= axe= facteur

information= variabilité= inertie

Page 22: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

22

ACP : à quoi ça ressemble, en réalité ?Graphique 1 : cercle des corrélations

- Angle aigu : variables positivement liées- Angle droit : variables non liées- Angle obtus : variables négativement liées

La longueur d’un vecteur (d’une

variable) reflète la qualité de sa

représentation dans le plan

considéré (ici F1/F2)

Page 23: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

23

ACP : Interprétation des axesGraphique 1 : cercle des corrélations

- F1 est lié :

- Au poids et à la taille (élevés sur la

droite et faibles sur la gauche)

- Au temps passé sur le site (élevé sur

la gauche et faible sur la droite) - F2 est lié :

- A la pointure (élevée en haut et

faible en bas)

Page 24: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

24

ACP : à quoi ça ressemble, en réalité ?Graphique 1 : cercle des corrélations ; graphique 2 : observations

Poids+

Taille+

Temps site-

Poids-

Taille-

Temps site+

Page 25: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

25

ACP : explorations ...

Le poids total augmente avec la taille Il y a deux groupes d’individus relativementsimilaires (gauche VS droite de l’ACP). Définis par rapport à la taille, le poids et le temps passé sur le site

Le temps passé sur le site diminue avec le poids et la taille

Derrick a de très gros pieds

La pointure n’est pas liée au poids / à la taille Et ainsi de suite...

L’ACP fonctionne avec des variables exclusivement quantitatives. Cliquez ici pour voir d’autresméthodes

Page 26: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

26

Focus sur cette notion de groupes

homogènes d’individus détectés sur l’ACP

Selon l’ACP nos individus se divisenten deux groupes (délimités par taille, poids et temps passé sur le site).

Ceci peut nous aider à mieuxpersonnaliser nos campagnesmarketing.

Poids+

Taille+

Temps site-

Poids-

Taille-

Temps site+

Et si les groupes ne pouvaient pas être définis si facilement “à la main”?

Page 27: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

27

Classification

Ascendante

Hiérarchique

(CAH)Je veux classer (segmenter) des individus

en groupes (= segments = classes)

homogènes

Page 28: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

28

Classification Ascendante Hiérarchique (CAH)EXEMPLE : analyse sensorielle, sondage consommateurs chocolat

Comment répartir les consommateurs en groupes homogènes ?

Illustration avec 2 variables

Page 29: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

29

CAH – comment ça marche sur 2 variables

x xx

19 groups18 groups17 groups16 groups15 groups14 groups8 groups9 groups7 groups6 groups5 groups4 groups3 groups2 groups1 group

Choisir un

niveau de

coupage

Segments

(groupes)

maintenant

définis

Age

Evidemment, cela se

généralise sur plus

de 2 variables

Page 30: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

30

Classification Ascendante Hiérarchique (CAH)Paramétrage dans XLSTAT

Lien Tutoriel CAH

Page 31: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

31

Classification Ascendante Hiérarchique (CAH)Ce que ça donne dans XLSTAT :

Plus le “trajet vertical” entre deux individus (ou groupes) est long, Plus les individussont différents

Ici, on pourrait diviser les individus en 3 ou 4 groupeshomogènes

Art

uro

Trac

yJo

rdan

Co

rnel

ius

An

ita

Elen

aC

and

ice

Jake

Juan

aK

rist

enD

ana

Mar

lon

Mo

na

Car

roll

Cri

stin

aH

op

eD

uan

eP

hili

pJo

eEd

mu

nd

Mau

rice

Mar

sha

Sam

Ped

roC

on

rad

Sop

hie

Bry

ant

An

ne

Mel

ind

aK

arla

Cas

eyR

ose

mar

yTa

mi

Do

ris

Sam

uel

Salv

ado

rTr

avis

Ran

dal

lK

evin

Der

ekK

rist

aFr

ank

Jod

yC

lyd

eD

ana

Ro

sem

arie

Cam

ero

nR

oge

rM

ike

Al

Max

Jon

ath

anA

na

Gab

riel

Bec

kyFa

yeA

mel

iaSa

raJe

rom

eD

om

inic

Stac

yJo

nat

ho

nA

lfre

do

Terr

ell

Pat

tiLe

ahP

ablo

Ran

dal

Bra

nd

iEd

ith

Tim

my

Mar

yB

yro

nC

lau

de

Gw

end

oly

nM

ich

eal

Eula

Joey

Bra

nd

on

Eliz

abet

hD

avid

Bo

bb

yC

aro

lC

od

yO

pal

Shel

iaD

on

Alis

on

Will

isIr

vin

Ted

Cec

elia

Shir

ley

Mu

riel

Luke

Wilb

ur

Lisa

Dar

rel

Sher

riSh

eryl

0

50

100

150

200

250

Dis

sim

ilari

Dendrogramme

Page 32: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

32

Classification Ascendante Hiérarchique (CAH)Division en 3 groupes :

Art

uro

Trac

yJo

rdan

Co

rnel

ius

An

ita

Elen

aC

and

ice

Jake

Juan

aK

rist

enD

ana

Mar

lon

Mo

na

Car

roll

Cri

stin

aH

op

eD

uan

eP

hili

pJo

eEd

mu

nd

Mau

rice

Mar

sha

Sam

Ped

roC

on

rad

Sop

hie

Bry

ant

An

ne

Mel

ind

aK

arla

Cas

eyR

ose

mar

yTa

mi

Do

ris

Sam

uel

Salv

ado

rTr

avis

Ran

dal

lK

evin

Der

ekK

rist

aFr

ank

Jod

yC

lyd

eD

ana

Ro

sem

arie

Cam

ero

nR

oge

rM

ike

Al

Max

Jon

ath

anA

na

Gab

riel

Bec

kyFa

yeA

mel

iaSa

raJe

rom

eD

om

inic

Stac

yJo

nat

ho

nA

lfre

do

Terr

ell

Pat

tiLe

ahP

ablo

Ran

dal

Bra

nd

iEd

ith

Tim

my

Mar

yB

yro

nC

lau

de

Gw

end

oly

nM

ich

eal

Eula

Joey

Bra

nd

on

Eliz

abet

hD

avid

Bo

bb

yC

aro

lC

od

yO

pal

Shel

iaD

on

Alis

on

Will

isIr

vin

Ted

Cec

elia

Shir

ley

Mu

riel

Luke

Wilb

ur

Lisa

Dar

rel

Sher

riSh

eryl

0

50

100

150

200

250

Dis

sim

ilari

Dendrogramme

Que faire à présent ?

On pourrait s’amuser à décrire ces groupes

Page 33: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

33

Décrire les

groupesDans les résultats de la CAH, on

peut voir l’appartenance des

individus aux différents groupes

(classes) Comment les décrire ?

Page 34: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

34

Description des groupes : statistiques

descriptives

Copier / Coller la colonneClasse (résultats CAH)dans le tableau de données

Lien Tutoriel

Page 35: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

35

Description des groupes : statistiques

descriptives

Les consommateursdes groupes 1 & 3 sont plus fidèlesaux marques

Les consommateurs du groupe 2 sont plus jeunes

Page 37: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

37

Moins confus : graphique en coordonnées

parallèles

Groupe 3 : consommateursâgés, fidèles à la marque, préfèrent les chocolatsamers, achètent moins enligne…

Groupe 2 : consommateursjeunes, peu fidèles à la marque, sensibles au prix…

Conséquences : - Promouvoir les chocolats

amers pour les consommateurs âgés.

- Promouvoir les chocolatsmoins chers pour les jeunes

- …

Page 38: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

38

L’exploration de jeux de données nous inspire un bon nombre

d’hypothèses... Sont-elles valides ? tests statistiques

Rendez-vous le 15 novembre

Inscription

Page 39: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

39

Take Home Message

Description Exploration Tests Modélisation

Je veux accepter / rejeter

une hypothèse bien

précise en assumant des

risques d’erreur (test t,

ANOVA, khi²,

corrélation...)

Description de jeux

de données à 1-3

variables. Peut

aboutir à des

hypothèses.

Je veux plonger

facilement dans un gros

jeu de données sans

forcément avoir une

question précise

derrière la tête (ACP,

CAH...)

Page 40: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

40

Statistiques exploratoires :

Take Home Message

Statistiques exploratoires

Permettent d’exploiter facilement des tableaux de données volumineux

Elles donnent une vision synthétique de gros jeux de données

Exemples : Analyse en Composantes Principales, analyse des

correspondances, MDS…

Elles permettent de segmenter des jeux de données

Exemples : Classification Ascendante Hiérarchique, k-means

Lien : choisir un outil de statistique exploratoire en fonction de votre situation

Lien : choisir un outil de classification

Page 41: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

41

Merci pour votre attention !Tous les outils vus sont disponibles dans toutes les solutions XLSTAT (sauf la Free)

Téléchargez la version d’essai de 30 jours

Découvrez nos produits

Page 42: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

42

Analyse en Composantes PrincipalesEXEMPLE : analyse sensorielle, sondage consommateurs chocolat

Page 43: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

43

Analyse en Composantes PrincipalesEXEMPLE : analyse sensorielle, sondage consommateurs chocolat

fidélité marque

sensibilité au prix

acheteur en ligne

pref. amer

pref.glacé

pref.croquant

-2

-1

0

1

2

3

4

5

6

-5 -4 -3 -2 -1 0 1 2 3 4 5

F2 (

19

.21

%)

F1 (44.03 %)

Biplot (axes F1 et F2 : 63.25 %)

Page 44: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

44

Analyse en Composantes PrincipalesEXEMPLE : biostatistique, analyse de protéome (source des données : plateforme PAPPSO, Paris)

Page 45: Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining • Analyse en Composantes Principales (ACP) : concept et application • Classification

45

Analyse en Composantes PrincipalesEXEMPLE : biostatistique, analyse de protéome