Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining...

Preview:

Citation preview

1

Introduction aux statistiques exploratoires

Jean Paul Maaloufwebinar@xlstat.com

25 octobre 2017

Illustrée avec XLSTAT

www.xlstat.com

2

PLAN

• XLSTAT : qui sommes-nous ?

• Statistiques : catégories

• Rappel : Variables, individus, Statistiques Descriptives

• Vers les statistiques exploratoires : nuage de points coloré par groupe

• Statistiques exploratoires et data mining

• Analyse en Composantes Principales (ACP) : concept et application

• Classification Ascendante Hiérarchique (CAH) : concept et application

Toutes les données de ce webinar ont été inventées

sauf mention contraire

3

Logiciel XLSTAT

XLSTAT est un logiciel d’analyse de

données convivial qui s’intègre à Excel

4

XLSTAT, HistoriqueUn logiciel en pleine croissance, une équipe grandissante

Thierry Fahmydéveloppe une

alternative user-friendly

pour l’analyse de données :

Naissance d’XLSTAT

Première vente sur

internet

Nouvelle version, Interface : VBA,

Calculs : C++7 langues

Nouveaux produitsNouveau site

Equipe grandissante

Création de la société

Addinsoft

Nouvelles offres

modulaires

XLSTAT 365Version Cloud

pour Excel 365XLSTAT-Free

1993 2000 2009 2016

201520061996

Intégration R

R

2017

5

XLSTAT en quelques chiffres

200+ fonctionnalités statistiques

Réparties dans des solutions généralistes ou

orientées-métier

100k utilisateurs

A travers le monde. Secteurs privé, éducation,

recherche

22 salariés

A l’écoute des utilisateurs

220k visites/mois sur le site web

Tutoriels didactiques en 5 langues

7 langues 10k téléchargements/mois

6

Statistiques : 4

catégories

7

Statistiques : 4 catégories

Description Exploration Tests Modélisation

Je veux résumer des

données grâce à des

calculs ou des

graphiques simples

(moyenne, écart

type, box plot…)

Je veux plonger

facilement dans un gros

jeu de données sans

forcément avoir une

question précise

derrière la tête (ACP,

CAH...)

Je veux accepter /

rejeter une hypothèse

bien précise en

assumant des risques

d’erreur (test t,

ANOVA, khi²,

corrélation...)

Je cherche à comprendre

comment évolue un

phénomène en fonction

d’un ensemble de

paramètres (régression,

ANCOVA, ANOVA)

9

Rappel :

Variables,

individus,

statistiques

descriptives

10

Variables, individus...

Variable

Elément qui peut prendre différentes valeurs

Variable qualitative

Variable qu’on ne peut pas quantifier. Exemples :

catégorie socioprofessionnelle, origine

géographique, type de licence, groupe sanguin...

Variable quantitative

Variable qu’on peut quantifier. Exemples : montant

d’une facture, nb de “j’aime” sur fb, concentration en

sucre, taille...

Individu

Unité statistique élémentaire. Peut être décrit par

des variables. Exemples : clients, personnes sondées,

patients, souris de laboratoires...

11

Tableau de données : plateforme de vente

de chaussures en ligne

Variables

Ind

ivid

us

12

Statistiques DescriptivesOutils courants selon le cas

1 var. qualiTri à plat, mode, graphique en camembert…

1 var. quantiTendance centrale (moyenne / médiane) ;

dispersion (variance / écart type) ; box plot

1 var. quali x 1 var. qualiTri croisé (tableau de contingence)

1 var. quanti x 1 var. quantiNuage de points

1 var. quanti x 1 var. qualiStatistiques quanti par modalité quali ;

graphique avec un box plot par modalité de

variable quali

1 var. quanti x 1 var. quanti x 1 var. qualiNuage de points coloré en fonction des

modalités de la variable quali

13

Vers les

statistiques

exploratoires :

nuage de points

coloré par

groupe

14

Vers les statistiques exploratoires : nuage de points

coloré par groupe

- Montant facture diminue avec temps passé sur le site

- Clients plutoniens passent moins de temps sur le site que les autres

- Martiens et terriens forment un grouperelativement homogène

- ...

15

Imaginez le même raisonnement sur un nombre plus élevé de variables ... Place aux statistiques exploratoires

16

Exemple : Analyse en Composantes Principales (ACP)On veut raisonner de la même manière qu’avec le nuage de points (2D)

mais en utilisant un tableau à plus de 2 colonnes (dimensions)

17

Statistiques

exploratoiresJe veux plonger facilement dans un gros

jeu de données sans forcément avoir une

question précise derrière la tête

18

Statistiques exploratoires : quelques mots

Statistiques exploratoires

Rechercher de l’information dans un jeu de données à plusieurs variables, sans

avoir d’attentes très précises. Font partie du Data Mining

Première utilité : concentrer l’information de gros tableaux de

données sur quelques dimensions

Exemples : Analyse en Composantes Principales, analyse des correspondances

Deuxième utilité : classification (ou segmentation)

Exemples : Classification Ascendante Hiérarchique, k-means

19

Analyse en

Composantes

Principales (ACP)Je veux pouvoir résumer un jeu de

données à plusieurs colonnes sur

quelques graphiques simples

- Les relations entre variablesOn pourra examiner :

- La proximité des individusentre eux

- La caractérisation des individus par les variables

20

ACP : concept

Jeu de données initial

+

Quantitéd’information

-

Jeu de données artificiel synthétisé par l’ACP.

Information redistribuée de manière à en concentrer un maximum sur quelques dimensions (les premières)

Jargon d’ACP :dimension= axe= facteur

information= variabilité= inertie

22

ACP : à quoi ça ressemble, en réalité ?Graphique 1 : cercle des corrélations

- Angle aigu : variables positivement liées- Angle droit : variables non liées- Angle obtus : variables négativement liées

La longueur d’un vecteur (d’une

variable) reflète la qualité de sa

représentation dans le plan

considéré (ici F1/F2)

23

ACP : Interprétation des axesGraphique 1 : cercle des corrélations

- F1 est lié :

- Au poids et à la taille (élevés sur la

droite et faibles sur la gauche)

- Au temps passé sur le site (élevé sur

la gauche et faible sur la droite) - F2 est lié :

- A la pointure (élevée en haut et

faible en bas)

24

ACP : à quoi ça ressemble, en réalité ?Graphique 1 : cercle des corrélations ; graphique 2 : observations

Poids+

Taille+

Temps site-

Poids-

Taille-

Temps site+

25

ACP : explorations ...

Le poids total augmente avec la taille Il y a deux groupes d’individus relativementsimilaires (gauche VS droite de l’ACP). Définis par rapport à la taille, le poids et le temps passé sur le site

Le temps passé sur le site diminue avec le poids et la taille

Derrick a de très gros pieds

La pointure n’est pas liée au poids / à la taille Et ainsi de suite...

L’ACP fonctionne avec des variables exclusivement quantitatives. Cliquez ici pour voir d’autresméthodes

26

Focus sur cette notion de groupes

homogènes d’individus détectés sur l’ACP

Selon l’ACP nos individus se divisenten deux groupes (délimités par taille, poids et temps passé sur le site).

Ceci peut nous aider à mieuxpersonnaliser nos campagnesmarketing.

Poids+

Taille+

Temps site-

Poids-

Taille-

Temps site+

Et si les groupes ne pouvaient pas être définis si facilement “à la main”?

27

Classification

Ascendante

Hiérarchique

(CAH)Je veux classer (segmenter) des individus

en groupes (= segments = classes)

homogènes

28

Classification Ascendante Hiérarchique (CAH)EXEMPLE : analyse sensorielle, sondage consommateurs chocolat

Comment répartir les consommateurs en groupes homogènes ?

Illustration avec 2 variables

29

CAH – comment ça marche sur 2 variables

x xx

19 groups18 groups17 groups16 groups15 groups14 groups8 groups9 groups7 groups6 groups5 groups4 groups3 groups2 groups1 group

Choisir un

niveau de

coupage

Segments

(groupes)

maintenant

définis

Age

Evidemment, cela se

généralise sur plus

de 2 variables

30

Classification Ascendante Hiérarchique (CAH)Paramétrage dans XLSTAT

Lien Tutoriel CAH

31

Classification Ascendante Hiérarchique (CAH)Ce que ça donne dans XLSTAT :

Plus le “trajet vertical” entre deux individus (ou groupes) est long, Plus les individussont différents

Ici, on pourrait diviser les individus en 3 ou 4 groupeshomogènes

Art

uro

Trac

yJo

rdan

Co

rnel

ius

An

ita

Elen

aC

and

ice

Jake

Juan

aK

rist

enD

ana

Mar

lon

Mo

na

Car

roll

Cri

stin

aH

op

eD

uan

eP

hili

pJo

eEd

mu

nd

Mau

rice

Mar

sha

Sam

Ped

roC

on

rad

Sop

hie

Bry

ant

An

ne

Mel

ind

aK

arla

Cas

eyR

ose

mar

yTa

mi

Do

ris

Sam

uel

Salv

ado

rTr

avis

Ran

dal

lK

evin

Der

ekK

rist

aFr

ank

Jod

yC

lyd

eD

ana

Ro

sem

arie

Cam

ero

nR

oge

rM

ike

Al

Max

Jon

ath

anA

na

Gab

riel

Bec

kyFa

yeA

mel

iaSa

raJe

rom

eD

om

inic

Stac

yJo

nat

ho

nA

lfre

do

Terr

ell

Pat

tiLe

ahP

ablo

Ran

dal

Bra

nd

iEd

ith

Tim

my

Mar

yB

yro

nC

lau

de

Gw

end

oly

nM

ich

eal

Eula

Joey

Bra

nd

on

Eliz

abet

hD

avid

Bo

bb

yC

aro

lC

od

yO

pal

Shel

iaD

on

Alis

on

Will

isIr

vin

Ted

Cec

elia

Shir

ley

Mu

riel

Luke

Wilb

ur

Lisa

Dar

rel

Sher

riSh

eryl

0

50

100

150

200

250

Dis

sim

ilari

Dendrogramme

32

Classification Ascendante Hiérarchique (CAH)Division en 3 groupes :

Art

uro

Trac

yJo

rdan

Co

rnel

ius

An

ita

Elen

aC

and

ice

Jake

Juan

aK

rist

enD

ana

Mar

lon

Mo

na

Car

roll

Cri

stin

aH

op

eD

uan

eP

hili

pJo

eEd

mu

nd

Mau

rice

Mar

sha

Sam

Ped

roC

on

rad

Sop

hie

Bry

ant

An

ne

Mel

ind

aK

arla

Cas

eyR

ose

mar

yTa

mi

Do

ris

Sam

uel

Salv

ado

rTr

avis

Ran

dal

lK

evin

Der

ekK

rist

aFr

ank

Jod

yC

lyd

eD

ana

Ro

sem

arie

Cam

ero

nR

oge

rM

ike

Al

Max

Jon

ath

anA

na

Gab

riel

Bec

kyFa

yeA

mel

iaSa

raJe

rom

eD

om

inic

Stac

yJo

nat

ho

nA

lfre

do

Terr

ell

Pat

tiLe

ahP

ablo

Ran

dal

Bra

nd

iEd

ith

Tim

my

Mar

yB

yro

nC

lau

de

Gw

end

oly

nM

ich

eal

Eula

Joey

Bra

nd

on

Eliz

abet

hD

avid

Bo

bb

yC

aro

lC

od

yO

pal

Shel

iaD

on

Alis

on

Will

isIr

vin

Ted

Cec

elia

Shir

ley

Mu

riel

Luke

Wilb

ur

Lisa

Dar

rel

Sher

riSh

eryl

0

50

100

150

200

250

Dis

sim

ilari

Dendrogramme

Que faire à présent ?

On pourrait s’amuser à décrire ces groupes

33

Décrire les

groupesDans les résultats de la CAH, on

peut voir l’appartenance des

individus aux différents groupes

(classes) Comment les décrire ?

34

Description des groupes : statistiques

descriptives

Copier / Coller la colonneClasse (résultats CAH)dans le tableau de données

Lien Tutoriel

35

Description des groupes : statistiques

descriptives

Les consommateursdes groupes 1 & 3 sont plus fidèlesaux marques

Les consommateurs du groupe 2 sont plus jeunes

37

Moins confus : graphique en coordonnées

parallèles

Groupe 3 : consommateursâgés, fidèles à la marque, préfèrent les chocolatsamers, achètent moins enligne…

Groupe 2 : consommateursjeunes, peu fidèles à la marque, sensibles au prix…

Conséquences : - Promouvoir les chocolats

amers pour les consommateurs âgés.

- Promouvoir les chocolatsmoins chers pour les jeunes

- …

38

L’exploration de jeux de données nous inspire un bon nombre

d’hypothèses... Sont-elles valides ? tests statistiques

Rendez-vous le 15 novembre

Inscription

39

Take Home Message

Description Exploration Tests Modélisation

Je veux accepter / rejeter

une hypothèse bien

précise en assumant des

risques d’erreur (test t,

ANOVA, khi²,

corrélation...)

Description de jeux

de données à 1-3

variables. Peut

aboutir à des

hypothèses.

Je veux plonger

facilement dans un gros

jeu de données sans

forcément avoir une

question précise

derrière la tête (ACP,

CAH...)

40

Statistiques exploratoires :

Take Home Message

Statistiques exploratoires

Permettent d’exploiter facilement des tableaux de données volumineux

Elles donnent une vision synthétique de gros jeux de données

Exemples : Analyse en Composantes Principales, analyse des

correspondances, MDS…

Elles permettent de segmenter des jeux de données

Exemples : Classification Ascendante Hiérarchique, k-means

Lien : choisir un outil de statistique exploratoire en fonction de votre situation

Lien : choisir un outil de classification

41

Merci pour votre attention !Tous les outils vus sont disponibles dans toutes les solutions XLSTAT (sauf la Free)

Téléchargez la version d’essai de 30 jours

Découvrez nos produits

42

Analyse en Composantes PrincipalesEXEMPLE : analyse sensorielle, sondage consommateurs chocolat

43

Analyse en Composantes PrincipalesEXEMPLE : analyse sensorielle, sondage consommateurs chocolat

fidélité marque

sensibilité au prix

acheteur en ligne

pref. amer

pref.glacé

pref.croquant

-2

-1

0

1

2

3

4

5

6

-5 -4 -3 -2 -1 0 1 2 3 4 5

F2 (

19

.21

%)

F1 (44.03 %)

Biplot (axes F1 et F2 : 63.25 %)

44

Analyse en Composantes PrincipalesEXEMPLE : biostatistique, analyse de protéome (source des données : plateforme PAPPSO, Paris)

45

Analyse en Composantes PrincipalesEXEMPLE : biostatistique, analyse de protéome

Recommended