Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf ·...

Preview:

Citation preview

Exemple d’analyse de données

Fabrice Rossi

Université Paris 1

Présentation des données

ContexteI spectres proche infrarouge d’échantillons de vinI but pratique : calculer le taux d’alcool dans le vin à partir du

spectre

CaractéristiquesI 124 spectres, dont 30 réservés à l’évaluation finaleI 256 variables : nombre d’onde compris entre 400 et 4000 cm−1

AnalyseI trop de variables : 256 variables contre 94 objets (pour

l’apprentissage)I modèle linéaire simplifié

Spectres

0 50 100 150 200 250

−0.

20.

00.

20.

40.

6

abso

rban

ce

⇒ Quelques spectres atypiques

Spectres

0 50 100 150 200 250

−0.

20.

00.

20.

40.

6

abso

rban

ce

⇒ Trois spectres atypiques

Spectres « propres »

0 50 100 150 200 250

−0.

20.

00.

20.

40.

6

abso

rban

ce

On conserve les spectres atypiques les moins extrêmes

Variable à prédire

6 8 10 12 14 16

0.00

0.05

0.10

0.15

0.20

0.25

Densité estimée de la variable à prédire

Alcool

Den

sité

Quelques valeurs extrêmes : peuvent être utiles pour l’apprentissage

Lien variable à prédire / variables explicatives

−0.055 −0.050 −0.045 −0.040 −0.035

810

1214

X1

Alc

ool

Lien variable à prédire / variables explicatives

0.045 0.050 0.055 0.060 0.065 0.070

810

1214

X128

Alc

ool

Lien variable à prédire / variables explicatives

−0.020 −0.015 −0.010 −0.005

810

1214

X256

Alc

ool

Lien variable à prédire / variables explicatives

alcool

−0.055 −0.040 −0.020 −0.010

810

1214

−0.

055

−0.

040

spectre1

spectre128

0.04

50.

060

8 10 12 14

−0.

020

−0.

010

0.045 0.060

spectre256

Modèle linéaire simple

−0.055 −0.050 −0.045 −0.040 −0.035

810

1214

X1

Alc

ool

Modèle linéaire simple : Alcool = αX1 + β

Modèle linéaire simple : prévisions

−0.050 −0.045 −0.040 −0.035 −0.030

1011

1213

14

X1

Alc

ool

Prévisions du modèle

Représentation universelle

10 11 12 13 14

1011

1213

14

Cible

Pré

visi

on

Représentation des erreurs

0 5 10 15 20 25 30

−1.

0−

0.5

0.0

0.5

Observation

Err

eur

de p

révi

sion

Modèle linéaire plus riche

10 11 12 13 14

1112

1314

Cible

Pré

visi

on

3 variables1 variable

Modèle linéaire plus riche

0 5 10 15 20 25 30

−1.

0−

0.5

0.0

0.5

Observation

Err

eur

de p

révi

sion

3 variables1 variable

Choix du modèle

CandidatsI modèle linéaire réduit : choix des variablesI modèle linéaire régularisé ridgeI modèle linéaire régularisé lasso

MéthodeI validation croisée (3 blocs, par exemple)I choix du meilleur modèleI et choix du paramètre du modèle (nombre de variables,

paramètre de compromis)I construction du modèle completI évaluation sur l’ensemble de test

Choix de variables

0 10 20 30 40 50 60

1e−

021e

−01

1e+

001e

+01

1e+

02

Nombre de variables

Err

eur

quad

ratiq

ue to

tale

Validation croiséeApprentissage

Choix de variables

0 10 20 30 40 50 60

1e−

021e

−01

1e+

001e

+01

1e+

02

Nombre de variables

Err

eur

quad

ratiq

ue to

tale

Validation croiséeApprentissageTest

Remarques

Validation croiséeI chaque bloc correspond à un ordre spécifique pour les variablesI on agrège des prévisions pas des modèlesI on sélectionne une classe de modèles (des paramètres) pas un

modèleI on doit construire un modèle dans la classe après sélectionI le modèle final dépend de toutes les données d’apprentissage :

on ne peut pas estimer ses performances sur l’ensembled’apprentissage

Ensemble de testI données indépendantes pour l’évaluation finaleI ne doit jamais être utilisé pour autre choseI en particulier le choix du modèle final est fait sans utiliser

l’ensemble de test

Meilleur modèle30 variables

9 10 11 12 13 14 15

910

1112

1314

15

Cible

Pré

visi

on

testapprentissage

Meilleur modèle (tricherie)12 variables

9 10 11 12 13 14 15

910

1112

1314

15

Cible

Pré

visi

on

testapprentissage

Modèle trop faible3 variables

9 10 11 12 13 14 15

910

1112

1314

15

Cible

Pré

visi

on

testapprentissage

Modèle trop puissant90 variables

9 10 11 12 13 14 15

910

1112

1314

15

Cible

Pré

visi

on

testapprentissage

Meilleur modèle30 variables

1 2 3 4 5 6 7 8 9 11 13 15 17 19 21 23 25 27 29

Observation

Err

eur

de p

révi

sion

−0.

4−

0.2

0.0

0.2

0.4

Recommended