22

Analyse Statistique des Données Cours 8 Master 2 EID · Analyse Statistique des Données Cours 8 Master 2 EID ... Hypothèse 2: La relation entre la probabilité que l'événement

Embed Size (px)

Citation preview

Page 1: Analyse Statistique des Données Cours 8 Master 2 EID · Analyse Statistique des Données Cours 8 Master 2 EID ... Hypothèse 2: La relation entre la probabilité que l'événement

LUISS,Libera UniversitàInternazionaledegli Studi Sociali

Université Paris 13Laboratoire Analyse,Géométrie et ApplicationsUMR 7539

GOUTTE

Analyse Statistique des DonnéesCours 8

Master 2 EID

[email protected] Master 2 EID 07/08 1

Page 2: Analyse Statistique des Données Cours 8 Master 2 EID · Analyse Statistique des Données Cours 8 Master 2 EID ... Hypothèse 2: La relation entre la probabilité que l'événement

Contents

1 Introduction 3

2 La régression Logistic 4

2.1 Principes Généraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.2 Etape univariée pour variable qualitative . . . . . . . . . . . . . . . . . . . . 62.3 Etape univariée pour variable quantitative . . . . . . . . . . . . . . . . . . . 112.4 Les interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.5 Interprétations des Statistiques. . . . . . . . . . . . . . . . . . . . . . . . . . 162.6 Diagnostic (qualité) du modèle retenu. . . . . . . . . . . . . . . . . . . . . . 20

3 Regréssion Logisitic sous SAS 22

3.1 Methode de sélection des variables. . . . . . . . . . . . . . . . . . . . . . . . 22

[email protected] Master 2 EID 07/08 2

Page 3: Analyse Statistique des Données Cours 8 Master 2 EID · Analyse Statistique des Données Cours 8 Master 2 EID ... Hypothèse 2: La relation entre la probabilité que l'événement

L'objectif de ce cours est d'apprendre à utiliser les regressions logistiques et donc lesméthodes de scoring. Pour cela, nous verrons donc

1. Introduction

2. La régression LOGISTIC

• Principes généraux.

• Etape univariée pour variable qualitative.

• Etape univariée pour variable quantitative.

• Les interactions : Exemple.

• Interprétation des statistiques.

• Diagnostic (qualité) du modèle retenu.

3. La régression "LOGISTIC" avec SAS.

4. Applications.

1 Introduction

Le scoring est une méthode consistant à classer un ensemble d'individus en leur attribuantun score par rapport à une variable cible. Ce score peut re�eter:

• une appétence, c'est à dire l'envie d'acheter ou non un produit.

• une sensibilité à un produit ou à un événement.

• un risque, par exemple qu'un client soit mauvais payeur ou non.

Le scoring par la régression Logistique :

• Le score re�ète la probabilité q'un événement survienne.Exemple: Si on sollicite un client pour un produit, quel est le pourcentage de chanceque ce client achète le produit.

• Analyse rétrospective : Nous utilisons un ensemble d'indicateurs ou variables décrivantles conditions dans lesquelles se trouvaient les clients lorsqu'ils ont acheté le produit.Si on retrouve ces mêmes conditions pour les futurs clients, alors nous pouvons lessolliciter. Autrement dit nous utilisons une base de données d'apprentissage pourconstruire notre modèle.

• Importance de la richesse et de l'exactitude des indicateurs (variables).

[email protected] Master 2 EID 07/08 3

Page 4: Analyse Statistique des Données Cours 8 Master 2 EID · Analyse Statistique des Données Cours 8 Master 2 EID ... Hypothèse 2: La relation entre la probabilité que l'événement

2 La régression Logistic

2.1 Principes Généraux

La régression logistique est une méthode qui permet d'exprimer la relation entre une variablequalitative à 2 modalités (OUI/NON), que l'on appelera variable cible: Y, et des variablesqualitatives ou quantitatives (xi)i=1,..,n.La relation entre la variable cible Y à expliquer, qui peut être vu comme une probabilité d'unévénement, et les variables explicatives n'est pas linéaire, la fonction de lien est la fonctionlogistique.

Graphe:

[email protected] Master 2 EID 07/08 4

Page 5: Analyse Statistique des Données Cours 8 Master 2 EID · Analyse Statistique des Données Cours 8 Master 2 EID ... Hypothèse 2: La relation entre la probabilité que l'événement

En transformant la variable à expliquer Y, par le Logarithme de l'ODD de Y, il devientpossible d'utiliser les outils de régression linéaire.Dé�nition ODD:

ODD = P (Y )1−P (Y )

La somme des variables explicatives.

X =∑n

i=1 aixi

Les paramètres ai sont estimés, ils re�ètent l'importance de la liaison entre la probabilitéque l'événement survienne et la variable explicative xi.

Graphe:

Il faut maintenant trouver l'ensemble des variables qui explique le mieux la probabilité.Si nécessaire, nous les transformons pour mettre en valeur la relation existante avec la prob-abilité: Cette étape (appelée étape univariée) est très importante et peut être très longue sila base de donnée est riche.

[email protected] Master 2 EID 07/08 5

Page 6: Analyse Statistique des Données Cours 8 Master 2 EID · Analyse Statistique des Données Cours 8 Master 2 EID ... Hypothèse 2: La relation entre la probabilité que l'événement

2.2 Etape univariée pour variable qualitative

Etape 1:

[email protected] Master 2 EID 07/08 6

Page 7: Analyse Statistique des Données Cours 8 Master 2 EID · Analyse Statistique des Données Cours 8 Master 2 EID ... Hypothèse 2: La relation entre la probabilité que l'événement

Etape 2:

[email protected] Master 2 EID 07/08 7

Page 8: Analyse Statistique des Données Cours 8 Master 2 EID · Analyse Statistique des Données Cours 8 Master 2 EID ... Hypothèse 2: La relation entre la probabilité que l'événement

Etape 3:

[email protected] Master 2 EID 07/08 8

Page 9: Analyse Statistique des Données Cours 8 Master 2 EID · Analyse Statistique des Données Cours 8 Master 2 EID ... Hypothèse 2: La relation entre la probabilité que l'événement

Etape 4:

[email protected] Master 2 EID 07/08 9

Page 10: Analyse Statistique des Données Cours 8 Master 2 EID · Analyse Statistique des Données Cours 8 Master 2 EID ... Hypothèse 2: La relation entre la probabilité que l'événement

Etape 5:

[email protected] Master 2 EID 07/08 10

Page 11: Analyse Statistique des Données Cours 8 Master 2 EID · Analyse Statistique des Données Cours 8 Master 2 EID ... Hypothèse 2: La relation entre la probabilité que l'événement

2.3 Etape univariée pour variable quantitative

Etape 1:

Hypothèse 1: La distribution des variables quantitatives doit être de Normale.

Hypothèse 2: La relation entre la probabilité que l'événement survienne et la variableexplicative (quantitative) doit être de type logistique.

Sinon, il faut "découper" la variable en classe. On se retrouve alors dans le cas de variablequalitative.

[email protected] Master 2 EID 07/08 11

Page 12: Analyse Statistique des Données Cours 8 Master 2 EID · Analyse Statistique des Données Cours 8 Master 2 EID ... Hypothèse 2: La relation entre la probabilité que l'événement

Etape 2:

La relation entre la probabilité que l'événement survienne et la variable explicative (quanti-tative) peut ne pas être de type logistique.

[email protected] Master 2 EID 07/08 12

Page 13: Analyse Statistique des Données Cours 8 Master 2 EID · Analyse Statistique des Données Cours 8 Master 2 EID ... Hypothèse 2: La relation entre la probabilité que l'événement

Etape 3:

La relation entre la probabilité que l'événement survienne et la variable explicative (quanti-tative) peut ne pas être de type logistique.

[email protected] Master 2 EID 07/08 13

Page 14: Analyse Statistique des Données Cours 8 Master 2 EID · Analyse Statistique des Données Cours 8 Master 2 EID ... Hypothèse 2: La relation entre la probabilité que l'événement

2.4 Les interactions

Intéraction 1:

Si 2 modalités de variables explicatives sont associées, alors l'événement Y est très sou-vent observé. Par exemple, les clients qui consomment très peu leur forfait durant les 2derniers mois, vont changer de forfait.

[email protected] Master 2 EID 07/08 14

Page 15: Analyse Statistique des Données Cours 8 Master 2 EID · Analyse Statistique des Données Cours 8 Master 2 EID ... Hypothèse 2: La relation entre la probabilité que l'événement

Intéraction 2:

Première possibilité:

Nous créons autant de modalités qu'il existe de cases dans le tableau.

Si le sujet a entre 0 et 30 Mn restantes durant le 2 derniers mois, alors il est codé M1.

S'il a entre 0 et 30 Mn restantes le dernier mois et entre 30 Mn et 1H l'avant derniermois, alors il est codé M2.

Inconvénient :

Il existe trop de modalités, de plus les e�ectifs dans une case peuvent être très faibles.Dans ce cas, le % observé est peu être un mauvais estimateur.

Deuxième possibilité:

Moins de modalités, donc moins de coe�cients estimés.

[email protected] Master 2 EID 07/08 15

Page 16: Analyse Statistique des Données Cours 8 Master 2 EID · Analyse Statistique des Données Cours 8 Master 2 EID ... Hypothèse 2: La relation entre la probabilité que l'événement

2.5 Interprétations des Statistiques.

Etape 1:

[email protected] Master 2 EID 07/08 16

Page 17: Analyse Statistique des Données Cours 8 Master 2 EID · Analyse Statistique des Données Cours 8 Master 2 EID ... Hypothèse 2: La relation entre la probabilité que l'événement

Etape 2:

[email protected] Master 2 EID 07/08 17

Page 18: Analyse Statistique des Données Cours 8 Master 2 EID · Analyse Statistique des Données Cours 8 Master 2 EID ... Hypothèse 2: La relation entre la probabilité que l'événement

Etape 3:

[email protected] Master 2 EID 07/08 18

Page 19: Analyse Statistique des Données Cours 8 Master 2 EID · Analyse Statistique des Données Cours 8 Master 2 EID ... Hypothèse 2: La relation entre la probabilité que l'événement

Etape 4:

[email protected] Master 2 EID 07/08 19

Page 20: Analyse Statistique des Données Cours 8 Master 2 EID · Analyse Statistique des Données Cours 8 Master 2 EID ... Hypothèse 2: La relation entre la probabilité que l'événement

2.6 Diagnostic (qualité) du modèle retenu.

• Sensibilité: Capacité à prédire correctement les événements. C'est le nombre de casprédits correctement divisé par le nombre de cas total.

• Spéci�cité: Capacité à prédire correctement les non-événements. C'est le nombre denon-cas prédits correctement divisé par le nombre total de non-cas.

Matrice:

[email protected] Master 2 EID 07/08 20

Page 21: Analyse Statistique des Données Cours 8 Master 2 EID · Analyse Statistique des Données Cours 8 Master 2 EID ... Hypothèse 2: La relation entre la probabilité que l'événement

Dans le cadre d'un modèle logistic, la sensibilité est représenté sous forme d'une courbe,appelé courbe de ROC. Le raisonnement est le suivant, il faut choisir une valeur seuil com-prise entre le score minimum et le score maximum. Si le score d'un client est supérieur à ceseuil, alors nous prédisions l'événement.

Ensuite,nous faisons varier ce seuil (du minimum au maximum) et nous représentons sousforme graphique la sensibilité. L'exercice étant le même pour la spéci�cité.

[email protected] Master 2 EID 07/08 21

Page 22: Analyse Statistique des Données Cours 8 Master 2 EID · Analyse Statistique des Données Cours 8 Master 2 EID ... Hypothèse 2: La relation entre la probabilité que l'événement

3 Regréssion Logisitic sous SAS

La syntaxe de la régression logistic est la suiante:

PROC LOGISTIC Data=[options1];CLASS ;MODEL Y= / [Options2];OUTPUT OUT= pred= [pour stocker les valeurs prédites dans une table]RUN;

Algorithme 1: Syntaxe de la procédure LOGISTIC

Options 1:

• DESCENDING ou ASCENDING pour choisir la modalité correspondant à l'événement

• NOPRINT pas d'a�chage en sortie.

• OUTTEST=XXX pour stocker les paramètres estimés.

Options 2:

• CTABLE pour construire la table permettant le calcul de la spéci�cité et sensibilité.

• SELECTION=FORWARD ou BACKWARD ou STEPWISE pour la sélectionpas à pas des variables.

3.1 Methode de sélection des variables.

Les 3 méthodes de sélection de variables sont les méthodes STEPWISE-FORWARD-

BACKWARD. Les options propres à ces méthodes sont les seuils de signi�cativité pourl'entrée et la sortie des variables.

• Forward: L'option est SLENTRY(= 0.05 par défaut) (Model /SELECTION=FORWARDSLENTRY= 0.1)

• Stepwise: Les options SLENTRY (= 0.05 par défaut) et SLSTAY(= 0.05 par défaut)(Model /SELECTION=STEPWISE SLENTRY= 0.1 SLTAY= 0.15)

• Bacward: L'option est SLSTAY (= 0.05 par défaut) (Model /SELECTION=BACKWARDSLSTAY= 0.1)

L'analyse du détail des entrées des variables (Options / Details) permet de visualiser lastabilité des coe�cients estimés. Une variation très forte traduit un problème de colinéarité.

[email protected] Master 2 EID 07/08 22