1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues

1

Régressions

Christelle ScharffIFI

2004

2

Régression linéaire

Cette méthode se focalise sur les cas où les valeurs d’une variable à prédire sont continues

Les valeurs à prédire peuvent être représentées par une fonction linéaire, donc une droite

3

Régression logistique

Cette méthode se focalise sur les situations où les valeurs d’une variable à prédire sont binaires (0 ou 1) Exemple: Une variable booléenne

Au lieu de prédire la valeur d’une variable, on prédit la probabilité de la variable à être égale à 0 et 1.

Les probabilités décrivent une sigmoïde (courbe en forme de S) entre 0 et 1

4

Prédiction de banqueroute

5

Étude de Cas

6

Compagnie de téléphone Adoption d’un nouveau service téléphonique (boite

vocale, accès a Internet…) suivant l’éducation, la stabilité de résidence et le salaire

10524 personnes ont répondu à un questionnaire sur ce thème réalisé par une compagnie de téléphone

Comment prédire l’adoption d’un nouveau service téléphonique en fonction de l’éducation, de la stabilité de résidence et du salaire d’une personne?

7

Réponses au questionnaire

Il y a 2160 personnes qui ont répondu au questionnaire qui ont un niveau d’étude inférieur ou égale au lycée, un bas salaire et qui n’ont pas changé de résidence depuis 5 ans.

Il y a 153 personnes (sur ces 2160 personnes) qui ont adopté un nouveau service téléphonique

Probabilité globale d’adoption d’un nouveau service téléphone pour cette catégorie: 1628/10524 = 0.155

8

Le modèle de régression logistique

• Prédire la probabilité de la valeur de Y à partir de variables indépendantes x1,…, xk

• Y = 1: Choisir une option

• Y = 0: Ne pas choisir une option

Les i sont des constantes inconnues à déterminer. Ils sont calculés/estimés par des programmes.

Exemples: Maximum Likehood Estimates, Newton-Raphson

9

Interprétation des coefficients

Si i = 0, alors le facteur i n’a aucun effet sur la chance de succès

Si i > 0, le facteur i augmente la chance de succès

Si i < 0, le facteur i décroît la chance de succès

10

Suite de l’ étude de cas

11

Poser le problème (1)

On doit calculer les probabilités d’adopter un nouveau service téléphonique en fonction de l’éducation, de la stabilité de résidence et le salaire d’une personne

Soit Y la variable représentant l’adoption d’un nouveau service téléphonique Y = 1 si un nouveau service est adopté, et Y =

0 sinon

12

Poser le problème (2) On a trois variables x1 pour l’éducation,

x2 pour la stabilité de résidence et x3 pour le salaire

X1 = 1 pour un niveau d étude supérieur ou égal à l’université, 0 sinon

X2 = 1 pour un changement de résidence dans les 5 dernières années, 0 sinon

X3 = 1 pour un salaire élevé, 0 sinon Modèle:

13

Résumé des données

14

Calcul de 0, 1, 2et 3

0 1 2 3

15

Modèle

2160 x 0.076 = 164

Estimation du nombre de personnes qui peuvent adopter un nouveau service téléphonique

16

Nouvelles données598 nouvelle personnes sont sondées

85 x 0.289 = 24.5

Estimation du nombre de personnes qui peuvent adopter un nouveau service téléphonique

Calculs d’erreurs

17

Calcul d’erreurs

Total erreur: -2.8 (or 2.8 / 119 = 2.3%)

La moyenne d’erreur absolue (sommes des erreurs absolues / 119): 24.9%

18

Tableau de contingence Matrice de contingence [Kohavi,

Provost, 1998]:

ObservéPrédit

Adopteur Non Adopteur

Total

Adopteur 103 (TP) 13 (FP) 116

Non adopteur

16 (FN) 466 (TN) 482

Total 119 479 598TP: true positive, FP: false positive, FN: false negative, TN: true negative

19

Calcul de taux Vrais positives:

Cas positifs correctement prédits 103 / 119 = 86.5 %

Fausses positives: Cas incorrectement prédits positif 13 / 479 = 2.7 %

Exactitude: Nombre total de prédictions correctes (103 + 466) / 598 = 95.15%

Précision: Proportion des prédictions positives correctes 103 / (103 + 13) = 88.8 %

Erreurs: Proportion des prédictions incorrectes (13+16) / 598 = 4.85 %

20

Quel est le meilleur modèle? Vrai: Offrir une carte de crédit Faux: Ne pas offrir une carte de crédit Modèle 1:

Modèle 2:

Taux d’erreur pour les 2 modèles: 10% Le meilleur modèle est Modèle 2 car ce modèle a

moins de FP

TP 600

FP 75

FN 25 TN 300TP

600FP 25

FN 75 TN 300

21

Conclusion Méthode facile a comprendre Méthode efficace Les prédictions sont faciles à

réaliser Le bruit peut avoir un effet

significatif sur la méthode Besoin de plusieurs mesures pour

évaluer le modèle

22

Références N. R. Nitin, and P. C. Bruce. Data

Mining in Excel : Lecture notes and Cases.

Cours de modélisation et de fouilles de données de Prof. Ravi Mantena, New York University.

Documents

1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues