17
Module 7 Arbres de d´ ecision Sommaire 7.1 Structure d’un arbre de d´ ecision et d´ efinitions ......... 2 7.2 Entropie et gain d’informations .................. 5 7.2.1 Entropie ............................... 5 7.2.2 Gain d’informations ........................ 8 7.2.3 Rapport de gain .......................... 9 7.2.4 Indice de Gini ............................ 10 7.3 Algorithmes d’induction d’arbres de d´ ecision .......... 11 7.3.1 Algorithme ID3 ........................... 12 7.3.2 Algorithme C4.5 .......................... 12 7.3.3 Algorithme CART ......................... 12 7.4 Avantages et limites des arbres de d´ ecision ........... 15 7.5 Annexes ................................ 15 Derni` ere mise ` a jour le 3 janvier 2019

Module 7 Arbres de d ecision - Université TÉLUQ

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Module 7 Arbres de d ecision - Université TÉLUQ

Module 7

Arbres de decision

Sommaire

7.1 Structure d’un arbre de decision et definitions . . . . . . . . . 2

7.2 Entropie et gain d’informations . . . . . . . . . . . . . . . . . . 5

7.2.1 Entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

7.2.2 Gain d’informations . . . . . . . . . . . . . . . . . . . . . . . . 8

7.2.3 Rapport de gain . . . . . . . . . . . . . . . . . . . . . . . . . . 9

7.2.4 Indice de Gini . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

7.3 Algorithmes d’induction d’arbres de decision . . . . . . . . . . 11

7.3.1 Algorithme ID3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

7.3.2 Algorithme C4.5 . . . . . . . . . . . . . . . . . . . . . . . . . . 12

7.3.3 Algorithme CART . . . . . . . . . . . . . . . . . . . . . . . . . 12

7.4 Avantages et limites des arbres de decision . . . . . . . . . . . 15

7.5 Annexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

Derniere mise a jour le 3 janvier 2019

Page 2: Module 7 Arbres de d ecision - Université TÉLUQ

7.1 Structure d’un arbre de decision et definitions

Un arbre de decision (decision tree) est une structure tres utilisee en apprentissage

machine. Son fonctionnement repose sur des heuristiques construites selon des techniques

d’apprentissage supervisees.

Les arbres de decision ont une structure hierarchique et sont composes de nœuds et de

feuilles (aussi appelees nœuds terminaux) relies par des branches. Dans leur representation

graphique, la racine est placee en haut et les feuilles en bas. Les nœuds internes sont ap-

peles des nœuds de decision. Ils peuvent contenir une ou plusieurs regles (aussi appelees

tests ou conditions).

Les valeurs que peut prendre une variable dans un arbre de decision sont appelees ins-

tances ou attributs. Les nœuds terminaux contiennent la classe aussi appelee classe a

predire ou variable cible. Apres sa construction, un arbre de decision peut etre traduit

sous la forme d’un ensemble de regles de decision.

Lorsque la classe a predire est une variable qualitative, nous avons un arbre de clas-

sification. Si la classe a predire est une variable quantitative, nous avons un arbre de

regression. Dans ce module, nous nous interessons aux arbres de classification.

MoySal>50000$

Age> 25 Oui

Autres comptes

Oui

Non

Non

Non Oui

Non

Non

Oui

Oui

Feuille

Noeud interne

Branche

Figure 7.1: Structure d’un arbre de

decision.

I Exemple 7.1 Cet exemple simple permet d’expliquer comment un arbre de decision

peut etre traduit sous la forme d’un ensemble de regles de decision.

Soit l’arbre de decision de la figure 7.1 qui permet de decider si une institution bancaire

peut accorder ou non un pret a un demandeur de pret. La decision de la variable cible Pret

se base sur les variables moyenne du salaire (MoySal), age (age) et possession d’autres

comptes (Autres comptes). Les attributs des feuilles de l’arbre, c’est-a-dire Pret, sont

des valeurs booleennes qui correspondent a une classification dans l’ensemble {Oui, Non}.

©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 2/ 17

Page 3: Module 7 Arbres de d ecision - Université TÉLUQ

Cet arbre de decision engendre les regles de decisions suivantes :

1. Si MoySal > 50000 $ alors Pret = Oui.

2. Si MoySal < 50000 $ et Age < 25 alors Pret = Non.

3. Si MoySal < 50000 $ et Age > 25 et AutresComptes = Oui alors Pret = Oui.

4. Si MoySal < 50000 $ et Age > 25 et AutresComptes = Non alors Pret = Non.

En utilisant ces regles, l’institution est en mesure de decider facilement si elle accorde ou

non un pret a un demandeur. En l’occurrence, si un client nomme Philippe, qui est age de

32 ans, dont le salaire moyen est de 55000$ et qui ne possede pas un autre compte desire

obtenir un pret, il sera vraisemblablement classe sous la classe Pret = Non (Chemin en

magenta de la figure 7.2).

MoySal>50000$

Age> 25 Oui

Autres comptes

Oui

Non

Non

Non Oui

Non

Non

Oui

Oui

Figure 7.2: Structure d’un arbre de

decision.I Exemple 7.2 Voici un autre exemple dans lequel on dispose d’un ensemble de donnees

E constitue de 14 individus (14 jours : J1 a J14) decrits dans le tableau 7.1. Chaque

individu est caracterise par 4 variables qui correspondent aux conditions meteorologiques

(temperature, humidite dans l’air, force du vent et etat du ciel). La variable cible Jouer

peut prendre les valeurs Oui ou Non. Ces donnees sont, aussi, rapportees dans le fichier

excel DonneesJouer.xlsx.

A partir du tableau 7.1, on desire elaborer un arbre de decision qui permet de resumer

les differentes situations decrites. Plusieurs questions se posent alors, parmi lesquelles :

• quelle variable discrimine le mieux l’ensemble des donnees et laquelle doit etre

consideree en premier ?

• si plusieurs structures d’arbre repondent aux situations decrites, laquelle doit-on

choisir ?

• quel critere permet de maximiser la robustesse de l’arbre ?

©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 3/ 17

Page 4: Module 7 Arbres de d ecision - Université TÉLUQ

Tableau 7.1: Un ensemble de donnees E constitue de 14 individus (14 jours : J1 a J14)

Jour Ciel Temp. Humidite Vent Jouer

J1 Soleil Chaude Elevee Faible Non

J2 Soleil Chaude Elevee Fort Non

J3 Couvert Chaude Elevee Faible Oui

J4 Pluie Tiede Elevee Faible Oui

J5 Pluie Fraıche Normale Faible Oui

J6 Pluie Fraıche Normale Fort Non

J7 Couvert Fraıche Normale Faible Oui

J8 Soleil Tiede Elevee Faible Non

J9 Soleil Fraıche Normale Faible Oui

J10 Pluie Tiede Normale Fort Oui

J11 Soleil Tiede Normale Fort Oui

J12 Couvert Tiede Elevee Fort Oui

J13 Couvert Chaude Normale Faible Oui

J14 Pluie Tiede Elevee Fort Non

Algorithme generique de construction d’un arbre de decision

L’algorithme generique de construction d’un arbre de decision peut etre decrit selon les

pseudo-codes suivant [4]. Il permet de generer iterativement l’arbre en prenant a chaque

iteration une variable et en lui creant ses nœud et ses feuilles.

Cet algorithme generique procede de maniere descendante et ne prend pas en consideration

l’evaluation de la variable choisie. Plusieurs methodes de construction d’arbres de decision

permettent d’evaluer les differentes varaibles en se basant sur l’entropie ou le gain d’in-

formations. Dans ce qui suit, ces deux notions seront expliquees.

©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 4/ 17

Page 5: Module 7 Arbres de d ecision - Université TÉLUQ

Algorithme generique de construction d’un arbre de decision.

1. Initialiser l’arbre courant a l’arbre vide ; la racine est le nœud courant

2. Repeter

3. Decider si le nœud courant est terminal (une feuille).

4. Si le noeud est terminal Alors

5. Affecter une classe au nœud courant

6. Sinon

7. Selectionner un test et creer autant de nouveaux fils qu’il y a de

possibilites de reponses

8. FinSi

9. Passre au nœud suivant

10. Jusqu’a l’obtention de l’arbre de decision

7.2 Entropie et gain d’informations

7.2.1 Entropie

Soit une distribution de probabilite P = (p1, p2, ..., pn). L’entropie de la distribution P

est la quantite d’information qu’elle peut apporter. Elle est donnee par l’equation 7.1 :

E(P ) = −n∑

i=1

pi log pi (7.1)

log designe la fonction de logarithme en base 2.

Soit un ensemble de donnees T caracterise par n classes (C1, C2, ..., Cn) selon la variable

cible. La quantite d’informations necessaire pour identifier la classe d’un individu de

l’ensemble T correspond a l’entropie E(P ), ou P est la distribution de probabilite de la

©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 5/ 17

Page 6: Module 7 Arbres de d ecision - Université TÉLUQ

partition (C1, C2, ..., Cn) :

P =

(|C1||T |

,|C2||T |

, ...,|Cn||T |

)(7.2)

|Ci| designe le cardinal de la classe i, c’est-a-dire nombre d’elements de la classe i.

L’entropie de T est deduite a partir de l’equation 7.1, qui donne :

E(T ) = −n∑

i=1

|Ci||T |

log|Ci||T |

(7.3)

Supposons que l’ensemble des donnees T est, en plus, partitionne ainsi (T1, T2, ..., Tm). m

correspond au nombre de valeurs que peut prendre l’attribut X considere. Dans ce cas,

l’information necessaire pour identifier la classe d’un individu de Ti devient :

E(X,T ) = −m∑j=1

|Tj||T |

E(Tj) (7.4)

Cas de deux classes

Figure 7.3: Entropy : cas de deux classes

Soit S un ensemble de donnees d’apprentissage caracterise par deux classes. p+ est la

proportion d’echantillons positifs et p− est la proportion d’echantillons negatifs. D’apres

l’equation 7.1, l’entropie de l’ensemble S est egale a :

E(S) = −p+ log p+ − p− log p− (7.5)

La figure 7.3 represente la variation de l’entropie dans le cas de deux classes. Sur l’axe des

abscisses, nous avons la proportion d’echantillons positifs p+ et sur l’axe des ordonnees,

nous avons l’entropie. Cette fonction d’entropie peut etre interpretee selon :

• p+ + p− = 1 (puisque la somme des proportions est egale a l’unite).

• 0 ≤ E(S) ≤ 1.

©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 6/ 17

Page 7: Module 7 Arbres de d ecision - Université TÉLUQ

• Si p+ = 0 ou p− = 0, alors E(X) = 0. En effet, p+ = 0 veut dire que tous les

echantillons sont positifs. Dans ce cas, la quantite d’information est nulle.

• Si p+ = p− = 0.5, alors E(X) = 1 : ainsi, s’il y a autant de positifs que de negatifs,

l’entropie est maximale (Figure 7.3)

Jouer

Non

Oui Non

Oui

(9+,5-)

(9+) (5-)

Figure 7.4: Variable cible Jouer.

I Exemple 7.3 On cherche a calculer l’entropie des variables du tableau 7.1. Nous com-

mencons par l’analyse de la variable cible Jouer qui prend la valeur Oui pour 9 echantillons

et Non pour 5 echantillons. L’arbre de cette variable Jouer est donne par la figure 7.4.

En utilisant la relation de l’equation 7.5, nous obtenons l’expression d’entropie suivante :

E(Jouer) = E(9+, 5−) =9

14log

9

14+

5

14log

5

14= 0, 940

La variable Ciel n’est pas une variable cible. Elle est separee en trois partitions (T1, T2, T3)

dont les elements appartiennent a l’une des classes de la variable cible Jouer. Cette va-

riable peut prendre une des trois valeurs Soleil, Couvert, Pluie. Prenons le cas de

la valeur Soleil ; elle est consideree pour cinq echantillons dont deux aboutissent a la

classe Jouer=Oui et trois a la classe Jouer= Non. La meme analyse peut etre faite pour

Couvert et Pluie ce qui permet d’obtenir la representation de la figure 7.5.

Ciel

(2+,3-) (3+,2-)

Soleil Couvert Pluie

(4+,0-)

Figure 7.5: Variable Ciel.

L’entropie de chacune de ces partitions est donnee par :

E(Soleil) = E(2+, 3−) = −(2

5log

2

5+

3

5log

3

5) = 0, 971

E(Couvert) = E(4+, 0−) = 0

E(Pluie) = E(3+, 2−) = −(3

5log

3

5+

2

5log

2

5) = 0, 971

Une fois l’entropie de chaque partition determinee, nous calculons l’entropie en prenant

en consideration la variable cible selon l’equation (7.4) :

©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 7/ 17

Page 8: Module 7 Arbres de d ecision - Université TÉLUQ

E(Jouer, Ciel) =3∑

j=1

|Tj||T |

E(Tj)

=5

14E(Soleil) +

4

14E(Couvert) +

5

14E(Pluie)

= 0.693.

De meme, la variable Humidite n’est pas une variable cible. Elle est separee en deux

partitions (T1, T2) dont l’entropie de chacune est donnee par (figure 7.6) :

E(Elevee) = E(3+, 4−) = −(3

7log

3

7+

4

7log

4

7) = 0, 985

E(Normale) = E(6+, 1−) = −(6

7log

6

7+

1

7log

1

7) = 0, 592

D’ou

E(Jouer,Humidite) =2∑

j=1

|Tj||T |

E(Tj)

=7

14E(Elevee) +

7

14E(Normale)

= 0.789.

Humidité

(3+,4-) (6+,1-)

Élevée Normale

Figure 7.6: Variable Humidite.

7.2.2 Gain d’informations

Soit un ensemble de donnees T , le gain d’informations de T par rapport a une partition

Tj donnee est la variation d’entropie causee par la partition de T selon Tj.

Gain(X,T ) = E(T )− E(X,T ) = E(T )−m∑j=1

|Tj||T |

E(Tj) (7.6)

©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 8/ 17

Page 9: Module 7 Arbres de d ecision - Université TÉLUQ

I Exemple 7.4 Le gain de l’attribut Ciel qui prend les valeurs {Soleil, Couvert,

Pluie} est alors egal a :

Gain(Jouer, Ciel) = E(Jouer)− E(Jouer, Ciel)

= 0, 940− 0, 693 = 0, 247.

et le gain de l’attribut Humidite est egal a :

Gain(Jouer,Humidite) = E(Jouer,Humidite)

= 0, 940− 0, 788 = 0, 151.

7.2.3 Rapport de gain

Le rapport de gain est defini par :

Rapport de gain(X,T ) =Gain(X,T )

SplitInfo(X,T )(7.7)

avec

SplitInfo(X,T ) = E

(|C1||T |

,|C2||T |

, ...,|Cn||T |

)(7.8)

Ciel

(5) (5)

Soleil Couvert Pluie

(4)

Figure 7.7: Repartition l’attribut Ciel.

I Exemple 7.5 On veut calculer le rapport de gain de l’attribut Ciel, tel qu’il est illustre

par la figure 7.7.

SplitInfo(X,Ciel) = − 5

14log

5

14− 4

14log

4

14− 5

14log

5

14= 1, 577

d’ou le rapport de gain

Rapport de gain(X,Ciel) =0, 246

1, 577= 0, 156

©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 9/ 17

Page 10: Module 7 Arbres de d ecision - Université TÉLUQ

De meme on peut calculer la gain de l’attribut Vent (figure 7.8) :

SplitInfo(X, V ent) = − 6

14log

6

14− 8

14log

8

14= 0, 985

d’ou le rapport de gain

Rapport de gain(X, V ent) =0, 048

0, 985= 0, 049

Vent

Non

Faible Fort

Oui

(8) (6)

Figure 7.8: Repartition l’attribut Vent.7.2.4 Indice de Gini

L’indice de Gini a ete introduit par Breiman en 2001. Cet indice mesure l’impurete, qui

est un concept tres utile dans la construction des arbres de decision : la qualite d’un

nœud et son pouvoir discriminant peuvent etre evalues par son impurete. L’indice Gini

est donne par la relation suivante :

Gini(T ) = 1−m∑j=1

( |Tj||T |

)2(7.9)

Une fois que l’ensemble des donnees T est caracterise par une variable X partitionnee

ainsi : (T1, T2, ..., Tm)

Gain de Gini(X,T ) =m∑j=1

|Tj||T |

Gini(Ti) (7.10)

Si l’ensemble de donnees est partitionne en deux partitions (T1, T2), alors le

Gain de Gini(X,T ) =|T1||T |

Gini(T1) +|T2||T |

Gini(T2) (7.11)

I Exemple 7.6 Nous nous interessons a calculer le rapport de gain et l’indice de Gini de

la variable Humidite. Cette variable est partitionnee en 2 partions (T1, T2).

©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 10/ 17

Page 11: Module 7 Arbres de d ecision - Université TÉLUQ

Gini(Elevee) = 0, 49

Gini(Normal) = 0, 25

d’ou le rapport de gain :

Gain de Gini(Humidite) = 0, 37

7.3 Algorithmes d’induction d’arbres de decision

Tel qu’indique precedemment, plusieurs methodes de construction d’arbres de decision

permettent de choisir entre les differentes variables. Dans cette section, nous presentons

le principe de trois algorithmes de construction d’arbres de decision, a savoir ; l’algorithme

ID3, l’algorithme C4.5 et l’algorithme CART.

Algorithmes de construction d’arbres de decision.

Entrees : E : ensemble d’echantillons

L : ensemble d’attributs.

Sortie : un arbre de decision

1. Si tous les exemples sont de la meme classe

2. Alors creer et retourner une feuille etiquetee par cette classe.

3. Sinon

4. Repeter

5. Trouver le meilleur attribut dans l’ensemble L : A

6. Repartir les exemples de E en n sous-ensembles, selon la valeur de cet attribut.

7. Allouer un noeud etiquete par A

8. Refaire le meme processus pour toutes les valeurs de A et faire de ces noeuds

10. les fils du noeud etiquete par A

9. Jusqu’a indice d’arret.

©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 11/ 17

Page 12: Module 7 Arbres de d ecision - Université TÉLUQ

Il est a noter que si l’attribut est vide (Ligne 5 de l’algorithme), le noeud prend la valeur

la plus presente (repetee) dans l’ensemble des donnees. Le meilleur attribut est celui qui

discrimine le mieux l’ensemble des donnees.

En general, le principe de fonctionnement des algorithmes ID3, C4.5 et CART est le

meme ; la difference se situe au niveau du type des variables. Les lignes de pseudo-code

suivantes decrivent le principe d’induction d’arbres de decision [1] (Plus de details sur

chacun de ces algorithmes peuvent etre trouves dans [3]).

7.3.1 Algorithme ID3

L’algorithme recursif ID3 considere en entree un ensemble d’attributs A, un ensemble

d’attributs cibles c (aussi appeles classes) et un ensemble d’echantillons E. Cet algorithme

fonctionne exclusivement avec des attributs qualitatifs. A chaque etape de la recursion, il

determine l’attribut qui maximise le gain d’informations (voir section 7.2.2). Cet attribut

est alors retenu pour la branche en cours puisqu’il permet de classer plus facilement

l’ensemble des donnees a ce niveau de l’arbre [?, 2].

7.3.2 Algorithme C4.5

L’algorithme ID3 a ete ameliore pour qu’il permette de traiter des attributs quantitatifs

sous l’appellation C4.5. Cet algorithme utilise la fonction du gain d’entropie pour le choix

des attributs a considerer a ce niveau de l’arbre. L’algorithme C4.5 a ete ameliore sous

l’appellation C5, qui permet une rapidite d’execution et une efficacite d’utilisation de la

memoire plus elevee. Les arbres de decision obtenus avec C5 eliminent aussi les repetition.

7.3.3 Algorithme CART

L’algorithme recursif CART (Classification And Regression Trees) permet la construction

d’un arbre de decision par la maximisation de l’indice de Gini. Cet algorithme genere des

©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 12/ 17

Page 13: Module 7 Arbres de d ecision - Université TÉLUQ

arbres de decision binaires.

I Exemple 7.7 On entend executer l’algorithme ID3 sur les donnees du tableau 7.1.

La premiere etape consiste a calculer les gains d’informations des quatre attributs avec

l’equation 7.8. Le tableau 7.2 donne la valeur de ces gains. L’attribut Ciel, ayant le gain

le plus eleve, sera mis au niveau de la racine avec ses trois branches Soleil, Couvert,

Pluie.

Tableau 7.2: Calcul des gains des differents

attributs

Attribut Gain

Ciel 0.247

Temperature 0.029

Humidite 0.151

Vent 0.048

Ciel

Soleil Couvert Pluie

Oui

Figure 7.9: Structure de l’arbre pour la

variable Ciel.

Tableau 7.3: Calcul des gains pour la branche

Soleil

Attribut Gain

Temperature 0,019

Humidite 0,970

Vent 0,57

Pour la branche Couvert, toutes les reponses sont positives, c’est-a-dire Oui, donc on

ajoute une feuille (figure 7.9).

Pour la branche Soleil, le gain est recalcule pour les attributs Temperature, Humidite

et Vent seulement pour les jours ou l’attribut Ciel est egal a Soleil (tableau 7.4) :

Tableau 7.4: Un sous-ensemble E′1 de donnees pour l’attribut Ciel=Soleil

Jour Ciel Temp. Humidite Vent Jouer

J1 Soleil Chaude Elevee Faible Non

J2 Soleil Chaude Elevee Fort Non

J8 Soleil Tiede Elevee Faible Non

J9 Soleil Fraıche Normale Faible Oui

J11 Soleil Tiede Normale Fort Oui

Ciel

Soleil Couvert Pluie

OuiHumidité Vent

Élevée Normale

OuiNon

Fort Faible

OuiNon

Figure 7.10: Structure de l’arbre de decision obtenue a partir de l’ensemble E.

©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 13/ 17

Page 14: Module 7 Arbres de d ecision - Université TÉLUQ

Ces gains sont donnes dans le tableau 7.3. Comme l’attribut Humidite a la valeur de

gain la plus elevee, il est lie a la branche Soleil. Et ainsi de suite jusqu’a l’obtention de

l’arbre de la figure 7.10.

Tableau 7.5: Attribut Ciel

Ciel

Soleil+pluie Couvert

Gini 0,5 0

Gain de Gini 0,36

Tableau 7.6: Attribut Temperature

Temp.

Chaude Tiede

+fraıche

Gini 0,47 0,44

Gain de Gini 0,46

Tableau 7.7: Attribut Humidite

Humidite

Elevee Normale

Gini 0,49 0,25

Gain de Gini 0,37

Tableau 7.8: Attribut Vent

Vent

Elevee Faible

Gini 0,5 0,38

Gain de Gini 0,43

I Exemple 7.8 On propose d’executer l’algorithme CART sur les donnees du tableau

7.1. La premiere etape consiste a calculer les gains d’informations des quatre attributs en

regroupant les valeurs d’attributs par deux (reponses binaires) (tableaux 7.5, 7.6, 7.7 et

7.8). Comme l’attribut Ciel a l’indice de Gini le plus faible, il sera mis au niveau de la

racine avec ses deux branches {Soleil + Pluie, Couvert}. Il est a noter que la variable

cible Jouer prend toujours la valeur Oui pour la variable Ciel=Couvert ; il ne sera donc

pas pertinent de combiner Couvert avec une autre variable. D’ou le choix {Soleil +

Pluie, Couvert}

Ciel

(Soleil, Pluie) Couvert

Humidité

Normale

Oui

Ciel

Oui

Ciel

Soleil Pluie Soleil

NonVent

OuiNon

Temp.

Vent

OuiNon

Pluie

Élevée

Soleil

Oui

TièdeFraîche

Fort Faible

Figure 7.11: Structure de l’arbre de decision obtenue a partir de l’ensemble E.

©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 14/ 17

Page 15: Module 7 Arbres de d ecision - Université TÉLUQ

Pour la branche Couvert, comme toutes les reponses sont positives, c’est-a-dire Oui,

on ajoute une feuille (figure 7.11). Ensuite, on poursuit en enlevant les donnees pour

lesquelles l’attribut Ciel equivaut a Couvert. Les valeurs de gain sont alors recalculees ;

et ainsi de suite jusqu’a l’obtention de l’arbre de la figure 7.11.

7.4 Avantages et limites des arbres de decision

Les arbres de decision sont utilises dans plusieurs domaines allant du domaine financier

au domaine medical, en raison des nombreux avantages qu’ils presentent. En effet, ces

structures sont facilement comprehensibles par les utilisateurs et offrent une classification

rapide et visuelle des donnees a travers le parcours d’un chemin dans l’arbre. De plus, il

s’agit d’un outil disponible dans la plupart des environnements de forage de donnees.

Cependant, ces structures presentent deux limites importantes. En effet, ces approches

sont sensibles au nombre de classes et, de ce fait, si le nombre de classes devient important

les resultats se degradent. De plus, ces structures ne sont pas tres flexibles : si les donnees

changent avec le temps, il devient necessaire de reconstruire l’arbre de decision.

Plus recemment, les modeles de forets d’arbres de decision (ou forets aleatoires de l’anglais

random decision forest) ont ete proposes par Leo Breiman en 2001. Ces modeles viennent

remedier a certaines limites des arbres de decision.

7.5 Annexes

Dans cette section, nous citons des fonctions utiles pour la construction d’arbres de

decision en utilisant le logiciel R. Nous reprenons, en general, textuellement la description

fournie dans le site web de R (https://cran.r-project.org)

• tree (Classification and regression trees) : est le paquet qui permet de generer des

arbres de decision.

©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 15/ 17

Page 16: Module 7 Arbres de d ecision - Université TÉLUQ

• rpart (Recursive partitioning for classification) : permet un partitionnement recursif

pour les arbres de classification et de regression. Le package R rpart propose une

implementation des methodes de construction d’arbres de decision inspirees de l’ap-

proche CART. Ce package est toujours installe par defaut avec R.

(https://cran.r-project.org/web/packages/rpart/rpart.pdf

• party : Une boıte a outils de calcul pour le partitionnement recursif.

• FSelector : est le paquet qui contient les fonctions qui permettent de selectionner

les attributs dans un arbre de decision.

©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 16/ 17

Page 17: Module 7 Arbres de d ecision - Université TÉLUQ

References

[1] Arbres de decision. http://www.fil.univ-lille1.fr/~decomite/ue/MFFDD/

Arbres.pdf. Consulte : 1 decembre 2018.

[2] Datamining : Id3 - dbsacan. http://devezeb.free.fr/downloads/ecrits/

datamining.pdf. Consulte : 1 decembre 2018.

[3] Eıtudes des principaux algorithmes de data mining. http://guillaume.calas.free.

fr/data/Publications/DM-Algos.pdf. Consulte : 1 decembre 2018.

[4] F. Denis et R. Gilleron. Notes du cours : Apprentissage a partir d’exemples, 2014.

Consulte : 1 decembre 2018.

©Neila Mezghani, TELUQ, 2019. Tous droits reserves. Module 7 - Page 17/ 17