Ben harrath arijtp3 les règles d'association

Data Mining

[email protected] ESPRIT©2013-2014

TP n°3 : Règles d’associations

Ben harrath arij 4infini

Note

Ce TP est à rendre en fin de séance.

Objectifs généraux

Dans ce TP, nous allons appliquer la méthode des règles associatives sur des échantillons de données, afin d’extraire

des dépendances entre des profils, des articles, des produits…en se basant sur les critères de pertinence étudiés

dans le cours (support, confidence, lift)

I. Etude des profils de demandes de Crédits

library : arules //voir la description du dataset en pièce jointe (credit-german.doc)

1. Chargement du package :

2. Importation des données :

3. Transformation des données :

library(arules)

credit<-read.table(file="credit-german.txt",sep="\t",header=T)

#transformer les données attributs-variables en données transactionnelles cerdit1=as(credit,"transactions") cerdit1

On Doit FAIRE DES transactions pour les transformer les données en tableau binaire

Data Mining


4. Extraction des règles :

Appliquer l’algorithme Apriori, en prenant en considération les seuils minimums :

- support 0.25

- confiance 0.75

5. Affichage des dix premières règles :

#extraction des règles rules <- apriori(credit, parameter = list(supp = 0.25, conf =0.75,target ="rule"))

inspect(head(sort(rules ),10))

Data Mining


6. Affichages des cinq premiers lift :

#afficher les 5 règles avec le lift le + élevé inspect(head(sort(rules,by="lift"),5))

On remarque que tous les valeurs varient si lift=1 donc on peut rien remarquer si lift<1 alors il s’agit d’une coloration négative

Data Mining


II. Etude des relations entre les produits vendus dans une épicerie

library : arules, arulesViz

Groceries est un dataset de format transactions contenant 9835 opérations de ventes agrégées avec

169 catégories de produits, prises durant un mois.

1. Chargement du package :

2. Importation des données :

3. Extraction des règles :

Appliquer l’algorithme Apriori, en prenant en considération les seuils minimums :

- support 0.001

- confiance 0.5

#charger les packages library(arulesViz)

data("Groceries") #affichage des transactions LIST(Groceries) #statistiques descriptives

…

rules <- apriori(Groceries, parameter = list(supp = 0.001, conf = 0.5,target ="rules"))

Data Mining


5668 règles :Dont les supports varient de 0.001017 et 0.2267, les confiances de 0.5 à 1, et les valeurs de lift de 1.957 à 18.996 On constate que les valeurs de lift sont tous supérieurs à 1 donc il s’agit d’une corrélation positive

Tester des différentes valeurs de supports et de confiance, ainsi que le paramétrage de la longueur des règles

Interpréter les résultats :

rules <- apriori(Groceries, parameter = list(supp = 0.01, conf = 0.025,target ="rules")) on a changé les valeurs de support et de confiance

Data Mining


Si on change les valeurs de support et de confiance les règles diminuent plus précisément : Quand la confiance diminue le nombre de règles augmente, si le support diminue le nombre de règles augmente. Quand la confiance augmente le nombre de règles diminue, si le support augmente le nombre de règles diminue.

Data Mining


Aussi on a remarqué que le nombre des règles a diminué donc on constate que on changeant l’intervalle le nombre des règles varient .

4. Affichages des dix premiers lift :

On remarque que lift est toujours positive donc il s’agit une forte corrélation

5. Interprétation

Proposer un nouveau rangement des produits dans l’épicerie.

Quand la confiance augmente le nombre de règles diminue ,si le support augmente le nombre de règles diminue. inspect(head(sort(rules, by="lift"),10))

On peut associer les instants food et les sodas et les popcorns et les hamburgers doivent être associé ensemble ensemble.

Data Mining


6. Visualisation des Règles d’Association :

plot(rules) #Paramétrage avancé de la visualisation sel <- plot(rules, measure=c("support", "lift"), shading="confidence", interactive=TRUE)

Data Mining


Le résultat de l'interaction. En utilisant une sélection de boîte les règles avec la plus grande portance sont sélectionnés. En utilisant le bouton inspecter, les règles sont affichées dans la borne-dessous du dispositif de traçage plot(rules, method="matrix", measure=c("lift", "confidence"))

plot(rules, method="matrix", measure=c("lift", "confidence"), control=list(reorder=TRUE))

Data Mining


plot(rules, method="grouped")

Pour visualiser la matrice regroupés, nous utilisons un terrain de ballon avec des groupes antécédents. La visualisation résultante est représentée sur la figure. Le groupe de la plupart des règles intéressantes selon ascenseur sont présentés dans le coin supérieur gauche de l'intrigue. Il y a 3 règles qui contiennent des produits alimentaires instantanée 2 autres items en antécédent et la conséquence est hamburger meat plot(rules, method="matrix", measure=c("lift", "confidence"))

La figures représente des tracés avec deux mesures d'intérêt. La légende est ici une matrice de couleurs. En faisant correspondre un carré avec la couleur fermée dans la légende, nous pouvons déterminer à la fois, le support et la confidence

Data Mining


III. Market Basket Analyse

Importation des données :

market_basket<- read.transactions(file='market_basket.csv', rm.duplicates=F, format='single', sep=',', cols=c(1,2));

market_basket<-read.table(file="market_basket.txt",sep="\t",header=T) market <- as(as.matrix(market_basket), "transactions")

basket_rules <- apriori(market, parameter = list(sup = 0.005, conf = 0.01, target="rules"))

summary(basket_rules )

On Remarque que le nombre deS règles est 23058938

Data Mining


basket_rules <- apriori(market, parameter = list(sup = 0.01, conf = 0.01, target="rules"))

summary(rules)

inspect(head(sort(basket_rules),10))

Les valeurs de lift sont égaux a 1 donc on peut rien remarquer

On va varier les valeurs de confiance et de support

Après la variance on remarque que le nombre des règles est 50

plot(basket_rules, method="graph", control=list(type="items"))

Data Mining


. Cette représentation se concentre sur la façon dont les règles sont composées des éléments individuels et des

spectacles qui partagent les règles.

plot(basket_rules, method="matrix3D", measure="lift")

Une représentation alternative est d'utiliser des barres 3D au lieu de rectangles de couleur pour modéliser les

antécédents en fonction des lifts

Data Mining


sel <- plot(basket_rules, measure=c("support", "lift"), shading="confidence", interactive=TRUE)

Engineering

Ben harrath arijtp3 les règles d'association