57
Génération de bases de données de transactions synthétiques: Vers la prises en compte des bordures Réalisé avec Didier Devaurs laboratoire Liris, Lyon

Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Génération de bases de données de transactions

synthétiques:Vers la prises en compte des bordures

Réalisé avec Didier Devaurslaboratoire Liris, Lyon

Page 2: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Contexte: extraction des fréquents

● [AIS93] + [AS94]● Une multitude de contributions depuis:

– Représentations condensées: fermés, clés, maximaux– Structures de données: Prefix-Tree, FP-Tree, Patricia-

Tree, tables de hachages, vertical bitmaps etc...– Techniques de parcours: par niveau, en profondeur,

avec des sauts, aléatoires – Plusieurs implementations d'un même algo...

● FIMI '03 '04 : 21 programmes

Page 3: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

FIMI: évaluer les algos

● Comparer, comprendre, prévoir, classer, progresser● Nécessité reconnue : FIMI (Bayardo, Goethals, Zaki)

– Comparaison impartiale– Constats positifs

● impossible de déterminer « le meilleur » algo● Les meilleurs temps sont impressionnants

– Constats négatifs● Manque de jeux de données● Impossible de tirer des conclusions interessantes

Page 4: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

FIMI: Jeux d'essais

● 14 BD de transactions :

#Articles #Transact. Taille MoyenneAccident 468 340183 33,8BMS1 497 59602 2,5BMS2 3341 77512 5,6BMSPOS 1658 515597 7,5Chess 75 3196 37Connect 129 67557 43Kozarak 41270 99002 8,1Mushroom 119 8124 23Pumsb 2088 49046 50,5Pumsb* 2113 4905 74Retail 16469 88162 10,3T10I5N1KP5KC0.25D200k 956 200000 10,3T20I10N1KP5KC0.25D200k 979 200000 20,1T30I15N1KP5KC0.25D200k 987 200000 29,7

Page 5: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Problèmes● Petites transactions en moyenne

– Les fréquents sont « bas » dans le treillis des parties– Beaucoup d'algos ne sont pas mis en difficulté– Mettre un petit support: d'où proviennent les échecs ?

● Les bases tiennent en mémoire– Diminuer la mémoire pénaliserai certains algorithmes

● Doit-on se focaliser sur des jeux réels ?● Jeux synthétiques: Système Quest, d'IBM.

– #transactions, #items, taille moyenne

Page 6: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Objectifs

● Générer des bases synthétiques, pour de réelles campagnes de tests.

● Qu'est ce qui est important ?– Nb de candidats générés, nb accès aux données, taille

de la sortie, niveau d'apparition des fréquents...– Le Nb article est inintéressant– Nb Transactions: doit pouvoir varier de façon

indépendante– Taille moyenne: trop grossier

Page 7: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Prise en compte des bordures (1)

● Bordure positive : les plus grands fréquents● Bordure négative : les plus petits non-fréquents● Equivalence entre :

– Une bordure positive– Une bordure négative– Un ensemble de fréquents

● La plupart des algos parcourent au moins ces deux bordures

Page 8: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Prise en compte des bordures (2)

● Prendre en entrée une bordure (+ ou -) ?– Difficile de saisir une bordure à la main– Générer automatiquement: en fonction de quel critère ?

● La distribution d'une bordure:– Nb d'éléments dans la bordure à chaque niveau.

● Caractérise plus finement les jeux de données – Attention: ce n'est pas une caractérisation exacte

Page 9: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Quelques préliminaires (1/3)

● Lexicographique V.S. Colex– Ex.: Soient ABCDE les articles

Lex: ABC ABD ABE ACD ACE ADE BCD BCE BDE CDEColex: ABC ABD ACD BCD ABE ACE BCE ADE BDE CDE

– Colex: un nouvel article est introduit lorsque toutes les combinaisons sont épuisées.

– Conséquence : à un motif correspond un rang unique.– Ex: Si on a 6 articles ABCDEF

Lex: ABC ABD ABE ABF ACD ACE ACF ADE ADF AEF BCD ...Colex: ABC ABD ACD BCD ABE ACE BCE ADE BDE CDE ABF ...

Page 10: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Quelques préliminaires (1/3)

● Lexicographique V.S. Colex– Ex.: Soient ABCDE les articles

Lex: ABC ABD ABE ACD ACE ADE BCD BCE BDE CDEColex: ABC ABD ACD BCD ABE ACE BCE ADE BDE CDE

– Colex: un nouvel article est introduit lorsque toutes les combinaisons sont épuisées.

– Conséquence : à un motif correspond un rang unique.– Ex: Si on a 6 articles ABCDEF

Lex: ABC ABD ABE ABF ACD ACE ACF ADE ADF AEF BCD ...Colex: ABC ABD ACD BCD ABE ACE BCE ADE BDE CDE ABF ...

Page 11: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Quelques préliminaires (1/3)

● Lexicographique V.S. Colex– Ex.: Soient ABCDE les articles

Lex: ABC ABD ABE ACD ACE ADE BCD BCE BDE CDEColex: ABC ABD ACD BCD ABE ACE BCE ADE BDE CDE

– Colex: un nouvel article est introduit lorsque toutes les combinaisons sont épuisées.

– Conséquence : à un motif correspond un rang unique.– Ex: Si on a 6 articles ABCDEF

Lex: ABC ABD ABE ABF ACD ACE ACF ADE ADF AEF BCD ...Colex: ABC ABD ACD BCD ABE ACE BCE ADE BDE CDE ABF ...

Page 12: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Quelques préliminaires (2/3)

● Calcul des motifs induits– Fréquents déduits d'autres fréquents par monotonie – Facilité par l'ordre Colex dans certains cas

123 124 134 …

12 13 23 14 24 34 15 25 35 45 …

1 2 3 4 5 6 7 …

Page 13: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Quelques préliminaires (2/3)

● Calcul des motifs induits– Fréquents déduits d'autres fréquents par monotonie – Facilité par l'ordre Colex dans certains cas

123 124 134 …

12 13 23 14 24 34 15 25 35 45 …

1 2 3 4 5 6 7 …

Page 14: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Quelques préliminaires (2/3)

● Calcul des motifs induits– Fréquents déduits d'autres fréquents par monotonie – Facilité par l'ordre Colex dans certains cas

123 124 134 …

12 13 23 14 24 34 15 25 35 45 …

1 2 3 4 5 6 7 …

Page 15: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Quelques préliminaires (2/3)

● Calcul des motifs induits– Fréquents déduits d'autres fréquents par monotonie – Facilité par l'ordre Colex dans certains cas

123 124 134 …

12 13 23 14 24 34 15 25 35 45 …

1 2 3 4 5 6 7 …

Page 16: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Quelques préliminaires (3/3)

Soit Fk les n premiers fréquents de taille k.

● Le nombre de fréquents induits au niveau i<k est calculable efficacement.

● Soit (Fj )

j=l..K les n

j premiers fréquents de taille j.

Alors les fréquents induits au niveau i<j sont calculables efficacements.

Page 17: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Une méthode de génération (1)

● Proposée par [Maniatty, Ramesh, Zaki] PODS'03● Entrée : une distribution S de bordure positive● Sortie : une BD de transactions d, et un support

minsup– La bordure positive des motifs de support > minsup

dans d possède la distribution S.● En fait, la méthode est plus générale: prend en

entrée une séquence de séquences.

Page 18: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Une méthode de génération (2)

● Deux étapes: – génération de BD+

– Génération de la base à partir de BD+

● ex.: S = < 2, 3, 2 >

123 124

Page 19: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Une méthode de génération (2)

● Deux étapes: – génération de BD+

– Génération de la base à partir de BD+

● ex.: S = < 2, 3, 2 >

123 124

12 13 23 14 24

Page 20: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Une méthode de génération (2)

● Deux étapes: – génération de BD+

– Génération de la base à partir de BD+

● ex.: S = < 2, 3, 2 >

123 124

12 13 23 14 24 34 15 25

Page 21: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Une méthode de génération (2)

● Deux étapes: – génération de BD+

– Génération de la base à partir de BD+

● ex.: S = < 2, 3, 2 >

123 124

12 13 23 14 24 34 15 25

1 2 3 4 5

Page 22: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Une méthode de génération (2)

● Deux étapes: – génération de BD+

– Génération de la base à partir de BD+

● ex.: S = < 2, 3, 2 >

123 124

12 13 23 14 24 34 15 25

1 2 3 4 5 6 7

Page 23: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Une méthode de génération (3)

● La génération de la base est ensuite triviale

6

7

3 4

1 5

2 5

1 2 3

1 2 4

Support : = 71

Page 24: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Une méthode de génération (4)

● Deux résultats importants:– La méthode fonctionne pour toute séquence en entrée– Le nombe d'articles utilisés est minimal

● Expérimentations:– Calculer la bordure positive des bases connues– Reproduire ces bases de façon synthétiques.

● Mais les BD sont-elles vraiment « similaires » en terme de complexité ?

Page 25: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

La bordure négative synthétique (1)

● Quelle est la bordure négative des bases générées par [Maniatty, Ramesh, Zaki] ?

● Méthode proposée:– Entrée: une séquence de BD+– Sortie: la séquence de BD- correspondante dans la

méthode de [Maniatty, Ramesh, Zaki]

● Idée: soient F les n premiers motifs de taille k– On peut calculer les ensembles qui les induisent au

niveau k+1

Page 26: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

La bordure négative synthétique (2)

● Ex: < Bd+(F) > = < 2, 3, 2 >

123 124

12 13 23 14 24 34 15 25

1 2 3 4 5 6 7

Page 27: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

La bordure négative synthétique (2)

● Ex: < Bd+(F) > = < 2, 3, 2 >

123 124

12 13 23 14 24 34 15 25 35 45 16 26 36 46 56 17 27 37 47 57 67

1 2 3 4 5 6 7

Page 28: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

La bordure négative synthétique (2)

● Ex: < Bd+(F) > = < 2, 3, 2 >

123 124 134 234 125

12 13 23 14 24 34 15 25 35 45 16 26 36 46 56 17 27 37 47 57 67

1 2 3 4 5 6 7

● Donc: < Bd-(F) > = < 0, 13, 3 >

● Au plus, la bordure négative dépasse d'un niveau la bordure positive

Page 29: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Comparaison avec les BD existantesCONNECT (min_sup = 30%)

0

1000

2000

3000

4000

5000

6000

0 5 10 15 20 25 30

longueur des motifs

nom

bre

de m

otifs

Bd+(F) Bd-(F) réelle Bd-(F) générée

Page 30: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Comparaison avec les BD existantesMUSHROOM (min_sup = 0,1%)

-5000

0

5000

10000

15000

20000

25000

30000

0 5 10 15 20 25

longueur des motifs

no

mb

re d

e m

oti

fs

Bd+(F) Bd-(F) réelle Bd-(F) générée

Page 31: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Comparaison avec les BD existantesCHESS (min_sup = 60%)

0

200

400

600

800

1000

1200

1400

0 2 4 6 8 10 12 14 16

longueur des motifs

no

mb

re d

e m

oti

fs

Bd+(F) Bd-(F) réelle Bd-(F) générée

Page 32: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Comparaison avec les BD existantes

PUMSB (min_sup = 50%)

0

50000

100000

150000

200000

250000

300000

0 5 10 15 20 25 30

longueur des motifs

no

mb

re d

e m

oti

fs

Bd+(F) Bd-(F) réelle Bd-(F) générée

Page 33: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Prendre BD- en entrée (1)

● Entrée: une séquence pour BD-

● Sortie: Une BD et un support représentatif● A chaque niveau, on utilise la même disposition

des motifs que dans [Maniatty, Ramesh, Zaki, 2002]

– De gauche à droite, à chaque niveau, on trouve:● Les fréquents non maximaux● Les motifs de BD+● Les motifs de BD-● Les non fréquents non minimaux

● Permet d'utiliser les propriétés intéressantes

Page 34: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Prendre BD- en entrée: exemple

● Ex.: <BD-> = <0,2,3,1>– Etape 1: recherche du nombre minimal d'articles

1234

Page 35: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Prendre BD- en entrée: exemple

● Ex.: <BD-> = <0,2,3,1>– Etape 1: recherche du nombre minimal d'articles

123 124 134 234

1234

Page 36: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Prendre BD- en entrée: exemple

● Ex.: <BD-> = <0,2,3,1>– Etape 1: recherche du nombre minimal d'articles

123 124 134 234 125 135 235

1234

Page 37: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Prendre BD- en entrée: exemple

● Ex.: <BD-> = <0,2,3,1>– Etape 1: recherche du nombre minimal d'articles

123 124 134 234 125 135 235

1234

12 13 23 14 24 34 15 25 35

Page 38: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Prendre BD- en entrée: exemple

● Ex.: <BD-> = <0,2,3,1>– Etape 1: recherche du nombre minimal d'articles

123 124 134 234 125 135 235

1234

12 13 23 14 24 34 15 25 35 45 16

Page 39: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Prendre BD- en entrée: exemple

● Ex.: <BD-> = <0,2,3,1>– Etape 1: recherche du nombre minimal d'articles

123 124 134 234 125 135 235

1234

12 13 23 14 24 34 15 25 35 45 16

1 2 3 4 5 6

Page 40: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Prendre BD- en entrée: exemple

● Ex.: <BD-> = <0,2,3,1>– Etape 1: recherche du nombre minimal d'articles

123 124 134 234 125 135 235

1234

12 13 23 14 24 34 15 25 35 45 16

1 2 3 4 5 6

● 6 articles seront nécessaires● On ne peut pas s'arrêter ici !

Page 41: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Prendre BD- en entrée: exemple

● Ex.: <BD-> = <0,2,3,1>– Etape 2: on détermine les éléments de BD-

1 2 3 4 5 6

Page 42: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Prendre BD- en entrée: exemple

● Ex.: <BD-> = <0,2,3,1>– Etape 2: on détermine les éléments de BD-

1 2 3 4 5 6

12 13 23 14 24 34 15 25 35 45 16 26 36 46 56

Page 43: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Prendre BD- en entrée: exemple

● Ex.: <BD-> = <0,2,3,1>– Etape 2: on détermine les éléments de BD-

1 2 3 4 5 6

12 13 23 14 24 34 15 25 35 45 16 26 36 46 56

Page 44: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Prendre BD- en entrée: exemple

● Ex.: <BD-> = <0,2,3,1>– Etape 2: on détermine les éléments de BD-

1 2 3 4 5 6

12 13 23 14 24 34 15 25 35 45 16 26 36 46 56

123 124 134 234 125 135 235 245 345 126 136 236

Page 45: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Prendre BD- en entrée: exemple

● Ex.: <BD-> = <0,2,3,1>– Etape 2: on détermine les éléments de BD-

1 2 3 4 5 6

12 13 23 14 24 34 15 25 35 45 16 26 36 46 56

123 124 134 234 125 135 235 245 345 126 136 236

Page 46: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Prendre BD- en entrée: exemple

● Ex.: <BD-> = <0,2,3,1>– Etape 2: on détermine les éléments de BD-

1 2 3 4 5 6

12 13 23 14 24 34 15 25 35 45 16 26 36 46 56

1234 1235 1245 1345 2345

123 124 134 234 125 135 235 245 345 126 136 236

Page 47: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Prendre BD- en entrée: exemple

● Ex.: <BD-> = <0,2,3,1>– Etape 2: on détermine les éléments de BD-

1 2 3 4 5 6

12 13 23 14 24 34 15 25 35 45 16 26 36 46 56

1234 1235 1245 1345 2345

123 124 134 234 125 135 235 245 345 126 136 236

Page 48: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Prendre BD- en entrée: exemple

● Ex.: <BD-> = <0,2,3,1>– Etape 3: on détermine les éléments de BD+

1 2 3 4 5 6

12 13 23 14 24 34 15 25 35 45 16 26 36 46 56

1234 1235 1245 1345 2345

123 124 134 234 125 135 235 245 345 126 136 236

Page 49: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Prendre BD- en entrée: exemple

● Ex.: <BD-> = <0,2,3,1>– Etape 3: on détermine les éléments de BD+

1 2 3 4 5 6

12 13 23 14 24 34 15 25 35 45 16 26 36 46 56

1234 1235 1245 1345 2345

123 124 134 234 125 135 235 245 345 126 136 236

Page 50: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Prendre BD- en entrée: exemple

● Ex.: <BD-> = <0,2,3,1>– Etape 3: on détermine les éléments de BD+

1 2 3 4 5 6

12 13 23 14 24 34 15 25 35 45 16 26 36 46 56

1234 1235 1245 1345 2345

123 124 134 234 125 135 235 245 345 126 136 236

Page 51: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Prendre BD- en entrée: exemple

● Ex.: <BD-> = <0,2,3,1>– Etape 3: on détermine les éléments de BD+

1 2 3 4 5 6

12 13 23 14 24 34 15 25 35 45 16 26 36 46 56

1234 1235 1245 1345 2345

123 124 134 234 125 135 235 245 345 126 136 236

● BD+ = {1234, 1235, 1245, 1345, 16, 26, 36}

Page 52: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Prendre BD- en entrée: exemple

1 2 3 4

1 2 3 5

1 2 4 5

1 3 4 5

1 6

2 6

3 6

Support : = 71

Page 53: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Conjectures

● Pas encore de preuve formelle● Résultats à venir:

– La méthode est juste :-)– Toute séquence en entrée est acceptable– Le nombre d'articles est minimal

Page 54: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Perspectives (1)

● Prendre en compte les deux bordures en entrée:– Permet de mieux diversifier les espaces de recherche– Toutes les distributions sont-elles réalisables ?

● Oui, mais avec une organisation différente● On perd quelques bonnes propriétés

Page 55: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Perspectives (2)

● Considérer d'autres caractéristiques décisives des jeux de données:– La distribution des bordures des clés (générateurs)– La distribution des fermés– La « taille » des classes d'équivalences

● ... ou d'autres contraintes que la fréquence

Page 56: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Perspectives (3)

● Prendre en entrée un ensemble de règles d'associations, ou des caractéristiques des règles– Notion de BD de transaction d' « Armstrong »– Difficulté: prendre en compte une mesure d'intérêt des

règles, comme la confiance– Il faut certainement retrouver les fermés fréquents

avant de générer.

Page 57: Génération de bases de données de transactions ...poncelet/GDRI3FD/Reunion200505/ResumeGDRI… · Chess 75 3196 37 Connect 129 67557 43 Kozarak 41270 99002 8,1 Mushroom 119 8124

Perspectives (4)

● Effectuer des tests...– Génération de batteries de jeux d'essais pertinents– Fournir des benchmarks à la communauté– Trouver les points faibles et points forts des algos– Déterminer des classifications des BD

● Elaborer des stratégies adaptatives en fonction des données– Détecter rapidement les configurations