51
Systèmes d’information décisionnels Extraction de connaissances Business Intelligence 1

DW DM Chapitre 4

Embed Size (px)

DESCRIPTION

dw dm chapitre 4

Citation preview

Page 1: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 1/51

Page 2: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 2/51

Ce cours est consacré aux :◦ Techniques de data arehouse! et de data mining!◦

"ise en #u$re dans les systèmes décisionnels% Ce cours sera ré&arti en trois cha&itres:

◦ Cha&itre 1

  ystèmes d’information décisionnels

'ne série T(

'n T) *de$oir+

◦ Cha&itre ,

Conce&tion de -ases de données décisionnelles : (ata arehouse

'ne série T(

'n T) *de$oir+

◦ Cha&itre .

/ouille de données : techniques de data mining

'ne série T( 'n T) *de$oir+

◦ Etude de cas Société : 0rion Star

,

Page 3: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 3/51

Page 4: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 4/51

Introduction (ata "ining

Techniques d’extraction

ègles d’association 2r-re de décision

éseau de neurones

Conclusion

3

Page 5: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 5/51

4

Page 6: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 6/51

5e (ata "ining est un nou$eau cham& situé au

croisement de la statistique et des technologiesde l’information *-ases de données! intelligenceartificielle! a&&rentissage etc%+ dont le -ut est dedécou$rir des structures dans de $astes

ensem-les de données% EC( *Extraction de Connaissances 6 &artir de

(onnées78noledge extraction+ : ensem-le du&rocessus de décou$ertes et d’inter&rétation derégularités dans des données%

2utres a&&ellations :◦ 8noledge (isco$ery in (ata-ases *8((+◦ (ata7&attern analysis

9

Page 7: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 7/51

écessité économique &our la &rise dedécision:◦ E;commerce

◦ <estion de la concurrence

◦ /idélisation de la clientèle! mar=eting ci-lé%

(is&oni-ilité croissante de quantité énormede données :◦ 5a technologie est dis&oni-le :

&our aider 6 collecter les données% &our aider 6 stoc=er : -ase de données! data

arehouses%

>

Page 8: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 8/51

Page 9: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 9/51

'%"%/ayyad: @(ata "ining is the nontri$ial &rocess ofidentifying $alid! no$el! &otentially useful! and ultimately understanda-le &atterns in dataA 

(%B%Cand:@I shall define (ata "ining as the disco$ery ofinteresting! unex&ected! or $alua-le structures in largedata setsA 

Extraction d’informations originales *non tri$iales+im&licites! inconnues au&ara$ant et &otentiellement utiles6 &artir de grandes -ases de données *-ig data+ :◦ on tri$iale : sinon la connaissance n’est &as utile◦

Im&licite : la connaissance cachée est difficile 6 o-ser$er◦ Inconnue Dusqu’alors : é$ident ◦ )otentiellement utile : utilisa-le! com&réhensi-le

F

Page 10: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 10/51

echerches en Intelligence artificielle! a&&rentissage!

extraction de connaissancesG 5’é$olution des S<B( $ers l’informatique

décisionnelle a$ec les entre&Hts de données *(ataarehouse+G

5a constitution de giga -ases de données :transactions de cartes de crédit! a&&elstélé&honiques! factures de su&ermarchés: tera-ytesG

(é$elo&&ement de la <estion de la elation Client

*C"+ :◦ "ar=eting client au lieu de mar=eting &roduitG◦ 2ttrition! satisfaction! etc%

1J

Page 11: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 11/51

5e (ata "ining cherche des structures dedeux ty&es:◦ Identification de

&atterns!

◦ Construction demodèles

!

11

Page 12: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 12/51

)atterns :

une structure caractéristique&ossédée &ar un &etit nom-red’o-ser$ations: niche de clients 6 forte$aleur! ou au contraire des clients 6 hautrisque%

0utils: classification! $isualisation &arréduction de dimension *2C)! 2/C etc%+!règles d’association! K

1,

Page 13: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 13/51

"odèles

: 'n modèle est un résumé glo-aldes relations entre $aria-les! &ermettant decom&rendre des &hénomènes! et d’émettredes &ré$isions% Construire des modèles a

touDours été une acti$ité des statisticiens%

0utils

: la décou$erte de modèles se fait 6l’aide d’un &rocessus de recherchealgorithmique d’ex&loration de modèles:◦ réseaux de neurones! ar-res de décision!

régression logistique! réseaux -ayesiens%K

1.

Page 14: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 14/51

13

Page 15: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 15/51

(ifférentes a&&roches :◦ Estimation

: créer un modèle qui décrit au mieux une

$aria-le de &ré$ision liée 6 des données réelles◦ Classification

: créer une fonction qui classifie uneélémentaire &armi &lusieurs classes &rédéfiniesexistantes!

1egrou&ement *clustering+ : rechercher 6 identifier unensem-le fini de catégories ou grou&es en $ue dedécrire les données!

◦ "odélisation des dé&endances

: trou$er un modèle quidécrit des dé&endances significati$es entre les $aria-les

2utre distinction: &rédictif *su&er$isé+ ouex&loratoire*non su&er$isé+

14

Page 16: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 16/51

5e(ata "ining

est une éta&e dans le &rocessusd’extraction des connaissances! qui consiste 6

a&&liquer des algorithmes d’analyse desdonnées:1% )oser le &ro-lème,% echerche des données

.% ettoyage des données3% Codage des données! actions sur les $aria-les4% echerche d’un modèle! de connaissances! K9% Lalidation et inter&rétation du résultat! a$ec

retour &ossi-le sur les éta&es &récédentes>% Intégration des connaissances a&&rises

19

Page 17: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 17/51

1>

Page 18: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 18/51

1?

Page 19: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 19/51

'ne méthode non su&er$isée:◦ ègles d’association

'ne méthodes su&er$isées◦ 2r-res de décision

1F

Page 20: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 20/51

,J

Page 21: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 21/51

(écou$erte d’associations et de corrélationsentre les $aria-les des o-ser$ations% Exem&le:les articles achetés &ar les clients enanalysant le &anier de la ménagère:◦ les clients achètent sou$ent en mMme tem&s des

&ac=s de -ière et des couches%◦ N;a;t;il des liens de causalité entre l’achat d’un

&roduit ) et d’un autre &roduit )’ O

,1

Page 22: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 22/51

IntérMt &our suggérer◦ (is&osition des &roduits dans le magasin◦ Puels &roduits mettre en &romotion!◦ gestion de stoc=!◦ K

2&&roche a&&lica-le dans d’autres domaines◦ Cartes de crédit!◦ e;commerce!◦ Ser$ices des com&agnies de télécommunication◦ Ser$ices -ancaires◦ Traitements médicaux!◦ K

,,

Page 23: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 23/51

/ormat de re&résentation de règledQassociation : 2B oR 2BU

,.

Page 24: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 24/51

S'))0T : 'n indicateur de V fia-ilité W de larègle%

C0/I2CE : 'n indicateur de V &récision Wde la règle%

,3

Page 25: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 25/51

,4

Page 26: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 26/51

,9

Page 27: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 27/51

,>

Page 28: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 28/51

echerche des règles &our les Itemsets de card ,

,?

Page 29: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 29/51

echerche des règles &our les itemsets de card . et &lus

,F

Page 30: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 30/51

Page 31: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 31/51

.1

Page 32: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 32/51

.,

Page 33: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 33/51

2r-re e&résentation gra&hique d’une&rocédure de classification%

..

Page 34: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 34/51

2r-re de décision

: Classer les o-Dets ensous;classes &ar di$isions hiérarchiques

)eut Mtre $u comme une &résentationhiérarchique d’une ta-le relationnelle %%%

Il s’agit de sélectionner &armi les $aria-les

ex&licati$es celle qui est la &lus liée 6 la$aria-le 6 ex&liquer%◦

0-Dectif

: ésolution des &ro-lèmes de

discrimination et de régression en di$isantsuccessi$ement l’échantillon en sous;grou&es%

.3

Page 35: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 35/51

.4

Page 36: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 36/51

Page 37: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 37/51

.>

Page 38: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 38/51

Choix de la $aria-le de segmentation◦ 0n choisit la $aria-le Y telle qu’elle est la &lus liée

*corrélée+ a$ec N *matrice de corrélation+◦ /onction de <ini et <ain *entro&ie+

◦ euristique

on utilise le ta-leau de contingence *croisementde N a$ec Y+ &our quantifier cette liaison

ni= lQeffectif conDoint de ci et d= : cQest le nom-redQindi$idus &our lesquels x &rend la $aleur ci et y la

$aleur d=!

.?

Page 39: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 39/51

Traitement des $aria-les continues◦ Comment est réalisé le choix du &oint de cou&ure

*ex: d ’oR $ient la $aleur 3?%4 de décou&age de l’Zge dans l ’ar-re exem&le+

)oint de cou&ure : -orne de discrétisation◦

il doit touDours Mtre situé entre deux &ointsconsécutifs sur l ’axe de la $aria-le quantitati$e

◦ il &ermet de définir un ta-leau de contingence

.F

Page 40: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 40/51

5’idée est surtout de contrHler la &rofondeur del’ar-re

Puand décider qu’un sommet de$ient une feuilleO◦ omogénéité des grou&es : critère de &récision

*confiance+ )ureté d’un sommet

Seuil de s&écialisation *ex% si une classe est re&résentée 6F?[ ;\ sto&+

◦ Effectif des grou&es : critère de su&&ort Taille minimale &our segmenter *ex% en dessous de 1J o-s!

on ne segmente &lus+

Effectif d’admissi-ilité *ex% si un des sommets &roduit cou$remoins de , o-s% ;\ refus+

3J

Page 41: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 41/51

5’intérMt des ar-res -inaires est de &ou$oirregrou&er les modalités qui ne se distinguent

&as $is 6 $is la $aria-le 6 &rédireG En &résence d’un &rédicateur qualitatif! on

&ourrait utiliser des ar-res non -inaires en

décou&ant en m sous ensem-les: cette idéen’est en général &as -onne car elle conduit 6des su-di$isions a$ec tro& &eu

d’o-ser$ations et sou$ent non &ertinentes%

31

Page 42: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 42/51

3,

Page 43: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 43/51

3.

Page 44: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 44/51

33

Page 45: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 45/51

34

Page 46: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 46/51

39

Page 47: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 47/51

3>

Page 48: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 48/51

3?

Page 49: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 49/51

unerègle est générée &our chaque chemin de

l’ar-re *de la racine 6 une feuille+

5es &aires attri-ut;$aleur d’un cheminforment une conDonction

5e n#ud terminal re&résente la classe &rédite

5es règles sont généralement &lus faciles 6com&rendre que les ar-res

3F

Page 50: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 50/51

4J

Page 51: DW DM Chapitre 4

7/21/2019 DW DM Chapitre 4

http://slidepdf.com/reader/full/dw-dm-chapitre-4 51/51

41