Upload
manal-msl
View
241
Download
0
Embed Size (px)
DESCRIPTION
dw dm chapitre 4
Citation preview
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 1/51
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 2/51
Ce cours est consacré aux :◦ Techniques de data arehouse! et de data mining!◦
"ise en #u$re dans les systèmes décisionnels% Ce cours sera ré&arti en trois cha&itres:
◦ Cha&itre 1
ystèmes d’information décisionnels
'ne série T(
'n T) *de$oir+
◦ Cha&itre ,
Conce&tion de -ases de données décisionnelles : (ata arehouse
'ne série T(
'n T) *de$oir+
◦ Cha&itre .
/ouille de données : techniques de data mining
'ne série T( 'n T) *de$oir+
◦ Etude de cas Société : 0rion Star
,
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 3/51
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 4/51
Introduction (ata "ining
Techniques d’extraction
ègles d’association 2r-re de décision
éseau de neurones
Conclusion
3
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 5/51
4
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 6/51
5e (ata "ining est un nou$eau cham& situé au
croisement de la statistique et des technologiesde l’information *-ases de données! intelligenceartificielle! a&&rentissage etc%+ dont le -ut est dedécou$rir des structures dans de $astes
ensem-les de données% EC( *Extraction de Connaissances 6 &artir de
(onnées78noledge extraction+ : ensem-le du&rocessus de décou$ertes et d’inter&rétation derégularités dans des données%
2utres a&&ellations :◦ 8noledge (isco$ery in (ata-ases *8((+◦ (ata7&attern analysis
9
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 7/51
écessité économique &our la &rise dedécision:◦ E;commerce
◦ <estion de la concurrence
◦ /idélisation de la clientèle! mar=eting ci-lé%
(is&oni-ilité croissante de quantité énormede données :◦ 5a technologie est dis&oni-le :
&our aider 6 collecter les données% &our aider 6 stoc=er : -ase de données! data
arehouses%
>
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 8/51
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 9/51
'%"%/ayyad: @(ata "ining is the nontri$ial &rocess ofidentifying $alid! no$el! &otentially useful! and ultimately understanda-le &atterns in dataA
(%B%Cand:@I shall define (ata "ining as the disco$ery ofinteresting! unex&ected! or $alua-le structures in largedata setsA
Extraction d’informations originales *non tri$iales+im&licites! inconnues au&ara$ant et &otentiellement utiles6 &artir de grandes -ases de données *-ig data+ :◦ on tri$iale : sinon la connaissance n’est &as utile◦
Im&licite : la connaissance cachée est difficile 6 o-ser$er◦ Inconnue Dusqu’alors : é$ident ◦ )otentiellement utile : utilisa-le! com&réhensi-le
F
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 10/51
echerches en Intelligence artificielle! a&&rentissage!
extraction de connaissancesG 5’é$olution des S<B( $ers l’informatique
décisionnelle a$ec les entre&Hts de données *(ataarehouse+G
5a constitution de giga -ases de données :transactions de cartes de crédit! a&&elstélé&honiques! factures de su&ermarchés: tera-ytesG
(é$elo&&ement de la <estion de la elation Client
*C"+ :◦ "ar=eting client au lieu de mar=eting &roduitG◦ 2ttrition! satisfaction! etc%
1J
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 11/51
5e (ata "ining cherche des structures dedeux ty&es:◦ Identification de
&atterns!
◦ Construction demodèles
!
11
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 12/51
)atterns :
une structure caractéristique&ossédée &ar un &etit nom-red’o-ser$ations: niche de clients 6 forte$aleur! ou au contraire des clients 6 hautrisque%
0utils: classification! $isualisation &arréduction de dimension *2C)! 2/C etc%+!règles d’association! K
1,
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 13/51
"odèles
: 'n modèle est un résumé glo-aldes relations entre $aria-les! &ermettant decom&rendre des &hénomènes! et d’émettredes &ré$isions% Construire des modèles a
touDours été une acti$ité des statisticiens%
0utils
: la décou$erte de modèles se fait 6l’aide d’un &rocessus de recherchealgorithmique d’ex&loration de modèles:◦ réseaux de neurones! ar-res de décision!
régression logistique! réseaux -ayesiens%K
1.
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 14/51
13
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 15/51
(ifférentes a&&roches :◦ Estimation
: créer un modèle qui décrit au mieux une
$aria-le de &ré$ision liée 6 des données réelles◦ Classification
: créer une fonction qui classifie uneélémentaire &armi &lusieurs classes &rédéfiniesexistantes!
◦
1egrou&ement *clustering+ : rechercher 6 identifier unensem-le fini de catégories ou grou&es en $ue dedécrire les données!
◦ "odélisation des dé&endances
: trou$er un modèle quidécrit des dé&endances significati$es entre les $aria-les
2utre distinction: &rédictif *su&er$isé+ ouex&loratoire*non su&er$isé+
14
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 16/51
5e(ata "ining
est une éta&e dans le &rocessusd’extraction des connaissances! qui consiste 6
a&&liquer des algorithmes d’analyse desdonnées:1% )oser le &ro-lème,% echerche des données
.% ettoyage des données3% Codage des données! actions sur les $aria-les4% echerche d’un modèle! de connaissances! K9% Lalidation et inter&rétation du résultat! a$ec
retour &ossi-le sur les éta&es &récédentes>% Intégration des connaissances a&&rises
19
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 17/51
1>
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 18/51
1?
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 19/51
'ne méthode non su&er$isée:◦ ègles d’association
'ne méthodes su&er$isées◦ 2r-res de décision
1F
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 20/51
,J
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 21/51
(écou$erte d’associations et de corrélationsentre les $aria-les des o-ser$ations% Exem&le:les articles achetés &ar les clients enanalysant le &anier de la ménagère:◦ les clients achètent sou$ent en mMme tem&s des
&ac=s de -ière et des couches%◦ N;a;t;il des liens de causalité entre l’achat d’un
&roduit ) et d’un autre &roduit )’ O
,1
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 22/51
IntérMt &our suggérer◦ (is&osition des &roduits dans le magasin◦ Puels &roduits mettre en &romotion!◦ gestion de stoc=!◦ K
2&&roche a&&lica-le dans d’autres domaines◦ Cartes de crédit!◦ e;commerce!◦ Ser$ices des com&agnies de télécommunication◦ Ser$ices -ancaires◦ Traitements médicaux!◦ K
,,
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 23/51
/ormat de re&résentation de règledQassociation : 2B oR 2BU
,.
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 24/51
S'))0T : 'n indicateur de V fia-ilité W de larègle%
C0/I2CE : 'n indicateur de V &récision Wde la règle%
,3
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 25/51
,4
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 26/51
,9
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 27/51
,>
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 28/51
echerche des règles &our les Itemsets de card ,
,?
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 29/51
echerche des règles &our les itemsets de card . et &lus
,F
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 30/51
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 31/51
.1
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 32/51
.,
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 33/51
2r-re e&résentation gra&hique d’une&rocédure de classification%
..
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 34/51
2r-re de décision
: Classer les o-Dets ensous;classes &ar di$isions hiérarchiques
)eut Mtre $u comme une &résentationhiérarchique d’une ta-le relationnelle %%%
Il s’agit de sélectionner &armi les $aria-les
ex&licati$es celle qui est la &lus liée 6 la$aria-le 6 ex&liquer%◦
0-Dectif
: ésolution des &ro-lèmes de
discrimination et de régression en di$isantsuccessi$ement l’échantillon en sous;grou&es%
.3
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 35/51
.4
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 36/51
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 37/51
.>
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 38/51
Choix de la $aria-le de segmentation◦ 0n choisit la $aria-le Y telle qu’elle est la &lus liée
*corrélée+ a$ec N *matrice de corrélation+◦ /onction de <ini et <ain *entro&ie+
◦ euristique
◦
on utilise le ta-leau de contingence *croisementde N a$ec Y+ &our quantifier cette liaison
ni= lQeffectif conDoint de ci et d= : cQest le nom-redQindi$idus &our lesquels x &rend la $aleur ci et y la
$aleur d=!
.?
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 39/51
Traitement des $aria-les continues◦ Comment est réalisé le choix du &oint de cou&ure
*ex: d ’oR $ient la $aleur 3?%4 de décou&age de l’Zge dans l ’ar-re exem&le+
)oint de cou&ure : -orne de discrétisation◦
il doit touDours Mtre situé entre deux &ointsconsécutifs sur l ’axe de la $aria-le quantitati$e
◦ il &ermet de définir un ta-leau de contingence
.F
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 40/51
5’idée est surtout de contrHler la &rofondeur del’ar-re
Puand décider qu’un sommet de$ient une feuilleO◦ omogénéité des grou&es : critère de &récision
*confiance+ )ureté d’un sommet
Seuil de s&écialisation *ex% si une classe est re&résentée 6F?[ ;\ sto&+
◦ Effectif des grou&es : critère de su&&ort Taille minimale &our segmenter *ex% en dessous de 1J o-s!
on ne segmente &lus+
Effectif d’admissi-ilité *ex% si un des sommets &roduit cou$remoins de , o-s% ;\ refus+
3J
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 41/51
5’intérMt des ar-res -inaires est de &ou$oirregrou&er les modalités qui ne se distinguent
&as $is 6 $is la $aria-le 6 &rédireG En &résence d’un &rédicateur qualitatif! on
&ourrait utiliser des ar-res non -inaires en
décou&ant en m sous ensem-les: cette idéen’est en général &as -onne car elle conduit 6des su-di$isions a$ec tro& &eu
d’o-ser$ations et sou$ent non &ertinentes%
31
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 42/51
3,
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 43/51
3.
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 44/51
33
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 45/51
34
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 46/51
39
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 47/51
3>
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 48/51
3?
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 49/51
unerègle est générée &our chaque chemin de
l’ar-re *de la racine 6 une feuille+
5es &aires attri-ut;$aleur d’un cheminforment une conDonction
5e n#ud terminal re&résente la classe &rédite
5es règles sont généralement &lus faciles 6com&rendre que les ar-res
3F
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 50/51
4J
7/21/2019 DW DM Chapitre 4
http://slidepdf.com/reader/full/dw-dm-chapitre-4 51/51
41