8
Simuler les données manquantes dans les Open Data ? Présenté par : Imen Megdiche Directeur de Thèse : Olivier Teste Co-directeur de thèse : Alain Berro Atelier : Impact des *data sur les systèmes d’information 24/03/2015

Simuler les données manquantes issues de …tru ct, 1 V NumData,1 V s tru ct2 V NumData2 V Str uct 3 V NumData,2 V s tru ct6 V NumData,4 V st ruc t5 V NumData,5 V Str uct 3 V s tru

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Simuler les données manquantes issues de …tru ct, 1 V NumData,1 V s tru ct2 V NumData2 V Str uct 3 V NumData,2 V s tru ct6 V NumData,4 V st ruc t5 V NumData,5 V Str uct 3 V s tru

Simuler les données manquantes

dans les Open Data ?

Présenté par : Imen Megdiche

Directeur de Thèse : Olivier Teste

Co-directeur de thèse : Alain Berro

Atelier : Impact des *‐data sur les systèmes d’information

24/03/2015

Page 2: Simuler les données manquantes issues de …tru ct, 1 V NumData,1 V s tru ct2 V NumData2 V Str uct 3 V NumData,2 V s tru ct6 V NumData,4 V st ruc t5 V NumData,5 V Str uct 3 V s tru

Plan

1. Impact des Open Data sur les SI

2. Processus d’entreposage d’Open Data

3. Données manquantes dans les Open Data

4. Simuler les données .. une bonne alternative ?

24/03/2015Atelier : Impact des *‐data sur les systèmes d’information

2

Page 3: Simuler les données manquantes issues de …tru ct, 1 V NumData,1 V s tru ct2 V NumData2 V Str uct 3 V NumData,2 V s tru ct6 V NumData,4 V st ruc t5 V NumData,5 V Str uct 3 V s tru

Accroissement Diversité & Richesse

24/03/2015Atelier : Impact des *‐data sur les systèmes d’information

3 Impact des Open Data sur les SI

http://wwwdb.inf.tu-dresden.de/opendatasurvey/

Page 4: Simuler les données manquantes issues de …tru ct, 1 V NumData,1 V s tru ct2 V NumData2 V Str uct 3 V NumData,2 V s tru ct6 V NumData,4 V st ruc t5 V NumData,5 V Str uct 3 V s tru

24/03/2015Atelier : Impact des *‐data sur les systèmes d’information

Impact des Open Data sur les SI4

Quelques témoignages sur les principaux bénéfices attendus de la réutilisation des

Open Data

Page 5: Simuler les données manquantes issues de …tru ct, 1 V NumData,1 V s tru ct2 V NumData2 V Str uct 3 V NumData,2 V s tru ct6 V NumData,4 V st ruc t5 V NumData,5 V Str uct 3 V s tru

24/03/2015Atelier : Impact des *‐data sur les systèmes d’information

5 Impact des Open Data sur les SI

Intégrer les Open Data dans les entrepôts de données ?

* Il faut les chercher dispersés sur plusieurs fournisseurs

* Il faut les nettoyer et aligner hétérogénéité sémantique et structurelle

* Il faut les compléter et corriger données manquantes

et erronées

MAIS ….

Page 6: Simuler les données manquantes issues de …tru ct, 1 V NumData,1 V s tru ct2 V NumData2 V Str uct 3 V NumData,2 V s tru ct6 V NumData,4 V st ruc t5 V NumData,5 V Str uct 3 V s tru

Processus d’entreposage des Open Data 6

OD1

OD2

ODN

.

.

.

(1) Processus ETL

dirigé par le contenu (2) Intégration

holistique

VNumData,3

Vs

truct,1

VNumData,1

Vs

truct2

VNumData2

VStruct3

VNumData,2

Vs

truct6

VNumData,4

Vst

ruct5

VNumData,5

VStruct3

Vs

truct4

Vstruct1

Vstruct7

Vstruct2

VNumData,1

VNumData,3

VNumData,n

VNumData,1

Vs

truct1

VNumData,4

Vst

ruct2

VNumData,5

VStruct3

VNumData,3VNumData,2

.

.

.

VNumData,1

Vstr

uct,12

VNumData,3

Vst

ruct10

VNumData5

VSt

ruct11

VNumData,4

Vs

truct9

VNumData,6

Vst

ruct8

VNumData,7

VS

truct5

Vst

ruct7

Vs

truct1

Vst

ruct13

Vs

truct6

VNumData,2

VNumData,3

VNumData,n

VNumData,11

Vs

truct2

VNumData,12

Vst

ruct3

VNumData,9

VS

truct4

VNumData,8

VNumData,10

F1m1

Dim1

Dim3

Dim2

S = (F, D, Star)

(3) Définition incrémentale et

semi-automatique du schéma

multidimensionnel

Dim1

Dim2

Dim1

F1m1

F1m1

F1m1

Dim1

Dim3Dim2

:

Mp = {male1901, 2 =

male1,3 = male84,4 =

male72,5 ; 1>

Mq =

{provisionalLicence1903, 2

= provisionalLicence1, 3

= prov2, 5 ; 1>

Mr = {fullLicence1904, 2 =

fullLicence2, 3 = full1, 5 ;

1>

:

Ms = {age5,3 =

agetAtRefresh34,4 ; 1}

Mt = {gender45,4 = sex72,5

; 1}(4) Génération

de l’entrepôt de

données

Script.sql

Entrepôt

de

données

Matchings

Données

manquantes

Page 7: Simuler les données manquantes issues de …tru ct, 1 V NumData,1 V s tru ct2 V NumData2 V Str uct 3 V NumData,2 V s tru ct6 V NumData,4 V st ruc t5 V NumData,5 V Str uct 3 V s tru

Données manquantes dans les Open Data

…issues de la qualité ….issues de l’intégration/alignement

24/03/2015Atelier : Impact des *‐data sur les systèmes d’information

7

17,5 %

21,1 %

Département

Mensuel

Annuel

Page 8: Simuler les données manquantes issues de …tru ct, 1 V NumData,1 V s tru ct2 V NumData2 V Str uct 3 V NumData,2 V s tru ct6 V NumData,4 V st ruc t5 V NumData,5 V Str uct 3 V s tru

Donner une vision complète des données

Construire et croiser le plus de sources possibles pour avoir des scénarios d’analyses

riches

Gagner le temps

Biaiser les données

Informer les utilisateurs que les données sont simulées 24/03/2015Atelier : Impact des *‐data sur les systèmes d’information

8 Simuler les données … une bonne alternative ?