31
Médiation de données : Médiation de données : solutions et problèmes solutions et problèmes ouverts ouverts Genoveva Vargas Solar Genoveva Vargas Solar Equipe Bases de Données NODS Equipe Bases de Données NODS CNRS, LSR-IMAG, Grenoble CNRS, LSR-IMAG, Grenoble [email protected] [email protected] Anne Doucet Anne Doucet Equipe Bases de Données Equipe Bases de Données Laboratoire LIP6, Paris VI Laboratoire LIP6, Paris VI [email protected] [email protected]

Médiation de données : solutions et problèmes ouverts

Embed Size (px)

DESCRIPTION

Médiation de données : solutions et problèmes ouverts. Genoveva Vargas Solar Equipe Bases de Données NODS CNRS, LSR-IMAG, Grenoble [email protected] Anne Doucet Equipe Bases de Données Laboratoire LIP6, Paris VI [email protected]. Vers la conquête de l’information. - PowerPoint PPT Presentation

Citation preview

Médiation de données : Médiation de données : solutions et problèmes ouvertssolutions et problèmes ouverts

Genoveva Vargas Solar Genoveva Vargas Solar Equipe Bases de Données NODSEquipe Bases de Données NODSCNRS, LSR-IMAG, GrenobleCNRS, LSR-IMAG, [email protected]@imag.fr

Anne DoucetAnne DoucetEquipe Bases de DonnéesEquipe Bases de DonnéesLaboratoire LIP6, Paris VILaboratoire LIP6, Paris [email protected]@lip6.fr

22G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

Vers la conquête de l’informationVers la conquête de l’information

33G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

Médiation de sourcesMédiation de sources

Accès transparent aux données, i.e., illusion d’un système unique et Accès transparent aux données, i.e., illusion d’un système unique et homogènehomogène dictionnaire de données réparti, requêtes réparties et transactions, communication de dictionnaire de données réparti, requêtes réparties et transactions, communication de

données, cohérence, sécuritédonnées, cohérence, sécurité

Infrastructuresde médiation

44G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

PlanPlan

Médiation de donnéesMédiation de données

Systèmes de bases de données hétérogènes et Systèmes de bases de données hétérogènes et

répartiesréparties Distribution, hétérogénéité, autonomie et interopérabilitéDistribution, hétérogénéité, autonomie et interopérabilité

Taxonomies de systèmesTaxonomies de systèmes

Intégration de donnéesIntégration de données

Gestion globale de donnéesGestion globale de données

Recherche actuelle et perspectivesRecherche actuelle et perspectives

55G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

Systèmes de bases de données Systèmes de bases de données hétérogènes et répartieshétérogènes et réparties

AdaptateurAdaptateur Adaptateur

ObjectsRelationsDonnées

non structurées

Médiateur

Applications

Niv

eau

glob

alN

ivea

u lo

cal

66G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

CaractéristiquesCaractéristiques

Distribution de donnéesDistribution de données stockées sur des dispositifs locaux ou répartis stockées sur des dispositifs locaux ou répartis

géographiquementgéographiquement réparties au sens relationnel réparties au sens relationnel dupliquées sans répliques structurées de manière dupliquées sans répliques structurées de manière

homogènehomogène disponibilité et amélioration de temps d’accèsdisponibilité et amélioration de temps d’accès

HétérogénéitéHétérogénéitéAutonomieAutonomieInteropérabilitéInteropérabilité

Distribution

Hétérogénéité

Autonomie

Interopérabilité

77G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

CaractéristiquesCaractéristiques

Distribution de donnéesDistribution de donnéesHétérogénéitéHétérogénéité Système homogène : Système homogène :

même logiciel qui gère les données sur tous les sites ; même logiciel qui gère les données sur tous les sites ; même modèle de donnéesmême modèle de donnéesmême univers de discoursmême univers de discours

Système hétérogèneSystème hétérogènen’adhère pas à toutes les caractéristiques d’un système n’adhère pas à toutes les caractéristiques d’un système homogènehomogènedifférents langages de programmation et d’interrogation, des différents langages de programmation et d’interrogation, des modèles, des SGBDmodèles, des SGBD

AutonomieAutonomieInteropérabilitéInteropérabilité

88G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

CaractéristiquesCaractéristiques

Distribution de donnéesDistribution de donnéesHétérogénéitéHétérogénéité Système homogène : Système homogène :

même logiciel qui gère les données sur tous les sites ; même logiciel qui gère les données sur tous les sites ; même modèle de donnéesmême modèle de donnéesmême univers de discoursmême univers de discours

Système hétérogèneSystème hétérogènen’adhère pas à toutes les caractéristiques d’un système n’adhère pas à toutes les caractéristiques d’un système homogènehomogènedifférents langages de programmation et d’interrogation, des différents langages de programmation et d’interrogation, des modèles, des SGBDmodèles, des SGBD

AutonomieAutonomieInteropérabilitéInteropérabilité

99G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

CaractéristiquesCaractéristiques

Distribution de donnéesDistribution de donnéesHétérogénéitéHétérogénéitéAutonomieAutonomie

Conception : sources locales avec desConception : sources locales avec desmodèles de données propres,modèles de données propres,langage d’interrogationlangage d’interrogationInterprétation sémantique des données, contraintes, fonctions …Interprétation sémantique des données, contraintes, fonctions …

Communication : les sources de données locales décident quand et Communication : les sources de données locales décident quand et comment répondre aux questions d’autres sourcescomment répondre aux questions d’autres sources

Exécution : pas d’information provenant des sources locales sur Exécution : pas d’information provenant des sources locales sur l’ordre d’exécution des transactions locales ou des opérations externesl’ordre d’exécution des transactions locales ou des opérations externes pas de distinction entre les opérations locales et globalespas de distinction entre les opérations locales et globales

Association : Association : connexion et déconnexion des sourcesconnexion et déconnexion des sources partage de données et des fonctionspartage de données et des fonctions

InteropérabilitéInteropérabilité

1010G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

CaractéristiquesCaractéristiques

Distribution de donnéesDistribution de donnéesHétérogénéitéHétérogénéitéAutonomieAutonomieInteropérabilitéInteropérabilité Deux systèmes sont interopérables :Deux systèmes sont interopérables :

échange de messages et de requêteséchange de messages et de requêtes fonctionnement comme une unité pour une tâche communefonctionnement comme une unité pour une tâche commune

Utilisation de fonctions des uns et des autresUtilisation de fonctions des uns et des autres Fonctionnement comme des clients et des serveursFonctionnement comme des clients et des serveurs Communiquent même avec des composants internes Communiquent même avec des composants internes

incompatiblesincompatibles

1111G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

PlanPlan

Médiation de donnéesMédiation de données

Systèmes de bases de données hétérogènes et Systèmes de bases de données hétérogènes et

répartiesréparties Distribution, hétérogénéité, autonomie et interopérabilitéDistribution, hétérogénéité, autonomie et interopérabilité

Taxonomies de systèmesTaxonomies de systèmes

Intégration de donnéesIntégration de données

Gestion globale de donnéesGestion globale de données

Recherche actuelle et perspectivesRecherche actuelle et perspectives

1212G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

ArchitectureArchitecture

Autonomy

Heterogeneity

Distribution

DistributedFederatedDBMS

DistributedMulti-DBMS

heterogeneousMulti-DBMS Distributed

heterogeneousMulti-DBMS

Multi-DBMS

DistributedheterogeneousFederated DBMS

DistributedheterogeneousDBMS

HeterogeneousFederated DBMSIn the same node

Heterogeneousintegrated DBMS

DistributedhomogeneousDBMS

Logically integratedHeterogeneousMulti-DBMS

no

yes

totalpartial

yes

1313G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

Universal DBMS Data warehouseStronglyIntegrated system

Informationresearch system

Looselyintegrated system

Query systems forheterogeneoussources

Virtualintegrated systems

MaterializedSystems

Du point de vue localisation de Du point de vue localisation de données …données …

Federated Databases Mediated Query Systems Meta-search engine

Move the data Leave the data where they are

Structurednativedata

Native & derivedstructured data

Unstructurednativedata

Mostly structureddata

StructuredSemi-structuredunstructurednative data

1414G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

Du point de vue niveau intégrationDu point de vue niveau intégration

Bases de données répartiesBases de données réparties

Fédérations de bases de donnéesFédérations de bases de données

Multi bases de données avec schéma globalMulti bases de données avec schéma global

Bases de données inter opérables …Bases de données inter opérables …

faible fort

1515G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

Schéma globalSchéma global

house

addresse contact

agent name agent telephone

bathrooms

house

location contact

name telephone

full baths half baths

1616G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

PlanPlan

Médiation de donnéesMédiation de données

Systèmes de bases de données hétérogènes et Systèmes de bases de données hétérogènes et

répartiesréparties

Intégration de donnéesIntégration de données HétérogénéitéHétérogénéité

Intégration logiqueIntégration logique

Gestion globale de donnéesGestion globale de données

Recherche actuelle et perspectivesRecherche actuelle et perspectives

1717G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

HétérogénéitéHétérogénéité

SémantiqueSémantique Signification, interprétation ou utilisation différente de Signification, interprétation ou utilisation différente de

la même donnéela même donnée Types de relations sémantiques Types de relations sémantiques

RR11 identique R identique R2 2 : même constructeur, même concept: même constructeur, même concept

RR11 équivalente R équivalente R2 2 :: constructeurs différents, même conceptconstructeurs différents, même concept

RR11 compatible R compatible R2 2 :: ni identiques, ni équivalentsni identiques, ni équivalents

RR11 incompatible R incompatible R2 2 :: contradictoirescontradictoires

StructurelleStructurelle

1818G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

HétérogénéitéHétérogénéité

SémantiqueSémantique

StructurelleStructurelle Représentation différente des mêmes Représentation différente des mêmes

concepts dans des bases différentesconcepts dans des bases différentes Conflits de noms, types de données, attributs, Conflits de noms, types de données, attributs,

unitésunités

Modèle de données expressifModèle de données expressif

1919G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

IntégrationIntégration

Processus semi automatisable permettant d’intégrer des données Processus semi automatisable permettant d’intégrer des données structurellement et sémantiquement hétérogènesstructurellement et sémantiquement hétérogènes

Pré intégrationPré intégrationAnalyse des schémasAnalyse des schémasOrdre d’intégrationOrdre d’intégrationIdentification de conflitsIdentification de conflitsDéfinition de contraintes globalesDéfinition de contraintes globales

ComparaisonComparaisonIdentification de relations entre attributsIdentification de relations entre attributsHomonymes, synonymes, types de données, dépendancesHomonymes, synonymes, types de données, dépendancesPropriétés inter schémas (dépendances d’inclusion, exclusion, Propriétés inter schémas (dépendances d’inclusion, exclusion, union)union)

Mise en conformité : résolution de conflitsMise en conformité : résolution de conflits Regroupement et restructuration : mise en forme d’objets dans Regroupement et restructuration : mise en forme d’objets dans

la vue intégréela vue intégrée

2020G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

PlanPlan

Médiation de donnéesMédiation de données

Systèmes de bases de données hétérogènes et Systèmes de bases de données hétérogènes et

répartiesréparties

Intégration de donnéesIntégration de données HétérogénéitéHétérogénéité

Intégration logiqueIntégration logique

Gestion globale de donnéesGestion globale de données

Recherche actuelle et perspectivesRecherche actuelle et perspectives

2121G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

Représentation des aspects Représentation des aspects sémantiquessémantiques

Logique de descriptionLogique de description

Méta attributs et valeurs Méta attributs et valeurs représentation d’un représentation d’un

contextecontexte

Dictionnaires de données Dictionnaires de données vocabulaire utilisé vocabulaire utilisé

dans las bases de donnéesdans las bases de données

Ontologies décrivant des domaines de discours Ontologies décrivant des domaines de discours

(concepts, relations, valeurs)(concepts, relations, valeurs)

2222G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

Local as View vs. Global as ViewLocal as View vs. Global as View

Local as view Global as view

Schéma globalSchéma global

A

Schéma globalSchéma global

A

LAV GAVLa source 1 contient la donnée A

La donnée Aprovient de la source 1

Schéma global :vue à partir des schémas locaux

Schémas locaux exportés : vues du schéma global pré défini

2323G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

GaV vs. LaVGaV vs. LaV

Les systèmes GaV (ex. TSIMMIS, SIMS, Garlic)Les systèmes GaV (ex. TSIMMIS, SIMS, Garlic) La qualité du système dépend de comment les sources sont La qualité du système dépend de comment les sources sont

intégrées pour construire le schéma global intégrées pour construire le schéma global Lorsqu'une source change ou une nouvelle source est ajoutée et Lorsqu'une source change ou une nouvelle source est ajoutée et

doit participer au système, le schéma global doit être mis à jour doit participer au système, le schéma global doit être mis à jour La phase de réécriture est plus simpleLa phase de réécriture est plus simple

Les systèmes LaV (ex. Information Manifold)Les systèmes LaV (ex. Information Manifold) La qualité du système dépend de comment les sources sont La qualité du système dépend de comment les sources sont

caractérisées caractérisées Si le schéma global est bien spécifié Si le schéma global est bien spécifié à priorià priori, la modification ou , la modification ou

l ’ajout d ’une source n'en entraîne pas sa modificationl ’ajout d ’une source n'en entraîne pas sa modification La réécriture est plus complexeLa réécriture est plus complexe

2424G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

PlanPlan

Médiation de donnéesMédiation de données

Systèmes de bases de données hétérogènes et Systèmes de bases de données hétérogènes et

répartiesréparties

Intégration de donnéesIntégration de données

Gestion globale de donnéesGestion globale de données InterrogationInterrogation

Traitement de transactionsTraitement de transactions

Recherche actuelle et perspectivesRecherche actuelle et perspectives

2525G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

Traitement de requêtesTraitement de requêtes

Analyse syntaxique et Analyse syntaxique et sémantique sémantique

Transformation de la Transformation de la requête globale en sous requête globale en sous requêtes localesrequêtes locales

Génération du plan Génération du plan optimiséoptimisé

Récupération des Récupération des résultats intermédiaires et résultats intermédiaires et construction du résultat construction du résultat finalfinal

Parser

Réécriture

Optimisation

Exécution

requête locale requête locale

2626G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

Traitement de requêtesTraitement de requêtes

Réécriture : dépend du type de correspondance Réécriture : dépend du type de correspondance médiateur – sourcesmédiateur – sourcesOptimisation et exécutionOptimisation et exécution

Sources d’information distribuées et autonomesSources d’information distribuées et autonomesIndisponibilité des statistiquesIndisponibilité des statistiquesAccessibilitéAccessibilitéCommunication « variée »Communication « variée »

Optimisation et exécution dynamique de requêtes Optimisation et exécution dynamique de requêtes UtilisateursUtilisateurs

Besoins différents sur les traitement de requêtesBesoins différents sur les traitement de requêtesDifficultés d’expressionDifficultés d’expressionConnaissances sur les sourcesConnaissances sur les sources

Spécification des contraintes d’évaluation, négociation dans le Spécification des contraintes d’évaluation, négociation dans le traitement pour raffiner les requêtestraitement pour raffiner les requêtes

2727G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

PlanPlan

Médiation de donnéesMédiation de données

Systèmes de bases de données hétérogènes et Systèmes de bases de données hétérogènes et

répartiesréparties

Intégration de donnéesIntégration de données

Gestion globale de donnéesGestion globale de données InterrogationInterrogation

Traitement de transactionsTraitement de transactions

Recherche actuelle et perspectivesRecherche actuelle et perspectives

2828G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

Traitement de transactionsTraitement de transactions

Mises à jour dans des systèmes multibasesMises à jour dans des systèmes multibases Synchronisation de transactions localesSynchronisation de transactions locales Hétérogénéité et autonomie de communicationHétérogénéité et autonomie de communication Autonomie localeAutonomie locale Transactions longuesTransactions longues

Sérialisabilité [MRB92]Sérialisabilité [MRB92]Critères de cohérence Critères de cohérence relâchement de la sérialisabilité relâchement de la sérialisabilité

Quasi sérialisabilité [DE89] Quasi sérialisabilité [DE89] Sérialisabilité à deux niveaux [MRKS91] Sérialisabilité à deux niveaux [MRKS91]

Gestion de transactions Gestion de transactions Longues : mise en cause des techniques de verrouillage et Longues : mise en cause des techniques de verrouillage et

synchronisationsynchronisation Non classiques : imbriquées [Mos85], SAGAS [GMS87], compensation Non classiques : imbriquées [Mos85], SAGAS [GMS87], compensation

[Elm92], …[Elm92], …

2929G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

PlanPlan

Médiation de donnéesMédiation de données

Systèmes de bases de données hétérogènes et Systèmes de bases de données hétérogènes et

répartiesréparties

Intégration de donnéesIntégration de données

Gestion globale de donnéesGestion globale de données

Recherche actuelle et perspectivesRecherche actuelle et perspectives

3030G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

Recherche actuelle perspectivesRecherche actuelle perspectives

Accès aux gisements de données Accès aux gisements de données Passage à l’échellePassage à l’échelle DisponibilitéDisponibilité Adaptabilité aux besoins applicatifsAdaptabilité aux besoins applicatifs

Intégration de donnéesIntégration de données Sémantique Sémantique SchémasSchémas Méta donnéesMéta données

Systèmes de médiation de données, langages, interrogation, optimisation, Systèmes de médiation de données, langages, interrogation, optimisation, cohérence, sécurité, intégration physique et logique, interopérabilité, cohérence, sécurité, intégration physique et logique, interopérabilité, fédérations de sources, indexation, …fédérations de sources, indexation, …

RDV… journée de travail GT 1.3 ! RDV… journée de travail GT 1.3 !

3131G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3

?Merci ...