Upload
benjamin-bird
View
18
Download
3
Embed Size (px)
DESCRIPTION
Médiation de données : solutions et problèmes ouverts. Genoveva Vargas Solar Equipe Bases de Données NODS CNRS, LSR-IMAG, Grenoble [email protected] Anne Doucet Equipe Bases de Données Laboratoire LIP6, Paris VI [email protected]. Vers la conquête de l’information. - PowerPoint PPT Presentation
Citation preview
Médiation de données : Médiation de données : solutions et problèmes ouvertssolutions et problèmes ouverts
Genoveva Vargas Solar Genoveva Vargas Solar Equipe Bases de Données NODSEquipe Bases de Données NODSCNRS, LSR-IMAG, GrenobleCNRS, LSR-IMAG, [email protected]@imag.fr
Anne DoucetAnne DoucetEquipe Bases de DonnéesEquipe Bases de DonnéesLaboratoire LIP6, Paris VILaboratoire LIP6, Paris [email protected]@lip6.fr
22G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
Vers la conquête de l’informationVers la conquête de l’information
33G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
Médiation de sourcesMédiation de sources
Accès transparent aux données, i.e., illusion d’un système unique et Accès transparent aux données, i.e., illusion d’un système unique et homogènehomogène dictionnaire de données réparti, requêtes réparties et transactions, communication de dictionnaire de données réparti, requêtes réparties et transactions, communication de
données, cohérence, sécuritédonnées, cohérence, sécurité
Infrastructuresde médiation
44G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
PlanPlan
Médiation de donnéesMédiation de données
Systèmes de bases de données hétérogènes et Systèmes de bases de données hétérogènes et
répartiesréparties Distribution, hétérogénéité, autonomie et interopérabilitéDistribution, hétérogénéité, autonomie et interopérabilité
Taxonomies de systèmesTaxonomies de systèmes
Intégration de donnéesIntégration de données
Gestion globale de donnéesGestion globale de données
Recherche actuelle et perspectivesRecherche actuelle et perspectives
55G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
Systèmes de bases de données Systèmes de bases de données hétérogènes et répartieshétérogènes et réparties
AdaptateurAdaptateur Adaptateur
ObjectsRelationsDonnées
non structurées
Médiateur
Applications
Niv
eau
glob
alN
ivea
u lo
cal
66G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
CaractéristiquesCaractéristiques
Distribution de donnéesDistribution de données stockées sur des dispositifs locaux ou répartis stockées sur des dispositifs locaux ou répartis
géographiquementgéographiquement réparties au sens relationnel réparties au sens relationnel dupliquées sans répliques structurées de manière dupliquées sans répliques structurées de manière
homogènehomogène disponibilité et amélioration de temps d’accèsdisponibilité et amélioration de temps d’accès
HétérogénéitéHétérogénéitéAutonomieAutonomieInteropérabilitéInteropérabilité
Distribution
Hétérogénéité
Autonomie
Interopérabilité
77G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
CaractéristiquesCaractéristiques
Distribution de donnéesDistribution de donnéesHétérogénéitéHétérogénéité Système homogène : Système homogène :
même logiciel qui gère les données sur tous les sites ; même logiciel qui gère les données sur tous les sites ; même modèle de donnéesmême modèle de donnéesmême univers de discoursmême univers de discours
Système hétérogèneSystème hétérogènen’adhère pas à toutes les caractéristiques d’un système n’adhère pas à toutes les caractéristiques d’un système homogènehomogènedifférents langages de programmation et d’interrogation, des différents langages de programmation et d’interrogation, des modèles, des SGBDmodèles, des SGBD
AutonomieAutonomieInteropérabilitéInteropérabilité
88G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
CaractéristiquesCaractéristiques
Distribution de donnéesDistribution de donnéesHétérogénéitéHétérogénéité Système homogène : Système homogène :
même logiciel qui gère les données sur tous les sites ; même logiciel qui gère les données sur tous les sites ; même modèle de donnéesmême modèle de donnéesmême univers de discoursmême univers de discours
Système hétérogèneSystème hétérogènen’adhère pas à toutes les caractéristiques d’un système n’adhère pas à toutes les caractéristiques d’un système homogènehomogènedifférents langages de programmation et d’interrogation, des différents langages de programmation et d’interrogation, des modèles, des SGBDmodèles, des SGBD
AutonomieAutonomieInteropérabilitéInteropérabilité
99G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
CaractéristiquesCaractéristiques
Distribution de donnéesDistribution de donnéesHétérogénéitéHétérogénéitéAutonomieAutonomie
Conception : sources locales avec desConception : sources locales avec desmodèles de données propres,modèles de données propres,langage d’interrogationlangage d’interrogationInterprétation sémantique des données, contraintes, fonctions …Interprétation sémantique des données, contraintes, fonctions …
Communication : les sources de données locales décident quand et Communication : les sources de données locales décident quand et comment répondre aux questions d’autres sourcescomment répondre aux questions d’autres sources
Exécution : pas d’information provenant des sources locales sur Exécution : pas d’information provenant des sources locales sur l’ordre d’exécution des transactions locales ou des opérations externesl’ordre d’exécution des transactions locales ou des opérations externes pas de distinction entre les opérations locales et globalespas de distinction entre les opérations locales et globales
Association : Association : connexion et déconnexion des sourcesconnexion et déconnexion des sources partage de données et des fonctionspartage de données et des fonctions
InteropérabilitéInteropérabilité
1010G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
CaractéristiquesCaractéristiques
Distribution de donnéesDistribution de donnéesHétérogénéitéHétérogénéitéAutonomieAutonomieInteropérabilitéInteropérabilité Deux systèmes sont interopérables :Deux systèmes sont interopérables :
échange de messages et de requêteséchange de messages et de requêtes fonctionnement comme une unité pour une tâche communefonctionnement comme une unité pour une tâche commune
Utilisation de fonctions des uns et des autresUtilisation de fonctions des uns et des autres Fonctionnement comme des clients et des serveursFonctionnement comme des clients et des serveurs Communiquent même avec des composants internes Communiquent même avec des composants internes
incompatiblesincompatibles
1111G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
PlanPlan
Médiation de donnéesMédiation de données
Systèmes de bases de données hétérogènes et Systèmes de bases de données hétérogènes et
répartiesréparties Distribution, hétérogénéité, autonomie et interopérabilitéDistribution, hétérogénéité, autonomie et interopérabilité
Taxonomies de systèmesTaxonomies de systèmes
Intégration de donnéesIntégration de données
Gestion globale de donnéesGestion globale de données
Recherche actuelle et perspectivesRecherche actuelle et perspectives
1212G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
ArchitectureArchitecture
Autonomy
Heterogeneity
Distribution
DistributedFederatedDBMS
DistributedMulti-DBMS
heterogeneousMulti-DBMS Distributed
heterogeneousMulti-DBMS
Multi-DBMS
DistributedheterogeneousFederated DBMS
DistributedheterogeneousDBMS
HeterogeneousFederated DBMSIn the same node
Heterogeneousintegrated DBMS
DistributedhomogeneousDBMS
Logically integratedHeterogeneousMulti-DBMS
no
yes
totalpartial
yes
1313G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
Universal DBMS Data warehouseStronglyIntegrated system
Informationresearch system
Looselyintegrated system
Query systems forheterogeneoussources
Virtualintegrated systems
MaterializedSystems
Du point de vue localisation de Du point de vue localisation de données …données …
Federated Databases Mediated Query Systems Meta-search engine
Move the data Leave the data where they are
Structurednativedata
Native & derivedstructured data
Unstructurednativedata
Mostly structureddata
StructuredSemi-structuredunstructurednative data
1414G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
Du point de vue niveau intégrationDu point de vue niveau intégration
Bases de données répartiesBases de données réparties
Fédérations de bases de donnéesFédérations de bases de données
Multi bases de données avec schéma globalMulti bases de données avec schéma global
Bases de données inter opérables …Bases de données inter opérables …
faible fort
1515G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
Schéma globalSchéma global
house
addresse contact
agent name agent telephone
bathrooms
house
location contact
name telephone
full baths half baths
1616G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
PlanPlan
Médiation de donnéesMédiation de données
Systèmes de bases de données hétérogènes et Systèmes de bases de données hétérogènes et
répartiesréparties
Intégration de donnéesIntégration de données HétérogénéitéHétérogénéité
Intégration logiqueIntégration logique
Gestion globale de donnéesGestion globale de données
Recherche actuelle et perspectivesRecherche actuelle et perspectives
1717G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
HétérogénéitéHétérogénéité
SémantiqueSémantique Signification, interprétation ou utilisation différente de Signification, interprétation ou utilisation différente de
la même donnéela même donnée Types de relations sémantiques Types de relations sémantiques
RR11 identique R identique R2 2 : même constructeur, même concept: même constructeur, même concept
RR11 équivalente R équivalente R2 2 :: constructeurs différents, même conceptconstructeurs différents, même concept
RR11 compatible R compatible R2 2 :: ni identiques, ni équivalentsni identiques, ni équivalents
RR11 incompatible R incompatible R2 2 :: contradictoirescontradictoires
StructurelleStructurelle
1818G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
HétérogénéitéHétérogénéité
SémantiqueSémantique
StructurelleStructurelle Représentation différente des mêmes Représentation différente des mêmes
concepts dans des bases différentesconcepts dans des bases différentes Conflits de noms, types de données, attributs, Conflits de noms, types de données, attributs,
unitésunités
Modèle de données expressifModèle de données expressif
1919G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
IntégrationIntégration
Processus semi automatisable permettant d’intégrer des données Processus semi automatisable permettant d’intégrer des données structurellement et sémantiquement hétérogènesstructurellement et sémantiquement hétérogènes
Pré intégrationPré intégrationAnalyse des schémasAnalyse des schémasOrdre d’intégrationOrdre d’intégrationIdentification de conflitsIdentification de conflitsDéfinition de contraintes globalesDéfinition de contraintes globales
ComparaisonComparaisonIdentification de relations entre attributsIdentification de relations entre attributsHomonymes, synonymes, types de données, dépendancesHomonymes, synonymes, types de données, dépendancesPropriétés inter schémas (dépendances d’inclusion, exclusion, Propriétés inter schémas (dépendances d’inclusion, exclusion, union)union)
Mise en conformité : résolution de conflitsMise en conformité : résolution de conflits Regroupement et restructuration : mise en forme d’objets dans Regroupement et restructuration : mise en forme d’objets dans
la vue intégréela vue intégrée
2020G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
PlanPlan
Médiation de donnéesMédiation de données
Systèmes de bases de données hétérogènes et Systèmes de bases de données hétérogènes et
répartiesréparties
Intégration de donnéesIntégration de données HétérogénéitéHétérogénéité
Intégration logiqueIntégration logique
Gestion globale de donnéesGestion globale de données
Recherche actuelle et perspectivesRecherche actuelle et perspectives
2121G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
Représentation des aspects Représentation des aspects sémantiquessémantiques
Logique de descriptionLogique de description
Méta attributs et valeurs Méta attributs et valeurs représentation d’un représentation d’un
contextecontexte
Dictionnaires de données Dictionnaires de données vocabulaire utilisé vocabulaire utilisé
dans las bases de donnéesdans las bases de données
Ontologies décrivant des domaines de discours Ontologies décrivant des domaines de discours
(concepts, relations, valeurs)(concepts, relations, valeurs)
2222G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
Local as View vs. Global as ViewLocal as View vs. Global as View
Local as view Global as view
Schéma globalSchéma global
A
Schéma globalSchéma global
A
LAV GAVLa source 1 contient la donnée A
La donnée Aprovient de la source 1
Schéma global :vue à partir des schémas locaux
Schémas locaux exportés : vues du schéma global pré défini
2323G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
GaV vs. LaVGaV vs. LaV
Les systèmes GaV (ex. TSIMMIS, SIMS, Garlic)Les systèmes GaV (ex. TSIMMIS, SIMS, Garlic) La qualité du système dépend de comment les sources sont La qualité du système dépend de comment les sources sont
intégrées pour construire le schéma global intégrées pour construire le schéma global Lorsqu'une source change ou une nouvelle source est ajoutée et Lorsqu'une source change ou une nouvelle source est ajoutée et
doit participer au système, le schéma global doit être mis à jour doit participer au système, le schéma global doit être mis à jour La phase de réécriture est plus simpleLa phase de réécriture est plus simple
Les systèmes LaV (ex. Information Manifold)Les systèmes LaV (ex. Information Manifold) La qualité du système dépend de comment les sources sont La qualité du système dépend de comment les sources sont
caractérisées caractérisées Si le schéma global est bien spécifié Si le schéma global est bien spécifié à priorià priori, la modification ou , la modification ou
l ’ajout d ’une source n'en entraîne pas sa modificationl ’ajout d ’une source n'en entraîne pas sa modification La réécriture est plus complexeLa réécriture est plus complexe
2424G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
PlanPlan
Médiation de donnéesMédiation de données
Systèmes de bases de données hétérogènes et Systèmes de bases de données hétérogènes et
répartiesréparties
Intégration de donnéesIntégration de données
Gestion globale de donnéesGestion globale de données InterrogationInterrogation
Traitement de transactionsTraitement de transactions
Recherche actuelle et perspectivesRecherche actuelle et perspectives
2525G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
Traitement de requêtesTraitement de requêtes
Analyse syntaxique et Analyse syntaxique et sémantique sémantique
Transformation de la Transformation de la requête globale en sous requête globale en sous requêtes localesrequêtes locales
Génération du plan Génération du plan optimiséoptimisé
Récupération des Récupération des résultats intermédiaires et résultats intermédiaires et construction du résultat construction du résultat finalfinal
Parser
Réécriture
Optimisation
Exécution
requête locale requête locale
2626G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
Traitement de requêtesTraitement de requêtes
Réécriture : dépend du type de correspondance Réécriture : dépend du type de correspondance médiateur – sourcesmédiateur – sourcesOptimisation et exécutionOptimisation et exécution
Sources d’information distribuées et autonomesSources d’information distribuées et autonomesIndisponibilité des statistiquesIndisponibilité des statistiquesAccessibilitéAccessibilitéCommunication « variée »Communication « variée »
Optimisation et exécution dynamique de requêtes Optimisation et exécution dynamique de requêtes UtilisateursUtilisateurs
Besoins différents sur les traitement de requêtesBesoins différents sur les traitement de requêtesDifficultés d’expressionDifficultés d’expressionConnaissances sur les sourcesConnaissances sur les sources
Spécification des contraintes d’évaluation, négociation dans le Spécification des contraintes d’évaluation, négociation dans le traitement pour raffiner les requêtestraitement pour raffiner les requêtes
2727G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
PlanPlan
Médiation de donnéesMédiation de données
Systèmes de bases de données hétérogènes et Systèmes de bases de données hétérogènes et
répartiesréparties
Intégration de donnéesIntégration de données
Gestion globale de donnéesGestion globale de données InterrogationInterrogation
Traitement de transactionsTraitement de transactions
Recherche actuelle et perspectivesRecherche actuelle et perspectives
2828G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
Traitement de transactionsTraitement de transactions
Mises à jour dans des systèmes multibasesMises à jour dans des systèmes multibases Synchronisation de transactions localesSynchronisation de transactions locales Hétérogénéité et autonomie de communicationHétérogénéité et autonomie de communication Autonomie localeAutonomie locale Transactions longuesTransactions longues
Sérialisabilité [MRB92]Sérialisabilité [MRB92]Critères de cohérence Critères de cohérence relâchement de la sérialisabilité relâchement de la sérialisabilité
Quasi sérialisabilité [DE89] Quasi sérialisabilité [DE89] Sérialisabilité à deux niveaux [MRKS91] Sérialisabilité à deux niveaux [MRKS91]
Gestion de transactions Gestion de transactions Longues : mise en cause des techniques de verrouillage et Longues : mise en cause des techniques de verrouillage et
synchronisationsynchronisation Non classiques : imbriquées [Mos85], SAGAS [GMS87], compensation Non classiques : imbriquées [Mos85], SAGAS [GMS87], compensation
[Elm92], …[Elm92], …
2929G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
PlanPlan
Médiation de donnéesMédiation de données
Systèmes de bases de données hétérogènes et Systèmes de bases de données hétérogènes et
répartiesréparties
Intégration de donnéesIntégration de données
Gestion globale de donnéesGestion globale de données
Recherche actuelle et perspectivesRecherche actuelle et perspectives
3030G. Vargas Solar, A. Doucet : Assises GDR I3G. Vargas Solar, A. Doucet : Assises GDR I3
Recherche actuelle perspectivesRecherche actuelle perspectives
Accès aux gisements de données Accès aux gisements de données Passage à l’échellePassage à l’échelle DisponibilitéDisponibilité Adaptabilité aux besoins applicatifsAdaptabilité aux besoins applicatifs
Intégration de donnéesIntégration de données Sémantique Sémantique SchémasSchémas Méta donnéesMéta données
Systèmes de médiation de données, langages, interrogation, optimisation, Systèmes de médiation de données, langages, interrogation, optimisation, cohérence, sécurité, intégration physique et logique, interopérabilité, cohérence, sécurité, intégration physique et logique, interopérabilité, fédérations de sources, indexation, …fédérations de sources, indexation, …
RDV… journée de travail GT 1.3 ! RDV… journée de travail GT 1.3 !