Transcript

Etude de techniques d’intégration

de base de donnéespour le Web

Plan

• Représentation de données pour des requêtes de base de données sur le Web

• Modéliser et interroger le Web

• Intégration des données – Différentes interfaces utilisées– Construction de site Web

Représentation de données pour des requêtes de base de données

sur le Web.

• Modèle de données basé sur un graphe

• Modèle semi-structurés de données

• Autres modèles

Modèle en graphe

Page Web

Page Web Page Web

Page Web Page Web

Etiquette 1

Etiquette 2 Etiquette 3

Etiquette 4

Modèle semi-structuré

• La schéma représentant la structure d'un site n'est pas un schéma fixe que l'on connaît à l'avance.

• Caractéristiques des données :– le schéma n'est pas donné à l'avance et peut être

caché dans les données.– le schéma relativement grand (la taille des données

est importante) et peut changer fréquemment.– le schéma est descriptif, c'est à dire qu’il décrit l'état

actuel des données, et ne tient pas compte des variations possibles.

Graphe orienté étiqueté

Page Web

Page Web Page Web

Page Web Page Web

Etiquette 1

Etiquette 2 Etiquette 3

Etiquette 4

Autres modèles

• Construction spécifique des données

– Relation unaire pour identifier les pages

– Relation binaire pour les liens entre les pages.

• lien vers le même site (liens interne)• lien vers un autre site (lien externe)

Fonctionnalités supplémentaires

• Modeler des structures de données imbriquées.

• Prise en compte de contraintes (alignement, positionnement).

Modéliser et interroger le Web

• Quelques langages de requêtes

• Recherche documentaire

• Langages de Première génération

• Langages de deuxième génération

Quelques Langages de Requêtes

Système Modèle de données Langage Chemin Génération d'un graph

WebSQL relationnel SQL oui non

W3QS Multi-graphe étiqueté SQL oui non

WebLog relationnel Datalog non non

Lorel Graphe étiqueté OQL oui oui

WebOQL hyper-arbre OQL oui oui

UnQL Graphe étiqueté structural recursion oui oui

Stundel Graphe étiqueté Datalog oui oui

Araneus schéma de page SQL oui oui

Recherche documentaire

• Moteurs de recherche

- Recherche par mot ou groupe de mots

- Amélioration par intégration par l’exploitation de la structure des liens dans les requêtes.

Langages de Première Génération

• WebSQL

• W3QL

• WQL

WebSQL

• Navigation utilisée– d1 = > d2 – d1 - > d2,

• Exemple de requête :SELECT d.url,e.url,a.label FROM Document d SUCH THAT "www. adresse" ->* d, Document e SUCH THAT d => e, Anchor a SUCH THAT a.base = d.url WHERE a.href = e.url

Langages de Première Génération

• WebSQL

• W3QL

• WQL

Langages de deuxième génération

• WebOQL :

• StruQL

• Interface interractive de requêtes

WebOQL (1)

WebOQL (2)

• Exemple de requete :

select [ x.Url, x.Text ]

from x in browse("root.html")

via (^*[Text ~ "Next"]>)*

StruQLExemple de requête :

create RootPage() // Create a presentation for every publication x where Publications(x), xlv create PaperPresentation(x) link PaperPresentation(x) l v { // Create a page for every year

where l = "year" create YearPage(v) link

YearPage(v) "Year" -> v YearPage(v)"Paper"PaperPresentation(x), // Link root page to each year page RootPage() "YearPage" YearPage(v)

}

Interfaces interactives

• Ces langages ne sont pas facile à manipuler

• Création d’interface pour en facilité l’utilisation


Recommended