8
Groupe de discussion CETIC - 15/12/2005 1 De l'indexation plein texte à l'indexation sémantique Le projet RetroWeb Fabrice Estiévenart (CETIC)

Groupe de discussion CETIC - 15/12/2005 1 De l'indexation plein texte à l'indexation sémantique Le projet RetroWeb Fabrice Estiévenart (CETIC)

Embed Size (px)

Citation preview

Page 1: Groupe de discussion CETIC - 15/12/2005 1 De l'indexation plein texte à l'indexation sémantique Le projet RetroWeb Fabrice Estiévenart (CETIC)

Groupe de discussion CETIC - 15/12/2005 1

De l'indexation plein texte à l'indexation sémantique

Le projet RetroWeb

Fabrice Estiévenart (CETIC)

Page 2: Groupe de discussion CETIC - 15/12/2005 1 De l'indexation plein texte à l'indexation sémantique Le projet RetroWeb Fabrice Estiévenart (CETIC)

Groupe de discussion CETIC - 15/12/2005 2

Objectifs – motivations - applications

• Objectifs : extraire d’un ensemble de pages HTML,– un ensemble de données (XML)– le schéma de ces données (XML Schema)

• Motivations– XML = formalisme interprété et (semi-)structuré– HTML = formalisme pour la représentation de l’information

sur Internet• Approche générique Applications multiples

– Interrogation « intelligente » du webo Exemple : description: ‘SONY DSC-P30’ AND prix:<300

– Développement de tableaux de bord web personnalisés– Rétro-ingénierie et migration de sites (semi-)statiques vers

une BD (CMS)

netvibes.com

Page 3: Groupe de discussion CETIC - 15/12/2005 1 De l'indexation plein texte à l'indexation sémantique Le projet RetroWeb Fabrice Estiévenart (CETIC)

Groupe de discussion CETIC - 15/12/2005 3

Architecture

Extracteur XML

{name: title,location: html/…/h[1]/text(),type: string,parent: imdb-movie,…}

<html> … <h1> Life of Brian </h1> …</html>

Code HTMLVue Browser

<root> <imdb-movie> … <movie-title> Life of Brian </movie-title> … </imdb-movie> …</root>

Document XML

affiche

Générateur Schéma

describes

Document XML Schema

Analyseur Sémantique

Règles de Mapping

Page 4: Groupe de discussion CETIC - 15/12/2005 1 De l'indexation plein texte à l'indexation sémantique Le projet RetroWeb Fabrice Estiévenart (CETIC)

Groupe de discussion CETIC - 15/12/2005 4

Règles de mapping

• Les règles de mapping font la correspondance entre :– X structures HTML sources :

o <html><body><h3>Life of Brian</h3>…</body></html>o <html><body><h1>Young Frankenstein</h1>…</body></html>

– Un document XML cible :<root>

<imdb-movie><title>Life of Brian</title>…</imdb-movie><imdb-movie><title>Young Frankenstein</title>…</imdb-movie>

</root>

• Une règle concerne un attribut dans un type de pages

{property: title,location: html/…/h[1]/text(),type: string,parent: imdb-movie,…}

Règle de mapping

www.imdb.com

Page 5: Groupe de discussion CETIC - 15/12/2005 1 De l'indexation plein texte à l'indexation sémantique Le projet RetroWeb Fabrice Estiévenart (CETIC)

Groupe de discussion CETIC - 15/12/2005 5

Construction des règles : scénario

Type de pages

Web pageWeb pageWeb pageWeb pagePage Web

Echantillon

Web pageWeb pagePage WebChoix Echantillon

Constr. règle candidate

Vérification règle

Affinement règle

Enregistrement règle

Pour chaque attribut A

Règle OK pour A

Règle candidate pour A

fin

O

N

Répertoire de règles

Page 6: Groupe de discussion CETIC - 15/12/2005 1 De l'indexation plein texte à l'indexation sémantique Le projet RetroWeb Fabrice Estiévenart (CETIC)

Groupe de discussion CETIC - 15/12/2005 6

Retrozilla

• Analyseur sémantique + Extracteur XML + Générateur schéma

• Avantages de Retrozilla– Facile : pas de langage particulier– Rapide : basé sur l’aspect visuel des pages– Flexible : uniquement les données intéressantes– Robuste : définition sur un ensemble de pages– Réutilisable : schéma prédéfini– Evolutif : différents formats de sortie

• Démo• Site : www.imdb.com• Extraire le titre, la liste des acteurs et la durée d’un film à

partir d’un échantillon de pages

Page 7: Groupe de discussion CETIC - 15/12/2005 1 De l'indexation plein texte à l'indexation sémantique Le projet RetroWeb Fabrice Estiévenart (CETIC)

Groupe de discussion CETIC - 15/12/2005 7

Intégration RetroWeb-Moteur de recherche

• Approvisionner un moteur de recherche de résultats sémantiques extraits avec RetroWeb

Collecte Indexation Interrogation

Indexation syntaxique

Indexation sémantique

titre DELL ÉCRAN CRT 17"

contenu Retourner aux pages d'annonces Catégorie de mise en vente : Computer Randapparatuur Monitoren DELL ÉCRAN CRT 17" Numéro de l'objet: 5839481285 Etes-vous le vendeur de cet objet ou un enchérisseur ?

article DELL ÉCRAN CRT 17"

prix 59 €

temps restant

1 jour 9 heures

quantité 12

vendeur Stuntstore

livraison Europe

Page 8: Groupe de discussion CETIC - 15/12/2005 1 De l'indexation plein texte à l'indexation sémantique Le projet RetroWeb Fabrice Estiévenart (CETIC)

Groupe de discussion CETIC - 15/12/2005 8

Conclusion

• Méthode outillée pour l’extraction de données XML à partir de pages Web– Semi-automatique MAIS conviviale– Approche générique diverses applications

• Travaux en cours et futurs– Détection des erreurs et réparation des règles– Définition et extraction de composants complexes– Intégration de RetroWeb dans un moteur de recherche– Analyse sémantique à partir de schémas existants (RDF-

OWL)– Classification (clustering) automatique de pages web sur la

base de leur structure ou de leur contenu