70
Ecole Technique « Tranformation des données documentaires » Poitiers, 14-16 mars 2011 Atelier 4 Traiter des données peu structurées : pages Web, fichiers pdf Pôle Technologies pages Web, fichiers pdf

Traiter des données peu structurées : pages Web, fichiers pdf

Embed Size (px)

DESCRIPTION

- Comment récupérer des informations disponibles sur le Web (outil peu structuré a priori) ? - Comment les outils que l’on utilise couramment en IST traitent ces données ? - Comment manipuler des flux Rss ? - Qu’est-ce que le Web de données et comment y accéder ?

Citation preview

Page 1: Traiter des données peu structurées : pages Web, fichiers pdf

Ecole Technique « Tranformation des données documentaires »

Poitiers, 14-16 mars 2011

Atelier 4

Traiter des données peu structurées : pages Web, fichiers pdf

Pôle Technologies

pages Web, fichiers pdf

Page 2: Traiter des données peu structurées : pages Web, fichiers pdf

Introduction

Les questions :

- Comment récupérer des informations disponibles sur le Web (outil peu structuré a priori)?

- Comment les outils que l’on utilise couramment en IST traitent ces données?

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

IST traitent ces données?

- Comment manipuler des flux Rss?

- Qu’est-ce que le Web de données et comment y accéder?

Page 3: Traiter des données peu structurées : pages Web, fichiers pdf

Structure des données du Web

Page 4: Traiter des données peu structurées : pages Web, fichiers pdf

Le langage HTMLHtml : langage à balises standardisé (W3C) permettant le formatage du texte des pages Web et leur affichage au sein d’un navigateur (protocole http). Origines : 1989-1992 - Html 1.0 : 1993 – html 2.0 : 1995 – html 3.2 : 1997 – html 4.0 : 1997 – html 4.01 : 19992000-2007 : le XHTML. Passerelle entre Html et Xml. Précise la syntaxe Html. Améliore l’interpopérabilité.2011� 2014-- : Html 5 (ou simplement Html)Les CSS (Cascading Style Sheets) : indépendantes de la page web elle-même.

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Langages serveur Langages client

PHP, ASP, ColdFusion, JSP, XSP,...

Le plus courant : PHP

Javascript,VB Script, Flash, VRML, SMIL, SVG, XLTS,... Le plus courant : Javascript

Les CSS (Cascading Style Sheets) : indépendantes de la page web elle-même. Définissent l’ensemble des éléments de mise en forme � séparation contenant-contenu.Langages associés aux pages Web

Page 5: Traiter des données peu structurées : pages Web, fichiers pdf

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 6: Traiter des données peu structurées : pages Web, fichiers pdf

Html : les métadonnées• Le titre : encadré par les balises <title>…</title>. Obligatoire• Les « balises méta » :

– Les méta NAME=« »…CONTENT=« » : (ex : <META NAME="Description" CONTENT="Rôle et description des balises Meta"> ). Elles précisent par exemple le résumé, les mots-clés, la langue, le propriétaire de la page…

– Les méta HTTP-EQUIV=« »…CONTENT=« » : (ex : <META http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> ). Elles précisent des règles techniques destinées aux moteurs.

– Les balises sutout utilisées pour le référencement et l’affichage par les moteurs sont : title et description.

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

moteurs sont : title et description.

– Les méta Dublin Core : Elles sont décrites dans l’article Expressing Dublin Core in HTML/XHTML meta and link elements. (http://dublincore.org/documents/dcq-html/)

Toutes ces balises figurent dans la partie « en-tête » (<head>) de la page Html.Elles ne sont pas affichées sur la page

Page 7: Traiter des données peu structurées : pages Web, fichiers pdf

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 8: Traiter des données peu structurées : pages Web, fichiers pdf

Récupérer des donnés bibliographiques

Page 9: Traiter des données peu structurées : pages Web, fichiers pdf

Avec Zotero

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 10: Traiter des données peu structurées : pages Web, fichiers pdf

Avec Mendeley

• Un espace en ligne (connexion !)

• Un Mendeley Desktop sur son ordinateur

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

• http://www.mendeley.com/blog/research-tutorials/mendeleys-one-click-web-importer/

Page 11: Traiter des données peu structurées : pages Web, fichiers pdf

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 12: Traiter des données peu structurées : pages Web, fichiers pdf

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 13: Traiter des données peu structurées : pages Web, fichiers pdf

En ligne

Sur le PC (Desktop)

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 14: Traiter des données peu structurées : pages Web, fichiers pdf

COINSContext Objects in Span

Les logiciels tels que Zotero ou Mendeley (mais aussi WordPress, CiteULike…) s’appuient sur la méthode COinS pour récupérer les données bibliographiques

Coins est une méthode pour incorporer des citations bibliographiques non visibles dans une page web en HTML, utilisant la norme OpenURL.

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

http://www.figoblog.org/document1131.php,voir aussi http://vlib.mpg.de/sfx-coins.html

visibles dans une page web en HTML, utilisant la norme OpenURL.

Ensuite les métadonnées sont récupérables par des outilsMendeley / Zotero / Endnote ou peuvent être étendues par des possibilités de l’OpenURL

Voir les extensions de Coins

Page 15: Traiter des données peu structurées : pages Web, fichiers pdf

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 16: Traiter des données peu structurées : pages Web, fichiers pdf

COINS GENERATOR

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

http://generator.ocoins.info/

Page 17: Traiter des données peu structurées : pages Web, fichiers pdf

Les métadonnées des fichiers pdf

Page 18: Traiter des données peu structurées : pages Web, fichiers pdf

Les métadonnées des fichiers PDF

• 1993-2001 Document Info

– 6 champs textuels (Titre, Auteur, Sujet, Mots-clés, Producteur du PDF, Application)

– 2 champs date (création, modification)

• Depuis 2001 (Acrobat 5.0) XMP Extensible Metadata

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

• Depuis 2001 (Acrobat 5.0) XMP Extensible Metadata Platform– Format type XML

– Se trouve aussi dans les photos

• Nature publie des articles contenant des métadonnées XMP voir exemple

Source : P Pecatte : http://blog.tuquoque.com/post/2010/01/05/metadata-PDF

Page 19: Traiter des données peu structurées : pages Web, fichiers pdf

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 20: Traiter des données peu structurées : pages Web, fichiers pdf

Fichier>propriétés

Dans Acrobat

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 21: Traiter des données peu structurées : pages Web, fichiers pdf

DublinCorePrism*

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

* Publishing Requirements for Industry Standard Metadata (PRISM) http://www.prismstandard.org/about/

Page 22: Traiter des données peu structurées : pages Web, fichiers pdf

RéférenceEndnoteimportée

Avec Endnote

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 23: Traiter des données peu structurées : pages Web, fichiers pdf

Add folder (choisir le dossier contenant les PDF)

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 24: Traiter des données peu structurées : pages Web, fichiers pdf

Créer un flux Rss à partir d’une page Web

Page 25: Traiter des données peu structurées : pages Web, fichiers pdf

Un outil simple : Page2rss

En ligne ou comme extension de Google Chrome

http://page2rss.com/

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

S’appuie sur le cache Google. Attention aux dates de mises à jour

Page 26: Traiter des données peu structurées : pages Web, fichiers pdf

URL du flux : http://page2rss.com/rss/81b5348182061d6ac0d4a56673e06142

Flux récupéré dans un agrégateur (ex : Google Reader

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 27: Traiter des données peu structurées : pages Web, fichiers pdf

Voir aussi…

http://www.ponyfish.com/

Recherche les flux existants ou propose la création

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

http://www.feedreader.com/

Ne crée pas de flux, mais détecte les flux existants même s’il ne sont pas affichés en tant que tels

Page 28: Traiter des données peu structurées : pages Web, fichiers pdf

Extraire et réorganiser du contenu Web

Page 29: Traiter des données peu structurées : pages Web, fichiers pdf

Quelques termes

• Web scraping : « extraire du contenu d'un site Web, via un script ou un programme, dans le but de le transformer ou de changer son format pour permettre son utilisation dans un autre contexte. » (http://fr.wikipedia.org/wiki/Web_scraping)

• Le mashup :

– Une application composite

– combine du contenu ou du service provenant de plusieurs applications plus

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

– combine du contenu ou du service provenant de plusieurs applications plus ou moins hétérogènes.

– Exemples : • superposition de données visuelles et sonores différentes

• Agréger du contenu provenant d'autres sites, afin de créer un site web nouveau.

Si certains éditeurs autorisent et encouragent le développement de nouvelles applications utilisant leurs données (Amazon, Google…), c’est sur la base d’accords économiques. La republication « sauvage » peut contrevenir au droit d’auteur. De plus en plus de producteurs de contenus s’en protègent en plaçant à la racine de leur site un fichier « robots.txt » spécifiant les robots autorisés à parcourir leur site.

Page 30: Traiter des données peu structurées : pages Web, fichiers pdf

Mashup (côté serveur)

• Web service

– programme informatique

– communication et l'échange de données entre applications et systèmes hétérogènes

– dans des environnements distribués. en temps réel

• API (Application Programming Interface ou API) est une interface fournie par un programme informatique. Elle

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

une interface fournie par un programme informatique. Elle permet l'interaction des programmes les uns avec les autres.

Mashup (côté client)

• XMLHttpRequest

• AJAX du côté client, les RSS

Page 31: Traiter des données peu structurées : pages Web, fichiers pdf

Un exemple de Mashup

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Illustration de Mashup des statistiques de naissances, reconnaissances, mariages et décès à Paris (2004 à 2009)À partir du site Parisdata avec GoogleMap http://paris.mapize.com/

Page 32: Traiter des données peu structurées : pages Web, fichiers pdf

Open Dapper : http://open.dapper.net/

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 33: Traiter des données peu structurées : pages Web, fichiers pdf

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 34: Traiter des données peu structurées : pages Web, fichiers pdf

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Sélection des types de contenu à conserver et attribution de noms de « champ »

Page 35: Traiter des données peu structurées : pages Web, fichiers pdf

Choix des « champs » à afficher dans le nouveau flux

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 36: Traiter des données peu structurées : pages Web, fichiers pdf

Transformer, fusionner, filtrer, échanger des flux

Page 37: Traiter des données peu structurées : pages Web, fichiers pdf

Les agrégateurs de flux : Netvibes, Google Reader, FeedReader,

logiciels de veille.

Usage : lire tous les flux en 1 seul point. Veille.

+ de Netvibes : présentation agréable (outil de diffusion) avec possibilité de lecture globale (vue « lecteur)

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

+ de Google Reader : moteur de recherche interne

Page 38: Traiter des données peu structurées : pages Web, fichiers pdf

Echanger des flux : le format OPMLOutline Processor Markup Language

• C’est un fichier au format XML

• Adopté pour l’échange de listes

http://www.opml.org/

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

l’échange de listes de flux (et aussi de podcasts, etc)

• Répond à des spécifications

• La plupart des agrégateurs de flux proposent l’export OPML

Page 39: Traiter des données peu structurées : pages Web, fichiers pdf

X-Fruits

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Recevoir les flux par mailEnvoyer des informations sur une boîte mail Xfruits collaborative avec création d’un flux unique en sortieCréer un pdf à partir d’un flux

Page 40: Traiter des données peu structurées : pages Web, fichiers pdf

FeedRinse

Filtrage de flux

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 41: Traiter des données peu structurées : pages Web, fichiers pdf

Un outil avancé : Yahoo PipesPrincipales fonctionnalités :

• fusionner des flux, les trier, les traduire, ajouter des filtres

• extraire et combiner des contenus, introduire des éléments de géolocalisation

• rediffuser sous différents, formats, widgets

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 42: Traiter des données peu structurées : pages Web, fichiers pdf

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Après avoir sauvegardé le « pipe », les formats de sortie sont accessibles

Exemple réalisé avec l’aide (précieuse) de Marie-Colette Fauré)

Page 43: Traiter des données peu structurées : pages Web, fichiers pdf

Exemple : à partir des pages « agenda / événements » de l’Inra et du Cirad � flux créé avec Page2Rss + ajout du flux Ifremer « dernières actualités »

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Prévisualisation du flux actualisé lors de sa création

Page 44: Traiter des données peu structurées : pages Web, fichiers pdf

Microformats et web sémantique

Page 45: Traiter des données peu structurées : pages Web, fichiers pdf

Linked Data – web de données

• L’objectif des données liées est de permettre aux gens de partager des données structurées sur le Web aussi facilement qu’ils peuvent partager des documents d’aujourd’hui.

Modèle de données RDFLiens RDF

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

• Deux principes• Modèle de données pour publier des données structurées sur le Web• utiliser des liens de ce modèle pour interconnecter les données

provenant de sources différentes

Liens RDF

Source : Traduction : How to Publish Linked Data on the Web? « Blogabriel: http://bit.ly/igfKua

Page 46: Traiter des données peu structurées : pages Web, fichiers pdf

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

EXTRAIRE DES DONNÉES SÉMANTIQUES DE WIKIPEDIA

Extraire des données sémantiques de wikipedia

Page 47: Traiter des données peu structurées : pages Web, fichiers pdf

• Wikipedia est de facto LE vocabulaire contrôlé du web

� définition pour l’ensemble des sites

• DBPEDIA est devenu l’ensemble des ressources

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

• DBPEDIA est devenu l’ensemble des ressources D’URI partagée pour les concepts pour le web sémantique

• DBPEDIA est une brique importante pour lier entre eux différentes données sémantiques

Page 48: Traiter des données peu structurées : pages Web, fichiers pdf

Link Open DATASETS 2007

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 49: Traiter des données peu structurées : pages Web, fichiers pdf

LOD DATASETS 2008

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 50: Traiter des données peu structurées : pages Web, fichiers pdf

LOD DATASETS 2010

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 51: Traiter des données peu structurées : pages Web, fichiers pdf

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 52: Traiter des données peu structurées : pages Web, fichiers pdf

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Voir page suivante

Page 53: Traiter des données peu structurées : pages Web, fichiers pdf

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 54: Traiter des données peu structurées : pages Web, fichiers pdf

infobox

Table préformatée de données dynamiquesqui présente sommairement des informations importantes sur un sujet dans un cartouche placé en général à droite de

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

un cartouche placé en général à droite de l‘article

� Différents modèles par domaines

http://fr.wikipedia.org/wiki/Aide:Infobox

Page 55: Traiter des données peu structurées : pages Web, fichiers pdf

infobox infobox

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 56: Traiter des données peu structurées : pages Web, fichiers pdf

TaxoboxTaxobox

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 57: Traiter des données peu structurées : pages Web, fichiers pdf

Les microformatsmicroformats.org

• Ensemble de données très simples, ouvertes

• Construit avec les standards existants

• Permet de s’intégrer à l’existant (le web actuel)

• S’appuie sur des modèles simples

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

• S’appuie sur des modèles simples

Page 58: Traiter des données peu structurées : pages Web, fichiers pdf

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Source : Travis Isaacs - microformats @ CE University 8/22/07

Page 59: Traiter des données peu structurées : pages Web, fichiers pdf

RDFa

• syntaxe qui vise à inclure des triples RDF dans le code des pages Web en XHTML. (=microformats)

• Utilise la syntaxe de RDF

• Utilise les attributs du XHTML• Utilise les attributs du XHTML

href, content, rel, rev, and datatype ( XHTML 1) about, role and property ( XHTML 2)

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Source : http://www.lespetitescases.net/et-si-on-semantisait-un-peu-le-webhttp://www.xml.com/pub/a/2007/02/14/introducing-rdfa.html?CMP=OTC-TY3388567169&ATT=Introducing+RDFa

Page 60: Traiter des données peu structurées : pages Web, fichiers pdf

RDFa – exemple de code

Exemple 1 (en utilisant le Dublin Core)

<div xmlns:dc="http://purl.org/dc/elements/1.1/"about="http://www.example.com/books/wikinomics"><span property="dc:title">Wikinomics</span>

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Source : http://www.lespetitescases.net/et-si-on-semantisait-un-peu-le-webhttp://www.xml.com/pub/a/2007/02/14/introducing-rdfa.html?CMP=OTC-TY3388567169&ATT=Introducing+RDFa

<span property="dc:title">Wikinomics</span><span property="dc:creator">Don Tapscott</span>

<span property="dc:date">2006-10-01</span> </div>

Page 61: Traiter des données peu structurées : pages Web, fichiers pdf

RDFa – exemple de codeExemple 2 RDFa peut aussi s'inscrire naturellement dans le flot du contenu :<p xmlns:dc="http://purl.org/dc/elements/1.1/"about="http://www.example.com/books/wikinomics">Dans son dernier livre <em property="dc:title"> Wikinomics</em>,<span property="dc:creator">Don Tapscott</span>

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Source : http://www.lespetitescases.net/et-si-on-semantisait-un-peu-le-webhttp://www.xml.com/pub/a/2007/02/14/introducing-rdfa.html?CMP=OTC-TY3388567169&ATT=Introducing+RDFa

<span property="dc:creator">Don Tapscott</span>explique les profonds changements technologiques, démographiques et économiques. Ce livre a été publiéen <span property="dc:date" content="2006-10-01">octobre 2006</span>. </p>

Page 62: Traiter des données peu structurées : pages Web, fichiers pdf

Rdf-a pour les moteurs de recherche

Si dans une page web ont écrit le code

<span id="sartre" about="#sartre" rel="owl:sameAs" href="http://dbpedia.org/page/Jean-Paul_Sartre"> href="http://dbpedia.org/page/Jean-Paul_Sartre"> Jean-Paul Sartre </span>

Le moteur de recherche :

indexe la page Web, mais aussi la notice de Jean-Paul Sartre en RDF dans DBpedia

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Source : http://www.lespetitescases.net/et-si-on-semantisait-un-peu-le-webhttp://radar.oreilly.com/2009/05/google-announces-support-for-m.html

Page 63: Traiter des données peu structurées : pages Web, fichiers pdf

Visualiser le web Sémantique

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

DBPEDIA – RELFINDER

SINDICE

Page 64: Traiter des données peu structurées : pages Web, fichiers pdf

On peut ajouter des ressources « RDF »

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 65: Traiter des données peu structurées : pages Web, fichiers pdf

2- les différents objets

1- Recherche entre plusieurs termes

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

2- le graphe de relation

Page 66: Traiter des données peu structurées : pages Web, fichiers pdf

http://sindice.com/

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 67: Traiter des données peu structurées : pages Web, fichiers pdf

Rechercheclassique

Recherche

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Formats

RechercheSur triplet

RecherchePlus précise

Page 68: Traiter des données peu structurées : pages Web, fichiers pdf

Recherche Oryza sativa sur tous les formats

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 69: Traiter des données peu structurées : pages Web, fichiers pdf

L’article dans Mendeley

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Page 70: Traiter des données peu structurées : pages Web, fichiers pdf

Recherche Oryza sativa sur le format RDF uniquement

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala