Traiter des données peu structurées : pages Web, fichiers pdf

Preview:

DESCRIPTION

- Comment récupérer des informations disponibles sur le Web (outil peu structuré a priori) ? - Comment les outils que l’on utilise couramment en IST traitent ces données ? - Comment manipuler des flux Rss ? - Qu’est-ce que le Web de données et comment y accéder ?

Citation preview

Ecole Technique « Tranformation des données documentaires »

Poitiers, 14-16 mars 2011

Atelier 4

Traiter des données peu structurées : pages Web, fichiers pdf

Pôle Technologies

pages Web, fichiers pdf

Introduction

Les questions :

- Comment récupérer des informations disponibles sur le Web (outil peu structuré a priori)?

- Comment les outils que l’on utilise couramment en IST traitent ces données?

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

IST traitent ces données?

- Comment manipuler des flux Rss?

- Qu’est-ce que le Web de données et comment y accéder?

Structure des données du Web

Le langage HTMLHtml : langage à balises standardisé (W3C) permettant le formatage du texte des pages Web et leur affichage au sein d’un navigateur (protocole http). Origines : 1989-1992 - Html 1.0 : 1993 – html 2.0 : 1995 – html 3.2 : 1997 – html 4.0 : 1997 – html 4.01 : 19992000-2007 : le XHTML. Passerelle entre Html et Xml. Précise la syntaxe Html. Améliore l’interpopérabilité.2011� 2014-- : Html 5 (ou simplement Html)Les CSS (Cascading Style Sheets) : indépendantes de la page web elle-même.

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Langages serveur Langages client

PHP, ASP, ColdFusion, JSP, XSP,...

Le plus courant : PHP

Javascript,VB Script, Flash, VRML, SMIL, SVG, XLTS,... Le plus courant : Javascript

Les CSS (Cascading Style Sheets) : indépendantes de la page web elle-même. Définissent l’ensemble des éléments de mise en forme � séparation contenant-contenu.Langages associés aux pages Web

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Html : les métadonnées• Le titre : encadré par les balises <title>…</title>. Obligatoire• Les « balises méta » :

– Les méta NAME=« »…CONTENT=« » : (ex : <META NAME="Description" CONTENT="Rôle et description des balises Meta"> ). Elles précisent par exemple le résumé, les mots-clés, la langue, le propriétaire de la page…

– Les méta HTTP-EQUIV=« »…CONTENT=« » : (ex : <META http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> ). Elles précisent des règles techniques destinées aux moteurs.

– Les balises sutout utilisées pour le référencement et l’affichage par les moteurs sont : title et description.

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

moteurs sont : title et description.

– Les méta Dublin Core : Elles sont décrites dans l’article Expressing Dublin Core in HTML/XHTML meta and link elements. (http://dublincore.org/documents/dcq-html/)

Toutes ces balises figurent dans la partie « en-tête » (<head>) de la page Html.Elles ne sont pas affichées sur la page

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Récupérer des donnés bibliographiques

Avec Zotero

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Avec Mendeley

• Un espace en ligne (connexion !)

• Un Mendeley Desktop sur son ordinateur

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

• http://www.mendeley.com/blog/research-tutorials/mendeleys-one-click-web-importer/

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

En ligne

Sur le PC (Desktop)

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

COINSContext Objects in Span

Les logiciels tels que Zotero ou Mendeley (mais aussi WordPress, CiteULike…) s’appuient sur la méthode COinS pour récupérer les données bibliographiques

Coins est une méthode pour incorporer des citations bibliographiques non visibles dans une page web en HTML, utilisant la norme OpenURL.

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

http://www.figoblog.org/document1131.php,voir aussi http://vlib.mpg.de/sfx-coins.html

visibles dans une page web en HTML, utilisant la norme OpenURL.

Ensuite les métadonnées sont récupérables par des outilsMendeley / Zotero / Endnote ou peuvent être étendues par des possibilités de l’OpenURL

Voir les extensions de Coins

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

COINS GENERATOR

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

http://generator.ocoins.info/

Les métadonnées des fichiers pdf

Les métadonnées des fichiers PDF

• 1993-2001 Document Info

– 6 champs textuels (Titre, Auteur, Sujet, Mots-clés, Producteur du PDF, Application)

– 2 champs date (création, modification)

• Depuis 2001 (Acrobat 5.0) XMP Extensible Metadata

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

• Depuis 2001 (Acrobat 5.0) XMP Extensible Metadata Platform– Format type XML

– Se trouve aussi dans les photos

• Nature publie des articles contenant des métadonnées XMP voir exemple

Source : P Pecatte : http://blog.tuquoque.com/post/2010/01/05/metadata-PDF

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Fichier>propriétés

Dans Acrobat

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

DublinCorePrism*

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

* Publishing Requirements for Industry Standard Metadata (PRISM) http://www.prismstandard.org/about/

RéférenceEndnoteimportée

Avec Endnote

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Add folder (choisir le dossier contenant les PDF)

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Créer un flux Rss à partir d’une page Web

Un outil simple : Page2rss

En ligne ou comme extension de Google Chrome

http://page2rss.com/

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

S’appuie sur le cache Google. Attention aux dates de mises à jour

URL du flux : http://page2rss.com/rss/81b5348182061d6ac0d4a56673e06142

Flux récupéré dans un agrégateur (ex : Google Reader

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Voir aussi…

http://www.ponyfish.com/

Recherche les flux existants ou propose la création

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

http://www.feedreader.com/

Ne crée pas de flux, mais détecte les flux existants même s’il ne sont pas affichés en tant que tels

Extraire et réorganiser du contenu Web

Quelques termes

• Web scraping : « extraire du contenu d'un site Web, via un script ou un programme, dans le but de le transformer ou de changer son format pour permettre son utilisation dans un autre contexte. » (http://fr.wikipedia.org/wiki/Web_scraping)

• Le mashup :

– Une application composite

– combine du contenu ou du service provenant de plusieurs applications plus

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

– combine du contenu ou du service provenant de plusieurs applications plus ou moins hétérogènes.

– Exemples : • superposition de données visuelles et sonores différentes

• Agréger du contenu provenant d'autres sites, afin de créer un site web nouveau.

Si certains éditeurs autorisent et encouragent le développement de nouvelles applications utilisant leurs données (Amazon, Google…), c’est sur la base d’accords économiques. La republication « sauvage » peut contrevenir au droit d’auteur. De plus en plus de producteurs de contenus s’en protègent en plaçant à la racine de leur site un fichier « robots.txt » spécifiant les robots autorisés à parcourir leur site.

Mashup (côté serveur)

• Web service

– programme informatique

– communication et l'échange de données entre applications et systèmes hétérogènes

– dans des environnements distribués. en temps réel

• API (Application Programming Interface ou API) est une interface fournie par un programme informatique. Elle

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

une interface fournie par un programme informatique. Elle permet l'interaction des programmes les uns avec les autres.

Mashup (côté client)

• XMLHttpRequest

• AJAX du côté client, les RSS

Un exemple de Mashup

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Illustration de Mashup des statistiques de naissances, reconnaissances, mariages et décès à Paris (2004 à 2009)À partir du site Parisdata avec GoogleMap http://paris.mapize.com/

Open Dapper : http://open.dapper.net/

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Sélection des types de contenu à conserver et attribution de noms de « champ »

Choix des « champs » à afficher dans le nouveau flux

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Transformer, fusionner, filtrer, échanger des flux

Les agrégateurs de flux : Netvibes, Google Reader, FeedReader,

logiciels de veille.

Usage : lire tous les flux en 1 seul point. Veille.

+ de Netvibes : présentation agréable (outil de diffusion) avec possibilité de lecture globale (vue « lecteur)

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

+ de Google Reader : moteur de recherche interne

Echanger des flux : le format OPMLOutline Processor Markup Language

• C’est un fichier au format XML

• Adopté pour l’échange de listes

http://www.opml.org/

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

l’échange de listes de flux (et aussi de podcasts, etc)

• Répond à des spécifications

• La plupart des agrégateurs de flux proposent l’export OPML

X-Fruits

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Recevoir les flux par mailEnvoyer des informations sur une boîte mail Xfruits collaborative avec création d’un flux unique en sortieCréer un pdf à partir d’un flux

FeedRinse

Filtrage de flux

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Un outil avancé : Yahoo PipesPrincipales fonctionnalités :

• fusionner des flux, les trier, les traduire, ajouter des filtres

• extraire et combiner des contenus, introduire des éléments de géolocalisation

• rediffuser sous différents, formats, widgets

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Après avoir sauvegardé le « pipe », les formats de sortie sont accessibles

Exemple réalisé avec l’aide (précieuse) de Marie-Colette Fauré)

Exemple : à partir des pages « agenda / événements » de l’Inra et du Cirad � flux créé avec Page2Rss + ajout du flux Ifremer « dernières actualités »

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Prévisualisation du flux actualisé lors de sa création

Microformats et web sémantique

Linked Data – web de données

• L’objectif des données liées est de permettre aux gens de partager des données structurées sur le Web aussi facilement qu’ils peuvent partager des documents d’aujourd’hui.

Modèle de données RDFLiens RDF

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

• Deux principes• Modèle de données pour publier des données structurées sur le Web• utiliser des liens de ce modèle pour interconnecter les données

provenant de sources différentes

Liens RDF

Source : Traduction : How to Publish Linked Data on the Web? « Blogabriel: http://bit.ly/igfKua

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

EXTRAIRE DES DONNÉES SÉMANTIQUES DE WIKIPEDIA

Extraire des données sémantiques de wikipedia

• Wikipedia est de facto LE vocabulaire contrôlé du web

� définition pour l’ensemble des sites

• DBPEDIA est devenu l’ensemble des ressources

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

• DBPEDIA est devenu l’ensemble des ressources D’URI partagée pour les concepts pour le web sémantique

• DBPEDIA est une brique importante pour lier entre eux différentes données sémantiques

Link Open DATASETS 2007

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

LOD DATASETS 2008

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

LOD DATASETS 2010

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Voir page suivante

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

infobox

Table préformatée de données dynamiquesqui présente sommairement des informations importantes sur un sujet dans un cartouche placé en général à droite de

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

un cartouche placé en général à droite de l‘article

� Différents modèles par domaines

http://fr.wikipedia.org/wiki/Aide:Infobox

infobox infobox

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

TaxoboxTaxobox

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Les microformatsmicroformats.org

• Ensemble de données très simples, ouvertes

• Construit avec les standards existants

• Permet de s’intégrer à l’existant (le web actuel)

• S’appuie sur des modèles simples

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

• S’appuie sur des modèles simples

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Source : Travis Isaacs - microformats @ CE University 8/22/07

RDFa

• syntaxe qui vise à inclure des triples RDF dans le code des pages Web en XHTML. (=microformats)

• Utilise la syntaxe de RDF

• Utilise les attributs du XHTML• Utilise les attributs du XHTML

href, content, rel, rev, and datatype ( XHTML 1) about, role and property ( XHTML 2)

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Source : http://www.lespetitescases.net/et-si-on-semantisait-un-peu-le-webhttp://www.xml.com/pub/a/2007/02/14/introducing-rdfa.html?CMP=OTC-TY3388567169&ATT=Introducing+RDFa

RDFa – exemple de code

Exemple 1 (en utilisant le Dublin Core)

<div xmlns:dc="http://purl.org/dc/elements/1.1/"about="http://www.example.com/books/wikinomics"><span property="dc:title">Wikinomics</span>

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Source : http://www.lespetitescases.net/et-si-on-semantisait-un-peu-le-webhttp://www.xml.com/pub/a/2007/02/14/introducing-rdfa.html?CMP=OTC-TY3388567169&ATT=Introducing+RDFa

<span property="dc:title">Wikinomics</span><span property="dc:creator">Don Tapscott</span>

<span property="dc:date">2006-10-01</span> </div>

RDFa – exemple de codeExemple 2 RDFa peut aussi s'inscrire naturellement dans le flot du contenu :<p xmlns:dc="http://purl.org/dc/elements/1.1/"about="http://www.example.com/books/wikinomics">Dans son dernier livre <em property="dc:title"> Wikinomics</em>,<span property="dc:creator">Don Tapscott</span>

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Source : http://www.lespetitescases.net/et-si-on-semantisait-un-peu-le-webhttp://www.xml.com/pub/a/2007/02/14/introducing-rdfa.html?CMP=OTC-TY3388567169&ATT=Introducing+RDFa

<span property="dc:creator">Don Tapscott</span>explique les profonds changements technologiques, démographiques et économiques. Ce livre a été publiéen <span property="dc:date" content="2006-10-01">octobre 2006</span>. </p>

Rdf-a pour les moteurs de recherche

Si dans une page web ont écrit le code

<span id="sartre" about="#sartre" rel="owl:sameAs" href="http://dbpedia.org/page/Jean-Paul_Sartre"> href="http://dbpedia.org/page/Jean-Paul_Sartre"> Jean-Paul Sartre </span>

Le moteur de recherche :

indexe la page Web, mais aussi la notice de Jean-Paul Sartre en RDF dans DBpedia

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Source : http://www.lespetitescases.net/et-si-on-semantisait-un-peu-le-webhttp://radar.oreilly.com/2009/05/google-announces-support-for-m.html

Visualiser le web Sémantique

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

DBPEDIA – RELFINDER

SINDICE

On peut ajouter des ressources « RDF »

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

2- les différents objets

1- Recherche entre plusieurs termes

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

2- le graphe de relation

http://sindice.com/

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Rechercheclassique

Recherche

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Formats

RechercheSur triplet

RecherchePlus précise

Recherche Oryza sativa sur tous les formats

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

L’article dans Mendeley

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Recherche Oryza sativa sur le format RDF uniquement

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

Recommended