Traiter des données peu structurées : pages Web, fichiers pdf

Ecole Technique « Tranformation des données documentaires »

Poitiers, 14-16 mars 2011

Atelier 4

Traiter des données peu structurées : pages Web, fichiers pdf

Pôle Technologies

pages Web, fichiers pdf

Introduction

Les questions :

- Comment récupérer des informations disponibles sur le Web (outil peu structuré a priori)?

- Comment les outils que l’on utilise couramment en IST traitent ces données?

Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.

Atelier 4. P. Aventurier, MH. Cathala

IST traitent ces données?

- Comment manipuler des flux Rss?

- Qu’est-ce que le Web de données et comment y accéder?

Structure des données du Web

Le langage HTMLHtml : langage à balises standardisé (W3C) permettant le formatage du texte des pages Web et leur affichage au sein d’un navigateur (protocole http). Origines : 1989-1992 - Html 1.0 : 1993 – html 2.0 : 1995 – html 3.2 : 1997 – html 4.0 : 1997 – html 4.01 : 19992000-2007 : le XHTML. Passerelle entre Html et Xml. Précise la syntaxe Html. Améliore l’interpopérabilité.2011� 2014-- : Html 5 (ou simplement Html)Les CSS (Cascading Style Sheets) : indépendantes de la page web elle-même.



Langages serveur Langages client

PHP, ASP, ColdFusion, JSP, XSP,...

Le plus courant : PHP

Javascript,VB Script, Flash, VRML, SMIL, SVG, XLTS,... Le plus courant : Javascript

Les CSS (Cascading Style Sheets) : indépendantes de la page web elle-même. Définissent l’ensemble des éléments de mise en forme � séparation contenant-contenu.Langages associés aux pages Web



Html : les métadonnées• Le titre : encadré par les balises <title>…</title>. Obligatoire• Les « balises méta » :

– Les méta NAME=« »…CONTENT=« » : (ex : <META NAME="Description" CONTENT="Rôle et description des balises Meta"> ). Elles précisent par exemple le résumé, les mots-clés, la langue, le propriétaire de la page…

– Les méta HTTP-EQUIV=« »…CONTENT=« » : (ex : <META http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> ). Elles précisent des règles techniques destinées aux moteurs.

– Les balises sutout utilisées pour le référencement et l’affichage par les moteurs sont : title et description.



moteurs sont : title et description.

– Les méta Dublin Core : Elles sont décrites dans l’article Expressing Dublin Core in HTML/XHTML meta and link elements. (http://dublincore.org/documents/dcq-html/)

Toutes ces balises figurent dans la partie « en-tête » (<head>) de la page Html.Elles ne sont pas affichées sur la page



Récupérer des donnés bibliographiques

Avec Zotero



Avec Mendeley

• Un espace en ligne (connexion !)

• Un Mendeley Desktop sur son ordinateur



• http://www.mendeley.com/blog/research-tutorials/mendeleys-one-click-web-importer/





En ligne

Sur le PC (Desktop)



COINSContext Objects in Span

Les logiciels tels que Zotero ou Mendeley (mais aussi WordPress, CiteULike…) s’appuient sur la méthode COinS pour récupérer les données bibliographiques

Coins est une méthode pour incorporer des citations bibliographiques non visibles dans une page web en HTML, utilisant la norme OpenURL.



http://www.figoblog.org/document1131.php,voir aussi http://vlib.mpg.de/sfx-coins.html

visibles dans une page web en HTML, utilisant la norme OpenURL.

Ensuite les métadonnées sont récupérables par des outilsMendeley / Zotero / Endnote ou peuvent être étendues par des possibilités de l’OpenURL

Voir les extensions de Coins



COINS GENERATOR



http://generator.ocoins.info/

Les métadonnées des fichiers pdf

Les métadonnées des fichiers PDF

• 1993-2001 Document Info

– 6 champs textuels (Titre, Auteur, Sujet, Mots-clés, Producteur du PDF, Application)

– 2 champs date (création, modification)

• Depuis 2001 (Acrobat 5.0) XMP Extensible Metadata



• Depuis 2001 (Acrobat 5.0) XMP Extensible Metadata Platform– Format type XML

– Se trouve aussi dans les photos

• Nature publie des articles contenant des métadonnées XMP voir exemple

Source : P Pecatte : http://blog.tuquoque.com/post/2010/01/05/metadata-PDF



Fichier>propriétés

Dans Acrobat



DublinCorePrism*



* Publishing Requirements for Industry Standard Metadata (PRISM) http://www.prismstandard.org/about/

RéférenceEndnoteimportée

Avec Endnote



Add folder (choisir le dossier contenant les PDF)



Créer un flux Rss à partir d’une page Web

Un outil simple : Page2rss

En ligne ou comme extension de Google Chrome

http://page2rss.com/



S’appuie sur le cache Google. Attention aux dates de mises à jour

URL du flux : http://page2rss.com/rss/81b5348182061d6ac0d4a56673e06142

Flux récupéré dans un agrégateur (ex : Google Reader



Voir aussi…

http://www.ponyfish.com/

Recherche les flux existants ou propose la création



http://www.feedreader.com/

Ne crée pas de flux, mais détecte les flux existants même s’il ne sont pas affichés en tant que tels

Extraire et réorganiser du contenu Web

Quelques termes

• Web scraping : « extraire du contenu d'un site Web, via un script ou un programme, dans le but de le transformer ou de changer son format pour permettre son utilisation dans un autre contexte. » (http://fr.wikipedia.org/wiki/Web_scraping)

• Le mashup :

– Une application composite

– combine du contenu ou du service provenant de plusieurs applications plus



– combine du contenu ou du service provenant de plusieurs applications plus ou moins hétérogènes.

– Exemples : • superposition de données visuelles et sonores différentes

• Agréger du contenu provenant d'autres sites, afin de créer un site web nouveau.

Si certains éditeurs autorisent et encouragent le développement de nouvelles applications utilisant leurs données (Amazon, Google…), c’est sur la base d’accords économiques. La republication « sauvage » peut contrevenir au droit d’auteur. De plus en plus de producteurs de contenus s’en protègent en plaçant à la racine de leur site un fichier « robots.txt » spécifiant les robots autorisés à parcourir leur site.

Mashup (côté serveur)

• Web service

– programme informatique

– communication et l'échange de données entre applications et systèmes hétérogènes

– dans des environnements distribués. en temps réel

• API (Application Programming Interface ou API) est une interface fournie par un programme informatique. Elle



une interface fournie par un programme informatique. Elle permet l'interaction des programmes les uns avec les autres.

Mashup (côté client)

• XMLHttpRequest

• AJAX du côté client, les RSS

Un exemple de Mashup



Illustration de Mashup des statistiques de naissances, reconnaissances, mariages et décès à Paris (2004 à 2009)À partir du site Parisdata avec GoogleMap http://paris.mapize.com/

Open Dapper : http://open.dapper.net/







Sélection des types de contenu à conserver et attribution de noms de « champ »

Choix des « champs » à afficher dans le nouveau flux



Transformer, fusionner, filtrer, échanger des flux

Les agrégateurs de flux : Netvibes, Google Reader, FeedReader,

logiciels de veille.

Usage : lire tous les flux en 1 seul point. Veille.

+ de Netvibes : présentation agréable (outil de diffusion) avec possibilité de lecture globale (vue « lecteur)



+ de Google Reader : moteur de recherche interne

Echanger des flux : le format OPMLOutline Processor Markup Language

• C’est un fichier au format XML

• Adopté pour l’échange de listes

http://www.opml.org/



l’échange de listes de flux (et aussi de podcasts, etc)

• Répond à des spécifications

• La plupart des agrégateurs de flux proposent l’export OPML

X-Fruits



Recevoir les flux par mailEnvoyer des informations sur une boîte mail Xfruits collaborative avec création d’un flux unique en sortieCréer un pdf à partir d’un flux

FeedRinse

Filtrage de flux



Un outil avancé : Yahoo PipesPrincipales fonctionnalités :

• fusionner des flux, les trier, les traduire, ajouter des filtres

• extraire et combiner des contenus, introduire des éléments de géolocalisation

• rediffuser sous différents, formats, widgets





Après avoir sauvegardé le « pipe », les formats de sortie sont accessibles

Exemple réalisé avec l’aide (précieuse) de Marie-Colette Fauré)

Exemple : à partir des pages « agenda / événements » de l’Inra et du Cirad � flux créé avec Page2Rss + ajout du flux Ifremer « dernières actualités »



Prévisualisation du flux actualisé lors de sa création

Microformats et web sémantique

Linked Data – web de données

• L’objectif des données liées est de permettre aux gens de partager des données structurées sur le Web aussi facilement qu’ils peuvent partager des documents d’aujourd’hui.

Modèle de données RDFLiens RDF



• Deux principes• Modèle de données pour publier des données structurées sur le Web• utiliser des liens de ce modèle pour interconnecter les données

provenant de sources différentes

Liens RDF

Source : Traduction : How to Publish Linked Data on the Web? « Blogabriel: http://bit.ly/igfKua



EXTRAIRE DES DONNÉES SÉMANTIQUES DE WIKIPEDIA

Extraire des données sémantiques de wikipedia

• Wikipedia est de facto LE vocabulaire contrôlé du web

� définition pour l’ensemble des sites

• DBPEDIA est devenu l’ensemble des ressources



• DBPEDIA est devenu l’ensemble des ressources D’URI partagée pour les concepts pour le web sémantique

• DBPEDIA est une brique importante pour lier entre eux différentes données sémantiques

Link Open DATASETS 2007



LOD DATASETS 2008



LOD DATASETS 2010







Voir page suivante



infobox

Table préformatée de données dynamiquesqui présente sommairement des informations importantes sur un sujet dans un cartouche placé en général à droite de



un cartouche placé en général à droite de l‘article

� Différents modèles par domaines

http://fr.wikipedia.org/wiki/Aide:Infobox

infobox infobox



TaxoboxTaxobox



Les microformatsmicroformats.org

• Ensemble de données très simples, ouvertes

• Construit avec les standards existants

• Permet de s’intégrer à l’existant (le web actuel)

• S’appuie sur des modèles simples



• S’appuie sur des modèles simples



Source : Travis Isaacs - microformats @ CE University 8/22/07

RDFa

• syntaxe qui vise à inclure des triples RDF dans le code des pages Web en XHTML. (=microformats)

• Utilise la syntaxe de RDF

• Utilise les attributs du XHTML• Utilise les attributs du XHTML

href, content, rel, rev, and datatype ( XHTML 1) about, role and property ( XHTML 2)



Source : http://www.lespetitescases.net/et-si-on-semantisait-un-peu-le-webhttp://www.xml.com/pub/a/2007/02/14/introducing-rdfa.html?CMP=OTC-TY3388567169&ATT=Introducing+RDFa

RDFa – exemple de code

Exemple 1 (en utilisant le Dublin Core)

<div xmlns:dc="http://purl.org/dc/elements/1.1/"about="http://www.example.com/books/wikinomics">Wikinomics




WikinomicsDon Tapscott

2006-10-01 </div>

RDFa – exemple de codeExemple 2 RDFa peut aussi s'inscrire naturellement dans le flot du contenu :Dans son dernier livre Wikinomics,Don Tapscott




Don Tapscottexplique les profonds changements technologiques, démographiques et économiques. Ce livre a été publiéen octobre 2006. 

Rdf-a pour les moteurs de recherche

Si dans une page web ont écrit le code

 href="http://dbpedia.org/page/Jean-Paul_Sartre"> Jean-Paul Sartre 

Le moteur de recherche :

indexe la page Web, mais aussi la notice de Jean-Paul Sartre en RDF dans DBpedia



Source : http://www.lespetitescases.net/et-si-on-semantisait-un-peu-le-webhttp://radar.oreilly.com/2009/05/google-announces-support-for-m.html

Visualiser le web Sémantique



DBPEDIA – RELFINDER

SINDICE

On peut ajouter des ressources « RDF »



2- les différents objets

1- Recherche entre plusieurs termes



2- le graphe de relation

http://sindice.com/



Rechercheclassique

Recherche



Formats

RechercheSur triplet

RecherchePlus précise

Recherche Oryza sativa sur tous les formats



L’article dans Mendeley



Recherche Oryza sativa sur le format RDF uniquement

Technology

Traiter des données peu structurées : pages Web, fichiers pdf